¡Finalmente, nuestros personajes están encontrando su propia voz! En esta publicación, vamos a contarte cómo creamos voces de texto a voz personalizadas para cada uno de nuestros personajes.
Nuestros personajes son pura diversión y aprendizaje
Después de que nuestro equipo de arte ilustró, animó y añadió a los personajes a la aplicación, recibimos mucho cariño de la gente en redes sociales. Este entusiasmo nos motivó a dedicar aún más tiempo y esfuerzo en el elenco para hacerlos únicos.
Vimos esto como una oportunidad para hacer que aprender idiomas sea más divertido y atrapante (y como resultado, hacer más fuerte el vínculo entre nuestros usuarios y Duolingo). Así, nuestros usuarios desearían volver por más y más para saber más sobre los personajes a través de una narrativa atractiva.
En este momento, nos encontramos añadiendo voces personalizadas a cada uno de nuestros personajes. Además de darles más personalidad, esto introducirá a los usuarios a una mayor variedad de voces, algo ventajoso para su aprendizaje. Cuando usas tu nuevo idioma en la vida real, interactúas con personas de diferentes edades, géneros y contextos. Es por eso que escuchar una variedad de voces en tus lecciones es tan importante: ¡te ayudará a desarrollar habilidades de escucha flexibles para situaciones comunicativas de la vida cotidiana!
Entonces, ¿quiénes son los personajes?
Para responder esta pregunta, dedicamos muchos meses al desarrollo de los personajes; sus personalidades, historias y cómo se relacionan entre ellos. A la vez, escribimos Cuentos con ellos como protagonistas, lo que nos permitió develar aún más sus personalidades.
Nos dimos cuenta de que tener personajes familiares podría servir como un atajo para la narración. En los Cuentos, tenemos limitaciones como la longitud y el tipo de palabras o gramática que podemos utilizar (en especial, en el caso de los principiantes). Sin embargo, al utilizar personajes con personalidades claras y distintivas, y sus dinámicas familiares, de repente nos encontramos con una forma de simplificar la narración. Por ejemplo, en lugar de explicar las motivaciones de Lily en cada cuento, su avatar poco alegre le comunica a los usuarios sus motivaciones, lo que nos permite contar cuentos interesantes incluso cuando utilizamos el idioma a un nivel para principiantes.
En búsqueda de la voz perfecta
El siguiente paso para dar vida a nuestros personajes era dar a cada uno su propia voz. Para lograrlo, estamos creando voces con un programa de texto a voz (o TTS, por sus siglas en inglés) para que cada uno de los personajes pueda mostrar su personalidad única. Nos emociona saber cómo sus voces pueden hacer que aprender un idioma sea más efectivo, más divertido y más motivador.
Por supuesto, desarrollar voces únicas para cada uno de los nueve personajes y en múltiples idiomas no es algo que se haga fácil o rápidamente. Tan solo encontrar las voces en inglés nos llevó varios meses de repaso de audiciones y deliberación acerca de qué actores y actrices capturaron mejor la esencia de nuestros personajes. ¿Esta audición de Eddy suena demasiado intelectual? ¿La voz de Óscar debería sonar más profunda? ¿Qué tan aburrida puede sonar Lily sin afectar de forma negativa la experiencia de aprendizaje?
Luego de reunir al elenco y grabar las voces en inglés, utilizamos las grabaciones como un punto de partida para las voces en español, francés, alemán y japonés. Incluso con las voces en inglés como referencia, cada idioma demostró sus propios desafíos tanto desde lo creativo como desde lo logístico. Por ejemplo, el sarcasmo suena diferente en japonés de como suena en inglés. ¿Debería sonar Lily diferente también? Nuestro equipo de expertos de idiomas, fonetistas y consultores creativos trabajó en conjunto para que cada voz capturara la personalidad de cada personaje de una forma apropiada para la cultura.
Algunas de las voces en otros idiomas suenan casi idénticas a las voces de los personajes en inglés. En otros casos, jugamos con elementos particulares de la personalidad de cada personaje. Lin es un personaje muy interesante al compararla entre los idiomas. Por ejemplo, suena apática en japonés, pero en inglés siempre se muestra sorprendida.
De las voces al TTS
Tras seleccionar las voces y grabar a los personajes con su propia personalidad y estilo, utilizamos un sistema de aprendizaje automático para generar voces con un programa de texto a voz. Estos pueden ser utilizados para decir cualquier oración del curso (¡incluso aquellas que todavía ni siquiera fueron escritas!). La tecnología para la generación de voces que puede conseguirse el día de hoy es muy avanzada, pero lo que hacemos en Duolingo requería que fueran capaces de enseñar idiomas, algo muy diferente de aquello para lo que se usan en otras aplicaciones.
Con cuidado, diseñamos las oraciones que grabamos para que cubrieran todos los contextos necesarios para nuestras lecciones: diferentes combinaciones de sonidos hablados, distintos tipos de oraciones y en una amplia variedad de contextos, donde se incluyen exclamaciones y palabras sueltas. Este rango de grabaciones era necesario para representar todas aquellas formas que los usuarios encuentran en sus cursos. También trabajamos para empujar los límites de esta tecnología hasta obtener el resultado adecuado (tono, frecuencia y pausas) para que las voces fueran tan realistas y efectivas como fuera posible para el aprendizaje de idiomas.
Nuestras nuevas voces apuntaban a equilibrar la expresividad de los actores y actrices de voz y nuestras necesidades para enseñar. Al grabar, los actores y actrices tuvieron que inventar situaciones que dieran sentido a las oraciones. A veces, ese “sabor” acústico extra, como imaginar al personaje enojado, presentó un desafío a esta tecnología ya que está entrenada para trabajar con una forma de hablar más neutral.
Otro punto muy importante para nosotros era que las grabaciones y las voces TTS coincidieran con su meta final en una lección real. Para nuestros usuarios, las voces TTS deben ser un modelo de cómo pronunciar y usar el idioma. Por ejemplo, en la oración en inglés “I read the book” (“yo leo el libro”), la palabra “read” cambiará su pronunciación según el tiempo de la oración, ya sea que se trate de una oración en presente (“I read the book [every night before bed]”); es decir, “Leo el libro cada noche antes de ir a la cama”) o en pasado (“I read the book [last summer]”), en este caso, “Leí el libro el verano pasado”). Esto también presentó un desafío al momento de buscar el ritmo y la entonación correctos en diferentes tipos de oraciones. En español, nuestras voces suben o bajan de una forma muy particular, pero en diferentes maneras, según el tipo de pregunta que estamos haciendo: “¿Quieres ir?” tiene un ritmo diferente comparado con “¿A dónde quieres ir?”. Nuestras voces TTS son tan buenas como las muestras de habla que damos al sistema, por lo que nuestros expertos de idiomas e ingenieros trabajaron juntos para dar al sistema pistas o la forma correcta de pronunciación siempre que fuera necesario.
¿A quién más puedo escuchar?
Todos aquellos que aprenden en nuestros cursos de inglés pueden escuchar las voces de los personajes en sus lecciones. Si estás aprendiendo español o francés, notarás que agregamos las voces de algunos de los personajes. ¡El resto no tarda en llegar! Si estás aprendiendo en nuestros cursos de alemán y japonés... ¡ten paciencia! Muy pronto podrás escuchar a nuestros personajes también ahí.
Si estás aprendiendo más de un idioma en Duolingo, ¡podrás escuchar las diferentes interpretaciones de nuestro elenco de personajes!