Our characters are finally finding their voices! In this blog, we’ll be sharing how we’re creating custom text-to-speech voices for all of our characters.

Illustration of the Duolingo characters racing through space. They look excited and determined.

Our characters make learning more fun

After our art team illustrated, animated, and added the characters to the app, we saw a lot of love for them on social media. This enthusiasm motivated us to put even more time into our cast and really flesh them out.

We saw an opportunity to make language learning more fun and engaging — and, as a result, build a stronger bond between our learners and Duolingo. We could have learners coming back again and again, to learn and discover more about our characters through engaging storytelling.

Now we’re also adding custom voices for each of our characters. In addition to giving our characters more personality, adding these voices will expose learners to a wider variety of voices -- an advantage for learning. When you use your new language out in the world, you'll be interacting with people from different ages, genders, and backgrounds. That's why hearing a variety of voices in your lessons is so important: it helps you develop flexible listening skills for real-life language situations!

So who are our characters?

To answer this question, we spent many months developing the characters, and discussing their personalities, backstories, and relationships with one another. At the same time, we were also writing Stories featuring them, which helped us further uncover their personalities.

We realized that familiarity with the characters could be a great shortcut for storytelling. In Stories, we have constraints around length and the kinds of words and grammar we can use (especially for beginners). But using our characters, with their strong, distinctive personalities and familiar dynamics with one another, we suddenly had an easier path to stronger storytelling. Instead of having to explain Lily’s motivations in each story, her blithe, unamused avatar gives our learners a nuanced understanding of her motivations, allowing us to tell engaging stories even with only beginner-level language.

Lily and Duo have a low-energy chat while walking

Finding voices for our characters

The next step in bringing our characters to life was to give them their own voices. That’s why we’re building a custom text-to-speech, or TTS, voice for each character that really shows off their unique personalities. We're excited about how their voices can make the language-learning experience more engaging, more effective, and even more fun.

Of course, developing unique voices for nine characters across multiple languages isn’t easy or fast. Casting just the English voices took many months of reviewing auditions and deliberating on which actors captured our characters best. Did this Eddy audition sound too intellectual? Should Oscar have a deeper, more resonant voice? And just how deadpan can Lily be without negatively impacting the learning experience?

After casting and recording the characters in English, we used those performances as a blueprint for Spanish, French, German, and Japanese. Even with the English voices established as a reference, each language presented new challenges for both creative and logistical reasons. For instance, sarcasm sounds different in Japanese than it does in English. Should Lily sound different as well? With our team of language experts, phoneticians, and creative consultants, we worked through each voice to be sure it captured the characters’ personalities in a culturally-suitable way.

Some voices in other languages sound almost identical to our English characters. In other instances, we played up a particular element of a character’s personality. Lin is an especially interesting character across languages. For example, she’s languid and matter-of-fact in Japanese, but perpetually amused in English.

Lin on stage singing at a microphone while playing guitar

Building their voices

After casting and recording the characters with their own personality and style, we used machine learning to build state-of-the-art text-to-speech voices. These can be used to say any sentence in the course — even the ones that haven't been written yet! There's a lot of great technology already available to build and develop voices, but what we at Duolingo need them to do is teach languages, and that's pretty different from how the technology is currently used in other applications.

We carefully designed the sentences for the recordings to cover all the contexts we'd need for our lessons — different combinations of speech sounds, a variety of sentence types, and all sorts of contexts, including exclamations and single words. This range of recordings was necessary to represent all the ways learners encounter the language in their courses. We also worked to push the limits of the technology to get the right delivery — intonation, rate, and pausing — to make the voices as realistic and effective as possible for language learning.

Our new voices aimed to balance the expressiveness of the voice actors with our very specific teaching needs. For the recordings, the voice actors had to invent scenarios to make the lines meaningful — and sometimes that extra acoustic "flavor," like imagining the character being angry, presented a challenge to the technology, which is trained on more neutral speech.

It was also really important to us to match the recording and TTS voices with its eventual goal in a real lesson. For our learners, the TTS voices need to be a reliable model of how to pronounce and use the language. For example, in the English sentence "I read the book," the word "read" will be pronounced differently in a lesson about present tense ("I read the book [every night before bed]") compared to a lesson about past tense ("I read the book [last summer]"). This was also challenging when working to get the rhythm and intonation right in different kinds of sentences. In English, our voices go up and down in very particular, but very different ways, depending on the kind of question we're asking: "Do you want to go?" has a different rhythm compared to "Where do you want to go?" Our TTS voices are only as good as the speech examples we give the system, so our language experts and engineers worked together to give the system hints or correct the speech when necessary.

Who can you hear next?

Learners in our English courses can now hear all the characters' voices in their lessons! If you’re learning Spanish or French, some characters’ voices have already been added, and the rest will be joining them shortly. And don’t forget to look out for German and Japanese voices, which are coming soon!

And if you’re studying multiple languages on Duolingo, you’ll get to hear many different interpretations of our cast of characters!

Español: Dar voces a nuestros personajes

¡Finalmente, nuestros personajes están encontrando su propia voz! En esta publicación, vamos a contarte cómo creamos voces de texto a voz personalizadas para cada uno de nuestros personajes.

Ilustración de los personajes de Duolingo corriendo. Se los ve emocionados y llenos de determinación.

Nuestros personajes son pura diversión y aprendizaje

Después de que nuestro equipo de arte ilustró, animó y añadió a los personajes a la aplicación, recibimos mucho cariño de la gente en redes sociales. Este entusiasmo nos motivó a dedicar aún más tiempo y esfuerzo en el elenco para hacerlos únicos.

Vimos esto como una oportunidad para hacer que aprender idiomas sea más divertido y atrapante (y como resultado, hacer más fuerte el vínculo entre nuestros usuarios y Duolingo). Así, nuestros usuarios desearían volver por más y más para saber más sobre los personajes a través de una narrativa atractiva.

En este momento, nos encontramos añadiendo voces personalizadas a cada uno de nuestros personajes. Además de darles más personalidad, esto introducirá a los usuarios a una mayor variedad de voces, algo ventajoso para su aprendizaje. Cuando usas tu nuevo idioma en la vida real, interactúas con personas de diferentes edades, géneros y contextos. Es por eso que escuchar una variedad de voces en tus lecciones es tan importante: ¡te ayudará a desarrollar habilidades de escucha flexibles para situaciones comunicativas de la vida cotidiana!

Entonces, ¿quiénes son los personajes?

Para responder esta pregunta, dedicamos muchos meses al desarrollo de los personajes; sus personalidades, historias y cómo se relacionan entre ellos. A la vez, escribimos Cuentos con ellos como protagonistas, lo que nos permitió develar aún más sus personalidades.

Nos dimos cuenta de que tener personajes familiares podría servir como un atajo para la narración. En los Cuentos, tenemos limitaciones como la longitud y el tipo de palabras o gramática que podemos utilizar (en especial, en el caso de los principiantes). Sin embargo, al utilizar personajes con personalidades claras y distintivas, y sus dinámicas familiares, de repente nos encontramos con una forma de simplificar la narración. Por ejemplo, en lugar de explicar las motivaciones de Lily en cada cuento, su avatar poco alegre le comunica a los usuarios sus motivaciones, lo que nos permite contar cuentos interesantes incluso cuando utilizamos el idioma a un nivel para principiantes.

Lily y Duo hablan mientras caminan. Se ven cansados.

En búsqueda de la voz perfecta

El siguiente paso para dar vida a nuestros personajes era dar a cada uno su propia voz. Para lograrlo, estamos creando voces con un programa de texto a voz (o TTS, por sus siglas en inglés) para que cada uno de los personajes pueda mostrar su personalidad única. Nos emociona saber cómo sus voces pueden hacer que aprender un idioma sea más efectivo, más divertido y más motivador.

Por supuesto, desarrollar voces únicas para cada uno de los nueve personajes y en múltiples idiomas no es algo que se haga fácil o rápidamente. Tan solo encontrar las voces en inglés nos llevó varios meses de repaso de audiciones y deliberación acerca de qué actores y actrices capturaron mejor la esencia de nuestros personajes. ¿Esta audición de Eddy suena demasiado intelectual? ¿La voz de Óscar debería sonar más profunda? ¿Qué tan aburrida puede sonar Lily sin afectar de forma negativa la experiencia de aprendizaje?

Luego de reunir al elenco y grabar las voces en inglés, utilizamos las grabaciones como un punto de partida para las voces en español, francés, alemán y japonés. Incluso con las voces en inglés como referencia, cada idioma demostró sus propios desafíos tanto desde lo creativo como desde lo logístico. Por ejemplo, el sarcasmo suena diferente en japonés de como suena en inglés. ¿Debería sonar Lily diferente también? Nuestro equipo de expertos de idiomas, fonetistas y consultores creativos trabajó en conjunto para que cada voz capturara la personalidad de cada personaje de una forma apropiada para la cultura.

Algunas de las voces en otros idiomas suenan casi idénticas a las voces de los personajes en inglés. En otros casos, jugamos con elementos particulares de la personalidad de cada personaje. Lin es un personaje muy interesante al compararla entre los idiomas. Por ejemplo, suena apática en japonés, pero en inglés siempre se muestra sorprendida.

Lin canta con micrófono en un escenario mientras toca la guitarra

De las voces al TTS

Tras seleccionar las voces y grabar a los personajes con su propia personalidad y estilo, utilizamos un sistema de aprendizaje automático para generar voces con un programa de texto a voz. Estos pueden ser utilizados para decir cualquier oración del curso (¡incluso aquellas que todavía ni siquiera fueron escritas!). La tecnología para la generación de voces que puede conseguirse el día de hoy es muy avanzada, pero lo que hacemos en Duolingo requería que fueran capaces de enseñar idiomas, algo muy diferente de aquello para lo que se usan en otras aplicaciones.

Con cuidado, diseñamos las oraciones que grabamos para que cubrieran todos los contextos necesarios para nuestras lecciones: diferentes combinaciones de sonidos hablados, distintos tipos de oraciones y en una amplia variedad de contextos, donde se incluyen exclamaciones y palabras sueltas. Este rango de grabaciones era necesario para representar todas aquellas formas que los usuarios encuentran en sus cursos. También trabajamos para empujar los límites de esta tecnología hasta obtener el resultado adecuado (tono, frecuencia y pausas) para que las voces fueran tan realistas y efectivas como fuera posible para el aprendizaje de idiomas.

Nuestras nuevas voces apuntaban a equilibrar la expresividad de los actores y actrices de voz y nuestras necesidades para enseñar. Al grabar, los actores y actrices tuvieron que inventar situaciones que dieran sentido a las oraciones. A veces, ese “sabor” acústico extra, como imaginar al personaje enojado, presentó un desafío a esta tecnología ya que está entrenada para trabajar con una forma de hablar más neutral.

Otro punto muy importante para nosotros era que las grabaciones y las voces TTS coincidieran con su meta final en una lección real. Para nuestros usuarios, las voces TTS deben ser un modelo de cómo pronunciar y usar el idioma. Por ejemplo, en la oración en inglés “I read the book” (“yo leo el libro”), la palabra “read” cambiará su pronunciación según el tiempo de la oración, ya sea que se trate de una oración en presente (“I read the book [every night before bed]”); es decir, “Leo el libro cada noche antes de ir a la cama”) o en pasado (“I read the book [last summer]”), en este caso, “Leí el libro el verano pasado”). Esto también presentó un desafío al momento de buscar el ritmo y la entonación correctos en diferentes tipos de oraciones. En español, nuestras voces suben o bajan de una forma muy particular, pero en diferentes maneras, según el tipo de pregunta que estamos haciendo: “¿Quieres ir?” tiene un ritmo diferente comparado con “¿A dónde quieres ir?”. Nuestras voces TTS son tan buenas como las muestras de habla que damos al sistema, por lo que nuestros expertos de idiomas e ingenieros trabajaron juntos para dar al sistema pistas o la forma correcta de pronunciación siempre que fuera necesario.

¿A quién más puedo escuchar?

Todos aquellos que aprenden en nuestros cursos de inglés pueden escuchar las voces de los personajes en sus lecciones. Si estás aprendiendo español o francés, notarás que agregamos las voces de algunos de los personajes. ¡El resto no tarda en llegar! Si estás aprendiendo en nuestros cursos de alemán y japonés... ¡ten paciencia! Muy pronto podrás escuchar a nuestros personajes también ahí.

Si estás aprendiendo más de un idioma en Duolingo, ¡podrás escuchar las diferentes interpretaciones de nuestro elenco de personajes!