Los modelos extensos de lenguaje (o LLM) como ChatGPT, Claude y Gemini han sido entrenados con enormes cantidades de datos de varios idiomas para tener intercambios que suenen naturales. Pero usarlos para enseñar a quienes aprenden idiomas no es tan fácil como decir: “¡Oye, habla con esta persona en español!”

Para desarrollar funcionalidades impulsadas con IA como las Videollamadas con Lily, no podemos simplemente dejar que el modelo actúe libremente. En su lugar, usamos instrucciones específicas y una estructura predecible para asegurarnos de que cada llamada con Lily te traiga alegría (y, por supuesto, la oportunidad para practicar conversación).

Cómo diseñamos cada Videollamada

A la hora de diseñar la experiencia de llamada perfecta, tenemos que equilibrar muchas prioridades:

  • Debe estar en el nivel apropiado del MCER.
  • Tiene que tener un propósito, como contarte una historia, pedirte tu opinión, enseñarte algo o simplemente charlar.
  • Debe sentirse como si viniera de Lily, una adolescente emo sarcástica, no de un chatbot de IA genérico.

Para lograr el equilibrio adecuado, creamos un prompt (o conjunto de instrucciones) para el LLM. Puedes pensar en este prompt como una conversación que involucra a tres personajes:

  • Asistente: esta es Lily, la bot de IA que reacciona a lo que tú, el Usuario, dices de acuerdo con las instrucciones del Sistema.
  • Sistema: es una especie de entrenador del Asistente. Los diseñadores de aprendizaje de Duolingo escriben las instrucciones que el Sistema le da al Asistente (Lily) sobre cómo actuar y qué decir.
  • Usuario: tú, la persona que interactúa con el Asistente (Lily).

En todas nuestras llamadas, proporcionamos al Sistema un conjunto sólido de instrucciones sobre cómo debe comportarse Lily. Estas instrucciones incluyen información sobre la personalidad y el trasfondo de Lily, le dicen cómo ayudarte si te atascas, aseguran que hables en el nivel correcto, y más. 

Además, algo muy importante: incluimos un diagrama básico para la conversación. Aunque cada conversación que tienes con Lily es única, todas siguen un formato similar:

Parte 1: apertura
El Sistema le dice a Lily qué decir al comienzo. Esto es casi siempre un saludo en el idioma que estás aprendiendo. Nuestros ingenieros han creado un ciclo de saludos entre los que Lily buscará según cada nivel MCER.

Parte 2: primera pregunta
Esto prepara el escenario para lo que será la llamada. Lily podría preguntarte algo nuevo sobre ti, podría volver a un tema anterior o podría decir que tiene información para compartir sobre la cultura del idioma que aprendes. 

Parte 3: conversación
Lily y tú pueden charlar libremente en la conversación. El Sistema ha instruido a Lily para que reaccione a lo que digas y luego continúe la conversación de manera natural. 

Parte 4: cierre
Después de cierto número de idas y vueltas, los ingenieros han creado un programa donde el Sistema interviene y le susurra al oído a Lily “¡Psst! Di que es hora de irse.” Esto evita que la llamada continúe para siempre.

Detrás de escenas

La memoria de Lily

Si has hecho varias Videollamadas, podrías preguntarte “¿cómo recuerda Lily eso sobre mí?” cuando menciona información de llamadas anteriores. Esto es porque después de que Lily cuelga, tomamos la transcripción de la llamada, se la mostramos al LLM y le preguntamos: “¿Qué información importante hemos aprendido sobre este Usuario?”. La información obtenida se agrega a una lista de hechos. La lista actualizada pasa a ser parte de las instrucciones que el Sistema le da a Lily durante tu próxima llamada. 

Es decir, antes de que Lily empiece a hablar, el Sistema pregunta “¿recuerdas a este usuario? He aquí una lista de datos: dijo que tiene dos perros, que está estudiando arquitectura y que su comida favorita son los tacos". De esa manera, Lily podría mencionar “¿cómo están tus perros?” o “¿has probado algún buen taco últimamente?” para que la llamada parezca personalizada y mágica.

Creando la primera pregunta

La primera pregunta es una plataforma de lanzamiento importante para la conversación. Queremos hacerlo bien: debe ser relevante para lo que estás aprendiendo, debe tener la dificultad adecuada y debe preparar el escenario para una buena conversación. Con todos estos criterios, tenemos que escribir instrucciones detalladas únicamente sobre cómo escribir una buena pregunta inicial.

De hecho, cuando la Videollamada empieza a sonar es cuando el Sistema está formulando la primera pregunta. 

Preparación de la conversación
Ilustración de Duo usando gafas y sentado frente a una computadora ¡Hola, LLM! Necesitas escribir una pregunta que el Asistente (Lily) pueda hacerle al Usuario.
  • La pregunta debe ser apropiada para el nivel MCER del usuario.
  • La pregunta debe usar estas palabras: música, gusta.
  • La pregunta debe ser… [etcétera]
An illustration of Lily on a Video Call ¡Aquí está la pregunta!

“¿Qué tipo de música te gusta escuchar?”

Luego tomamos esta pregunta de la Preparación de la conversación y la ingresamos en la conversación principal, donde el Sistema le indica a Lily cómo guiar la conversación contigo:

Conversación principal
Ilustración de Duo usando gafas y sentado frente a una computadora Eres Lily, aquí tienes información sobre ti:
  • Eres una adolescente.
  • Eres muy sarcástica.
  • Eres introvertida.
Estás hablando con una persona que aprende idiomas y que está en el nivel A2 del MCER. Aquí tienes información sobre esta persona:
  • Tiene dos perros.
  • Está estudiando arquitectura.
  • Su comida favorita son los tacos.
Comienza la conversación con esta apertura: “Hey!

A continuación, haz esta primera pregunta: “¿Qué tipo de música te gusta escuchar?”
An illustration of Lily on a Video Call Entiendo. Voy a iniciar la conversación con el usuario ahora.

“Hey!”

Con el desarrollo y evolución de las Videollamadas, hemos aprendido que es importante que el LLM escriba la primera pregunta por separado. Cuando incluimos las instrucciones para la primera pregunta con las instrucciones para el resto de la llamada, a menudo podemos sobrecargar al LLM  y obtener resultados indeseables, como oraciones que son demasiado complejas o que carecen del vocabulario proporcionado en la preparación de la conversación. A los humanos nos sucede algo similar: si te dicen que hagas cincuenta tareas al comienzo del día, probablemente te olvidarás de hacer algunas de ellas, o tal vez hagas las cincuenta tareas a medias. Y como queremos todo completamente horneado, preparamos la primera pregunta por separado.

Evaluación de las conversaciones

La primera pregunta no es la única que importa: queremos que Lily reaccione dinámicamente durante toda la llamada, ¡en un abrir y cerrar de ojos!

A principios de este año, vimos que a veces los usuarios no querían hablar sobre el tema en el que Lily fue instruida para enfocarse. El usuario diría algo como "¡No lo vas a creer, Lily! ¡Acabo de completar todo el curso de español!” y Lily respondería “Eso es bueno. ¿Has oído hablar de la música folclórica suiza?” 🫣

Desde entonces, para permitir que los usuarios dirijan la conversación, hemos añadido una comprobación extra que dice “¿Parece que el usuario quiere dirigir esta conversación? Si es así, ignora el tema del que ibas a hablar originalmente". Tenemos grandes expectativas para estas evaluaciones en medio de la llamada, ya que el LLM siempre está trabajando (incluso durante la misma Videollamada) para asegurar una excelente experiencia. 

En la evaluación a mitad de llamada, el Sistema observa lo que has dicho y le hace preguntas a Lily para mantener la conversación interesante y encaminada:

Evaluación a mitad de llamada
Ilustración de Duo usando gafas y sentado frente a una computadora ¡Hey, Lily! Ten en cuenta lo siguiente para lo que el usuario acaba de decirte:
  • ¿Habló sobre algo que Lily ama? Si es así, ¡actúa emocionada!
  • ¿Habló sobre algo inapropiado? Si es así, ¡cuelga ahora!
  • ¿El usuario parece estar confundido? Si es así, ¡reformula lo que acabas de decir!
Ilustración de Lily en una Videollamada ¡Entiendo! El usuario acaba de mencionar que toca muy bien la guitarra. Esta es mi reacción a lo que dijo:

“Wow, en realidad estoy impresionada. ¿Cuál es la canción que más te gusta tocar?”

¡La práctica de conversación más inteligente que existe!

Todo esto puede parecer complicado… ¡porque lo es! A medida que nuestro equipo experimenta y la IA sigue forjando nuevas rutas, estamos enseñando a Lily a encontrarte en tu nivel y permitirte practicar hablar sin miedo.