Comment Duolingo utilise l’IA pour vous faire décoller à l’oral

Les grands modèles de langage (LLM) comme ChatGPT, Claude ou Gemini ont été entraînés sur d’immenses quantités de données afin de pouvoir mener des conversations fluides et naturelles. Mais quand il s’agit d’enseigner une langue, on ne peut pas simplement leur dire : « Vas-y, parle en anglais avec cet utilisateur ! »

Pour développer des outils d’IA comme les Appels vidéo avec Lily, il est nécessaire d’imposer un cadre au modèle de langage. On lui donne donc des instructions précises et une structure bien définie afin de s’assurer que chaque appel avec Lily soit à la fois drôle, un brin impertinent… et surtout, utile pour s’entraîner à l’oral.

Comment est conçu chaque Appel vidéo

Pour concevoir l’appel idéal, il faut jongler entre plusieurs priorités :

Il doit correspondre à un niveau du CECR prédéfini.
Il doit avoir un but précis : vous raconter une histoire, vous demander votre avis, vous enseigner un concept ou juste discuter tranquillement.
On doit avoir l’impression que c’est bien Lily, l’ado emo sarcastique, qui s’adresse à vous, et non pas une IA parmi tant d’autres.

Pour trouver le bon équilibre, on crée un prompt (c’est-à-dire un ensemble d’instructions) destiné au modèle de langage. Ce prompt, c’est un peu comme une discussion entre trois personnages :

L’Assistant : C’est Lily, le bot d’IA qui réagit à ce que vous (l’Utilisateur) lui dites, en suivant les instructions données par le Système.
Le Système : C’est un peu le coach de l’Assistant. Les experts pédagogiques de Duolingo rédigent les instructions que le Système donne à l’Assistant (Lily) pour orienter ses réponses et son comportement.
L’Utilisateur : C’est vous, la personne qui interagit avec l’Assistant (Lily).

Pour chaque appel, le Système reçoit un ensemble rigoureux de consignes sur la façon dont Lily doit se comporter. Ces consignes incluent des éléments sur sa vie et sa personnalité, lui expliquent comment elle doit vous aider si besoin, le niveau de langue qu’on attend d’elle, et bien plus.

Un autre point important : on définit aussi une trame à l’avance pour la conversation. Même si chaque discussion avec Lily est unique, elles partagent toutes une structure commune :

Partie 1 : Le début de l’appel
Le Système indique à Lily comment entamer la conversation. La plupart du temps, il s’agit d’une formule de salutation dans la langue cible. Nos ingénieurs ont mis en place un cycle de formules adaptées à chaque niveau CECR.

Partie 2 : La première question
Elle sert à planter le décor. Lily peut prendre de vos nouvelles, relancer un sujet abordé précédemment ou vous raconter une anecdote culturelle sur la langue que vous apprenez.

Partie 3 : La conversation
À partir de là, vous pouvez discuter librement avec Lily. Le Système lui a donné pour consigne de réagir à ce que vous dites, puis de faire avancer la conversation de manière naturelle.

Partie 4 : La fin de l’appel
Après un certain nombre d’échanges, les ingénieurs ont prévu une intervention du Système : il souffle discrètement à l’oreille de Lily « Psst ! C’est l’heure de raccrocher. » Ça permet d’éviter que l’appel ne s’éternise trop.

L’envers du décor

La mémoire de Lily

Si vous avez déjà fait plusieurs Appels vidéo, vous vous demandez peut-être comment Lily fait pour arriver à se souvenir de tout ça lorsqu’elle évoque un détail d’un appel précédent. Après chaque appel, on récupère la transcription de la conversation et on demande au modèle : « Qu’a-t-on appris d’important sur l’Utilisateur ? » Ces nouvelles informations sont alors ajoutées à une liste qui sert ensuite à compléter les instructions que le Système donne à Lily lors des prochains appels.

Autrement dit, avant que Lily commence à parler, le Système lui dit : « Tu te souviens de cet Utilisateur ? Voici quelques infos sur lui : il a dit qu’il avait deux chiens, qu’il étudiait l’architecture et que son plat préféré, c’était le couscous. » Lily peut alors vous demander « Comment vont tes chiens ? » ou « Tu connais un restaurant qui fait un bon couscous ? » pour rendre la conversation plus vivante et personnalisée.

La première question

La première question est essentielle : c’est elle qui lance la conversation. Elle doit être liée à ce que vous apprenez, adaptée à votre niveau et poser les bases d’un échange intéressant. Pour répondre à tous ces critères, on doit rédiger des instructions très précises rien que pour cette première question !

D’ailleurs, le Système formule cette première question au moment où Lily vous appelle.

Préparation de la conversation
	Bonjour, modèle de langage ! Tu dois écrire une question que l’Assistant (Lily) pourra poser à l’utilisateur. La question doit correspondre à son niveau CECR actuel. La question doit utiliser les mots music et like. La question doit… [etc.]
	Et voici la question ! “What kind of music do you like listening to?” (Quel est ton genre de musique préféré ?)

On prend ensuite cette question et on l’ajoute à la conversation principale, où le Système explique à Lily comment mener l’échange avec vous.

La conversation principale
	Tu t’appelles Lily. Voici quelques informations à ton sujet : Tu es une adolescente. Tu es très sarcastique. Tu es introvertie. Tu parles à un utilisateur de niveau CECR A2. Voici quelques informations à son sujet : Il a deux chiens. Il étudie l’architecture. Son plat préféré, c’est le couscous. Entame la conversation en disant : “Hey!” (Salut !) Puis pose cette première question : “What kind of music do you like listening to?” (Quel est ton genre de musique préféré ?)
	Je comprends. Je vais entamer la conversation avec l’utilisateur tout de suite. “Hey!”

La conversation principale

Duo porte des lunettes et est assis devant un ordinateur

Tu t’appelles Lily. Voici quelques informations à ton sujet :

Tu es une adolescente.
Tu es très sarcastique.
Tu es introvertie.

Tu parles à un utilisateur de niveau CECR A2. Voici quelques informations à son sujet :

Il a deux chiens.
Il étudie l’architecture.
Son plat préféré, c’est le couscous.

Entame la conversation en disant : “Hey!” (Salut !)

Puis pose cette première question : “What kind of music do you like listening to?” (Quel est ton genre de musique préféré ?)

Je comprends. Je vais entamer la conversation avec l’utilisateur tout de suite.

“Hey!”

Au fil du développement des Appels vidéo, on a compris qu’il était essentiel que le grand modèle de langage rédige la première question séparément. Lorsqu’on inclut les consignes de cette première question avec celles du reste de l’appel, on surcharge bien souvent le modèle, ce qui peut donner des résultats insatisfaisants : des phrases inutilement complexes ou l’oubli du vocabulaire choisi lors de la préparation de la conversation. C’est un peu comme chez les humains : si on commence la journée avec 50 tâches à accomplir, on risque d’en oublier quelques-unes, ou de tout faire à moitié. Pour éviter cela, on prépare donc la première question séparément.

L’évaluation des conversations

Il n’y a pas que la première question qui compte : on veut que Lily réagisse spontanément tout au long de l’appel, au pied levé !

Au début de l’année, on a constaté que certains utilisateurs avaient envie de parler d’autre chose que du sujet prévu pour Lily. Par exemple, si on lui disait « Lily, devine quoi ! J’ai terminé tout le cours d’espagnol ! », elle pouvait répondre « Génial. Tu connais la musique folklorique suisse ? » 🫣

Pour donner plus de liberté aux utilisateurs, on a ajouté une étape de vérification supplémentaire qui dit « L’utilisateur a-t-il l’air de vouloir guider l’échange ? Si oui, oublie ce dont tu devais parler. » On mise beaucoup sur ces ajustements en temps réel : même pendant l’appel, le modèle reste à l’écoute et s’adapte pour offrir la meilleure expérience possible.

Pendant l’appel, le Système analyse ce que vous dites et pose des questions à Lily pour que la conversation reste fluide et intéressante.

L’évaluation en cours d’appel
	Salut, Lily ! Analyse ce que l’utilisateur a dit en prenant en compte ces éléments : Est-ce que l’utilisateur a parlé d’un sujet qui plaît à Lily ? Si oui, montre de l’enthousiasme ! Est-ce que l’utilisateur a parlé de quelque chose d’inapproprié ? Si oui, raccroche tout de suite ! Est-ce que l’utilisateur semble perdu ? Si oui, reformule ce que tu viens de dire !
	Compris ! L’utilisateur vient de dire qu’il était très doué en guitare. Voici ma réaction : “Wow, I’m actually impressed. What’s your favorite song to play?” (Wow, je suis impressionnée. Quelle est la chanson que tu aimes le plus jouer ?)

L’outil ultime pour progresser à l’oral !

Il faut bien l’admettre : tout ceci semble assez complexe. Mais grâce aux efforts de nos équipes et aux progrès de l’IA, Lily apprend à s’adapter à votre niveau pour vous permettre de vous entraîner à l’oral en toute sérénité.

Découvrez les secrets de l’IA derrière les Appels vidéo avec Lily

Comment est conçu chaque Appel vidéo

L’envers du décor

La mémoire de Lily

La première question

L’évaluation des conversations

L’outil ultime pour progresser à l’oral !

À propos

Aide et support

Conditions d'utilisation et confidentialité

À propos

Presse

Carrières

Aide et support

Conditions d'utilisation et confidentialité