Les grands modèles de langage (LLM) comme ChatGPT, Claude ou Gemini ont été entraînés sur d’immenses quantités de données afin de pouvoir mener des conversations fluides et naturelles. Mais quand il s’agit d’enseigner une langue, on ne peut pas simplement leur dire : « Vas-y, parle en anglais avec cet utilisateur ! »
Pour développer des outils d’IA comme les Appels vidéo avec Lily, il est nécessaire d’imposer un cadre au modèle de langage. On lui donne donc des instructions précises et une structure bien définie afin de s’assurer que chaque appel avec Lily soit à la fois drôle, un brin impertinent… et surtout, utile pour s’entraîner à l’oral.
Comment est conçu chaque Appel vidéo
Pour concevoir l’appel idéal, il faut jongler entre plusieurs priorités :
- Il doit correspondre à un niveau du CECR prédéfini.
- Il doit avoir un but précis : vous raconter une histoire, vous demander votre avis, vous enseigner un concept ou juste discuter tranquillement.
- On doit avoir l’impression que c’est bien Lily, l’ado emo sarcastique, qui s’adresse à vous, et non pas une IA parmi tant d’autres.
Pour trouver le bon équilibre, on crée un prompt (c’est-à-dire un ensemble d’instructions) destiné au modèle de langage. Ce prompt, c’est un peu comme une discussion entre trois personnages :
- L’Assistant : C’est Lily, le bot d’IA qui réagit à ce que vous (l’Utilisateur) lui dites, en suivant les instructions données par le Système.
- Le Système : C’est un peu le coach de l’Assistant. Les experts pédagogiques de Duolingo rédigent les instructions que le Système donne à l’Assistant (Lily) pour orienter ses réponses et son comportement.
- L’Utilisateur : C’est vous, la personne qui interagit avec l’Assistant (Lily).
Pour chaque appel, le Système reçoit un ensemble rigoureux de consignes sur la façon dont Lily doit se comporter. Ces consignes incluent des éléments sur sa vie et sa personnalité, lui expliquent comment elle doit vous aider si besoin, le niveau de langue qu’on attend d’elle, et bien plus.
Un autre point important : on définit aussi une trame à l’avance pour la conversation. Même si chaque discussion avec Lily est unique, elles partagent toutes une structure commune :
Partie 1 : Le début de l’appel
Le Système indique à Lily comment entamer la conversation. La plupart du temps, il s’agit d’une formule de salutation dans la langue cible. Nos ingénieurs ont mis en place un cycle de formules adaptées à chaque niveau CECR.
Partie 2 : La première question
Elle sert à planter le décor. Lily peut prendre de vos nouvelles, relancer un sujet abordé précédemment ou vous raconter une anecdote culturelle sur la langue que vous apprenez.
Partie 3 : La conversation
À partir de là, vous pouvez discuter librement avec Lily. Le Système lui a donné pour consigne de réagir à ce que vous dites, puis de faire avancer la conversation de manière naturelle.
Partie 4 : La fin de l’appel
Après un certain nombre d’échanges, les ingénieurs ont prévu une intervention du Système : il souffle discrètement à l’oreille de Lily « Psst ! C’est l’heure de raccrocher. » Ça permet d’éviter que l’appel ne s’éternise trop.
L’envers du décor
La mémoire de Lily
Si vous avez déjà fait plusieurs Appels vidéo, vous vous demandez peut-être comment Lily fait pour arriver à se souvenir de tout ça lorsqu’elle évoque un détail d’un appel précédent. Après chaque appel, on récupère la transcription de la conversation et on demande au modèle : « Qu’a-t-on appris d’important sur l’Utilisateur ? » Ces nouvelles informations sont alors ajoutées à une liste qui sert ensuite à compléter les instructions que le Système donne à Lily lors des prochains appels.
Autrement dit, avant que Lily commence à parler, le Système lui dit : « Tu te souviens de cet Utilisateur ? Voici quelques infos sur lui : il a dit qu’il avait deux chiens, qu’il étudiait l’architecture et que son plat préféré, c’était le couscous. » Lily peut alors vous demander « Comment vont tes chiens ? » ou « Tu connais un restaurant qui fait un bon couscous ? » pour rendre la conversation plus vivante et personnalisée.
La première question
La première question est essentielle : c’est elle qui lance la conversation. Elle doit être liée à ce que vous apprenez, adaptée à votre niveau et poser les bases d’un échange intéressant. Pour répondre à tous ces critères, on doit rédiger des instructions très précises rien que pour cette première question !
D’ailleurs, le Système formule cette première question au moment où Lily vous appelle.
Préparation de la conversation | |
---|---|
![]() |
Bonjour, modèle de langage ! Tu dois écrire une question que l’Assistant (Lily) pourra poser à l’utilisateur.
|
![]() |
Et voici la question !
“What kind of music do you like listening to?” (Quel est ton genre de musique préféré ?) |
On prend ensuite cette question et on l’ajoute à la conversation principale, où le Système explique à Lily comment mener l’échange avec vous.
La conversation principale | |
---|---|
![]() |
Tu t’appelles Lily. Voici quelques informations à ton sujet :
Puis pose cette première question : “What kind of music do you like listening to?” (Quel est ton genre de musique préféré ?) |
![]() |
Je comprends. Je vais entamer la conversation avec l’utilisateur tout de suite.
“Hey!” |
Au fil du développement des Appels vidéo, on a compris qu’il était essentiel que le grand modèle de langage rédige la première question séparément. Lorsqu’on inclut les consignes de cette première question avec celles du reste de l’appel, on surcharge bien souvent le modèle, ce qui peut donner des résultats insatisfaisants : des phrases inutilement complexes ou l’oubli du vocabulaire choisi lors de la préparation de la conversation. C’est un peu comme chez les humains : si on commence la journée avec 50 tâches à accomplir, on risque d’en oublier quelques-unes, ou de tout faire à moitié. Pour éviter cela, on prépare donc la première question séparément.
L’évaluation des conversations
Il n’y a pas que la première question qui compte : on veut que Lily réagisse spontanément tout au long de l’appel, au pied levé !
Au début de l’année, on a constaté que certains utilisateurs avaient envie de parler d’autre chose que du sujet prévu pour Lily. Par exemple, si on lui disait « Lily, devine quoi ! J’ai terminé tout le cours d’espagnol ! », elle pouvait répondre « Génial. Tu connais la musique folklorique suisse ? » 🫣
Pour donner plus de liberté aux utilisateurs, on a ajouté une étape de vérification supplémentaire qui dit « L’utilisateur a-t-il l’air de vouloir guider l’échange ? Si oui, oublie ce dont tu devais parler. » On mise beaucoup sur ces ajustements en temps réel : même pendant l’appel, le modèle reste à l’écoute et s’adapte pour offrir la meilleure expérience possible.
Pendant l’appel, le Système analyse ce que vous dites et pose des questions à Lily pour que la conversation reste fluide et intéressante.
L’évaluation en cours d’appel | |
---|---|
![]() |
Salut, Lily ! Analyse ce que l’utilisateur a dit en prenant en compte ces éléments :
|
![]() |
Compris ! L’utilisateur vient de dire qu’il était très doué en guitare. Voici ma réaction :
“Wow, I’m actually impressed. What’s your favorite song to play?” (Wow, je suis impressionnée. Quelle est la chanson que tu aimes le plus jouer ?) |
L’outil ultime pour progresser à l’oral !
Il faut bien l’admettre : tout ceci semble assez complexe. Mais grâce aux efforts de nos équipes et aux progrès de l’IA, Lily apprend à s’adapter à votre niveau pour vous permettre de vous entraîner à l’oral en toute sérénité.