Nos personnages ont trouvé leur voix ! Dans cet article, nous allons vous expliquer comment nous avons créé les voix de synthèse vocale pour chacun d’eux.

Nos personnages rendent les leçons plus interactives
Nos personnages animés créés par notre équipe artistique sont devenus très populaires sur les réseaux sociaux dès leur apparition dans l’appli. Cet enthousiasme nous a incités à leur consacrer encore plus de temps et à étoffer leur personnalité.
Nous avons vu là une opportunité de faire de l’apprentissage des langues une expérience encore plus fun et motivante, et de renforcer le lien avec nos utilisateurs. Notre objectif : leur donner envie de revenir s’entraîner régulièrement pour en apprendre davantage sur nos personnages à travers des histoires captivantes.
Nous avons maintenant également donné des voix personnalisées à chacun de nos personnages afin de les rendre plus vivants que jamais. Cela nous permet de vous exposer à une grande variété de voix, ce qui est utile pour progresser. Lorsque vous utiliserez la langue dans la vraie vie, vous interagirez avec des personnes de tous âges, de tous genres et de tous milieux. Il est donc important d’entendre différents types de voix dans vos cours pour que vous puissiez développer des compétences de compréhension orale qui vous préparent aux situations de la vie réelle !
Qui sont nos personnages ?
Pour répondre à cette question, nous avons passé de nombreux mois à développer nos personnages et à discuter de leur personnalité, de leur origine et des relations qu’ils entretiennent les uns avec les autres. En parallèle, nous avons écrit des Histoires les mettant en scène, afin de mieux cerner leur caractère.
Nous nous sommes rendu compte que le fait que nos utilisateurs connaissent nos personnages pouvait nous aider dans la narration. Dans les Histoires, nous sommes limités par la longueur et le type de mots ou de concepts de grammaire que nous pouvons utiliser (surtout pour les débutants). Mais parce que nos personnages ont chacun une personnalité affirmée et unique, nous avons la capacité de simplifier la narration. Par exemple, l’attitude blasée de Lily fait entrevoir ses motivations aux utilisateurs et nous permet de raconter des intrigues captivantes avec du vocabulaire de niveau débutant, sans devoir réexpliquer qui elle est dans chaque histoire.

À la recherche des voix de chaque personnage
Pour donner vie à nos personnages, il ne nous restait plus qu’à leur donner leur propre voix. Nous avons donc créé, pour chacun d’entre eux, une voix de synthèse vocale sur mesure pour mettre en valeur leur personnalité unique.
Bien entendu, développer des voix uniques pour neuf personnages dans plusieurs langues, ce n’est pas une mince affaire. Le casting des voix anglaises a nécessité plusieurs mois d’auditions et de délibérations pour trouver les acteurs qui correspondaient le mieux à nos personnages. Cette intonation pour Eddy est-elle trop sérieuse ? Oscar devrait-il avoir une voix plus profonde, plus vibrante ? Et jusqu’à quel point Lily peut-elle rester impassible sans que cela ne nuise à l’expérience d'apprentissage ?
Une fois les voix anglaises choisies et enregistrées, nous nous en sommes inspirés pour trouver les voix espagnoles, françaises, allemandes et japonaises. Même en utilisant les voix anglaises comme référence, chaque langue a fait face à ses propres défis d’ordre créatif et logistique. Par exemple, le sarcasme ne s’exprime pas de la même manière en anglais et en japonais, alors comment adapter le personnage de Lily ? Nos équipes d’experts linguistiques, de phonéticiens et de consultants créatifs ont analysé chaque voix pour s’assurer qu’elle reflétait bien la personnalité du personnage en accord avec la culture locale.
Dans certaines langues, les voix sont quasi identiques aux voix anglaises. Dans d’autres, nous avons accentué un élément particulier de la personnalité des personnages. Lin est un personnage particulièrement singulier d’une langue à l’autre. Par exemple, elle est nonchalante et détachée en japonais, mais un rien l’amuse en anglais.

La création des voix
Après avoir sélectionné et enregistré les voix des personnages avec leur style et leur personnalité uniques, nous avons utilisé l’apprentissage automatique pour créer des voix de synthèse vocale à la pointe de la technologie. Ces voix peuvent être utilisées pour prononcer n’importe quelle phrase du cours, même celles qui n’ont pas encore été écrites ! Il existe déjà de nombreux outils performants pour créer et développer des voix, mais à Duolingo, nous voulons nous en servir pour enseigner les langues, ce qui est assez différent de la façon dont ces technologies sont actuellement utilisées dans d'autres applications.
Nous avons sélectionné avec soin les phrases utilisées pour les enregistrements afin d’inclure tout ce dont nous aurions besoin pour nos cours : différentes combinaisons de sons parlés, différents types de phrases et différents contextes, y compris des exclamations et des mots isolés. Cette grande variété d’enregistrements était nécessaire pour représenter toutes les situations que rencontrent nos apprenants dans leur cours. Nous avons également cherché à repousser les limites de la technologie afin d’obtenir la prononciation, l’intonation, le débit et les temps de pauses adaptés pour que les voix soient aussi réalistes et efficaces que possible.
Les nouvelles voix devaient trouver le juste équilibre entre l’expressivité des comédiens de doublage et nos besoins pédagogiques. Pour les enregistrements, les doubleurs ont dû inventer des situations pour donner un sens aux répliques, par exemple imaginer le personnage en colère, et ces nuances acoustiques ont parfois représenté un réel défi pour la technologie de synthèse vocale qui est formée à un type de discours plus neutre.
Il fallait aussi que les enregistrements et les voix de synthèse vocale correspondent à leur objectif final dans une vraie leçon, à savoir être un modèle fiable et naturel pour les apprenants. Par exemple, dans la phrase en anglais I read the book, le mot read doit être prononcé différemment dans une leçon sur le présent et sur le passé : « rid » pour « je lis le livre » et « rèd » pour « j’ai lu le livre »). Obtenir le bon rythme et la bonne intonation dans différents types de phrases n’a également pas été facile. En anglais, la voix monte et descend de façon très différente selon le *type* de question posée. Par exemple, Do you want to go? n’a pas le même rythme que Where do you want to go?. La qualité des voix de synthèse vocale dépend des exemples que l’on fournit à l’outil, donc nos experts linguistiques et nos ingénieurs ont dû travailler main dans la main pour aiguiller l’outil dans la bonne direction et apporter les corrections nécessaires.
C’est quoi la suite ?
Si vous apprenez l’anglais, vous savez certainement reconnaître le ton blasé de Lily ou l’enthousiasme débordant de Zari.
Et si vous apprenez plusieurs langues, vous aurez l’occasion de découvrir les différentes versions vocales de nos personnages !