Unsere Figuren erhalten endlich eine eigene Stimme! In diesem Blogbeitrag beschreiben wir die Entwicklung der unverwechselbaren synthetischen Stimmen aller unserer Figuren.

Abbildung der Duolingo-Charaktere, die in einem Knäuel in eine Richtung rennen. Sie sehen aufgeregt und entschlossen aus.

Mit unseren Figuren macht Lernen mehr Spaß

Nachdem unser Design-Team die Figuren entworfen, mit Animationen zum Leben erweckt und in die App integriert hatte, wurde in den sozialen Medien klar, dass sie richtig gut ankamen. Dieser Erfolg brachte uns auf die Idee, uns unseren Figuren noch mehr zu widmen und ihnen den letzten Schliff zu geben.

Wir sahen darin eine Möglichkeit, das Sprachenlernen noch unterhaltsamer und spannender zu machen und dadurch die Verbundenheit der Lernenden mit Duolingo zu stärken. Wir wollten, dass die Lernenden immer wieder zurückkommen, sie weiter lernen und unsere Figuren in den lebendigen Stories noch besser kennenlernen.

Nun ist es soweit, dass wir ihnen auch ihre eigenen Stimmen geben. Das verstärkt nicht nur die individuellen Charakterzüge der Figuren, sondern ist auch für die Lernenden von Vorteil, da sie dadurch verschiedene Stimmen hören und verstehen üben. Wenn man die neu erlernte Sprache im echten Leben benutzt, hat man mit Menschen verschiedenen Alters, Geschlechts und verschiedener Herkunft zu tun. Deshalb ist es so wichtig, in den Lektionen unterschiedliche Stimmen zu hören: Das trainiert das Hörverstehen für wirkliche Gesprächssituationen!

Wer sind also unsere Figuren?

Viele Monate lang arbeiteten wir an der Entwicklung unserer Figuren. Wir diskutierten ihre typischen Charaktereigenschaften, ihre Lebenssituation und ihre wechselseitigen Beziehungen. Gleichzeitig schrieben wir Stories, in denen sie die Hauptrollen spielen und ihre Persönlichkeiten noch deutlicher sichtbar werden.

Wir erkannten, dass die Vertrautheit mit den Figuren eine echte Hilfe in den Stories sein kann, wo wir bezüglich Länge, Wahl der Wörter und der Grammatik (insbesondere auf Anfängerniveau) eingeschränkt sind. Der Einsatz unserer Figuren mit ihren unverwechselbaren und ausgeprägten Persönlichkeiten und den bekannten Beziehungen zwischen ihnen machte es plötzlich einfach, Stories zu erzählen. Wir mussten zum Beispiel nicht mehr in jeder Story Lillis Verhalten erklären, denn die Lernenden kennen schon ihre direkte und schroffe Art. So konnten wir selbst mit den begrenzten Ausdrucksmöglichkeiten des Anfängerniveaus amüsante Stories schreiben.

Lilli und Duo unterhalten sich ohne Elan bei einem Spaziergang.

Stimmen für unsere Figuren

Der nächste Schritt, unseren Figuren Leben einzuhauchen, bestand darin, ihnen eine eigene Stimme zu geben. Wir konstruierten für jede Figur eine eigene unverwechselbare synthetische Stimme (text-to-speech, TTS), die ihre typische Persönlichkeit widerspiegelt. Für uns ist es spannend zu sehen, wie die verschiedenen Stimmen das Lernerlebnis beleben und effektiver und sogar unterhaltsamer machen.

Die Entwicklung unverwechselbarer Stimmen für neun verschiedene Figuren für mehrere Sprachen ist allerdings alles andere als einfach. Das geht nicht von jetzt auf gleich. Allein für das Englische dauerte das Auswahlverfahren der Stimmen viele Monate lang. Die Stimmproben mussten bewertet werden, und wir mussten entscheiden, welcher Sprecher am besten zur Persönlichkeit der jeweiligen Figur passte. Hörte sich die Stimmprobe zu intellektuell für Eddy an? Sollte Oscar besser eine tiefere, vollere Stimme haben? Und wie viel Gleichgültigkeit darf in Lillis Stimme  liegen, ohne dass sie das Lernerlebnis negativ beeinflusst?

Nach der Auswahl und der Aufnahme der Stimmen in Englisch verwendeten wir das Material als Grundlage für Spanisch, Französisch, Deutsch und Japanisch. Obwohl die englischen Stimmen zum Vergleich dienten, gab es bei jeder Sprache immer neue Herausforderungen im kreativen wie im logistischen Bereich. Beispielsweise hört sich Sarkasmus im Japanischen anders an als im Englischen. Sollte dann auch Lillis Stimme anders klingen? Unser Team von Sprachexperten, Phonetikern und Bewertern widmete sich intensiv jeder einzelnen Stimme, um sicherzugehen, dass sie die Persönlichkeit der jeweiligen Figur gut reflektiert und zur Kultur des Landes passt.

Einige Stimmen in anderen Sprachen stimmen beinahe mit denen unserer englischen Figuren überein. In anderen Fällen arbeiteten wir einen bestimmten Charakterzug der Figur heraus. Lin ist im Vergleich der Sprachen besonders interessant. In Japanisch zum Beispiel hört sie sich träge und unbeteiligt an, während sie im Englischen durchgehend amüsiert klingt.

Lin singt auf der Bühne mit einem Mikrofon und spielt dabei Gitarre.

Die Technik hinter den Stimmen

Nach der Auswahl und der Aufnahme der Stimmen mit ihrem jeweiligen typischen Charakter und Stil setzten wir maschinelles Lernen ein, um die Prototypen der synthetischen Stimmen zu erstellen. Diese können zur Aussprache jedes beliebigen Satzes im Kurs verwendet werden – selbst der Sätze, die noch gar nicht geschrieben wurden! Es gibt bereits sehr gute Technologien für die Entwicklung von Stimmen. Bei Duolingo werden diese Stimmen allerdings zum Unterrichten von Sprachen verwendet, und das unterscheidet sich sehr vom Einsatz dieser Technologien in anderen Anwendungen.

Wir stellten die Sätze für die Aufnahme sorgfältig zusammen, damit diese alle Kontexte abdeckten, die wir für unsere Lektionen brauchen – verschiedene Lautkombinationen, verschiedene Satztypen und eine Menge verschiedener Kontexte, darunter Ausrufe und einzelne Wörter. Diese Bandbreite von Aufnahmen war erforderlich, um jegliche Art und Weise abzudecken, wie die Lernenden der Sprache in ihrem Kurs begegnen. Wir haben die Technik bezüglich Intonation, Tempo und Pausen bis an ihre Grenzen ausgereizt, damit die Stimmen möglichst echt klingen und für das Sprachenlernen so effektiv wie möglich sind.

Unsere neuen Stimmen streben ein Gleichgewicht zwischen der Ausdruckskraft der Sprecher und unseren sehr spezifischen Ansprüchen für den Sprachunterricht an. Für die Aufnahmen sollten sich die Sprecher Situationen vorstellen, die den Sätzen und Sprachfetzen Sinn verliehen. Dieses zusätzliche akustische „Aroma”, zum Beispiel bei der Vorstellung, dass die Figur verärgert ist, stellte die Technik mitunter vor Herausforderungen, da sie auf eine neutralere Sprache trainiert ist.

Weiterhin war es uns besonders wichtig, die Aufnahmen und die synthetischen Stimmen mit ihrer möglichen Funktion in einer konkreten Lektion in Einklang zu bringen. Die synthetischen Stimmen müssen für unsere Lernenden verlässlich wiedergeben, wie die Sprache ausgesprochen und eingesetzt wird. Es gibt Fälle, in denen gleich geschriebene Wörter je nach Kontext verschieden ausgesprochen werden. Ein Beispiel ist im Englischen das Wort "read" in dem Satz „I read the book.“ In einer Lektion, in der die Gegenwartsform behandelt wird („I read the book [every night before bed].“) muss das Wort anders ausgesprochen werden als in einer Lektion über die Vergangenheitsform („I read the book [last summer]."). Eine weitere Herausforderung lag darin, in verschiedenen Satztypen den richtigen Rhythmus und die richtige Intonation zu erzielen. Im Englischen hebt und senkt sich die Stimme auf eine ganz bestimmte Weise. Je nachdem, was für eine Art Frage wir stellen, ändert sich dies jedoch. Beispielsweise hat die Frage: „Do you want to go?“ einen anderen Rhythmus als die Frage „Where do you want to go?“ Unsere synthetischen Stimmen sind nur so gut wie die Sprechbeispiele, mit denen wir das System füttern. Daher arbeiteten unsere Sprachexperten und Ingenieure zusammen und gaben dem System Hinweise und korrigierten es, wo dies erforderlich war.

Ausblick

In unseren Englischkursen hören die Lernenden in den Lektionen inzwischen die Stimmen aller Figuren! Und wenn du auf Duolingo mehrere Sprachen lernst, dann hörst du unsere Figuren in den verschiedensten Interpretationen!