Hol dir mit dem Duolingo English Test ein Zertifikat für deine Englischkenntnisse. Unser Online-Test wird von Tausenden Universitäten weltweit anerkannt. Du kannst ihn absolvieren, wo und wann immer du willst.

Vor fünf Jahren haben wir den ersten offiziellen, komplett digitalen Test ins Leben gerufen, der jederzeit und überall auf der Welt absolviert werden kann, da wir erkannt hatten, wie die Technologie die Durchführung von Tests für Schüler und Institutionen radikal verbessern kann. In dieser fünfteiligen Reihe (Artikel auf Englisch) werfen wir einen Blick zurück auf den enormen Forschungs- und Entwicklungsaufwand, der nötig war, um die Welt der standardisierten Leistungstests neu zu erfinden.

Eine faire Sache

Wir sind uns alle einig, dass Prüfungen fair sein sollten. Aber was bedeutet das eigentlich? In einfachen Worten ausgedrückt: Ein fairer Test gibt allen Testteilnehmenden die gleiche Chance, ihre Fertigkeiten oder Kenntnisse unter Beweis zu stellen, die der Test messen soll – was Bewertungsexperten als “Konstrukt” bezeichnen.

Bei jedem Sprachtest können Faktoren wie Alter, Geschlecht oder Nationalität das Abschneiden der Teilnehmenden beeinflussen, da diese in unterschiedlichem Maße vertraut sind mit den kulturellen Normen, den Inhalten und dem Wortschatz in den Fragen, Aufgaben oder Anweisungen des Tests.

Wenn Personen mit dem gleichen Kenntnisniveau nicht die gleiche Wahrscheinlichkeit haben, in einem Test gut abzuschneiden, könnte eine Bewertungsverzerrung vorliegen: Eine bestimmte Komponente des Tests verschafft manchen Testteilnehmenden möglicherweise einen unfairen Vorteil.

So sind z. B. indische Testteilnehmende im Durchschnitt besser mit Kricket vertraut (Artikel auf Englisch) als Teilnehmende aus manchen europäischen Ländern. Daher können Testteilnehmende aus Indien möglicherweise bei einer Bildbeschreibung oder einer Aufgabe über Kricket mehr sagen als andere – selbst, wenn man die Unterschiede in den Englischkenntnissen berücksichtigt.

Das heißt nicht, dass Faktoren wie kulturelle Vertrautheit mit den Testinhalten automatisch zu einer Bewertungsverzerrung führen – es kann aber vorkommen! Da der Duolingo English Test von Menschen auf der ganzen Welt absolviert wird (in 207 Ländern und Territorien, Tendenz steigend!) (Artikel auf Englisch), ist es wichtig sicherzustellen, dass Unterschiede wie der kulturelle Hintergrund oder die Erstsprache die Erfolgschancen der Teilnehmenden nicht beeinflussen.

Lilli sitzt mit einem Stift in der Hand an einem Tisch und hat vor sich ein aufgeschlagenes Buch. Oscar steht rechts hinter ihr und hält mit seiner rechten Hand zwei bestandende Tests mit Sternchen und grünen Häkchen in die Höhe. Beide strecken einen Daumen hoch und lächeln sich an.

Was ist der DIF?

Bevor eine Aufgabe zum Aufgabenpool des Duolingo English Test hinzugefügt wird, durchläuft sie einen strengen Prüfungsprozess, bei dem sie von unseren Bewertungsexperten unter den Gesichtspunkten der Fairness und möglichen Verzerrung geprüft wird. Aber kein Mensch ist perfekt – egal wie objektiv wir sein wollen, wir sind alle in mancher Hinsicht voreingenommen, sogar Experten!

Um sicherzustellen, dass die Testelemente, die wir für fair halten, nicht von Faktoren beeinträchtigt werden, die über die Sprachkenntnisse hinausgehen, analysieren unsere Experten für Testentwicklung auch nach der Testdurchführung die Elemente auf das sogenannte „Differential Item Functioning“ (DIF, deutsch: gruppenabhängiger Indikator). Dieser Indikator gibt Hinweise darauf, dass für verschiedene Personengruppen die Wahrscheinlichkeit, eine Aufgabe richtig zu beantworten, verschieden groß ist, selbst bei gleich guten Englischkenntnissen (belegt durch ihre Gesamtpunktzahl).

Jahrzehntelang bestand der Ansatz der Testbranche im Hinblick auf den DIF darin, einzelne Elemente zu untersuchen, um festzustellen, ob die Distribution der Antworten von Testteilnehmenden mit gleicher Punktzahl durch Faktoren wie Alter, Nationalität und Muttersprache beeinflusst wird. Diese Gruppen werden einzeln analysiert, unabhängig von den anderen untersuchten Variablen.

Aber wir wissen, dass die reale Welt nicht auf diese Weise funktioniert – Menschen unterscheiden sich in einer unendlichen Anzahl von Aspekten, die über die Englischkenntnisse hinausgehen (z. B. Erstsprache und Interessen wie Kricket), und sie gehören mehreren demografischen Kategorien gleichzeitig an. Eine DIF-Analyse mit nur einer Variabel ist zwar besser als gar nichts, sie erfasst aber nicht das Gesamtbild und kann dazu führen, dass einige Fälle von Messverzerrungen unbemerkt bleiben.

Sari, Bea, Lilli und Lucy, vier unserer weiblichen Charaktere mit mit unterschiedlichen ethnischen Hintergründen und aus unterschiedlichen Altersgruppen, machen zusammen mit der grünen Eule Duo ein Selfie.

Mehr als die Summe ihrer Teile

Wir bei Duolingo haben erkannt, dass Testteilnehmende mehr sind als nur eine Summe demographischer Variablen. Daher verwenden wir einen mehrdimensionalen, personenzentrierten Ansatz bei der DIF-Analyse.

So können beispielsweise Alter und Geschlecht getrennt voneinander, aber auch in verschiedenen Kombinationen zu einer Messverzerrung führen. Aus diesem Grund führen bestimmte Elemente bei bestimmten Kombinationen von Alter und Geschlecht möglicherweise zu einer größeren Abweichung des DIF. In unseren DIF-Analysen untersuchen wir daher, wie sich das Alter auf die Antworten von Testteilnehmern desselben Geschlechts auswirkt, und wir analysieren auch, wie sich die Antworten für die verschiedenen Geschlechter in jeder Altersgruppe unterscheiden.

„Das ist eine weitaus ausgefeiltere Methode, um die Fairness zu analysieren“, erklärt Dr. Will Belzak, Psychometrie-Experte in unserem Assessment Research Team, der bei diesem integrativen neuen Ansatz Pionierarbeit geleistet hat. „Wir betrachten nicht nur eine einzelne Dimension separat, sondern untersuchen, wie mehrere Dimensionen auf komplexe Weise zusammenwirken und so die Antworten beeinflussen und verzerren können.“

Da der Duolingo English Test überall auf der Welt auf jedem beliebigen Computer mit Internetverbindung absolviert werden kann, analysieren wir den DIF auch über die klassischen demografischen Kategorien hinaus. Wir überprüfen beispielsweise bildbasierte Elemente auf Geräten mit unterschiedlichen Bildschirmgrößen, um sicherzustellen, dass die Antworten nicht von der Bildschirmgröße der Testteilnehmer beeinflusst werden (Artikel auf Englisch).

Sari steht auf der linken Seite hinter einem großen Bildschirm, Lilli rechts daneben hinter einem kleineren. Unter ihnen wird eine Tabelle angezeigt. Ganz oben steht bei beiden das Testergebnis mit 125 Punkten. Darunter folgt bei Sari „großer Bildschirm“, bei Lilli „kleiner Bildschirm“. In der letzten Zeile steht bei Sari in grüner Schrift und mit einem grünen Haken davor „Punktzahl: 0,95“. Unter Lilli steht in roter Schrift: „Punktzahl: 0,15 x“.

Wenn wir feststellen, dass bei einer Testaufgabe die Antwort über verschiedene Gruppen von Testteilnehmenden hinweg stark variiert, wird diese Testaufgabe als problematisch bezüglich des DIF gekennzeichnet und aus dem Aufgabenpool entfernt, damit ein Gremium von Inhaltsexperten sie weiter analysieren kann.

Besser testen

Da die Tests letztendlich von Menschen konzipiert werden, ist eine Verzerrung nie gänzlich auszuschließen. Durch den Einsatz von KI und statistischen Methoden können unsere Experten für Testentwicklung jedoch systematischer bei der Identifizierung von Unfairness vorgehen und strategisch effektiver korrigieren.

„Unsere Methode reagiert viel sensibler auf kleinere Verzerrungseffekte als die bisherigen Verfahren“, erläutert Belzak. „Der moderne psychometrische Ansatz, den wir bei unserer DIF-Analyse verfolgen, ist nur eine der Möglichkeiten, wie wir Testverfahren verbessern können.“

Mehr Informationen über unseren Ansatz zu DIF-Analysen findest du in diesem von Dr. Will Belzak mitverfassten Artikel (auf Englisch), der in Psychological Methods veröffentlicht wurde.