¡Certifica tu inglés con el DET! Nuestro examen en línea es aceptado por miles de universidades en todo el mundo. Además, puedes completarlo donde quieras y cuando quieras.

Hace 5 años, lanzamos el primer examen de alto rendimiento desarrollado para el ámbito digital, que puede ser completado en cualquier momento o lugar del mundo, porque vimos cómo la tecnología podía mejorar radicalmente la evaluación tanto para los estudiantes como para las instituciones. En esta serie de cinco partes, haremos un recorrido por la gran cantidad de estudios y desarrollos que atravesamos y que nos permitieron reinventar el mundo de los exámenes de alto rendimiento.

Un trato justo

Todos estamos de acuerdo en que los exámenes tienen que ser justos, pero…¿a qué nos referimos con eso? En pocas palabras, un examen es justo cuando da a todos los candidatos las mismas oportunidades para que demuestren su habilidad, destreza o dominio en lo que los científicos de la evaluación llaman el “constructo”, aquello que se espera que el examen mida.

En todos los exámenes de idiomas, factores como la edad, el género o la nacionalidad pueden afectar el desempeño de los individuos a causa de los diferentes grados de familiaridad con las normas culturales, los temas y el vocabulario que conforman los “items” del examen (es decir, las preguntas, ejercicios y enunciados a los que debe responder el candidato).

Si personas con un nivel similar de dominio no tienen las mismas probabilidades de dar lo mejor de sí en el examen, esto podría producir sesgos en las mediciones, al haber algo en el examen que otorgue una ventaja injusta a determinadas personas.

Por ejemplo, en promedio, los candidatos de India saben más sobre el críquet que los candidatos de la mayoría de los países Europeos. Por eso, es más probable que un candidato de India tenga más para decir en una pregunta que hable sobre críquet o al describir una imagen sobre este deporte (incluso al tener en cuenta las diferencias con el dominio del inglés).

Esto no significa que factores como la familiaridad cultural siempre conduzcan a la parcialidad en las mediciones, pero en algunos casos puede suceder. Dado que millones de personas en todo el mundo eligen el Duolingo English Test (en 207 países y territorios, ¡y contando!), es importante que nos aseguremos que factores como el bagaje cultural o la lengua materna no interfieran con las posibilidades de cada persona de tener éxito en el examen.

Imagen de Lily escribiendo en un libro. Detrás de ella está Óscar, quien muestra unas hojas con marcas de verificación y enseña a Lily un pulgar hacia arriba. Ambos están sonriendo.

¿Qué es el DIF?

Antes de que un ítem sea añadido a la lista de ítems del Duolingo English Test, debe atravesar un riguroso proceso de revisión en el que nuestros científicos de la evaluación evalúan si es justo e imparcial. Sin embargo, los humanos no somos perfectos y, sin importar qué tan objetivos queramos ser, todos tenemos nuestros propios sesgos (¡incluso los expertos!)

Para verificar que los ítems que consideramos justos no sean afectados por otros factores más allá del dominio de idiomas, nuestros científicos de la evaluación también analizan los ítems después de que el examen es completado para conocer el “Funcionamiento Diferencial de los ítems” (o DIF, por su sigla en inglés): pruebas de que distintos grupos de personas tienen una propensión diferente a responder correctamente a un ítem, incluso cuando su nivel de dominio del inglés (según determinan sus resultados totales) es el mismo.

Durante décadas, la industria de los exámenes abordó el DIF a través de la revisión de ítems individuales para determinar si, para los candidatos con los mismos resultados, la distribución de respuestas había sido afectada por factores como la edad, nacionalidad e idioma nativo. Estos grupos son analizados uno a la vez, independientemente de las otras variables que están siendo examinadas.

Sin embargo, sabemos que el mundo no funciona de esta forma: las personas son diferentes en un número infinito de dimensiones más allá del dominio del inglés (como su primer idioma o su interés en el críquet) y pertenecen a múltiples categorías demográficas en simultáneo. Por eso, enfocarse en una sola variable para analizar el DIF, si bien es mejor que nada, no permite observar la situación en su totalidad y podría provocar que ciertos sesgos en la medición pasen desapercibidos.

Zari, Bea, Lily, Duo y Lucy están tomándose una selfie.

Mucho más que la suma de las partes

En Duolingo sabemos que cada candidato es más que una colección de variables demográficas. Por eso, utilizamos un enfoque multidimensional, que pone a las personas en el centro, para analizar el DIF.

Por ejemplo, la edad y el género pueden contribuir al sesgo en la medición de forma separada y distintas combinaciones de edades y géneros pueden contribuir a ese sesgo. A causa de eso, algunos ítems del examen pueden resultar en un mayor DIF para ciertas combinaciones de edad y género. Por eso, en nuestro análisis de DIF, prestamos atención a cómo la edad afecta la respuesta de ítems para candidatos del mismo género, así como también analizamos cómo varían las respuestas para los diferentes géneros en cada grupo etario.

“Es una forma mucho más sofisticada de analizar qué tan justo es el examen”, explica el Dr. Will Belzak, un psicometrista en nuestro equipo de Investigación de evaluación que impulsó este nuevo enfoque integrador. “No estamos observando una única dimensión aislada por su sí sola: estamos observando cómo múltiples dimensiones pueden interactuar en formas complejas para generar un sesgo en una pregunta del examen”.

Dado que el Duolingo English Test puede ser completado en cualquier lugar del mundo desde cualquier computadora con conexión a Internet, también analizamos el DIF más allá de las categorías demográficas tradicionales; por ejemplo, al evaluar ítems basados en imágenes para ver su variación entre exámenes completados desde pantallas de diferentes tamaños, para asegurarnos que las respuestas a los ítems no se vean afectadas por el dispositivo que usa cada candidato.

Imagen de Zari y Lily. Zari está sobre un monitor grande, mientras que Lily está sobre un monitor pequeño. Un cuadro abajo muestra que aunque ambas obtuvieron un resultado de 125 en el DET, el DIF de Zari indica una puntuación de cada ítem de 0.95, mientras que el DIF de Lily indica una puntuación de cada ítem de 0.15.

Si detectamos que la tasa de respuesta de un ítem varía entre diferentes grupos de candidatos, el ítem es marcado por el DIF y es removido del conjunto de ítems del examen para que el panel de expertos en contenido puedan analizarlo en detalle.

Mejorando la forma de evaluar

Al final, ya que los exámenes son creados por seres humanos, no hay forma de evitar la imparcialidad por completo. Pese a esto, al utilizar la IA y diversos métodos de estadística, nuestros expertos en evaluación pueden detectar de una forma más sistemática donde un examen no es justo y pueden solucionar el problema de forma más estratégica.

“Nuestro método percibe mucho mejor los efectos más pequeños de la imparcialidad en comparación con los métodos utilizados en el pasado”, dice Belzak. “El enfoque psicométrico moderno que estamos aplicando a nuestro análisis del DIF es solo una de las formas en las que estamos mejorando nuestra forma de evaluar”.

Para saber más sobre nuestro enfoque al análisis del DIF, consulta este artículo publicado en Psychological Methods y del que el Dr. Will Belzak es coautor