Certifique o seu inglês com o Duolingo English Test! O nosso teste online é aceito por milhares de universidades em todo o mundo e pode ser feito onde e quando você quiser.

Cinco anos atrás, lançamos o primeiro teste de alto impacto inteiramente digital que poderia ser feito a qualquer hora e em qualquer lugar do mundo, pois vimos como a tecnologia poderia melhorar radicalmente a avaliação para estudantes e instituições. Nesta série de cinco partes, abordamos toda a pesquisa e desenvolvimento que foram necessários para reinventar o universo dos testes de alto impacto.

Oportunidades iguais

Todos concordamos que testes têm que ser justos. Mas o que isso realmente significa? De forma simplificada, um teste justo oferece a todos os candidatos uma chance igual de demonstrar a sua capacidade, habilidade ou proficiência no “construto” (como chamado pelos cientistas da área de avaliação) que ele mede.

Em qualquer teste de idiomas, fatores como idade, gênero e nacionalidade têm o potencial de afetar o desempenho individual devido à diferença de familiaridade com as normas culturais, assuntos e vocabulário que compõem os “itens” do exame — ou seja, as perguntas, tarefas e enunciados respondidos pelos candidatos.

Se pessoas com o mesmo nível de proficiência não tiverem a mesma probabilidade de ir bem em um teste, pode ser que ele tenha um viés de aferição (ou de avaliação): alguma coisa no exame pode dar uma vantagem injusta a determinados candidatos.

Por exemplo, candidatos da Índia em geral têm mais familiaridade com o críquete do que candidatos de vários países europeus. Assim, eles provavelmente podem falar mais ao descrever uma figura ou responder a um enunciado sobre esse esporte, mesmo descontadas as diferenças de proficiência em língua inglesa.

Isso não quer dizer que fatores como familiaridade cultural sempre levem ao viés de aferição, mas sim que podem levar. Como o Duolingo English Test é realizado por candidatos de todo o mundo (atualmente 207 países e territórios, e esse número só cresce!), é importante garantir que diferenças de contexto cultural e principal idioma falado não interfiram nas chances de sucesso de cada um.

A personagem Lili, do Duolingo, escreve em um caderno e olha para o personagem Óscar, à sua direita, que olha para Lili e segura um maço de folhas de papel com sinais de certo. Há uma estrela em uma delas e outras caindo do maço. Ambos os personagens sorriem satisfeitos e, com a mão livre, fazem o sinal de aprovação com o polegar para cima.

O que é DIF?

Antes de ser adicionado ao banco de itens do Duolingo English Test, cada exercício passa por um processo rigoroso de revisão, no qual os nossos cientistas avaliam se ele é justo e se apresenta algum viés. Entretanto, os seres humanos não são perfeitos. Por mais que queiramos ser objetivos, cada um tem seus próprios vieses, mesmo os especialistas!

Para confirmar que os itens que acreditamos serem justos não são afetados por fatores além da proficiência no idioma, os nossos cientistas de avaliação também os analisam após o teste ser aplicado. Para isso, usam algo chamado “funcionamento diferencial dos itens”, ou DIF (do inglês “differential item functioning”): evidências de que diferentes grupos de indivíduos têm diferentes probabilidades de responder a um item da forma correta, mesmo quando o grau de proficiência deles em inglês é igual (indicado pela pontuação geral).

Por décadas, o segmento de testes utilizou o DIF da seguinte forma: em cada item, para candidatos com a mesma pontuação, era observado se a distribuição das respostas podia ser afetada por fatores como idade, nacionalidade e idioma nativo. Esses grupos eram analisados um por vez, independentemente das outras variáveis em análise.

Mas sabemos que não é assim que o mundo funciona. As pessoas variam em uma infinidade de dimensões para além da proficiência (como o idioma principal que elas falam e o seu interesse em críquete), além de pertencer ao mesmo tempo a várias categorias demográficas. Portanto, avaliar apenas uma variável na análise do DIF, mesmo que seja melhor do que nada, não fornece uma perspectiva global, e algum viés de aferição ainda pode passar despercebido.

Cinco personagens do Duolingo tiram uma selfie. Da esquerda para a direita, estão Zari, Bia, Lili e Lucy, com a coruja Duo de asas abertas mais acima, entre Lili e Lucy. Zari é quem segura o celular com a mão direita para tirar a foto, faz biquinho e um sinal de V com o dedo indicador e médio da mão esquerda. Bia sorri e tem os braços estendidos em diagonal. Lili está com cara de tédio e braços cruzados. Lucy sorri com os olhos fechados, abraça Lili com o braço direito e faz um sinal de aprovação com o polegar da mão esquerda para cima.

O todo é maior do que a soma das partes

Nós do Duolingo sabemos que os candidatos são mais que uma coleção de variáveis demográficas. É por isso que usamos uma abordagem para a análise do DIF que é multidimensional e centrada na pessoa.

Por exemplo, a idade e o gênero podem contribuir separadamente para o viés de aferição, e diferentes combinações desses dois fatores também podem aumentar esse viés. Por isso, certos itens podem apresentar maior DIF para certas combinações de idade e gênero. Assim, ao analisar um item, observamos como a idade afeta as respostas dadas por candidatos do mesmo gênero, além de analisar como as respostas variam de acordo com o gênero em cada faixa etária.

“É uma maneira muito mais sofisticada de analisar se o teste é justo”, explica o Dr. Will Belzak, psicometrista da nossa equipe de pesquisa em avaliação, responsável pelo pioneirismo nessa nova abordagem integrativa. “Não olhamos apenas para uma dimensão isolada, mas para como várias dimensões podem interagir de formas complexas e enviesar uma questão do teste.”

Como o Duolingo English Test pode ser feito em qualquer lugar do mundo, em qualquer computador com acesso à internet, também analisamos o DIF para além das categorias demográficas tradicionais. Por exemplo, no caso de itens baseados em imagens, verificamos a variação conforme o tamanho da tela para garantir que as respostas não sejam afetadas pelo dispositivo usado para fazer o teste.

Tabela com duas colunas lado a lado. Acima da coluna da esquerda, a personagem Zari está sorrindo, de pé atrás de uma tela de computador de tamanho grande, com as mãos na borda superior dela. Acima da coluna da direita, a personagem Lili está com cara de tédio e braços cruzados, de pé atrás de uma tela de computador menor. A primeira linha da tabela tem o símbolo do Duolingo English Test, indicando a pontuação; à esquerda e à direita dele, se lê o número 125 em ambas as colunas. A segunda linha da tabela tem um sinal de seta horizontal com duas pontas, indicando tamanho; à esquerda dele se lê “Tela grande” e à direita se lê “Tela pequena”. Na terceira linha há um quadrado laranja escrito “DIF”; à esquerda dele se lê em “Pontuação no item: 0,95” em verde e com um sinal de certo, e à direita se lê “Pontuação no item: 0,15” em vermelho e com um sinal de errado.

Caso seja detectado que o índice de resposta a um item varia entre diferentes grupos de candidatos, é sinalizado o DIF nesse exercício, que é removido do banco de itens do teste para que um painel de especialistas em conteúdo possa analisá-lo mais a fundo.

Melhorando a testagem

No fim das contas, como os testes são criados por humanos, não tem como fugir completamente do viés. No entanto, com o auxílio da inteligência artificial e de métodos estatísticos, os nossos especialistas em avaliação podem detectar de forma mais sistemática se algo no teste não é justo, assim como corrigir esse problema de forma mais estratégica.

“O nosso método é muito mais sensível a pequenos efeitos do viés do que o que já foi feito no passado”, diz Belzak. “A abordagem psicométrica moderna que estamos utilizando na nossa análise do DIF é apenas uma das maneiras que usamos para melhorar a testagem.”

Para saber mais sobre a nossa abordagem para a análise do DIF, leia este artigo (em inglês) de coautoria do Dr. Will Belzak, publicado no periódico científico Psychological Methods.