Certifique o seu inglês com o Duolingo English Test! O nosso teste online é aceito por milhares de universidades em todo o mundo e pode ser feito onde e quando você quiser.
Oportunidades iguais
Todos concordamos que testes têm que ser justos. Mas o que isso realmente significa? De forma simplificada, um teste justo oferece a todos os candidatos uma chance igual de demonstrar a sua capacidade, habilidade ou proficiência no “construto” (como chamado pelos cientistas da área de avaliação) que ele mede.
Em qualquer teste de idiomas, fatores como idade, gênero e nacionalidade têm o potencial de afetar o desempenho individual devido à diferença de familiaridade com as normas culturais, assuntos e vocabulário que compõem os “itens” do exame — ou seja, as perguntas, tarefas e enunciados respondidos pelos candidatos.
Se pessoas com o mesmo nível de proficiência não tiverem a mesma probabilidade de ir bem em um teste, pode ser que ele tenha um viés de aferição (ou de avaliação): alguma coisa no exame pode dar uma vantagem injusta a determinados candidatos.
Por exemplo, candidatos da Índia em geral têm mais familiaridade com o críquete do que candidatos de vários países europeus. Assim, eles provavelmente podem falar mais ao descrever uma figura ou responder a um enunciado sobre esse esporte, mesmo descontadas as diferenças de proficiência em língua inglesa.
Isso não quer dizer que fatores como familiaridade cultural sempre levem ao viés de aferição, mas sim que podem levar. Como o Duolingo English Test é realizado por candidatos de todo o mundo (atualmente 207 países e territórios, e esse número só cresce!), é importante garantir que diferenças de contexto cultural e principal idioma falado não interfiram nas chances de sucesso de cada um.
O que é DIF?
Antes de ser adicionado ao banco de itens do Duolingo English Test, cada exercício passa por um processo rigoroso de revisão, no qual os nossos cientistas avaliam se ele é justo e se apresenta algum viés. Entretanto, os seres humanos não são perfeitos. Por mais que queiramos ser objetivos, cada um tem seus próprios vieses, mesmo os especialistas!
Para confirmar que os itens que acreditamos serem justos não são afetados por fatores além da proficiência no idioma, os nossos cientistas de avaliação também os analisam após o teste ser aplicado. Para isso, usam algo chamado “funcionamento diferencial dos itens”, ou DIF (do inglês “differential item functioning”): evidências de que diferentes grupos de indivíduos têm diferentes probabilidades de responder a um item da forma correta, mesmo quando o grau de proficiência deles em inglês é igual (indicado pela pontuação geral).
Por décadas, o segmento de testes utilizou o DIF da seguinte forma: em cada item, para candidatos com a mesma pontuação, era observado se a distribuição das respostas podia ser afetada por fatores como idade, nacionalidade e idioma nativo. Esses grupos eram analisados um por vez, independentemente das outras variáveis em análise.
Mas sabemos que não é assim que o mundo funciona. As pessoas variam em uma infinidade de dimensões para além da proficiência (como o idioma principal que elas falam e o seu interesse em críquete), além de pertencer ao mesmo tempo a várias categorias demográficas. Portanto, avaliar apenas uma variável na análise do DIF, mesmo que seja melhor do que nada, não fornece uma perspectiva global, e algum viés de aferição ainda pode passar despercebido.
O todo é maior do que a soma das partes
Nós do Duolingo sabemos que os candidatos são mais que uma coleção de variáveis demográficas. É por isso que usamos uma abordagem para a análise do DIF que é multidimensional e centrada na pessoa.
Por exemplo, a idade e o gênero podem contribuir separadamente para o viés de aferição, e diferentes combinações desses dois fatores também podem aumentar esse viés. Por isso, certos itens podem apresentar maior DIF para certas combinações de idade e gênero. Assim, ao analisar um item, observamos como a idade afeta as respostas dadas por candidatos do mesmo gênero, além de analisar como as respostas variam de acordo com o gênero em cada faixa etária.
“É uma maneira muito mais sofisticada de analisar se o teste é justo”, explica o Dr. Will Belzak, psicometrista da nossa equipe de pesquisa em avaliação, responsável pelo pioneirismo nessa nova abordagem integrativa. “Não olhamos apenas para uma dimensão isolada, mas para como várias dimensões podem interagir de formas complexas e enviesar uma questão do teste.”
Como o Duolingo English Test pode ser feito em qualquer lugar do mundo, em qualquer computador com acesso à internet, também analisamos o DIF para além das categorias demográficas tradicionais. Por exemplo, no caso de itens baseados em imagens, verificamos a variação conforme o tamanho da tela para garantir que as respostas não sejam afetadas pelo dispositivo usado para fazer o teste.
Caso seja detectado que o índice de resposta a um item varia entre diferentes grupos de candidatos, é sinalizado o DIF nesse exercício, que é removido do banco de itens do teste para que um painel de especialistas em conteúdo possa analisá-lo mais a fundo.
Melhorando a testagem
No fim das contas, como os testes são criados por humanos, não tem como fugir completamente do viés. No entanto, com o auxílio da inteligência artificial e de métodos estatísticos, os nossos especialistas em avaliação podem detectar de forma mais sistemática se algo no teste não é justo, assim como corrigir esse problema de forma mais estratégica.
“O nosso método é muito mais sensível a pequenos efeitos do viés do que o que já foi feito no passado”, diz Belzak. “A abordagem psicométrica moderna que estamos utilizando na nossa análise do DIF é apenas uma das maneiras que usamos para melhorar a testagem.”
Para saber mais sobre a nossa abordagem para a análise do DIF, leia este artigo (em inglês) de coautoria do Dr. Will Belzak, publicado no periódico científico Psychological Methods.