Cinco anos atrás, lançamos o primeiro teste de alto impacto inteiramente digital que poderia ser feito a qualquer hora e em qualquer lugar do mundo, pois vimos como a tecnologia poderia melhorar radicalmente a avaliação para estudantes e instituições. Nesta série de cinco partes, abordamos toda a pesquisa e desenvolvimento que foram necessários para reinventar o segmento dos testes de alto impacto.

Testes de alto impacto podem ser estressantes, até mesmo desanimadores. No Duolingo, acreditamos que o conteúdo de um exame deve ser desafiador, mas a experiência de realizá-lo, não. É por isso que projetamos o Duolingo English Test para se adaptar rapidamente ao nível de aprendizado dos candidatos, evitando conteúdo que provavelmente seria muito difícil — ou muito fácil.

Continue a ler para saber mais sobre como a nossa equipe de especialistas em ciência da avaliação e processamento de linguagem natural trabalhou em conjunto com os nossos engenheiros de aprendizado de máquina para criar um teste rigoroso, capaz de determinar a proficiência em inglês de maneira muito mais eficiente (ou seja, em muito menos tempo) do que um exame tradicional com número fixo de itens (questões).

Testes com número fixo de itens não são flexíveis

A proficiência em um idioma é um espectro que vai do básico ao avançado. O objetivo de um exame de proficiência é avaliar onde os candidatos se encaixam nesse espectro. Para isso, observa-se como eles respondem às questões e fazem as tarefas (ambas chamadas de “itens” pelos pesquisadores), que variam das mais simples às mais desafiadoras.

Uma das razões pelas quais os testes de proficiência tradicionais levam tanto tempo para serem concluídos (cerca de 3 horas em média) é que eles têm um número fixo de itens: esses itens são pré-determinados antes de o exame começar, sem conhecimento prévio sobre a habilidade linguística dos candidatos. Depois de avaliar as respostas dadas a itens de todos os níveis de proficiência, o teste coloca os candidatos em uma escala. Para que um exame de formato fixo possa fazer isso, ele precisa incluir itens de todos esses níveis.

Nesse modelo de número fixo de itens, os candidatos acabam respondendo a itens que não são “informativos” — isto é, a resposta não contribui de modo significativo para estimar a proficiência verdadeira. Um falante avançado de inglês pode até responder corretamente a muitas questões simples, mas isso não será tão útil para mensurar a sua habilidade de forma precisa. Já no caso de um completo iniciante, tentar adivinhar a resposta de questões avançadas é uma perda de tempo.

Sabíamos que havia um jeito melhor de lidar com isso, então a nossa equipe de especialistas em avaliação, processamento de linguagem natural e aprendizado de máquina arregaçou as mangas para desenvolver um teste adaptativo computadorizado que leva uma hora para ser concluído — um pioneiro no mercado de avaliação da língua inglesa.

TACs são ágeis e rápidos

Um teste adaptativo computadorizado (TAC) é justamente o que esse nome indica: adaptativo. Durante a realização do exame, os itens exibidos são determinados pelas respostas dadas aos itens anteriores. Isso significa que os candidatos não perdem tempo com questões que estão muito acima ou muito abaixo do seu nível de proficiência. Comparados aos exames com número fixo de itens, os TACs, como o Duolingo English Test, levam menos tempo para serem concluídos porque são necessários muito menos itens para posicionar os candidatos na escala de proficiência de maneira precisa. Assim, se um candidato acertar uma questão de leitura, ele receberá uma tarefa mais desafiadora, talvez de fala. Se não se sair tão bem em um item, o próximo será um tanto mais fácil.

Os itens do teste são selecionados em tempo real de forma adaptativa.

Então, como um TAC realmente funciona? Tudo começa com o banco de itens — a coleção de questões na qual o algoritmo se baseia para gerar cada teste individual. Os nossos especialistas em processamento de linguagem natural e engenheiros de aprendizado de máquina potencializaram a inteligência artificial com o sistema human-in-the-loop para criar um banco com dezenas de milhares de itens. Mas como isso é feito?

Primeiro, coletamos palavras e textos em inglês para os quais especialistas no assunto já haviam atribuído um valor no Quadro Comum Europeu de Referência para línguas (CEFR, na sigla em inglês). O CEFR é um padrão internacional que descreve a habilidade linguística em uma escala de seis níveis que vão do A1 (básico) ao C2 (proficiente).

Depois, analisamos essas palavras e textos para determinar quais características linguísticas faziam com que eles tivessem mais chances de cair em diferentes níveis do CEFR. Por exemplo, a linguagem mais simples na frase I took a test (“eu fiz um teste”) faz com que ela seja do nível A1, enquanto I elected to take a computer adaptive test (“eu optei por fazer um teste adaptativo computadorizado”) usa linguagem mais avançada, dos níveis B e C. Com base nessa análise, os nossos modelos de aprendizado de máquina se tornaram capazes de gerar novos itens de teste que abrangem toda a extensão do CEFR, para avaliar candidatos de todos os níveis de proficiência.

Conforme os candidatos realizam o exame, os itens que vão sendo exibidos pertencem ao nível que o algoritmo acredita retratar melhor a sua habilidade, com base nas respostas dadas aos itens anteriores. Quanto mais itens são respondidos, melhor o algoritmo fica em estimar a proficiência verdadeira dos candidatos. Como esses itens são selecionados em tempo real a partir do nosso banco, que contém dezenas de milhares de itens, nunca haverá dois testes idênticos, o que significa que é impossível obter as respostas antecipadamente.

Uma distribuição saudável

Ser adaptativo significa que, comparado a um exame com número fixo de itens, o Duolingo English Test requer muito menos tempo para determinar o nível de proficiência dos candidatos — a maioria das pessoas termina a prova em menos de uma hora. Por causa disso e do fato de encontrarem poucos itens muito acima ou abaixo do seu nível de proficiência, os candidatos podem sentir que o teste é menos estressante e talvez até mais fácil do que um exame mais longo com número fixo de itens.

Mas como podemos ter certeza de que o teste é rigoroso? Cientistas da avaliação usam uma série de métodos e ferramentas para assegurar que a dificuldade de um exame está em um nível adequado. Uma forma de entender isso é olhar para a distribuição das pontuações.

“Se o teste não fosse difícil o suficiente, todo mundo teria pontuações muito altas”, afirma a líder de avaliação do Duolingo English Test, Alina von Davier. “Mas não é isso que acontece. Na verdade, temos uma variação muito boa ao longo da escala. Como esperado em qualquer boa avaliação, poucos candidatos alcançam as pontuações mais altas.”

Os candidatos em primeiro lugar

A moral da história é: o nível de desafio sentido pelos candidatos em um teste vai além da mera dificuldade objetiva dos itens a que eles respondem dentro da escala CEFR. Nesse caso, a experiência dos candidatos também conta muito.

“Pensamos bastante sobre a experiência dos candidatos quando desenvolvemos o Duolingo English Test”, diz o diretor de pesquisa do Duolingo, Burr Settles. “Temos orgulho de nos centrarmos nos estudantes e sabemos que há muito em jogo no resultado desse exame de alto impacto, então queremos que ele seja o menos estressante possível.”

Os candidatos podem fazer o Duolingo English Test onde e quando se sentirem mais à vontade.

Graças ao fato de o exame ser adaptativo e computadorizado, os candidatos têm a possibilidade de escolher onde e quando realizar o Duolingo English Test — assim eles podem se concentrar em mostrar o que realmente importa: a sua proficiência em inglês. Quer saber mais sobre o modelo do Duolingo English Test? Confira o nosso guia do candidato ou leia o manual técnico para mergulhar mais fundo no assunto!