Expectativa é de que, no futuro, pedagogos e psicólogos possam criar testes menos cansativos para seus alunos e pacientes com a ajuda da estatística e da computação
Ricarte e Cúri: teste adaptativo computadorizado não é amplamente empregado no país. |
Imagine que você precisa testar o nível de conhecimento de um aluno em uma determinada língua ou avaliar o grau de intensidade dos sintomas depressivos em um paciente, por exemplo. O mais comum, nesses dois casos, é realizar uma avaliação igual para todo mundo, com uma série de questões pré-definidas que serão capazes de medir a capacidade do aluno em se comunicar naquela língua ou a gravidade daquela doença, usando papel e caneta, certo?
Agora pense em começar a usar um programa de computador na construção das suas avaliações que é capaz de, automaticamente, direcionar as questões que os alunos ou os pacientes responderão de acordo com as respostas que eles assinalaram anteriormente. A primeira grande vantagem é que você não teria um teste com um número fixo de itens iguais para todas as pessoas, as quais, por sua vez, não precisariam responder a questões inadequadas – muito fáceis ou muito difíceis para aquela pessoa. A segunda vantagem é que você poderia obter o resultado da avaliação por meio de um menor número de perguntas, o que tornaria o teste menos cansativo e desmotivador.
Pois é exatamente para que pedagogos e psicólogos possam ter em mãos um programa capaz de criar avaliações desse tipo que uma pesquisa foi recentemente realizada no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP São Carlos. O trabalho resultou na dissertação de mestrado Teste adaptativo computadorizado nas avaliações educacionais e psicológicas, defendida recentemente por Thales Ricarte sob orientação da professora Mariana Cúri.
Ricarte desenvolveu o programa Same-CAT, que possibilita a criação de um banco de questões para a realização de testes adaptativos computadorizados (TAC), nome técnico dado a esse tipo de teste capaz de direcionar questões específicas a alunos ou pacientes de acordo com as respostas assinaladas. “Um teste adaptativo computadorizado é aquele que procura otimizar o teste para cada indivíduo examinado. Para isso, a característica predominante naquele indivíduo – quer seja seu nível de conhecimento em uma determinada língua ou a gravidade de uma doença – é estimada a cada item respondido. Baseando-se nessa estimativa, o programa seleciona o próximo item que será apresentado no teste”, explicou o pesquisador.
Segundo Ricarte e Cúri, atualmente, o teste adaptativo computadorizado não é amplamente utilizado no Brasil. Eles citam como exemplo de emprego desse método o ambiente computacional de aprendizagem para o inglês instrumental (CALEAP-Web), disponibilizado no Núcleo Interinstitucional de Lingüística Computacional (NILC) do ICMC; a avaliação de proficiência em língua inglesa realizada pela Universidade de Brasília (UnB); e, no exterior, o Test of English as a Foreign Language (TOEFL).
Tela do programa Same-CAT, desenvolvido por Ricarte |
Fundamentos estatísticos
Para desenvolver o programa, em vez de empregar a teoria clássica estatística – que mede a proporção de acertos e erros em uma prova –, Ricarte optou por se basear em modelos da Teoria de Resposta ao Item (TRI). “Tratam-se de modelos que não levam em conta apenas quantos itens a pessoa acertou, mas também o nível de dificuldade de cada item”, acrescentou Cúri.
De acordo com a professora, a vantagem dessa teoria é tornar comparável o resultado obtido por indivíduos que fizeram provas parcialmente diferentes. Assim, não se corre o risco de alguém argumentar que só tirou uma nota mais baixa do que outra pessoa porque a prova que realizou estava mais difícil, já que a teoria não avalia apenas a quantidade de respostas certas, mas também o grau de dificuldade e a qualidade dos itens respondidos corretamente.
Além disso, a Teoria de Resposta ao Item possui vários modelos teóricos que podem ser adotados. Ricarte trabalhou com o modelo de Samejima em sua dissertação, o qual é mais adequado para a realização de questões compostas por mais de duas categorias de respostas. Ou seja, questões que não se restringem a alternativas do tipo “certo” e “errado”, pois admitem várias possibilidades de respostas. Em um teste psicológico, por exemplo, uma pessoa pode se deparar com uma lista de 10 sintomas e assinalar quantos estiver sentindo, de acordo com a intensidade.
Para testar o programa desenvolvido e a metodologia aplicada, Ricarte utilizou um conjunto de dados obtidos no Exame de Proficiência em Inglês do ICMC e no Inventário de Depressão de Beck, realizado no Hospital das Clínicas da Faculdade de Medicina da USP em São Paulo. Ele inseriu as questões desses testes e as respectivas respostas dadas pelos alunos e pacientes, analisando os resultados obtidos com a utilização do programa Same-CAT.
Vale ressaltar, porém, que o programa pode ser empregado para qualquer tipo de teste, não se restringindo à área de educação ou psicologia.
Caminho em construção
Ricarte alerta que, ao elaborar um questionário, pedagogos e psicólogos devem realizar pré-testes capazes de medir a qualidade dos itens propostos para a avaliação que desejam criar. Isso porque o banco de itens precisa ter qualidade e quantidade suficientes para estimar com precisão um nível de conhecimento sobre determinado assunto ou a intensidade de uma doença ou comportamento. Nesse sentido, os itens desse banco devem ser abrangentes – abarcando o maior espectro possível de conhecimentos ou sintomas – além de ter alta capacidade de diferenciar os indivíduos. Essas características dos itens são medidas por parâmetros.
No entanto, o programa desenvolvido por Ricarte não possui a funcionalidade de medir a qualidade do banco de itens inserido, identificando esses parâmetros. Dessa forma, cabe ao pedagogo ou psicólogo realizar a avaliação técnica do banco de itens, chamada de calibração, estimando os parâmetros de cada item a partir de conhecimentos estatísticos. Na maioria das vezes, essa tarefa demanda a participação de um especialista dessa área.
Pesquisas futuras poderão aprimorar o programa Same-CAT, acrescentando essa funcionalidade para estimar os parâmetros de cada item. Isso facilitaria o trabalho de inserção do banco de itens, tornando possível que um pedagogo ou psicólogo crie seu próprio teste adaptativo computadorizado com mais independência em relação a um especialista em estatística. Funcionalidades como a inserção de figuras nos enunciados das questões e nas alternativas de respostas também podem ser acrescentadas ao programa.
No momento, Ricarte está estudando alternativas para disponibilizar o programa para download gratuito via internet. O desafio é encontrar uma forma para que o usuário possa, com facilidade, instalar o Same-CAT juntamente com um software que gerencie banco de dados. A pesquisa contou com o financiamento do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).
O trabalho de Ricarte soma-se a outras pesquisas realizadas no âmbito do Laboratório de Estatística do ICMC, como a dissertação de mestrado Teoria e prática de um teste adaptativo informatizado, de Gilberto Sassi e, atualmente, a mestranda Vanessa Rufino dá andamento ao trabalho de Ricarte na busca por transformar o Exame de Proficiência em Inglês do ICMC em um teste adaptativo computadorizado. Há, ainda, a tese Desafios e perspectivas da implementação computacional de testes adaptativos multidimencionais para avaliações educacionais, de Jean Piton-Gonçalves – orientado pela professora Sandra Aluísio e co-orientado por Cúri no contexto do Núcleo Interinstitucional de Linguística Computacional (NILC).
Texto e foto: Denise Casatti, Assessoria de Comunicação do ICMC - USP São Carlos