Inteligência artificial passa em “teste final”? Banco mede nível de acerto

Banco de dados avalia inteligência artificial em teste final

Pesquisadores de mais de 40 países, incluindo contribuições do Brasil, desenvolveram um banco de dados que atua como um “teste final” para medir o progresso da inteligência artificial.

A ferramenta, chamada Humanity’s Last Exam (HLE), está acessível ao público e teve seu funcionamento publicado na revista Nature. As informações foram divulgadas pelo Jornal da USP, da Universidade de São Paulo.

O HLE contém 2.500 questões abrangendo diversas áreas do conhecimento, como matemática, ciências naturais e humanidades. Seu objetivo é avaliar de forma precisa o nível de acerto de modelos de IA, incluindo os conhecidos LLMs (modelos de linguagem de grande porte), como o ChatGPT e o Gemini.

“A proposta é criar uma ferramenta que mensure o avanço dos modelos de IA atuais”, explicou ao Jornal da USP a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação da USP em São Carlos (SP), que participou do desenvolvimento do projeto.

Ela destacou que as empresas que desenvolvem modelos de IA costumam apresentar o desempenho de suas tecnologias com base em benchmarks, que são conjuntos padronizados de problemas utilizados para testar capacidades técnicas.

“Benchmarks são coleções de problemas que visam avaliar as habilidades de um modelo. A ideia original do HLE é criar o ‘benchmark supremo’, onde alcançar quase 100% de acerto seria equivalente a realizar qualquer tarefa que um ser humano executa”, afirmou a pesquisadora.

Emily Santos também destacou que o diferencial do HLE é que todas as questões têm uma resposta única e verificável de maneira objetiva.

“Isso significa que duas pessoas especializadas em um determinado tema chegariam à mesma resposta correta. As respostas geralmente são um número inteiro ou algo facilmente verificável”, explicou.

Na prática, pesquisadores podem aplicar modelos de IA às questões do banco de dados utilizando scripts padronizados. Em seguida, a resposta gerada pelo sistema é comparada ao gabarito oficial, possibilitando o cálculo do percentual de acerto.

“Assim, você pode extrair a resposta final do texto gerado pelo LLM e verificar se a porcentagem de acertos corresponde às respostas corretas, permitindo avaliar o desempenho do modelo no teste”, detalhou a pesquisadora.

O banco de dados foi projetado para avaliar diferentes tipos de habilidades, desde conhecimentos científicos até raciocínio aplicado.

Conforme Emily, o HLE pode testar desde conhecimentos gerais e senso comum até competências mais sofisticadas, como a aplicação da equação de Schrödinger na mecânica quântica.

“O HLE também pode avaliar a agência, que é a capacidade de realizar ações no mundo.”

Ela exemplificou com uma questão que envolve dobrar um origami de tsuru, desfazer as dobras e calcular em quantas partes o papel foi dividido.

O projeto está disponível no site lastexam.ai, com a intenção de apoiar pesquisas e políticas públicas relacionadas à inteligência artificial.

Além da USP, a iniciativa conta com a colaboração do Center for AI Safety, da empresa Scale AI, ambos localizados em São Francisco, e do HLE Contributors Consortium.

← Voltar para as notícias