Ferramenta de IA tenta antecipar falhas em estudos científicos, mas acerto ainda é limitado

Cientistas ligados ao projeto Systematizing Confidence in Open Research and Evidence (Score), financiado pela Agência de Projetos de Pesquisa Avançada de Defesa dos Estados Unidos (Darpa), divulgaram uma série de trabalhos que avaliam a capacidade de sistemas de inteligência artificial preverem se estudos científicos resistem a tentativas de replicação.

Iniciado em 2019, o Score envolveu 865 pesquisadores que analisaram 3.900 artigos publicados entre 2009 e 2018 em áreas como criminologia, economia, psicologia e sociologia. A equipe replicou 164 desses estudos; apenas cerca da metade apresentou resultados compatíveis com os originais.

Origem da iniciativa

A ideia partiu de Adam Russell, então gerente de programa da Darpa, que propôs criar uma espécie de “pontuação de crédito” para avaliar a robustez de descobertas científicas. Hoje na Universidade do Sul da Califórnia, Russell afirma que tal índice permitiria distinguir pesquisas confiáveis de aquelas que merecem cautela.

O Score é liderado por Brian Nosek, diretor executivo do Center for Open Science, da Universidade da Virgínia. Segundo ele, os algoritmos já “captam algum sinal”, mas ainda carecem de precisão para uso isolado na tomada de decisões.

Dificuldades de replicação

Para verificar a reprodutibilidade, membros do consórcio refizeram experimentos com voluntários ou reanalisaram bases de dados públicas. Em 143 artigos, utilizaram o código original fornecido pelos autores: 9% apresentaram resultados totalmente diferentes e 14% chegaram a valores apenas aproximados. Quando foi necessário reescrever o código, a coincidência com os achados originais caiu para menos da metade.

Resultados semelhantes já haviam sido observados por outros projetos. Nos anos 2010, Nosek e colaboradores replicaram 100 artigos de psicologia e confirmaram apenas 39%; em outro esforço, menos da metade de 50 experimentos oncológicos se manteve.

Ferramenta de IA tenta antecipar falhas em estudos científicos, mas acerto ainda é limitado - Imagem do artigo original

Imagem: Internet

IA x especialistas humanos

Os algoritmos treinados com o banco de dados do Score conseguiram prever a replicação com desempenho superior ao acaso, mas ainda insuficiente, de acordo com os autores. Paralelamente, centenas de especialistas humanos foram convidados a fazer a mesma estimativa em 132 artigos e acertaram cerca de 75% das vezes.

Para Dorothy Bishop, psicóloga da Universidade de Oxford não envolvida no projeto, a escala do Score é inédita e pode revelar pistas importantes sobre como fortalecer o processo científico. Já Melanie Mitchell, pesquisadora do Instituto Santa Fe, lembra que replicar trabalhos consome tempo e recursos, além de enfrentar resistência de periódicos, pouco dispostos a publicar estudos de confirmação.

Apesar dos obstáculos, os coordenadores do Score afirmam que o banco de dados construído ao longo do projeto deve servir de base para novos avanços em métodos de verificação automática e para aprimorar práticas de transparência, como divulgação de dados e códigos.

Com informações de Folha de S.Paulo