Chatbots médicos de IA mais atrapalham que ajudam pacientes, diz estudo

Chatbots médicos de IA: mais problemas que soluções, segundo estudo

Hospitais e sistemas de saúde ao redor do mundo estão adotando inteligência artificial baseada em modelos de linguagem como uma "porta de entrada" para o atendimento médico. Esses chatbots são utilizados para esclarecer dúvidas sobre sintomas antes que o paciente consulte um profissional.

As instituições justificam essa prática com o desempenho impressionante das IAs em exames semelhantes aos que estudantes de medicina enfrentam, onde elas acertam mais de 90%. Essa taxa de acerto gerou entusiasmo, levando muitos a enxergarem uma oportunidade de reduzir custos ao democratizar o acesso à saúde.

Entretanto, a alta performance em testes não garante eficácia em situações reais, como aponta um estudo da Universidade de Oxford e da organização MLCommons. Publicado na Nature Medicine, o trabalho é considerado o maior sobre o uso de grandes modelos de linguagem em decisões médicas e conclui que as IAs ainda não estão preparadas para orientar o público sobre saúde.

Os pesquisadores avaliaram se a assistência de LLMs ajudava leigos a identificar problemas de saúde e a decidir quando buscar atendimento médico. Três problemas principais foram destacados: comunicação incompleta dos sintomas, respostas inconsistentes das IAs e baixa adesão às recomendações, mesmo quando corretas.

Para a pesquisa, 1.298 pessoas no Reino Unido foram divididas em grupos que interagiram com diferentes LLMs — como GPT-4, Llama 3 ou Command R+ — ou com uma fonte de sua escolha. O estudo foi pré-registrado, evitando vieses.

Os participantes não avaliaram seus próprios sintomas, mas receberam cenários fictícios elaborados por médicos, como "uma pessoa de 20 anos com dor de cabeça súbita". Aqueles que usaram os chatbots tentaram identificar a condição médica com base nos sintomas apresentados, considerando opções como cuidados pessoais, consultas médicas ou urgências.

No total, foram dez cenários clínicos, com respostas corretas definidas por um consenso médico. No entanto, aqueles que utilizaram LLMs não obtiveram decisões melhores do que os que consultaram o Google ou outras fontes.

Embora a IA tenha identificado condições corretamente em 95% dos casos e sugerido o nível de urgência certo em 56%, apenas 34% dos usuários conseguiram identificar as condições corretas e 44% acertaram na urgência ao usar a IA.

O estudo revelou um paradoxo inquietante: o problema não é a taxa de acerto da IA, mas a discrepância entre essa performance e o uso real. Aqueles que confiaram nos LLMs tomaram decisões piores do que se tivessem utilizado apenas o Google ou seu julgamento pessoal.

Os autores afirmam que o desafio está na natureza das IAs conversacionais, que oferecem respostas misturadas de acertos e erros, transferindo a responsabilidade para usuários leigos. Essa falsa sensação de segurança pode levar a confusões e à subestimação de urgências, como demonstrado em um caso onde a IA sugeriu "descansar em quarto escuro" em vez de buscar emergência para sintomas de hemorragia cerebral.

A médica e coautora do estudo, Dra. Rebecca Payne, enfatiza a complexidade de construir sistemas de IA que realmente possam ajudar em áreas sensíveis como a saúde. Ela destaca que pacientes com sintomas semelhantes receberam orientações divergentes, sugerindo falhas na compreensão contextual dos LLMs. "Apesar de todo o hype, a IA simplesmente não está pronta para assumir o papel do médico", conclui Payne.

← Voltar para as notícias