A última atualização do OpenAI de seu modelo de linguagem de grande porte (LLM), ChatGPT 4.0, passou em um exame de neurologia clínica com 85% de respostas corretas em um estudo de prova de conceito. Os autores da pesquisa acreditam que, após alguns ajustes, os LLMs poderiam ter "aplicações significativas" na neurologia clínica.

Os resultados do experimento, conduzido por um grupo de pesquisadores do Hospital Universitário de Heidelberg e do Centro Alemão de Pesquisa do Câncer em Heidelberg, foram publicados em 7 de dezembro. O teste, realizado em 31 de maio, contou com dois LLMs, o ChatGPT 3.5 e sua versão mais recente, o ChatGPT 4.0.

Os pesquisadores usaram o banco de questões para um exame de neurologia do American Board of Psychiatry and Neurology com um pequeno grupo de questões do European Board for Neurology.

Enquanto a versão mais antiga do ChatGPT marcou 66,8%, respondendo corretamente 1306 de 1956 perguntas, o modelo mais recente, ChatGPT 4.0, alcançou 85% com 1662 respostas corretas. A pontuação média humana foi de 73,8%. O ChatGPT 4.0 superou os usuários humanos em perguntas relacionadas a comportamento, cognição e psicologia e efetivamente “passou” no exame de neurologia, já que 70% das respostas corretas são geralmente consideradas uma pontuação de aprovação em instituições educacionais.

No entanto, ambos os modelos demonstraram desempenho mais fraco em tarefas que requerem "pensamento de ordem superior" do que perguntas que exigem apenas "pensamento de ordem inferior".

De acordo com o grupo de pesquisadores que conduziu o experimento, esses resultados servem como uma recomendação para usar os LLMs na neurologia clínica após algumas modificações:

“Esses achados sugerem que, com refinamentos adicionais, modelos de linguagem de grande porte poderiam ter aplicações significativas na neurologia clínica.”

Os pesquisadores apontam que ainda existem várias reservas. Embora haja uma clara perspectiva para a aplicação dos LLMs na documentação e sistemas de apoio à tomada de decisões, os neurologistas devem ser cautelosos quanto ao seu uso na prática, pois eles ainda são imperfeitos em relação a tarefas cognitivas de ordem superior. Falando ao Cointelegraph, um dos autores do estudo, Dr. Varun Venkataramani, disse:

Vemos nosso estudo mais como uma prova de conceito para as capacidades dos LLMs. Ainda é necessário desenvolvimento e provavelmente até ajustes específicos dos LLMs para torná-los adequadamente aplicáveis ​​à neurologia clínica.

A IA já está trabalhando em algumas tarefas importantes na área da saúde, como encontrar a cura para o câncer para a AstraZeneca ou combater a superprescrição de antibióticos em Hong Kong.

VEJA MAIS: