Desempenho do ChatGPT está piorando com o tempo, afirma um novo estudo

O chatbot de inteligência artificial ChatGPT da OpenAI parece estar tornando-se mais impreciso com o passar do tempo e os pesquisadores não conseguem descobrir o motivo.

Em um estudo realizado em 18 de julho, pesquisadores de Stanford e da Universidade da Califórnia em Berkeley descobriram que os modelos mais recentes do ChatGPT se tornaram muito menos capazes de fornecer respostas precisas a uma série idêntica de perguntas no período de alguns meses.

Os autores do estudo não conseguiram fornecer uma resposta clara sobre o motivo da deterioração dos recursos do chatbot de IA.

Para testar o grau de confiabilidade dos diferentes modelos do ChatGPT, os pesquisadores Lingjiao Chen, Matei Zaharia e James Zou pediram aos modelos ChatGPT-3.5 e ChatGPT-4 que resolvessem uma série de problemas de matemática, respondessem a perguntas delicadas, escrevessem novas linhas de código e conduzissem o raciocínio espacial a partir de instruções pré-determinadas.

We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023

Avaliamos o comportamento do #ChatGPT ao longo do tempo e descobrimos diferenças substanciais em suas respostas às *mesmas perguntas* entre a versão de junho e as versões de março do GPT4 e GPT3.5 . As versões mais recentes se saíram piores em algumas tarefas. com Lingjiao Chen @matei_zaharia

— James Zou (@james_y_zou)

De acordo com a pesquisa, em março, o ChatGPT-4 foi capaz de identificar números primos com uma taxa de precisão de 97,6%. No mesmo teste realizado em junho, a precisão do GPT-4 caiu para apenas 2,4%.

Em contrapartida, o modelo anterior GPT-3.5 melhorou a identificação de números primos no mesmo período.

Quando se tratou de gerar novas linhas de códigos, as habilidades de ambos os modelos se deterioraram substancialmente entre março e junho.

O estudo também descobriu que as respostas do ChatGPT a perguntas delicadas – com alguns exemplos mostrando um foco em questões étnicas e de gênero – mais tarde se tornaram mais concisas em suas recusas a responder.

As iterações anteriores do chatbot apresentavam uma extensa justificativa para o fato de não poderem responder a determinadas perguntas sensíveis. Em junho, no entanto, os modelos simplesmente pediam desculpas ao usuário e se recusavam a responder.

"O comportamento do 'mesmo' serviço [modelo de linguagem grande] pode mudar substancialmente em um período de tempo relativamente curto", escreveram os pesquisadores, observando a necessidade de monitoramento contínuo da qualidade dos modelos de IA.

Os pesquisadores recomendaram que os usuários e as empresas que dependem de serviços de LLM como parte de seus fluxos de trabalho implementem alguma forma de análise de monitoramento para garantir que o chatbot permaneça atualizado.

Em 6 de junho, a OpenAI revelou planos para criar uma equipe que ajudará a gerenciar os riscos que poderiam surgir de um sistema de IA superinteligente, algo que a empresa espera que possa ocorrer dentro de uma década.

Colecione este artigo como um NFT para preservar esse momento da história e mostrar seu apoio ao jornalismo independente no espaço cripto.

LEIA MAIS