Dois pesquisadores da Universidade de Innsbruck, na Áustria, desenvolveram um método para determinar a capacidade de um sistema de inteligência artificial (IA) de compreender a "validade temporal", uma referência que pode ter implicações significativas para o uso de produtos de IA generativa, como o ChatGPT, no setor de finanças.
A validade temporal refere-se ao grau de relevância de uma determinada declaração em relação a outra ao longo do tempo. Essencialmente, ela se refere ao valor baseado no tempo de declarações emparelhadas. Uma IA que esteja sendo avaliada quanto à sua capacidade de prever a validade temporal receberia um conjunto de afirmações e seria solicitada a escolher a que estivesse mais intimamente relacionada ao longo do tempo.
No artigo de pesquisa publicado recentemente, intitulado "Previsão de Alteração de Validade Temporal", Georg Wenzel e Adam Jatowt usam como exemplo a afirmação de que uma pessoa declara estar lendo um livro em um ônibus.

Os pesquisadores criaram um conjunto de dados rotulados de exemplos de treinamento que, em seguida, usaram para criar uma tarefa de avaliação comparativa para modelos de linguagem grandes (LLMs). Eles escolheram o ChatGPT como um modelo básico para testes devido à sua popularidade entre os usuários finais e descobriram que ele teve um desempenho inferior por margens significativas em comparação com modelos menos gerais.
O CHATGPT está entre os modelos de menor desempenho, o que é consistente com outros estudos sobre a compreensão de TCS. Suas deficiências podem ser atribuídas à abordagem de aprendizado de poucos disparos e à falta de conhecimento sobre as características específicas do conjunto de dados."
Isso indica que as situações em que a validade temporal desempenha um papel na determinação da utilidade ou da precisão das informações geradas – como na geração de artigos de notícias ou na avaliação de mercados financeiros – provavelmente serão mais bem tratadas por modelos de IA direcionados do que por serviços mais generalistas, como o ChatGPT.
Os pesquisadores também demonstraram que experimentar a previsão de alteração de valor temporal durante o ciclo de treinamento de um LLM tem o potencial de levar a pontuações mais altas na tarefa de benchmarking de alteração temporal.
Embora o artigo não discuta especificamente as implicações além do experimento em si, uma das limitações atuais dos sistemas de IA generativa é a falta de capacidade de distinguir entre eventos passados e presentes em um corpo de literatura.
Ensinar esses sistemas a determinar as declarações mais relevantes em um corpus, com a atualidade sendo um fator determinante, poderia revolucionar a capacidade dos modelos de IA de fazer previsões sólidas em tempo real em setores de grande escala, como o mercado de criptomoedas e o de ações.
LEIA MAIS