Microsoft está ensinando o GPT-4 a usar o Android de forma autônoma

Tornar o ChatGPT operacional de forma autônoma dentro dos limites de um sistema operacional tem se mostrado uma tarefa difícil por diversas razões, mas uma equipe composta por cientistas da Microsoft Research e da Universidade de Pequim pode ter descoberto o ingrediente secreto.

A equipe conduziu um estudo para determinar por que modelos de linguagem de inteligência artificial (IA) de grande porte, como o GPT-4, falham em tarefas que exigem a manipulação de um sistema operacional.

Sistemas de última geração, como o ChatGPT rodando no GPT-4, estabelecem o padrão para tarefas gerativas, como redigir um e-mail ou escrever um poema. Mas fazê-los agir como agentes dentro de um ambiente geral apresenta um desafio significativo.

Tradicionalmente, os modelos de IA são treinados para explorar através de aprendizado por reforço em um ambiente virtual. Desenvolvedores de IA usaram versões modificadas de jogos populares como Super Mario Bros. e Minecraft para "ensinar" aos modelos conceitos como exploração autoguiada e busca de objetivos.

Mas os sistemas operacionais são um playground completamente diferente para os modelos de IA. Como agentes, executar funções dentro de um OS muitas vezes se apresenta como um desafio multimodal que exige a troca de informações entre diferentes componentes, programas e aplicativos.

De modo geral, a abordagem de treinamento por reforço requer tentativa e erro. No entanto, como qualquer um que digitou sua senha incorretamente muitas vezes, ou esqueceu quais atalhos funcionam em quais aplicativos sabe, dados podem facilmente ser perdidos ao usar tal abordagem em um ambiente de sistema operacional.

Os pesquisadores trabalharam com vários LLMs, incluindo o Llama2 70B de código aberto da Meta e o GPT-3.5 e GPT-4 da OpenAI. De acordo com a pesquisa, nenhum deles se saiu particularmente bem.

De acordo com o artigo da equipe, isso ocorre porque o desafio atualmente excede as capacidades da IA de hoje:

“Em primeiro lugar, o espaço de ação é vasto e dinâmico. ... Em segundo lugar, as tarefas do mundo real frequentemente requerem cooperação entre aplicações, exigindo planejamento previdente dos agentes LLM. Terceiro, os agentes precisam identificar soluções ótimas alinhadas com as restrições do usuário, como preocupações de segurança e preferências.”

Para que os pesquisadores descobrissem uma maneira de superar esses desafios, eles primeiro tiveram que entender por que os LLMs falharam em manipular sistemas operacionais quando alguns modelos de IA eram capazes de façanhas sobre-humanas, como vencer todos os adversários no xadrez e no Go.

A equipe desenvolveu um ambiente de treinamento inovador chamado AndroidArena que permitiu aos LLMs explorar um ambiente semelhante ao sistema operacional Android. Em seguida, após criar tarefas de teste e um sistema de benchmark, eles identificaram a falta de quatro capacidades-chave como responsáveis: compreensão, raciocínio, exploração e reflexão.

Embora o escopo do trabalho tenha sido especificamente destinado a cobrir a identificação do problema, durante o processo de pesquisa, a equipe realmente identificou um método "simples" para aumentar a precisão de um modelo em 27%.

Essencialmente, a equipe instruiu o modelo com informações automatizadas relacionadas ao número de tentativas que havia feito anteriormente e o que havia tentado durante essas tentativas. Isso abordou o problema da falta de "reflexão" ao incorporar de certa forma a memória nos prompts usados para ativá-lo.

Esta linha de pesquisa pode se mostrar significativa na busca para construir um assistente de IA melhor.

VEJA MAIS: