Novo sistema Megabyte da Meta resolve um dos maiores obstáculos para GPTs

A Meta AI publicou recentemente uma pesquisa mostrando uma nova estrutura radical do “Megabyte” para a construção de sistemas geradores de transformadores pré-treinados (GPT).

Apelidada de “promissora” por Andrej Karpathy, da OpenAI, ex-diretor de inteligência artificial da Tesla, a nova arquitetura foi projetada para processar grandes volumes de dados – como imagens, romances e arquivos de vídeo – sem o uso de um processo conhecido como tokenização.

Promising. Everyone should hope that we can throw away tokenization in LLMs. Doing so naively creates (byte-level) sequences that are too long, so the devil is in the details.

Tokenization means that LLMs are not actually fully end-to-end. There is a whole separate stage with… https://t.co/t240ZPxPm7
— Andrej Karpathy (@karpathy) May 15, 2023

Promissor. Todos devem esperar que possamos descartar a tokenização em LLMs. Fazer isso ingenuamente cria sequências (nível de byte) que são muito longas, então o diabo está nos detalhes.

A tokenização significa que os LLMs não são realmente completos de ponta a ponta. Há todo um palco separado com…

— Andrej Karpathy (@karpathy)

A tokenização é um processo com perdas comparáveis à compactação de arquivos. Para processar grandes quantidades de dados, os modelos GPT convertem bytes em tokens. Os tokens são então processados pelo transformador e usados para gerar tokens de saída, que são então decodificados.

O processo de tokenização permite que um sistema de IA processe sequências maiores de dados como números. As palavras “minha cor favorita é vermelho”, se processadas pelo ChatGPT da OpenAI, por exemplo, seriam convertidas em uma sequência de tokens “3666, 4004, 3124, 318, 2266, 13” para processamento.

*Demonstração da OpenAI do processo de tokenização. Fonte: OpenAI*

Infelizmente, mesmo por meio da tokenização, a quantidade de dados que os sistemas atuais de última geração podem processar ainda tem um limite rígido. Para o GPT-3.5, o limite é de pouco mais de 4.000 tokens ou cerca de 3.000 palavras, enquanto o GPT-4 atinge o máximo de cerca de 32.000 tokens ou cerca de 24.000 palavras.

O novo sistema Megabyte da Meta abandona a tokenização em favor de uma nova arquitetura de previsão multicamada capaz de modelar de ponta a ponta mais de 1 milhão de bytes de dados.

A maioria dos sistemas de codificação padrão em inglês usa codificação padrão de 8 bits. Nesse paradigma, cada caractere ocupa um byte de dados. Portanto, um sistema de IA capaz de processar 1 milhão de bytes de dados sem tokenização poderia funcionar com documentos de texto contendo 750.000 palavras – um incremento de 3.025% em relação ao GPT-4.

Como comparação, o GPT-4 atualmente pode lidar com cerca de 10 artigos de notícias de longa duração em um único prompt, enquanto o Megabyte seria capaz de analisar a totalidade de "Guerra e Paz" de Leo Tolstoy, além de outros dois romances de tamanho médio.

O modelo Megabyte da Meta também teve um bom desempenho em testes ImageNet no processamento de arquivos de áudio, igualando ou superando os modelos existentes de transformadores baseados em bytes, como o Perciever AR da DeepMind em ambos:

“O Megabyte corresponde ao desempenho de última geração do PerceiverAR enquanto usa apenas metade de seu poder de computação.”

As implicações desta pesquisa podem ser de longo alcance. A tokenização é considerada um obstáculo no campo devido aos seus limites de dados rígidos e à quantidade de energia e tempo necessários para treinar sistemas.

Sem tokenização, deve ser possível treinar modelos de IA com suporte fundamental mais preciso para idiomas diferentes do inglês, especialmente aqueles que não podem ser facilmente codificados em caracteres padrão de 8 bits.

Isso pode levar a uma maior democratização dessas tecnologias e permitir que tudo, desde bots de negociação de criptomoedas até tecnologias de organizações autônomas descentralizadas, sejam construídas em códigos de idiomas nativos em todo o mundo.

Worldcoin de Sam Altman garante US$ 115 milhões para identidade descentralizada

Também aumentaria a capacidade de modelos como o ChatGPT para trabalhar com arquivos de imagem, vídeo e áudio, gerando clipes multimídia usando aproximadamente o mesmo tempo e consumo de energia de processamento de textos.

LEIA MAIS