A Nvidia lançou sem cerimônia um novo modelo de inteligência artificial em 15 de outubro, que supostamente supera sistemas de IA de ponta, incluindo o GPT-4o e o Claude-3.

De acordo com uma postagem no X da conta Nvidia AI Developer, o novo modelo, chamado Llama-3.1-Nemotron-70B-Instruct, "é um modelo líder" na Chatbot Arena da lmarena.AI.

NVidia, Technology, Meta, ChatGPT, OpenAI

Fonte: Nvidia AI

Nemotron

O Llama-3.1-Nemotron-70B-Instruct é, essencialmente, uma versão modificada do Llama-3.1-70B-Instruct de código aberto da Meta. A parte "Nemotron" no nome do modelo encapsula a contribuição da Nvidia para o resultado final.

A "família" de modelos de IA Llama, como a Meta os chama, foi projetada para servir como uma base de código aberto sobre a qual desenvolvedores possam construir.

No caso do Nemotron, a Nvidia assumiu o desafio e desenvolveu um sistema projetado para ser mais "útil" do que modelos populares como o ChatGPT da OpenAI e o Claude-3 da Anthropic.

A Nvidia utilizou conjuntos de dados especialmente selecionados, métodos avançados de ajuste fino e seu próprio hardware de IA de última geração para transformar o modelo básico da Meta no que pode ser o modelo de IA mais "útil" do planeta.

NVidia, Technology, Meta, ChatGPT, OpenAI

Postagem de um engenheiro no X.com expressando entusiasmo pelas capacidades do Nemotron. Fonte: Shayan Taslim

Benchmarking

Quando se trata de determinar qual modelo de IA é "o melhor", não existe uma metodologia única e definitiva. Ao contrário, por exemplo, de medir a temperatura ambiente com um termômetro de mercúrio, não há uma única "verdade" quando se trata do desempenho de modelos de IA.

Desenvolvedores e pesquisadores precisam avaliar o desempenho de um modelo de IA da mesma forma que os humanos são avaliados — por meio de testes comparativos.

O benchmarking de IA envolve fornecer aos diferentes modelos de IA as mesmas consultas, tarefas, perguntas ou problemas e, em seguida, comparar a utilidade dos resultados. Muitas vezes, devido à subjetividade sobre o que é ou não considerado útil, são utilizados avaliadores humanos para determinar o desempenho da máquina por meio de avaliações cegas.

No caso do Nemotron, parece que a Nvidia está afirmando que o novo modelo supera os modelos de ponta existentes, como GPT-4o e Claude-3, com uma margem consideravelmente ampla.

NVidia, Technology, Meta, ChatGPT, OpenAI

O topo do ranking da Chatbot Arena. Fonte: LLMArena

A imagem acima mostra as classificações no teste automatizado "Hard" nos rankings da Chatbot Arena. Embora o Llama-3.1-Nemotron-70B-Instruct da Nvidia não apareça listado em nenhum lugar nos rankings, se a alegação do desenvolvedor de que ele obteve uma pontuação de 85 nesse teste for válida, ele seria, de fato, o modelo de topo nessa seção específica.

O que torna a conquista ainda mais interessante é que o Llama-3.1-70B é o modelo de IA de código aberto de nível médio da Meta. Existe uma versão muito maior do Llama-3.1, a versão 405B (onde o número se refere a quantos bilhões de parâmetros o modelo foi ajustado).

Em comparação, estima-se que o GPT-4o tenha sido desenvolvido com mais de 1 trilhão de parâmetros.