A OpenAI lançou vários novos modelos de inteligência artificial sob um esquema de nomenclatura revisado — começando com seu mais recente modelo OpenAI o1, que, segundo a empresa, pode "pensar antes de responder".
"Para tarefas de raciocínio complexas, este é um avanço significativo e representa um novo nível de capacidade de IA", disse a OpenAI em um post no blog de 12 de setembro. "Dado isso, estamos resetando o contador para um e nomeando esta série de OpenAI o1."
Os novos modelos podem "pensar" antes de responder e usar o raciocínio em "cadeia de pensamentos" para resolver tarefas complexas — particularmente em tarefas relacionadas a STEM (ciência, tecnologia, engenharia e matemática) e codificação, disse a OpenAI.
Fonte: OpenAI
A empresa de IA compartilhou vídeos do OpenAI o1 programando um jogo de vídeo a partir de um comando e resolvendo um quebra-cabeça lógico complexo, entre outras coisas.
Os modelos "preview" e "mini" do OpenAI o1 foram disponibilizados para assinantes do ChatGPT Plus, com a empresa planejando lançar versões melhoradas nos próximos meses.
A OpenAI compartilhou dados sugerindo que o OpenAI o1 supera o GPT-4o em vários benchmarks, incluindo tópicos de ciência em nível de doutorado em Biologia, Química e Física e alguns exames de ensino médio dos Estados Unidos.
O modelo de melhoria OpenAI o1 comparado com o GPT-4o em vários benchmarks. Fonte: OpenAI
O foco do OpenAI o1 mini nas capacidades de raciocínio STEM significa que ele não é tão conhecedor em outras áreas fora de seu foco estreito, disse a OpenAI.
"[Seu] conhecimento factual em tópicos não STEM, como datas, biografias e curiosidades, é comparável a pequenos LLMs como o GPT-4o mini."
"Vamos melhorar essas limitações em versões futuras, além de experimentar a extensão do modelo para outras modalidades e especialidades fora de STEM", acrescentou.
Pundits da indústria anteciparam que a OpenAI lançaria um modelo de IA focado em raciocínio em setembro sob o codinome Strawberry.
No entanto, a OpenAI não divulga distinções entre os diferentes modelos em desenvolvimento.