O criador do ChatGPT, OpenAI, anunciou seu mais recente modelo de IA, o GPT-4o, um chatbot mais conversador e humanizado, capaz de interpretar o áudio e o vídeo do usuário e responder em tempo real.
Uma série de demonstrações divulgadas pela empresa mostra o GPT-4 Omni ajudando potenciais usuários com coisas como preparação para entrevistas — garantindo que pareçam apresentáveis para a entrevista —, além de ligar para um agente de atendimento ao cliente para obter um iPhone de substituição.
Outras demonstrações mostram que ele pode compartilhar piadas de pai, traduzir uma conversa bilíngue em tempo real, ser o juiz de uma partida de pedra-papel-tesoura entre dois usuários e responder com sarcasmo quando questionado. Uma demonstração até mostra como o ChatGPT reage ao ser apresentado ao filhote do usuário pela primeira vez.
"Bem, olá, Bowser! Você não é uma coisinha mais adorável?" exclamou o chatbot.
Diga olá para o GPT-4o, nosso novo modelo principal que pode raciocinar em áudio, visão e texto em tempo real: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) 13 de maio de 2024
Entrada de texto e imagem lançada hoje na API e no ChatGPT, com voz e vídeo nas próximas semanas. pic.twitter.com/uuthKZyzYx
“Parece a IA dos filmes; e ainda é um pouco surpreendente para mim que seja real,” disse o CEO da empresa, Sam Altman, em um post de blog de 13 de maio.
“Chegar a tempos de resposta e expressividade humanos é uma grande mudança.”
Uma versão apenas de entrada de texto e imagem foi lançada em 13 de maio, com a versão completa programada para ser lançada nas próximas semanas, disse a OpenAI em uma recente postagem na X.
O GPT-4o estará disponível tanto para usuários pagos quanto gratuitos do ChatGPT e será acessível pela API do ChatGPT.
A OpenAI disse que o “o” em GPT-4o significa “omni” — que busca marcar um passo em direção a interações mais naturais entre humanos e computadores.
Apresentando o GPT-4o, nosso novo modelo que pode raciocinar em texto, áudio e vídeo em tempo real.
— Greg Brockman (@gdb) 13 de maio de 2024
É extremamente versátil, divertido de brincar e é um passo em direção a uma forma muito mais natural de interação humano-computador (e até interação humano-computador-computador): pic.twitter.com/VLG7TJ1JQx
A capacidade do GPT-4o de processar qualquer entrada de texto, áudio e imagem ao mesmo tempo é um avanço considerável em comparação com as ferramentas de IA anteriores da OpenAI, como o ChatGPT-4, que frequentemente “perde muitas informações” ao ser forçado a realizar várias tarefas.
A OpenAI disse que “o GPT-4o é especialmente melhor em entender visão e áudio em comparação com modelos existentes,” incluindo até mesmo detectar as emoções e padrões de respiração de um usuário.
Também é “muito mais rápido” e “50% mais barato” do que o GPT-4 Turbo na API da OpenAI.
A nova ferramenta de IA pode responder a entradas de áudio em apenas 2,3 segundos, com um tempo médio de 3,2 segundos, afirma a OpenAI, o que diz ser semelhante aos tempos de resposta humanos em uma conversa comum.