Revisado por Felix Ng,Editor da Equipe

Atualização mais recente da OpenAI permite essencialmente que os usuários transmitam ao vivo com o ChatGPT

14 de mai. de 2024

Uma grande atualização do ChatGPT, chamada GPT Omni, permite que o chatbot interprete vídeo e áudio em tempo real e fale de forma mais convincente como um humano.

Atualização mais recente da OpenAI permite essencialmente que os usuários transmitam ao vivo com o ChatGPT — Notícias

O criador do ChatGPT, OpenAI, anunciou seu mais recente modelo de IA, o GPT-4o, um chatbot mais conversador e humanizado, capaz de interpretar o áudio e o vídeo do usuário e responder em tempo real.

Uma série de demonstrações divulgadas pela empresa mostra o GPT-4 Omni ajudando potenciais usuários com coisas como preparação para entrevistas — garantindo que pareçam apresentáveis para a entrevista —, além de ligar para um agente de atendimento ao cliente para obter um iPhone de substituição.

Outras demonstrações mostram que ele pode compartilhar piadas de pai, traduzir uma conversa bilíngue em tempo real, ser o juiz de uma partida de pedra-papel-tesoura entre dois usuários e responder com sarcasmo quando questionado. Uma demonstração até mostra como o ChatGPT reage ao ser apresentado ao filhote do usuário pela primeira vez.

"Bem, olá, Bowser! Você não é uma coisinha mais adorável?" exclamou o chatbot.

Diga olá para o GPT-4o, nosso novo modelo principal que pode raciocinar em áudio, visão e texto em tempo real: https://t.co/MYHZB79UqN

Entrada de texto e imagem lançada hoje na API e no ChatGPT, com voz e vídeo nas próximas semanas. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) 13 de maio de 2024

“Parece a IA dos filmes; e ainda é um pouco surpreendente para mim que seja real,” disse o CEO da empresa, Sam Altman, em um post de blog de 13 de maio.

“Chegar a tempos de resposta e expressividade humanos é uma grande mudança.”

Uma versão apenas de entrada de texto e imagem foi lançada em 13 de maio, com a versão completa programada para ser lançada nas próximas semanas, disse a OpenAI em uma recente postagem na X.

O GPT-4o estará disponível tanto para usuários pagos quanto gratuitos do ChatGPT e será acessível pela API do ChatGPT.

A OpenAI disse que o “o” em GPT-4o significa “omni” — que busca marcar um passo em direção a interações mais naturais entre humanos e computadores.

Apresentando o GPT-4o, nosso novo modelo que pode raciocinar em texto, áudio e vídeo em tempo real.

É extremamente versátil, divertido de brincar e é um passo em direção a uma forma muito mais natural de interação humano-computador (e até interação humano-computador-computador): pic.twitter.com/VLG7TJ1JQx
— Greg Brockman (@gdb) 13 de maio de 2024

A capacidade do GPT-4o de processar qualquer entrada de texto, áudio e imagem ao mesmo tempo é um avanço considerável em comparação com as ferramentas de IA anteriores da OpenAI, como o ChatGPT-4, que frequentemente “perde muitas informações” ao ser forçado a realizar várias tarefas.

Apple está finalizando acordo com OpenAI para integração entre ChatGPT e iPhone, afirma reportagem

A OpenAI disse que “o GPT-4o é especialmente melhor em entender visão e áudio em comparação com modelos existentes,” incluindo até mesmo detectar as emoções e padrões de respiração de um usuário.

Também é “muito mais rápido” e “50% mais barato” do que o GPT-4 Turbo na API da OpenAI.

A nova ferramenta de IA pode responder a entradas de áudio em apenas 2,3 segundos, com um tempo médio de 3,2 segundos, afirma a OpenAI, o que diz ser semelhante aos tempos de resposta humanos em uma conversa comum.

A Cointelegraph está comprometida com um jornalismo independente e transparente. Este artigo de notícias é produzido de acordo com a Política Editorial da Cointelegraph e tem como objetivo fornecer informações precisas e oportunas. Os leitores são incentivados a verificar as informações de forma independente. Leia a nossa Política Editorial https://br.cointelegraph.com/editorial-policy