Revisado por Bryan O'Shea,Editor da Equipe

Novas atualizações da OpenAI aprimoram os recursos de voz e visão da IA

02 de out. de 2024

A OpenAI lançou uma série de atualizações destinadas a melhorar seus modelos de IA com recursos avançados de voz e visão para conversas em tempo real e melhor reconhecimento de imagem.

Novas atualizações da OpenAI aprimoram os recursos de voz e visão da IA — Notícias

O desenvolvedor de inteligência artificial OpenAI entrou em outubro com várias atualizações em seus modelos, ajudando-os a envolver-se em conversas melhores e melhorar o reconhecimento de imagens.

Em 1º de outubro, a OpenAI revelou quatro atualizações que introduzem novas ferramentas projetadas para facilitar a construção de aplicações nos seus modelos de IA por desenvolvedores.

Ele fala!

Uma grande atualização é a Realtime API, que permite aos desenvolvedores criar aplicativos de voz gerados por IA usando um único prompt. A ferramenta, disponível para testes, suporta experiências multimodais de baixa latência transmitindo entradas e saídas de áudio, permitindo conversas naturais semelhantes ao Modo de Voz Avançado do ChatGPT. Anteriormente, os desenvolvedores precisavam “juntar” vários modelos para criar essas experiências. A entrada de áudio normalmente precisava ser completamente carregada e processada antes de receber uma resposta, o que significava maior latência para aplicativos em tempo real, como conversas de fala para fala.

Com a capacidade de streaming da Realtime API, os desenvolvedores agora podem habilitar interações imediatas e naturais, semelhantes aos assistentes de voz. A API funciona no GPT-4, lançado em maio de 2024, que pode raciocinar em tempo real em áudio, visão e texto.

Agora a IA vê claramente

Outra atualização inclui uma ferramenta de ajuste fino para desenvolvedores, permitindo-lhes melhorar as respostas da IA geradas a partir de entradas de imagens e texto. Os ajustadores de imagens permitem que a inteligência artificial tenha uma melhor capacidade de entender imagens, o que, por sua vez, melhora a pesquisa visual e as capacidades de detecção de objetos, segundo o desenvolvedor. O processo inclui feedback de humanos que fornecem exemplos de respostas boas e ruins.

Além das atualizações de voz e visão, a OpenAI também lançou “destilação de modelos” e “cache de prompts”, que permitem que modelos menores aprendam com os maiores e reduzam os custos e o tempo de desenvolvimento reutilizando textos já processados.

As capacidades avançadas de seus modelos são um ponto de venda chave, pois uma grande parte da receita da OpenAI vem de empresas que constroem suas próprias aplicações com base na tecnologia da OpenAI.

Segundo a Reuters, a OpenAI projeta que sua receita aumente para US$ 11,6 bilhões no próximo ano, acima de uma estimativa de US$ 3,7 bilhões em 2024.

A Cointelegraph está comprometida com um jornalismo independente e transparente. Este artigo de notícias é produzido de acordo com a Política Editorial da Cointelegraph e tem como objetivo fornecer informações precisas e oportunas. Os leitores são incentivados a verificar as informações de forma independente. Leia a nossa Política Editorial https://br.cointelegraph.com/editorial-policy