Sora, modelo de texto para vídeo da OpenAI, impressiona o X, mas ainda tem pontos fracos

A OpenAI, empresa líder do setor de inteligência artificial (IA) para o consumidor final, apresentou seu primeiro modelo de texto para vídeo e obteve uma recepção extremamente favorável do público na quinta-feira, 15, embora a empresa admita que o modelo ainda precise avançar muito.

A OpenAI apresentou o novo modelo de IA generativa em 15 de fevereiro. Batizado de Sora, o novo produto da OpenAI cria vídeos detalhados a partir de instruções de texto simples, dá continuidade a vídeos pré-existentes e até mesmo gera cenas com base em uma imagem estática.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Apresentamos o Sora, nosso modelo de texto para vídeo.

O Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes.

— OpenAI (@OpenAI)

De acordo com uma publicação no blog da empresa divulgada em 15 de fevereiro, a OpenAI afirmou que o seu novo modelo de IA generativa pode gerar cenas semelhantes a filmes com resoluções de até 1080p. Essas cenas podem incluir vários personagens, tipos específicos de movimento e detalhes precisos do objeto e do plano de fundo.

Como o Sora funciona

Assim como o modelo de geração de imagens da OpenAI, o Dall-E 3, o Sora opera como um modelo de difusão.

A difusão refere-se a um modelo de IA generativo que cria seu resultado gerando um vídeo ou uma imagem que se parece mais com um "ruído estático" e a aprimora gradualmente ao "remover o ruído" em várias etapas.

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) February 15, 2024

Anunciando o Sora – nosso modelo que cria vídeos de um minuto a partir de um prompt de texto:

— Greg Brockman (@gdb)

A empresa de IA escreveu que o Sora foi desenvolvido com base em pesquisas anteriores dos modelos ChatGPT e Dall-E 3. Por isso, segundo a empresa, o modelo mais eficiente mais fiel ao criar representações baseadas nos prompts dos usuários.

A OpenAI admitiu que o Sora ainda apresentava vários pontos fracos e poderia ter dificuldades para simular com precisão a física de uma cena complexa, principalmente por confundir a natureza da causa e do efeito.

"Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois disso, o biscoito pode não ter uma marca de mordida."

A empresa disse que a nova ferramenta também poderia confundir os "detalhes espaciais" de uma determinada solicitação, misturando esquerda e direita ou deixando de seguir descrições precisas de direção.

*Sora pode gerar acidentalmente movimentos fisicamente implausíveis. Fonte: OpenAI*

A OpenAI disse que o novo modelo de IA generativa só está disponível por enquanto para "equipes vermelhas" – termo que designa pesquisadores de segurança cibernética – para avaliar "áreas críticas de danos ou riscos", bem como para designers, artistas visuais e cineastas selecionados que possam oferecer retornos capazes de acelerar o avanço do modelo.

Em dezembro de 2023, um relatório da Universidade de Stanford revelou que as ferramentas de geração de imagens baseadas em IA usando o banco de dados de IA Laion estavam sendo treinadas com milhares de imagens de material ilegal de abuso infantil, o que levanta sérias preocupações éticas e legais relativas a modelos de texto para imagem ou vídeo.

Usuários do X ficam sem palavras

Dezenas de demonstrações em vídeo têm circulado no X mostrando exemplos do Sora em ação, enquanto o Sora agora é um dos destaques do X com mais de 173.000 postagens relacionadas.

Em uma tentativa de mostrar o que o novo modelo generativo é capaz de fazer, o CEO da OpenAI, Sam Altman, abriu espaço para solicitações de geração de vídeos personalizados de usuários no X. Altman compartilhou um total de sete vídeos gerados pelo Sora, desde um pato nas costas de um dragão a cães gravando um podcast no topo de uma montanha.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

O comentarista de IA Mckay Wrigley – assim como muitos outros – escreveu que o vídeo gerado pelo Sora o deixou sem palavras.

Em uma postagem de 15 de fevereiro no X, o pesquisador sênior da Nvidia, Jim Fan, declarou que qualquer um que acreditasse que o Sora fosse apenas mais um "brinquedo criativo", como o Dall-E 3, estaria redondamente enganado.

If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024

Se você acha que o Sora da OpenAI é um brinquedo criativo como o DALLE, ... pense novamente. O Sora é um mecanismo de física orientado por dados. É uma simulação de diversos mundos, reais ou fantásticos. O simulador aprende a renderização complexa, a física "intuitiva", o raciocínio de longo alcance e a fundamentação semântica, tudo...

— Jim Fan (@DrJimFan)

Segundo o ponto de vista de Fan, o Sora é menos uma ferramenta de geração de vídeo e mais um "mecanismo de física orientado por dados", pois o modelo de IA não está apenas gerando vídeo abstrato, mas também criando de forma determinística a física dos objetos na própria cena.

LEIA MAIS