Cointelegraph
Savannah FortisSavannah Fortis

Google lança gerador realista de texto para vídeo com IA ‘Lumiere’

O conceito mais recente do Google, Lumiere, é um modelo de difusão tempo-espaço que transforma texto e imagens em vídeos realistas gerados por IA com recursos de edição sob demanda.

Google lança gerador realista de texto para vídeo com IA ‘Lumiere’
Notícias

Pesquisadores do Google divulgaram planos para um novo modelo de difusão espaço-temporal chamado Lumiere, que transformará texto ou uma imagem em um vídeo gerado por IA realista, com capacidades de edição sob demanda.

Lumiere é projetado para retratar "movimento realista, diverso e coerente" através do que chama de sua "arquitetura Space-Time U-Net". Isso gera instantaneamente toda a duração do vídeo em uma única passagem pelo modelo.

No artigo, os pesquisadores explicaram:

"Ao implantar tanto a redução quanto o aumento espacial e (importantemente) temporal e aproveitando um modelo de difusão de texto para imagem pré-treinado, nosso modelo aprende a gerar diretamente um vídeo de baixa resolução e taxa de quadros completa processando-o em várias escalas espaço-temporais."

Isso significaria que os usuários podem inserir descrições textuais do que desejam ver como um vídeo ou fazer upload de uma imagem estática com uma solicitação e gerar um vídeo dinâmico.

Os usuários têm feito paralelos entre Lumiere sendo como o ChatGPT, mas para geração, estilização, edição e animação de vídeo a partir de texto e imagem, de acordo com o artigo.

Enquanto outros geradores de vídeo de inteligência artificial já existem, como o Pika e o Runway, os pesquisadores dizem que sua abordagem de passagem única para a dimensão dos dados temporais envolvidos na geração de vídeo é novidade.

Hila Chefer, uma pesquisadora estudante que trabalhou no modelo com o Google, postou um exemplo das capacidades do modelo na plataforma de mídia social X:

Usuários no X têm chamado esse desenvolvimento de coisas como "uma descoberta incrível" e "estado-da-arte", e até especulando que a geração de vídeo "vai ficar louca" no próximo ano.

Lumiere foi treinado em um conjunto de dados de 30 milhões de vídeos e legendas de texto e tem a capacidade de gerar 80 quadros a 16 quadros por segundo. No entanto, não houve menção à fonte dos dados que o Google usou para treinar o modelo — um tópico quente no mundo da IA e da lei de direitos autorais.

Desde a explosão de modelos de IA generativa disponíveis para uso público, dezenas de processos por infração de direitos autorais foram abertos contra desenvolvedores pelo suposto uso indevido de conteúdo durante o treinamento.

Um dos casos mais proeminentes foi aberto pelo The New York Times contra a Microsoft e a OpenAI, a criadora do ChatGPT, por supostamente "usar ilegalmente" seu trabalho para fins de treinamento.

VEJA MAIS: