Pesquisadores do Google divulgaram planos para um novo modelo de difusão espaço-temporal chamado Lumiere, que transformará texto ou uma imagem em um vídeo gerado por IA realista, com capacidades de edição sob demanda.
Lumiere é projetado para retratar "movimento realista, diverso e coerente" através do que chama de sua "arquitetura Space-Time U-Net". Isso gera instantaneamente toda a duração do vídeo em uma única passagem pelo modelo.
O Google acaba de fazer uma incrível descoberta em vídeo de IA com seu último modelo de difusão, Lumiere.
— Rowan Cheung (@rowancheung) 25 de janeiro de 2024
2024 vai ser um ano massivo para o vídeo de IA, marquem minhas palavras.
Aqui está o que separa Lumiere de outros modelos de vídeo de IA: pic.twitter.com/PulSjVZaCp
No artigo, os pesquisadores explicaram:
"Ao implantar tanto a redução quanto o aumento espacial e (importantemente) temporal e aproveitando um modelo de difusão de texto para imagem pré-treinado, nosso modelo aprende a gerar diretamente um vídeo de baixa resolução e taxa de quadros completa processando-o em várias escalas espaço-temporais."
Isso significaria que os usuários podem inserir descrições textuais do que desejam ver como um vídeo ou fazer upload de uma imagem estática com uma solicitação e gerar um vídeo dinâmico.
Os usuários têm feito paralelos entre Lumiere sendo como o ChatGPT, mas para geração, estilização, edição e animação de vídeo a partir de texto e imagem, de acordo com o artigo.
Enquanto outros geradores de vídeo de inteligência artificial já existem, como o Pika e o Runway, os pesquisadores dizem que sua abordagem de passagem única para a dimensão dos dados temporais envolvidos na geração de vídeo é novidade.
Hila Chefer, uma pesquisadora estudante que trabalhou no modelo com o Google, postou um exemplo das capacidades do modelo na plataforma de mídia social X:
Observação-chave do Lumiere-
— Hila Chefer (@hila_chefer) 24 de janeiro de 2024
Em vez de gerar vídeos curtos e aumentá-los temporalmente, realizamos redução e *aumento temporal* espacial conjunto-- aumentando tanto o comprimento quanto a qualidade dos vídeos gerados pic.twitter.com/vTh6dtwcPD
Usuários no X têm chamado esse desenvolvimento de coisas como "uma descoberta incrível" e "estado-da-arte", e até especulando que a geração de vídeo "vai ficar louca" no próximo ano.
O novo modelo de vídeo do Google, Lumiere, pode estilizar movimento olhando para uma única imagem, e parece muito bom.
— Nick St. Pierre (@nickfloats) 24 de janeiro de 2024
O vídeo generativo vai ficar louco este ano, pessoal
pic.twitter.com/x1hNxpdHXR
Lumiere foi treinado em um conjunto de dados de 30 milhões de vídeos e legendas de texto e tem a capacidade de gerar 80 quadros a 16 quadros por segundo. No entanto, não houve menção à fonte dos dados que o Google usou para treinar o modelo — um tópico quente no mundo da IA e da lei de direitos autorais.
Desde a explosão de modelos de IA generativa disponíveis para uso público, dezenas de processos por infração de direitos autorais foram abertos contra desenvolvedores pelo suposto uso indevido de conteúdo durante o treinamento.
Um dos casos mais proeminentes foi aberto pelo The New York Times contra a Microsoft e a OpenAI, a criadora do ChatGPT, por supostamente "usar ilegalmente" seu trabalho para fins de treinamento.
VEJA MAIS: