A Meta lançou uma coleção de modelos de inteligência artificial chamada “Movie Gen” em 4 de outubro, capaz de gerar filmes fotorealistas de até 16 segundos, completos com efeitos sonoros e trilhas musicais de fundo.
O Movie Gen não é o primeiro modelo de IA multimodal capaz de gerar vídeo e áudio a partir de simples comandos de texto, mas parece demonstrar capacidades de ponta. Os pesquisadores responsáveis pelo desenvolvimento da aplicação afirmam que ela superou sistemas concorrentes em testes com humanos.
Uma imagem estática tirada de um filme gerado pelo Meta Movie Gen. Fonte: Meta
Movie Gen
De acordo com uma postagem no blog da Meta, o Movie Gen é atualmente capaz de produzir filmes de até 16 segundos com uma taxa de quadros de 16 quadros por segundo (FPS). Para colocar isso em perspectiva, os filmes de Hollywood anteriores à era digital eram tradicionalmente filmados a 24 FPS para alcançar o que é chamado de "aparência de filme".
Embora taxas de FPS mais altas sejam consideradas melhores em jogos e outras aplicações gráficas, os 16 FPS da Meta não estão muito longe do que seria considerado uma imagem cinematográfica de qualidade profissional.
Os modelos do Movie Gen podem gerar filmes completamente novos com base em simples comandos de texto ou modificar imagens ou vídeos existentes para substituir ou alterar objetos e fundos.
Imagens estáticas de um filme carregado editadas de três maneiras diferentes. Fonte: Meta
Sua contribuição mais avançada, no entanto, pode ser a capacidade do conjunto de IA de gerar até 45 segundos de áudio com efeitos sonoros e música de fundo. De acordo com a Meta, o Movie Gen integra e sincroniza o áudio com o movimento nos vídeos gerados.
Somente pesquisa
A Meta está mantendo os modelos fundamentais por trás do Movie Gen em sigilo por enquanto. A empresa não forneceu um prazo para o lançamento do produto e afirmou que seria necessário realizar mais testes de segurança antes da implantação.
Segundo um artigo de pesquisa da equipe de IA da Meta:
“Os modelos fundamentais do Movie Gen foram desenvolvidos para fins de pesquisa e precisam de múltiplas melhorias antes de serem implantados... quando implantarmos esses modelos, incorporaremos modelos de segurança que podem rejeitar comandos de entrada ou gerações que violam nossas políticas para prevenir abusos.”