A gigante das redes sociais Meta apresentou seus mais recentes modelos de inteligência artificial (IA) para edição e geração de conteúdo, de acordo com uma postagem publicada no blog da empresa em 16 de novembro. 

A empresa está lançando dois modelos generativos baseados em IA. O primeiro, Emu Video, aproveita o modelo Emu previamente lançado pela Meta e é capaz de gerar videoclipes com base em entradas de texto e imagem. O segundo modelo, Emu Edit, é voltado para a manipulação de imagens com mais precisão para edição de imagens.

Os modelos ainda estão em fase de pesquisa, mas a Meta afirma que os resultados iniciais mostram casos de uso em potencial para criadores, artistas e animadores.

Meta exibe seu novo modelo generativo Emu Edit. Fonte:Meta

De acordo com a publicação no blog da Meta, o Emu Video foi treinado com uma abordagem "fatorada", dividindo o processo de treinamento em duas etapas para permitir que o modelo responda a diferentes entradas:

"Dividimos o processo em duas etapas: primeiro, a geração de imagens condicionadas a um prompt de texto e, em seguida, a geração de vídeo condicionada ao texto e à imagem gerada. Essa abordagem "fatorada" ou dividida da geração de vídeo nos permite treinar modelos de geração de vídeo com eficiência."

O mesmo modelo pode "animar" imagens com base em uma solicitação de texto. De acordo com o Meta, em vez de depender de uma "cascata profunda de modelos", o Emu Video usa apenas dois modelos de difusão para gerar vídeos de 512x512 com duração de quatro segundos a 16 quadros por segundo.

O Emu Edit, voltado para a manipulação de imagens, permitirá que os usuários removam ou adicionem fundos às imagens, realizem transformações de cores e de formas geométricas, bem como edição local e global de imagens.

"Argumentamos que o objetivo principal não deve ser apenas produzir uma imagem "crível". Em vez disso, o modelo deve se concentrar em alterar com precisão apenas os pixels relevantes para a solicitação de edição", observou a Meta, afirmando que seu modelo é capaz de seguir instruções com precisão:

"Por exemplo, ao adicionar o texto 'Aloha!' a um boné de beisebol, o boné em si deve permanecer inalterado."

A Meta treinou o Emu Edit usando tarefas de visão computacional com um conjunto de dados de 10 milhões de imagens sintetizadas, cada uma com uma imagem de entrada e uma descrição da tarefa, bem como a imagem de saída desejada. "Acreditamos que esse seja o maior conjunto de dados desse tipo até o momento", afirmou a empresa.

O modelo Emu recém-lançado pela Meta foi treinado com 1,1 bilhão de dados, incluindo fotos e legendas compartilhadas por usuários no Facebook e no Instagram, revelou o CEO Mark Zuckerberg durante o evento Meta Connect em setembro.

Os órgãos reguladores estão examinando de perto as ferramentas baseadas em IA da Meta. Por isso, as novas ferramentas foram implementadas de forma cautelosa. Recentemente, a Meta revelou que não permitirá que campanhas políticas e anunciantes usem suas ferramentas de IA para criar anúncios no Facebook e no Instagram. As regras gerais de publicidade da plataforma, no entanto, não incluem nenhuma regra que trate especificamente de IA.

LEIA MAIS