Synthesia, uma startup de inteligência artificial (IA) apoiada pela Nvidia, introduziu uma nova atualização permitindo que avatares de IA transmitam emoções e movimentos humanos.
Em 25 de abril, a empresa revelou seus 'Avatares Expressivos', que visam expressar emoção com base em instruções de texto para apresentações corporativas, marketing e fins de treinamento.
Aqui está. Isso muda tudo.
— Synthesia (@synthesiaIO) 25 de abril de 2024
Pela primeira vez na história, os, #AIavatars são capazes de entender o que estão dizendo.
Impulsionados pelo nosso novo modelo de avatar de IA, EXPRESS-1, eles podem detectar o sentimento de um roteiro e realizar todas as nuances sutis da comunicação humana.
O… pic.twitter.com/uj3WIjcGlm
A IA generativa é frequentemente elogiada por sua capacidade de criar imagens em movimento realistas, como é o caso do gerador de vídeo Sora da OpenAI.
No entanto, a IA não está isenta de falhas, especialmente ao retratar humanos, que muitas vezes são mostrados com mãos ou membros distorcidos, fundos colados ou lábios fora de sincronia com a fala.
A Synthesia visa corrigir isso em sua última versão, que foi desenvolvida com humanos reais lendo roteiros em seu estúdio. Isso foi feito para ajudar os bots a capturar o rastreamento labial e serem mais precisos em suas expressões emotivas.
Victor Ribarbelli, co-fundador e CEO da Synthesia, disse em um vídeo que a peça faltante foi que, ao contrário dos humanos, "os avatares não entendem o que estão dizendo", o que anteriormente levava à falta de resposta facial às emoções.
No estúdio, eles foram treinados para responder a prompts simples como 'Estou feliz. Estou triste. Estou frustrado' transmitindo as expressões faciais corretas e o tom associado à emoção fornecida.
Os novos avatares também estão disponíveis em mais de 130 idiomas e podem fornecer legendas automáticas e até mesmo clonar as próprias vozes dos usuários.
No entanto, dos modelos de exemplo de avatares no site da Synthesia falando em idiomas além do inglês - como francês, alemão e espanhol - o modelo em inglês é o mais avançado e humanoide, de acordo com um teste da Cointelegraph com o modelo.
A startup supostamente possui pelo menos metade das empresas listadas no Fortune 100 como clientes e fornece serviços para mais de 55.000 empresas. Isso inclui líderes em várias indústrias, como Zoom, Xerox, Microsoft e Reuters, entre outros.
A Synthesia é uma empresa sediada no Reino Unido fundada em 2017. Na esteira do boom da IA ao longo do último ano, atingiu uma avaliação de quase US$ 1 bilhão com grandes apoiadores como a Nvidia, que atualmente domina o desenvolvimento de chips semicondutores de IA.
Devido à sua abordagem mais focada - criando avatares humanos para uso empresarial - a Synthesia tem evitado parte do hype e da competição acirrada vista entre modelos de chatbot concorrentes, como o ChatGPT da OpenAI e o chatbot Gemini do Google.