O modelo de inteligência artificial (IA) Gemini do Google está sendo integrado em grande parte da tecnologia da gigante da tecnologia. A IA em breve aparecerá no Gmail, no YouTube e nos smartphones da empresa.

Em um discurso principal na conferência de desenvolvedores I/O 2024 da empresa em 14 de maio, o CEO do Google, Sundar Pichai, revelou alguns dos próximos lugares onde seu modelo de IA aparecerá.

Pichai mencionou a IA 121 vezes em sua apresentação de 110 minutos, já que o tema ganhou destaque, e Gemini, lançado em dezembro de 2023, ficou em evidência.

O Google está incorporando o grande modelo de linguagem (LLM) em suas ofertas, incluindo Android, Search e Gmail. Veja o que os usuários podem esperar no futuro:

Sundar Pichai na Google I/O 2024. Fonte: Google

Interações de aplicativos

Gemini está obtendo mais contexto, pois poderá interagir com aplicativos. Em uma atualização futura, os usuários poderão chamar o Gemini para interagir com aplicativos, como arrastar e soltar uma imagem gerada por IA em uma mensagem.

Os usuários do YouTube também poderão tocar em "Perguntar a este vídeo" para obter informações específicas da IA dentro do vídeo.

Gemini no Gmail

A plataforma de e-mail da Google, o Gmail, também está recebendo integração de IA. Os usuários poderão pesquisar, resumir e redigir seus e-mails usando o Gemini.

O assistente de IA poderá tomar medidas sobre e-mails para tarefas mais complexas, como ajudar no processamento de devoluções de comércio eletrônico, pesquisando na caixa de entrada, encontrando o recibo e preenchendo formulários online.

Gemini Live

A Google também revelou uma nova experiência chamada Gemini Live, onde os usuários podem ter conversas de voz "em profundidade" com a IA em seus smartphones.

O chatbot pode ser interrompido no meio da resposta para esclarecimentos, e ele se adaptará aos padrões de fala dos usuários em tempo real. Além disso, o Gemini também pode ver e responder ao ambiente físico por meio de fotos ou vídeos capturados no dispositivo.

Captura de tela do vídeo promocional do Gemini. Fonte: Google

Avanços multimodais

A Google está trabalhando no desenvolvimento de agentes de IA inteligentes que podem raciocinar, planejar e concluir tarefas complexas de vários passos sob supervisão em nome do usuário. Multimodal significa que a IA pode ir além do texto e lidar com entradas de imagem, áudio e vídeo.

Exemplos e casos de uso iniciais incluem automatizar devoluções de compras e explorar uma nova cidade.

Outras atualizações em andamento para o modelo de IA da empresa incluem a substituição do Google Assistant no Android pelo Gemini, que será totalmente integrado ao seu sistema operacional móvel.

Um novo recurso "Perguntar a Fotos" permite pesquisar a biblioteca de fotos usando consultas de linguagem natural alimentadas pelo Gemini. Ele pode entender o contexto, reconhecer objetos e pessoas, e resumir memórias fotográficas em resposta a perguntas.

O Google Maps mostrará resumos gerados por IA de lugares e áreas, utilizando insights dos dados de mapeamento da plataforma.