Google melhora sua IA que gera vídeos para competir com o Sora da OpenAI

Publicado em 17/12/2024 às 10:31

Tudo sobre Google

Tudo sobre Inteligência Artificial

O Google DeepMind anunciou o Veo 2, nova geração do seu modelo de inteligência artificial (IA) que gera vídeos, para competir com o Sora, lançado recentemente pela OpenAI. O Veo 2 pode criar takes de vídeo com mais de dois minutos em resoluções que chegam a 4K, enquanto a IA da OpenAI gera vídeos de 20 segundos em 1080p (Full HD). Pelo menos, em tese.

É que atualmente a ferramenta experimental VideoFX do Google, onde o Veo 2 está disponível, limita os vídeos a uma resolução de 720p e oito segundos de duração. Além disso, o DeepMind pretende expandir o acesso ao VideoFX, que atualmente está disponível apenas por meio de uma lista de espera.

O Veo 2 se baseia nas capacidades de seu predecessor, gerando vídeos a partir de comandos (prompts) de texto ou da combinação de texto e imagens de referência. Entre os avanços no modelo, estão a compreensão aprimorada da física, dinâmica de fluidos e controles de câmera.

Essas melhorias permitem ao Veo 2 renderizar texturas mais nítidas, movimentos realistas e efeitos de iluminação mais detalhados, como reflexos e sombras, mesmo em cenas com movimentos rápidos.

Captura de tela do Veo 2, nova IA do Google — O Veo 2 é o novo modelo de IA do Google para competir com o Sora da OpenAI (Imagem: Reprodução/Google)

Além disso, a “câmera” virtual nos vídeos gerados pelo Veo 2 agora pode ser posicionada e movida com maior precisão, capturando objetos e pessoas de múltiplos ângulos. Essa flexibilidade adicional melhora o potencial cinematográfico dos clipes gerados.

O DeepMind também afirma que o Veo 2 pode representar melhor movimentos fluidos, como o derramamento de líquidos, e produzir expressões humanas mais convincentes (você pode conferir exemplos de clipes gerados pela IA neste post do blog do Google).

Limitações e refinamento do Veo 2

No entanto, o Veo 2 não está isento de limitações. Eli Collins, vice-presidente de produto do DeepMind, disse ao TechCrunch que manter a coerência em prompts complexos por longos períodos ainda é um desafio. A consistência dos personagens, os detalhes intrincados e os movimentos rápidos e complexos também são áreas que precisam de melhorias.

O DeepMind continua a refinar a tecnologia com a contribuição de artistas e profissionais que trabalham com criatividade para resolver essas questões. Inclusive, colaborações com criadores como Donald Glover e The Weeknd moldaram o desenvolvimento do Veo 2, segundo Collins.

O treinamento do Veo 2 se baseou em grandes conjuntos de dados de vídeo, embora o DeepMind não tenha confirmado fontes específicas. O YouTube é um provável contribuinte – afinal, a plataforma é do Google.

Leia mais:

Deepfakes e disponibilidade

Captura de tela de frame de vídeo gerado pelo Veo 2, nova IA do Google — DeepMind coloca marca d’água invisíveis nos vídeos gerados pelo Veo 2 para evitar uso indevido (Imagem: Reprodução/Google)

Para lidar com preocupações sobre uso indevido (criação de deepfakes, por exemplo), o DeepMind emprega a tecnologia de marca d’água SynthID para inserir marcadores invisíveis nos quadros gerados. Mas esse sistema não é infalível.

Collins afirmou que o Veo 2 eventualmente será integrado à plataforma de desenvolvimento Vertex AI do Google. Ele destacou as melhorias contínuas com base no feedback dos usuários e sugeriu atualizações mais amplas e aplicações em todo o ecossistema do Google em 2025.

Imagen 3

Junto ao Veo 2, o DeepMind anunciou atualizações para o Imagen 3, seu modelo de IA que gera imagens estáticas. As melhorias do Imagen 3 são: adesão mais precisa aos prompts, texturas mais detalhadas e suporte para estilos como fotorrealismo, impressionismo e anime. Esses aprimoramentos estão disponíveis para os usuários da ferramenta ImageFX do Google.