Google melhora sua IA que gera vídeos para competir com o Sora da OpenAI
Tudo sobre Google
Tudo sobre Inteligência Artificial
O Google DeepMind anunciou o Veo 2, nova geração do seu modelo de inteligência artificial (IA) que gera vídeos, para competir com o Sora, lançado recentemente pela OpenAI. O Veo 2 pode criar takes de vídeo com mais de dois minutos em resoluções que chegam a 4K, enquanto a IA da OpenAI gera vídeos de 20 segundos em 1080p (Full HD). Pelo menos, em tese.
É que atualmente a ferramenta experimental VideoFX do Google, onde o Veo 2 está disponível, limita os vídeos a uma resolução de 720p e oito segundos de duração. Além disso, o DeepMind pretende expandir o acesso ao VideoFX, que atualmente está disponível apenas por meio de uma lista de espera.
O Veo 2 se baseia nas capacidades de seu predecessor, gerando vídeos a partir de comandos (prompts) de texto ou da combinação de texto e imagens de referência. Entre os avanços no modelo, estão a compreensão aprimorada da física, dinâmica de fluidos e controles de câmera.
Essas melhorias permitem ao Veo 2 renderizar texturas mais nítidas, movimentos realistas e efeitos de iluminação mais detalhados, como reflexos e sombras, mesmo em cenas com movimentos rápidos.
Além disso, a “câmera” virtual nos vídeos gerados pelo Veo 2 agora pode ser posicionada e movida com maior precisão, capturando objetos e pessoas de múltiplos ângulos. Essa flexibilidade adicional melhora o potencial cinematográfico dos clipes gerados.
O DeepMind também afirma que o Veo 2 pode representar melhor movimentos fluidos, como o derramamento de líquidos, e produzir expressões humanas mais convincentes (você pode conferir exemplos de clipes gerados pela IA neste post do blog do Google).
Limitações e refinamento do Veo 2
No entanto, o Veo 2 não está isento de limitações. Eli Collins, vice-presidente de produto do DeepMind, disse ao TechCrunch que manter a coerência em prompts complexos por longos períodos ainda é um desafio. A consistência dos personagens, os detalhes intrincados e os movimentos rápidos e complexos também são áreas que precisam de melhorias.
O DeepMind continua a refinar a tecnologia com a contribuição de artistas e profissionais que trabalham com criatividade para resolver essas questões. Inclusive, colaborações com criadores como Donald Glover e The Weeknd moldaram o desenvolvimento do Veo 2, segundo Collins.
O treinamento do Veo 2 se baseou em grandes conjuntos de dados de vídeo, embora o DeepMind não tenha confirmado fontes específicas. O YouTube é um provável contribuinte – afinal, a plataforma é do Google.
Leia mais:
Deepfakes e disponibilidade
Para lidar com preocupações sobre uso indevido (criação de deepfakes, por exemplo), o DeepMind emprega a tecnologia de marca d’água SynthID para inserir marcadores invisíveis nos quadros gerados. Mas esse sistema não é infalível.
Collins afirmou que o Veo 2 eventualmente será integrado à plataforma de desenvolvimento Vertex AI do Google. Ele destacou as melhorias contínuas com base no feedback dos usuários e sugeriu atualizações mais amplas e aplicações em todo o ecossistema do Google em 2025.
Imagen 3
Junto ao Veo 2, o DeepMind anunciou atualizações para o Imagen 3, seu modelo de IA que gera imagens estáticas. As melhorias do Imagen 3 são: adesão mais precisa aos prompts, texturas mais detalhadas e suporte para estilos como fotorrealismo, impressionismo e anime. Esses aprimoramentos estão disponíveis para os usuários da ferramenta ImageFX do Google.