Google lança Gemini 3.0: a primeira IA que realmente vê, ouve e age

O Google abriu a cortina do Gemini 3.0, e não é apenas mais uma grande atualização do modelo de linguagem. Anunciada em uma palestra lotada em Mountain View, a terceira geração da principal IA do Google representa uma mudança arquitetônica fundamental: de um modelo que responde a solicitações para um que percebe o mundo e age dentro dele.
Além do texto: verdadeira compreensão multimodal
Ao contrário das versões anteriores que incorporavam recursos de visão e áudio em um backbone de texto, o Gemini 3.0 foi treinado desde o início como um sistema multimodal unificado. Ele processa fluxos de vídeo a 60 quadros por segundo, entende as relações espaciais em imagens de câmera em tempo real e pode acompanhar conversas de áudio complexas com vários alto-falantes, tudo simultaneamente.
Durante a demonstração, um engenheiro do Google apontou a câmera do telefone para uma máquina de lavar louça com defeito. O Gemini 3.0 identificou o modelo, diagnosticou o provável problema (um filtro entupido com base no código de erro piscando na tela) e orientou o usuário durante o reparo com setas sobrepostas na imagem da câmera ao vivo. Não é necessário digitar.
Capacidades Agentes
A verdadeira manchete é o modo agente do Gemini 3.0. Com a permissão do usuário, ele pode navegar em aplicativos, preencher formulários, agendar compromissos e encadear fluxos de trabalho de várias etapas no Android e no Chrome. O Google chama isso de "Projeto Mariner 2.0", e os primeiros testadores descrevem-no como ter um assistente competente usando fisicamente seu telefone para você.
Em benchmarks compartilhados pelo Google, o Gemini 3.0 obteve 92,4% de pontuação no novo pacote AgentBench, um teste que mede a capacidade de uma IA de concluir tarefas do mundo real em navegadores da Web, aplicativos móveis e sistemas operacionais. A melhor pontuação anterior, do GPT-5 da OpenAI, era de 78,1%.
Privacidade e Controle
O Google enfatizou que todas as ações do agente exigem aprovação explícita do usuário, com uma etapa de confirmação visual antes de qualquer ação irreversível (como enviar uma mensagem ou fazer uma compra). O processamento no dispositivo lida com dados confidenciais localmente quando possível, e um novo "Registro de auditoria do agente" permite que os usuários revisem todas as ações que o Gemini realizou em seu nome.
O Gemini 3.0 será lançado para assinantes do Google One AI Premium a partir da próxima semana, com disponibilidade mais ampla prevista para maio. Os desenvolvedores obtêm acesso imediato à API por meio do Google AI Studio.


