Google dos EUA lança modelo de tradução de voz em tempo real Gemini 3.5_Boletins

Google dos EUA lança modelo de tradução de voz em tempo real Gemini 3.5

2026-06-10 09:08

Favoritos

De acordo com pt.wedoany.com-No dia 9 de junho, a Google dos EUA anunciou o lançamento do modelo de tradução de voz em tempo real Gemini 3.5 Live Translate. Este modelo é voltado para cenários de tradução de voz para voz em tempo real, capaz de detectar automaticamente mais de 70 idiomas, gerar uma voz de tradução mais natural e fluida, e preservar ao máximo o tom, a velocidade e a altura da voz do falante. A partir de hoje, será lançado gradualmente em produtos e serviços como Google Tradutor, Gemini Live API, Google AI Studio e Google Meet.

A capacidade central do Gemini 3.5 Live Translate concentra-se no processamento contínuo de fluxo de áudio e na geração de voz de baixa latência. Os sistemas de tradução em tempo real tradicionais muitas vezes precisam esperar que o falante faça uma pausa ou termine uma frase antes de traduzir, o que pode resultar em esperas evidentes, segmentação de frases não natural e perda de entonação. O modelo lançado pela Google desta vez processa continuamente o áudio durante a fala, equilibrando dinamicamente a obtenção de contexto e a manutenção da sincronia, permitindo que a voz traduzida siga a fala original com um atraso curto. Para cenários como reuniões internacionais, aulas online, transmissões ao vivo, chamadas de atendimento ao cliente, comunicação em viagens e colaboração multilíngue, o valor deste modelo reside em tornar a experiência de tradução mais próxima da interpretação simultânea, em vez de simplesmente transcrever a voz em texto e depois lê-la mecanicamente. O modelo pode identificar automaticamente o idioma em entradas multilíngues, reduzindo a necessidade de os usuários alternarem manualmente as configurações, e também melhora a usabilidade em ambientes ruidosos.

O modelo suporta mais de 70 idiomas e pode cobrir mais de 2000 combinações de idiomas no Google Meet. Os desenvolvedores podem acessá-lo através da versão beta pública da Gemini Live API, os usuários empresariais podem experimentá-lo na versão beta privada do Google Meet, e os usuários comuns podem usá-lo gradualmente no Google Tradutor para Android e iOS.

Para a Google, o Gemini 3.5 Live Translate leva ainda mais a capacidade dos grandes modelos para pontos de entrada de comunicação de alta frequência. A tradução sempre foi uma das áreas onde a Google acumulou dados e produtos ao longo do tempo, anteriormente mais focada em tradução de texto, tradução por foto, tradução de conversas e tradução offline. Com o desenvolvimento de modelos multimodais nativos, a tradução de voz está a passar de um processo segmentado de "reconhecimento-tradução-síntese" para uma experiência de áudio mais contínua de ponta a ponta. Se o Gemini 3.5 Live Translate conseguir funcionar de forma estável em reuniões reais, dispositivos móveis, auscultadores e aplicações de desenvolvedores, irá fortalecer a posição da Google como ponto de entrada de IA em comunicação em tempo real, colaboração de escritório, aprendizagem de idiomas e serviços transfronteiriços. Para desenvolvedores e clientes empresariais, a capacidade de tradução em tempo real fornecida pela Gemini Live API também pode ser incorporada em sistemas de videoconferência, educação online, suporte ao cliente, interação ao vivo e distribuição de conteúdo multilíngue, transformando a IA de voz de uma função pontual numa capacidade básica de aplicação.

A Google também adicionou a marca d'água SynthID ao áudio gerado por este modelo, para melhorar a identificabilidade do áudio gerado por IA. O efeito de implementação subsequente ainda dependerá do reconhecimento de sotaques complexos, conversas rápidas entre várias pessoas, estabilidade de voz a longo prazo, processamento de ruído de fundo e fidelidade semântica entre diferentes idiomas. A tradução de voz em tempo real está a tornar-se uma direção importante para a comercialização de grandes modelos. Quem conseguir formar uma experiência estável em termos de baixa latência, naturalidade, precisão e cobertura de produtos, terá mais facilidade para dominar a entrada da próxima geração de ferramentas de comunicação entre idiomas.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com

EUA

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com