ByteDance Lança Modelo de Voz Full-Duplex Seeduplex no App Doubao
2026-04-09 14:43
Favoritos

De acordo com pt.wedoany.com-A ByteDance lançou em 9 de abril o modelo de voz de grande porte (LLM) nativo full-duplex Seeduplex, que já está disponível em escala total no aplicativo Doubao. O Seeduplex foi projetado com base na estrutura "falar enquanto ouve", permitindo que os usuários interrompam e falem a qualquer momento durante uma interação por voz, sem precisar esperar que a outra parte termine de falar. O modelo pode perceber em tempo real e alternar entre os estados de escuta e fala, melhorando significativamente a naturalidade e fluidez da interação em comparação com o modo half-duplex. A geração anterior do modelo de voz end-to-end do Doubao utilizava um mecanismo half-duplex, exigindo que os usuários aguardassem a saída completa do modelo antes de poderem inserir novos comandos de voz, o que limitava claramente o ritmo da conversa.

A principal dificuldade técnica da interação por voz full-duplex reside no julgamento preciso dos limites da fala, da completude semântica e do momento da interrupção. O Seeduplex processa simultaneamente os fluxos de áudio de entrada e saída por meio de uma arquitetura multimodal nativa, alcançando resposta em milissegundos. A ByteDance não divulgou indicadores técnicos específicos, como o número de parâmetros do modelo, a fonte dos dados de treinamento ou a latência de inferência. Em comparação com as soluções tradicionais em cascata, onde os módulos de reconhecimento de fala e síntese de fala operam de forma independente, a arquitetura nativa full-duplex unifica a tomada de decisão de ouvir e falar em um único modelo, evitando atrasos na comunicação entre módulos e perda de informações.

Implementar diálogos de voz full-duplex em dispositivos móveis enfrenta múltiplos desafios, como cancelamento de eco, supressão de ruído de fundo e operação com baixo consumo de energia. A implementação do Seeduplex no aplicativo Doubao significa que a ByteDance já resolveu os problemas de processamento simultâneo em tempo real de fluxos de voz e adaptação da capacidade computacional no dispositivo. Os usuários podem interromper naturalmente em cenários de alto-falante externo ou com fones de ouvido, e o modelo decide, com base na completude semântica, se a frase atual deve ser interrompida ou continuar a ser gerada, simulando assim o mecanismo de alternância de turnos no diálogo interpessoal. Esse paradigma de interação se aproxima mais de uma conversa face a face, reduzindo a sensação de mecanização e o cansaço da espera durante o uso de assistentes de voz.

O lançamento deste modelo marca a evolução do paradigma de interação dos assistentes de voz de consumo, passando de "falar por turnos" para "diálogo natural". Os usuários do aplicativo Doubao podem experimentar a função de diálogo de voz full-duplex no aplicativo a partir de hoje.

Este artigo foi compilado pela Wedoany.com. O uso por IA deve citar a fonte "Wedoany.com". Em caso de violação de direitos ou outros problemas, informe-nos prontamente e o site fará as modificações ou exclusões necessárias. E-mail: news@wedoany.com

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com
Recomendações
A Westwell Technology da China apresenta o E-Truck S2 e o Q-Truck na TOC Europe na Alemanha, com plataforma de despacho de IA a entrar na logística verde portuária
2026-05-23
China avança na meta de pouso lunar tripulado antes de 2030, com a estação espacial a apoiar a exploração lunar em três frentes: talentos, tecnologia e sistema de transporte
2026-05-23
Setor de energia de Guizhou, na China, acelera integração com IA, Long Zugen propõe suprir deficiências em infraestrutura subterrânea e inspeção geral de segurança em minas
2026-05-23
MEXDC do México coloca a governança de IA na agenda dos data centers
2026-05-23
Administração Nacional de Dados da China impulsiona a ação "Elementos de Dados ×", com 43 cidades-piloto disponibilizando 38.000 produtos de dados
2026-05-23
EPB dos EUA e Universidade do Tennessee em Chattanooga estabelecem parceria quântica de 6,8 milhões de dólares; centro quântico municipal acelera comercialização de pesquisa
2026-05-23
Pesquisa do NLR dos EUA revela a origem da memória em materiais sinápticos optoeletrônicos de V₂O₅
2026-05-23
Aceleração do investimento em redes elétricas na China e inteligência artificial impulsionam a construção de resiliência climática
2026-05-23
Tecnalia, da Espanha, concluiu 4.759 projetos de P&D e inovação em 2025, com receita de 156 milhões de euros
2026-05-23
API DeepSeek-V4-Pro da China ajustada para 1/4 do preço original, estratégia de preços baixos de longo prazo reduz custos de chamada de modelos grandes
2026-05-23