De acordo com pt.wedoany.com-A ByteDance lançou em 9 de abril o modelo de voz de grande porte (LLM) nativo full-duplex Seeduplex, que já está disponível em escala total no aplicativo Doubao. O Seeduplex foi projetado com base na estrutura "falar enquanto ouve", permitindo que os usuários interrompam e falem a qualquer momento durante uma interação por voz, sem precisar esperar que a outra parte termine de falar. O modelo pode perceber em tempo real e alternar entre os estados de escuta e fala, melhorando significativamente a naturalidade e fluidez da interação em comparação com o modo half-duplex. A geração anterior do modelo de voz end-to-end do Doubao utilizava um mecanismo half-duplex, exigindo que os usuários aguardassem a saída completa do modelo antes de poderem inserir novos comandos de voz, o que limitava claramente o ritmo da conversa.
A principal dificuldade técnica da interação por voz full-duplex reside no julgamento preciso dos limites da fala, da completude semântica e do momento da interrupção. O Seeduplex processa simultaneamente os fluxos de áudio de entrada e saída por meio de uma arquitetura multimodal nativa, alcançando resposta em milissegundos. A ByteDance não divulgou indicadores técnicos específicos, como o número de parâmetros do modelo, a fonte dos dados de treinamento ou a latência de inferência. Em comparação com as soluções tradicionais em cascata, onde os módulos de reconhecimento de fala e síntese de fala operam de forma independente, a arquitetura nativa full-duplex unifica a tomada de decisão de ouvir e falar em um único modelo, evitando atrasos na comunicação entre módulos e perda de informações.
Implementar diálogos de voz full-duplex em dispositivos móveis enfrenta múltiplos desafios, como cancelamento de eco, supressão de ruído de fundo e operação com baixo consumo de energia. A implementação do Seeduplex no aplicativo Doubao significa que a ByteDance já resolveu os problemas de processamento simultâneo em tempo real de fluxos de voz e adaptação da capacidade computacional no dispositivo. Os usuários podem interromper naturalmente em cenários de alto-falante externo ou com fones de ouvido, e o modelo decide, com base na completude semântica, se a frase atual deve ser interrompida ou continuar a ser gerada, simulando assim o mecanismo de alternância de turnos no diálogo interpessoal. Esse paradigma de interação se aproxima mais de uma conversa face a face, reduzindo a sensação de mecanização e o cansaço da espera durante o uso de assistentes de voz.
O lançamento deste modelo marca a evolução do paradigma de interação dos assistentes de voz de consumo, passando de "falar por turnos" para "diálogo natural". Os usuários do aplicativo Doubao podem experimentar a função de diálogo de voz full-duplex no aplicativo a partir de hoje.
Este artigo foi compilado pela Wedoany.com. O uso por IA deve citar a fonte "Wedoany.com". Em caso de violação de direitos ou outros problemas, informe-nos prontamente e o site fará as modificações ou exclusões necessárias. E-mail: news@wedoany.com
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









