O Alibaba Qianwen da China lança entrada de voz por IA no PC, com funcionalidades de assistente inteligente entre aplicações totalmente abertas
2026-05-07 16:28
Favoritos

De acordo com pt.wedoany.com-O produto de modelo de grande escala do Grupo Alibaba, "Alibaba Qianwen", lançou oficialmente a funcionalidade de entrada de voz por IA na versão para PC a 7 de maio de 2026, estando atualmente disponível gratuitamente para todos os utilizadores. Esta funcionalidade integra profundamente o processamento de linguagem natural e as capacidades do modelo de grande escala, podendo ser utilizada diretamente em várias aplicações de ambiente de trabalho através de teclas de atalho, fundindo o reconhecimento de voz e o processamento inteligente em tempo real numa única porta de entrada de trabalho inteligente a nível de sistema.

Este assistente de voz inteligente integrado no cliente PC do Qianwen tem o seu percurso de operação reduzido ao mínimo: em qualquer aplicação de ambiente de trabalho como WeChat, DingTalk, Word ou navegador, o utilizador apenas precisa de premir a tecla de atalho predefinida para abrir uma janela flutuante e começar a falar, e a voz é instantaneamente convertida em texto estruturado e introduzida diretamente na página de trabalho atual. O seu motor integrado de compreensão semântica em tempo real processa sincronizadamente a fala natural — palavras redundantes como "tipo" ou "hmm" na expressão do utilizador são filtradas em tempo real, lapsos de linguagem são automaticamente corrigidos e o texto gerado é automaticamente formatado. Quando o utilizador dita os requisitos para um aviso de reunião numa caixa de chat, o assistente pode produzir diretamente o conteúdo pronto a enviar, sem necessidade de edição secundária.

A adaptação a cenários entre aplicações é a característica central que distingue este assistente de voz das ferramentas tradicionais de conversão de voz em texto. Em cenários de edição de documentos, o utilizador pode dar comandos por voz a qualquer momento, como ditar diretamente "insere os dados do PIB nacional de 2025", e o assistente de IA irá pesquisar e inserir o conteúdo correspondente. Em cenários de criação de texto e imagem, perante materiais extensos em inglês, o utilizador só precisa de selecionar o parágrafo relevante e dizer "explica" ou "traduz para chinês", e o assistente executa automaticamente a operação. Em cenários de mensagens instantâneas, quando o utilizador recebe um e-mail ou mensagem em inglês, basta ditar os pontos principais da resposta em chinês, e o assistente irá gerar e preencher automaticamente um e-mail em inglês com o formato correto com base no contexto, sem que o utilizador tenha de alternar repetidamente entre várias aplicações e copiar e colar.

As capacidades do modelo de grande escala constituem a base técnica deste assistente de voz. As ferramentas tradicionais de entrada de voz apenas realizam a conversão única do sinal acústico para texto, enquanto a entrada de voz por IA do Qianwen para PC sobrepõe três camadas de processamento: compreensão semântica, raciocínio lógico e geração de conteúdo. Quando o utilizador dá um comando vago, o modelo de grande escala pode inferir a intenção real do utilizador com base no contexto; quando o utilizador dita um parágrafo incompleto, o modelo de grande escala pode completá-lo automaticamente mantendo um estilo de escrita uniforme; quando o utilizador precisa de suporte de dados, o modelo de grande escala pode pesquisar sincronizadamente informações fidedignas e incorporá-las no texto. Estas quatro etapas de processamento são concluídas em circuito fechado num único fluxo de trabalho, proporcionando ao utilizador uma experiência WYSIWYG (What You See Is What You Get).

As ferramentas de entrada de voz para PC atualmente concentram-se principalmente na capacidade de conversão de voz em texto ao nível do método de entrada, carecendo de suporte para compreensão semântica e geração de conteúdo; os assistentes de voz por IA em dispositivos móveis são limitados pelo poder computacional e pela interface de interação, tendo dificuldade em suportar tarefas de fluxo de trabalho complexas. A vantagem do poder computacional do PC torna possível uma compreensão de linguagem natural mais complexa e o processamento de tarefas em tempo real. O Alibaba Qianwen opta por posicionar a interação por voz como a porta de entrada central no PC, incorporando a capacidade de raciocínio lógico e geração criativa do modelo de grande escala diretamente em cada etapa do fluxo de trabalho do utilizador.

O Alibaba Qianwen acelerou recentemente a sua implementação tanto no PC como em dispositivos móveis. Já em abril de 2025, a versão PC do Qianwen lançou a funcionalidade de IA para palavras selecionadas, permitindo aos utilizadores, após selecionar texto, acionar o assistente de IA com um clique para realizar operações como pesquisar, traduzir, explicar ou continuar a escrever. Em março do mesmo ano, o Alibaba anunciou um investimento de 380 mil milhões de yuans em três anos para construir infraestrutura de cloud e hardware de IA. O lançamento desta funcionalidade de entrada de voz por IA é um passo crucial para o Qianwen evoluir da interação por texto para a interação por voz, e da resposta passiva para a compreensão ativa.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com