Microsoft Build 2026: Microsoft lança 4 modelos de IA próprios com desempenho razoável
2026-06-09 13:49
Favoritos

De acordo com pt.wedoany.com-A Microsoft lançou vários modelos de IA próprios na conferência anual Build 2026, abrangendo áreas como raciocínio, geração de imagens, transcrição de áudio e conversão de texto em fala. Os utilizadores podem experimentá-los gratuitamente através do site Playground da Microsoft. Os testes mostram que o desempenho geral destes modelos é razoável, mas não superam os concorrentes existentes nos seus respetivos domínios.

Testei todos os 4 novos modelos de IA da Microsoft. A verdade cruel está aqui

A série de modelos MAI (Microsoft AI) depende de grandes modelos de linguagem (LLM) internos, ao contrário do chatbot Copilot, que funciona com tecnologia OpenAI. Os modelos lançados incluem: o modelo de raciocínio MAI-Thinking-1, os modelos de geração de imagens MAI-Image-2.5 e 2.5 Flash, o modelo de transcrição de áudio MAI-Transcribe-1.5 e os modelos de conversão de texto em fala MAI-Voice-2 e 2 Flash. A Microsoft descreve estes modelos como "experimentais" e em "pré-visualização limitada". O MAI-Thinking-1 está atualmente disponível apenas para acesso antecipado a utilizadores específicos.

O MAI-Thinking-1, como primeiro modelo de raciocínio da Microsoft, foi comparado com o modelo Claude Sonnet da Anthropic no tratamento de prompts complexos. Os testes revelaram que o modelo da Microsoft não tem acesso à Internet e não apresentou melhorias significativas em relação ao Sonnet na precisão, qualidade de resposta ou velocidade ao responder a perguntas sobre mecânicas de jogo de "Path of Exile 2" e construção de estruturas de bases de dados.

O MAI-Image-2.5 mostra uma melhoria significativa em relação à primeira versão de outubro de 2025, mas ainda fica aquém do Nano Banana Pro da Gemini em termos de nitidez de imagem e renderização de texto. Nos testes, as imagens de banda desenhada e gráficos gerados pelo MAI-Image-2.5 apresentavam distorção de texto, ao contrário do Nano Banana Pro.

O MAI-Transcribe-1.5 registou 13 erros nos testes de transcrição, enquanto o Gemini cometeu apenas 6 erros no mesmo cenário. Nos testes de transcrição de letras de músicas difíceis, ambos apresentaram erros, mas a transcrição do MAI-Transcribe-1.5 foi interrompida antes do final da música. A Google não promove especificamente o Gemini como ferramenta de transcrição.

O teu próximo computador não é um computador: Microsoft Build 2026

O MAI-Voice-2 oferece várias opções de idiomas e estilos, mas nos testes, a combinação da qualidade de áudio, sons respiratórios, ritmo e entoação resultou num som claramente não humano, longe do realismo de tecnologias de voz como a Sesame. O modelo atualmente suporta a personalização da voz através de vários estilos diferentes.

Interface do MAI-Voice-2

Os testes preliminares do ponto de vista do consumidor mostram que a avaliação geral dos modelos MAI da Microsoft é "razoável", semelhante ao desempenho do Copilot. A sua competitividade depende mais do vasto conjunto de funcionalidades e da integração no ecossistema Microsoft do que da vantagem absoluta dos modelos subjacentes. No entanto, dada a velocidade de melhoria da série MAI-Image nos últimos meses, a Microsoft continuará a testar estes modelos.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com