Modelo de IA Magma da Microsoft realiza controle de software e robôs
2025-02-25 13:44
Favoritos

Na quarta-feira, o Microsoft Research anunciou o lançamento do Magma, um novo modelo de IA de base, que combina capacidades de processamento visual e linguístico para controlar interfaces de software e sistemas robóticos. O modelo visa impulsionar o desenvolvimento de IA multimodal, permitindo a execução de tarefas em múltiplos passos no mundo digital e físico. Se seus resultados superarem as expectativas dos testes internos, isso representará um avanço significativo na tecnologia de IA geral. A Microsoft destaca que o Magma é o primeiro modelo capaz de não apenas processar dados multimodais, como texto, imagem e vídeo, mas também de interagir diretamente com interfaces de usuário ou objetos físicos. Este projeto foi desenvolvido pela Microsoft em colaboração com pesquisadores da KAIST, Universidade de Maryland, Universidade de Wisconsin-Madison e Universidade de Washington.

Diferente dos projetos de robôs anteriores da Microsoft, como o baseado no ChatGPT, e do Google, como o PALM-E e RT-2 — que dependem de modelos separados para lidar com percepção e controle — o Magma integra ambos em uma única arquitetura. A Microsoft posiciona-o como um avanço em “IA de agente”, que confere ao sistema a capacidade de planejar e executar tarefas complexas de forma autônoma, em vez de apenas responder a perguntas. O artigo de pesquisa da empresa afirma que o Magma pode desenvolver planos e tomar ações com base em objetivos dados, utilizando dados visuais e linguísticos para integrar inteligência linguística, espacial e temporal, lidando com uma variedade de cenários de tarefas.

O núcleo do Magma está em duas tecnologias: Set-of-Mark, que usa etiquetas digitais para identificar elementos interativos, como botões em interfaces ou objetos que podem ser manipulados por robôs; e Trace-of-Mark, que extrai padrões de movimento a partir de vídeos, aprimorando a compreensão espacial. Os dados de treinamento cobrem imagens, vídeos, operações de robôs e interações com interfaces de usuário, garantindo sua adaptabilidade multimodal. A Microsoft afirma que o Magma se saiu bem em testes de referência, como no VQAv2, onde obteve uma pontuação de 80.0, superando o GPT-4V (77.2), e também obteve melhores resultados que o OpenVLA em tarefas de robótica. No entanto, a validade científica dos testes de IA ainda não foi completamente verificada e precisa ser confirmada por pesquisadores externos.

Apesar de seu grande potencial, o Magma ainda apresenta limitações em decisões complexas de múltiplos passos, e a Microsoft informou que continuará a otimizar o modelo. A empresa planeja liberar o código de treinamento e inferência no GitHub na próxima semana, incentivando a comunidade de pesquisa a explorar mais a fundo. Se isso se concretizar, o Magma poderá transformar a IA da Microsoft, passando da interação textual para o controle autônomo de software e robôs. Ao mesmo tempo, projetos como o Operator da OpenAI e o Gemini 2.0 do Google mostram que a IA de agentes está se tornando uma tendência crescente na indústria. Em 2025, esse campo, antes controverso, passou a ser mainstream na pesquisa, refletindo a rápida evolução da cultura da IA.

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com