A HiDream.ai da China concluiu uma nova rodada de financiamento de centenas de milhões e lançou o modelo de imagem multimodal nativo de grande escala HiDream-O1-Image-Pro com mais de 200 bilhões de parâmetros_Boletins

A HiDream.ai da China concluiu uma nova rodada de financiamento de centenas de milhões e lançou o modelo de imagem multimodal nativo de grande escala HiDream-O1-Image-Pro com mais de 200 bilhões de parâmetros

2026-05-20 17:46

Favoritos

De acordo com pt.wedoany.com-A HiDream.ai realizou o seu primeiro Open Day a 19 de maio, lançando oficialmente o modelo de imagem de grande escala HiDream-O1-Image-Pro, construído com base na nova arquitetura de modelo multimodal nativo Unified Transformer (UiT), com uma escala de parâmetros superior a 200 mil milhões. A empresa anunciou simultaneamente a conclusão de uma nova ronda de financiamento de centenas de milhões de yuans, com a participação de várias instituições, incluindo Shenzhen Capital Group, Jinpu Investment, Caixin Capital e Fuju Capital. Esta é a segunda vez que a HiDream.ai conclui uma ronda de financiamento no espaço de meio mês, após ter concluído uma ronda de financiamento superior a 500 milhões de yuans em meados de abril.

O HiDream-O1-Image-Pro é o principal produto de código fechado da HiDream.ai na via da arquitetura multimodal nativa. Distinguindo-se do paradigma tradicional de codificação fragmentada com múltiplos módulos, este modelo integra pixels de imagem brutos, tokens de texto discretos e condições de tarefa num espaço de tokens contínuo e partilhado, alcançando uma fusão profunda de imagem, texto e condições multitarefa ao nível da representação subjacente. Este design de arquitetura permite-lhe atingir o estado da arte (SOTA) em tarefas-chave como geração genérica de texto-para-imagem, renderização de texto de alta fidelidade, geração de cenas diversificadas e edição de imagem. Anteriormente, a versão de código aberto HiDream-O1-Image, com 8 mil milhões de parâmetros e utilizando a mesma arquitetura, alcançou o primeiro lugar global entre modelos de código aberto na tabela de classificação de texto-para-imagem da plataforma de avaliação independente global Artificial Analysis, superando modelos de código aberto convencionais como Z-Image Turbo, Qwen-Image e FLUX.2 dev, e tornando-se a versão de modelo com o menor número de parâmetros públicos entre os 20 primeiros classificados dessa tabela.

Mei Tao, Fundador e CEO da HiDream.ai, afirmou durante o Open Day que a escolha da empresa pelo caminho multimodal nativo decorre de uma visão de longo prazo sobre a combinação da geração visual com o mundo físico: "Atualmente, muitos 'grandes modelos multimodais' são, na sua essência, 'justaposições unimodais'. O multimodal nativo, pelo contrário, grava as 'regras do mundo' no modelo desde o início – ele conhece as leis da física, as relações espaciais, a lógica causal, por isso pode verdadeiramente compreender o mundo, raciocinar sobre o mundo e reconstruir o mundo, em vez de apenas 'gerar conteúdo'." Mei Tao acredita que o multimodal nativo é o caminho necessário para alcançar a AGI.

A HiDream.ai foi fundada em março de 2023 pelo Dr. Mei Tao, Académico Estrangeiro da Academia Canadiana de Engenharia e antigo Vice-Presidente do Grupo JD.com. Mais de 90% dos membros da sua equipa de tecnologias-chave possuem doutoramento ou mestrado. A empresa construiu uma arquitetura de negócio "1+1+3": o modelo fundacional da série HiDream, a plataforma de serviços empresariais HiHarness, e três aplicações de agentes inteligentes que cobrem marketing comercial (HiBurst, Fornecedor Oficial Top 5 do TikTok), criação cinematográfica e televisiva ("Frame Praise", com mais de 5000 minutos de curtas-metragens e banda desenhada produzidos) e criação para redes sociais (vivago, com uma base de utilizadores superior a 40 milhões).

No evento do Open Day, a HiDream.ai assinou acordos de cooperação estratégica com o Fundo Shanghai Film New Vision, BlueFocus, Jetsen Century e Beier Health, promovendo a implementação do grande modelo multimodal nativo em áreas como cinema e televisão, marketing e saúde. O HiDream-O1-Image-Pro lançado é uma versão de código fechado, e a sua escala de mais de 200 mil milhões de parâmetros valida plenamente a enorme escalabilidade do paradigma da arquitetura multimodal nativa. A empresa está a acelerar o seu avanço em direção à modelação unificada de múltiplas modalidades, incluindo imagem, vídeo, texto e áudio.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com

China

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：Zhou Jian, fundador da UBTECH da China, anuncia a marca de robôs humanoides de consumo "UWORLD"

Próximo：Meitu, da China, lidera rodada anjo de milhões de dólares na Chance AI, apostando no segmento de agentes inteligentes de visão nativos de câmera