A chinesa StepFun lança o modelo de raciocínio Step 3.7 Flash
2026-06-15 16:44
Favoritos

De acordo com pt.wedoany.com-A Nvidia continua a expandir seu portfólio, adicionando vários modelos, sendo que o maior deles foi apenas anunciado. Enquanto isso, a Microsoft lançou uma série de modelos na conferência Build no início de junho, mas, infelizmente, todos são de código fechado, um movimento que a distancia ainda mais da OpenAI.

A empresa de IA StepFun, sediada em Xangai, após o sucesso do lançamento do modelo 3.5 na primavera, lançou o novo modelo de raciocínio Step 3.7 Flash. A arquitetura do modelo é semelhante à da geração anterior, mas adicionou um Codificador de Visão (Vision Encoder), permitindo-lhe compreender imagens. A função de raciocínio agora é configurável, evitando o acúmulo imediato de uma grande quantidade de Tokens para problemas simples, sendo particularmente útil para usos de agente (agentic). Como muitos modelos chineses, seu antecessor foi submetido a uma revisão rigorosa; a versão 3.7 mudou pouco, mas o modelo apresenta fatos na região de raciocínio, que são então suprimidos na resposta final, claramente devido a barreiras de proteção (guardrails) impostas na fase final de treinamento. Fora isso, as respostas são em sua maioria corretas. Curiosamente, para perguntas em alemão, a maior parte do raciocínio é feita em alemão, enquanto palavras de interrupção como "wait" permanecem em inglês, diferentemente de quase todos os outros modelos que raciocinam apenas em inglês. A comunidade avalia bem o modelo, especialmente para uso com Agentes de Codificação (Coding Agents). No site da StepFun, seus dados são muito superiores aos do modelo antigo, superando até mesmo o DeepSeek V4 Flash. Os resultados do Step 3.7 Flash podem ser encontrados no repositório GitHub deste artigo.

O modelo M3 da MiniMax, embora rotulado como "Peso Aberto" (Open Weight), atualmente não permite o download dos pesos no Hugging Face, podendo ser testado apenas diretamente via MiniMax.ai ou OpenRouter. A MiniMax otimizou a arquitetura de atenção: a primeira fase decide quais Tokens são importantes, e a segunda fase passa esses Tokens para o cálculo completo de atenção. A MiniMax afirma que o M3 processa prompts quase dez vezes mais rápido que o M2, e a velocidade de geração é até 15 vezes maior. Atualmente, não há benchmarks públicos, mas os dados da própria MiniMax mostram que, na área de codificação, se os dados forem precisos, ele pode competir com os melhores modelos da Anthropic. Os resultados do MiniMax M3 podem ser encontrados no repositório GitHub deste artigo.

A Liquid AI adotou uma arquitetura única para seus Liquid Foundation Models, tornando a geração de Tokens extremamente eficiente e capaz de funcionar bem em CPUs. O recém-lançado LFM2.5-8B-A1B possui apenas um bilhão de parâmetros ativos, visando competir com modelos maiores como gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 e Gemma-4-26B-A4B-IT. No Mac Studio M2 Ultra, o modelo atinge uma velocidade de quase 200 Tokens/segundo, embora não consiga igualar totalmente os modelos grandes, é adequado para aplicações especializadas ou cenários de agente. Os resultados do LFM2.5-8B-A1B podem ser encontrados no repositório GitHub deste artigo.

A Nvidia lançou várias atualizações de modelos. O modelo LocateAnything pode ser usado para analisar imagens, gerando caixas delimitadoras contendo objetos específicos; seu processo de processamento é altamente paralelo, podendo até analisar documentos digitalizados, sendo útil para identificar elementos de GUI e operar navegadores através de agentes. O modelo tem cerca de 8 GB e pode ser executado em GPUs de consumo. O Decodificador de Difusão de Pixel (Pixel Diffusion Decoder) introduz um novo modelo de difusão no espaço de pixel, mas a operação ainda é complicada, exigindo o download de checkpoints da página do Hugging Face e o uso de programas especializados para processamento. O modelo Nemotron 3 Ultra possui 550 bilhões de parâmetros, dos quais 55 bilhões são ativos, utilizando o tipo de dados NVFP4 e um mecanismo de atenção otimizado (com muitas camadas Mamba), com comprimento de contexto de até 1 milhão de Tokens. No entanto, o Nemotron 3 Ultra ainda não alcançou totalmente os modelos de código aberto chineses. Como todos os modelos Nemotron, a Nvidia fornece a maior parte dos dados de treinamento e código, tornando-o altamente transparente, com um nível de abertura que apenas empresas de IA muito menores, como Olmo ou Apertus, possuem. A origem ocidental do modelo pode ser percebida nas respostas: enquanto os modelos chineses evitam cautelosamente certos tópicos, este modelo frequentemente fornece respostas mais claras, politicamente mais neutras ou com perspectivas diferentes. Os resultados do Nemotron 3 Ultra podem ser encontrados no repositório GitHub deste artigo.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com