Preço do cache de entrada da API DeepSeek cai para um décimo do preço de lançamento, V4-Pro com oferta limitada a 0,025 yuans por milhão de tokens_Boletins

Preço do cache de entrada da API DeepSeek cai para um décimo do preço de lançamento, V4-Pro com oferta limitada a 0,025 yuans por milhão de tokens

2026-04-27 16:09

Palavras-chave:

Favoritos

De acordo com pt.wedoany.com-A DeepSeek anunciou em 26 de abril um reajuste nos preços da API. O preço do cache de entrada com acerto para toda a linha de produtos caiu para um décimo do valor original. Com o desconto de 75% por tempo limitado no V4-Pro, o custo do cache de entrada com acerto para um milhão de tokens chega a apenas 0,025 yuans, estabelecendo um novo recorde de preço baixo para modelos de IA em escala global.

De acordo com a página oficial de preços da API da DeepSeek, este reajuste abrange todos os modelos da série V4, com o foco principal no cenário de acerto de cache de entrada. O preço do cache de entrada com acerto do DeepSeek-V4-Flash caiu de 0,2 yuans por milhão de tokens para 0,02 yuans por milhão de tokens. O DeepSeek-V4-Pro, voltado para clientes empresariais, teve um desconto ainda maior: o cache de entrada com acerto, que custava 1 yuan por milhão de tokens, agora está a 0,1 yuan. Antes de 5 de maio de 2026, com o desconto adicional de 75% por tempo limitado, o preço real é de apenas 0,025 yuans por milhão de tokens. O preço da entrada sem acerto de cache foi reduzido de 12 yuan para 3 yuan, e a saída, de 24 yuan para 6 yuan.

A base para esta grande redução de preços vem da atualização tecnológica do DeepSeek-V4. A versão de visualização do DeepSeek-V4 foi lançada oficialmente e como código aberto no dia 24 de abril, incluindo dois modelos, V4-Pro e V4-Flash, ambos suportando contexto ultra longo de 1 milhão de tokens. A arquitetura de atenção esparsa desenvolvida internamente reduz drasticamente o consumo de poder computacional para inferência. O poder computacional por token do modelo Pro é apenas 27% do V3.2, e o cache KV é reduzido para 10%, otimizando os custos a partir da base. De acordo com os parâmetros oficiais, o DeepSeek-V4-Pro tem 49B de parâmetros ativados e 33T de dados de pré-treinamento, posicionando-se como um carro-chefe de alto desempenho; o DeepSeek-V4-Flash tem 13B de parâmetros ativados e 32T de dados de pré-treinamento, focando em alta velocidade e baixo custo.

Na avaliação de capacidade de Agentes, o DeepSeek-V4-Pro já atingiu o melhor nível entre os modelos de código aberto atuais e também apresentou excelente desempenho em outras avaliações relacionadas a Agentes. Internamente, a DeepSeek já adotou o V4 como um modelo Agentic Coding para seus funcionários, e o feedback da avaliação indica que a experiência de uso é superior ao Sonnet 4.5, e a qualidade de entrega se aproxima do Claude Opus 4.6 (modo sem pensamento). Na avaliação de conhecimento mundial, o V4-Pro supera amplamente outros modelos de código aberto, ficando ligeiramente atrás do principal modelo proprietário, o Gemini 3.1 Pro. Nas avaliações de código de matemática, STEM e de competição, o V4-Pro supera todos os modelos de código aberto atualmente avaliados publicamente, equiparando-se aos melhores modelos proprietários do mundo. O V4-Flash é ligeiramente inferior à versão Pro em conhecimento mundial, mas demonstra capacidade de raciocínio próxima e, devido aos parâmetros e ativação do modelo serem menores, pode oferecer serviços de API mais rápidos e econômicos.

No ecossistema de poder computacional, a sinergia profunda entre o DeepSeek-V4 e o Huawei Ascend é outro fator-chave para a redução de preços. Toda a linha de produtos do supernó Ascend já oferece suporte aos modelos da série DeepSeek-V4. Em um relatório técnico, a DeepSeek revelou que o esquema de paralelismo de especialistas refinados foi verificado tanto na plataforma GPU da Nvidia quanto na NPU Ascend da Huawei. Em comparação com uma linha de base de não fusão forte, este esquema alcançou uma aceleração de 1,50 a 1,73 vezes em tarefas de inferência de propósito geral, e até 1,96 vezes em cenários sensíveis à latência. A DeepSeek enfatizou que, com o lançamento em lote de toda a linha de produtos do supernó Ascend no segundo semestre de 2026, o preço da versão Pro poderá ser reduzido ainda mais. Os custos em cenários de chamadas de alta frequência e processamento de texto longo caíram mais de 90%. Aplicações com altas taxas de acerto de cache, como bases de conhecimento RAG, assistentes inteligentes e análise de documentos, podem agora reduzir diretamente os custos comerciais de forma significativa.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com