Empresas de software sul-coreanas combinam múltiplas tecnologias para lidar com o aumento explosivo dos custos de tokens de agentes de IA_Boletins

Empresas de software sul-coreanas combinam múltiplas tecnologias para lidar com o aumento explosivo dos custos de tokens de agentes de IA

2026-07-02 08:57

Favoritos

De acordo com pt.wedoany.com-Empresas de software sul-coreanas estão a combinar várias tecnologias, como otimização de prompts, gateways LLM, implementação local e estratégias de múltiplos modelos, para reduzir o aumento acentuado dos custos de tokens decorrentes da popularização dos agentes de IA.

[Fonte da imagem: gerado por nanobanana2]

Para concluir tarefas, os agentes de IA chamam repetidamente modelos de linguagem e executam várias ferramentas, resultando num consumo de tokens várias a dezenas de vezes superior ao uso humano. Uma empresa sul-coreana implementou agentes de IA em toda a empresa desde o início deste ano, consumindo cerca de 250 mil milhões de tokens por mês, gerando custos de infraestrutura entre 200 milhões e 300 milhões de won sul-coreanos mensalmente.

Algumas empresas começam pela leveza e cache de prompts. A WISEITECH reduz entradas longas desnecessárias e chamadas repetitivas, enquanto a Naver Cloud otimiza modelos com base nas tarefas. As empresas estão a considerar os gateways LLM como nós de controlo centrais, monitorizando em tempo real a utilização de modelos por departamento. A Hancom integra sistemas de roteamento e fallback, e a NDS constrói gateways baseados no LiteLLM.

A implementação local também é adotada por várias empresas. A MakinaRocks conecta modelos de código aberto à sua própria infraestrutura vLLM, e a S2W utiliza servidores GPU próprios para processar tarefas de grande volume. A estratégia de combinação de múltiplos modelos atribui tarefas repetitivas padronizadas a modelos leves ou de código aberto. A Crowdworks utiliza modelos comerciais como o Amazon Bedrock em conjunto com mini-modelos. A CyNapse Soft introduziu as tecnologias Serena MCP e LSP, segmentando o código-fonte por unidades semânticas, alcançando uma economia de cerca de 20% em tokens em comparação com frameworks de código aberto.

A otimização de custos na era da IA generativa testa a capacidade de design de arquitetura das empresas. Ao eliminar pedidos repetitivos através de cache, isolar dados sensíveis com implementação local e substituir modelos de alto custo por roteamento, a construção de um sistema de controlo abrangente tornar-se-á um critério para distinguir a sustentabilidade das empresas de software.

Coreia do Sul

Informação e Comunicação Engenharia de inteligência artificial

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：O presidente brasileiro Lula defende o desenvolvimento de cadeias produtivas regionais de minerais críticos

Próximo：Rocket Lab dos EUA adquire Iridium por US$ 8 bilhões