De acordo com pt.wedoany.com-Empresas de software sul-coreanas estão a combinar várias tecnologias, como otimização de prompts, gateways LLM, implementação local e estratégias de múltiplos modelos, para reduzir o aumento acentuado dos custos de tokens decorrentes da popularização dos agentes de IA.
![[Fonte da imagem: gerado por nanobanana2]](https://img.wedoany.com/2026/0702/20260702085636297.png)
Para concluir tarefas, os agentes de IA chamam repetidamente modelos de linguagem e executam várias ferramentas, resultando num consumo de tokens várias a dezenas de vezes superior ao uso humano. Uma empresa sul-coreana implementou agentes de IA em toda a empresa desde o início deste ano, consumindo cerca de 250 mil milhões de tokens por mês, gerando custos de infraestrutura entre 200 milhões e 300 milhões de won sul-coreanos mensalmente.
Algumas empresas começam pela leveza e cache de prompts. A WISEITECH reduz entradas longas desnecessárias e chamadas repetitivas, enquanto a Naver Cloud otimiza modelos com base nas tarefas. As empresas estão a considerar os gateways LLM como nós de controlo centrais, monitorizando em tempo real a utilização de modelos por departamento. A Hancom integra sistemas de roteamento e fallback, e a NDS constrói gateways baseados no LiteLLM.
A implementação local também é adotada por várias empresas. A MakinaRocks conecta modelos de código aberto à sua própria infraestrutura vLLM, e a S2W utiliza servidores GPU próprios para processar tarefas de grande volume. A estratégia de combinação de múltiplos modelos atribui tarefas repetitivas padronizadas a modelos leves ou de código aberto. A Crowdworks utiliza modelos comerciais como o Amazon Bedrock em conjunto com mini-modelos. A CyNapse Soft introduziu as tecnologias Serena MCP e LSP, segmentando o código-fonte por unidades semânticas, alcançando uma economia de cerca de 20% em tokens em comparação com frameworks de código aberto.
A otimização de custos na era da IA generativa testa a capacidade de design de arquitetura das empresas. Ao eliminar pedidos repetitivos através de cache, isolar dados sensíveis com implementação local e substituir modelos de alto custo por roteamento, a construção de um sistema de controlo abrangente tornar-se-á um critério para distinguir a sustentabilidade das empresas de software.









