Fundação Linux dos EUA cria Tokenomics Foundation para lidar com custos descontrolados de IA
2026-06-06 11:44
Favoritos

De acordo com pt.wedoany.com-As empresas estão ansiosas com os custos cada vez mais altos do uso de IA. A Uber já esgotou em abril todo o orçamento de programação em IA para 2026; a Microsoft retirou a permissão para desenvolvedores usarem o Claude Code meses após concedê-la; um funcionário da Priceline revelou ao site de tecnologia TechCrunch que a renovação do contrato regular do Cursor teve um aumento de 4 a 5 vezes.

Embora o preço por token tenha caído, a popularização das aplicações de IA e dos agentes cada vez mais autônomos está impulsionando um aumento acentuado no consumo total. No início de 2025, muitas empresas que assinaram planos ilimitados agora estão ocupadas tentando descobrir para onde o dinheiro foi, cortando gastos e tentando recuperar o retorno sobre o investimento diante da pressão orçamentária. Ao mesmo tempo, um mercado para atender à necessidade de rastreamento de custos está se formando, com startups, fornecedores existentes e uma nova organização de padrões competindo para oferecer ferramentas e linguagens relevantes para as empresas.

"Seis meses atrás, os clientes só perguntavam: 'O que ele pode fazer? É bom o suficiente?'", disse Alexander Embiricos, chefe de empresas da OpenAI, em um evento em Nova York ao TechCrunch. "Agora a conversa é completamente diferente: 'Estamos gastando muito dinheiro. Que visibilidade você pode nos dar? Que capacidade de auditoria? Que controle de tokens? Qual é a eficiência do seu modelo?'"

Nesse contexto, a Linux Foundation anunciou esta semana o plano da Tokenomics Foundation, uma nova organização de padrões que visa trazer para os gastos com tokens de IA uma disciplina de gestão semelhante ao FinOps (a disciplina de custos estabelecida para gastos em nuvem).

"Em abril e maio, comecei a ouvir empresas dizerem: 'Meu Deus, já gastamos três vezes todo o orçamento de tokens para 2026, e ainda estamos em abril'", disse J.R. Storment, diretor executivo da FinOps Foundation, subordinada à Linux Foundation, ao TechCrunch. "Começamos a ouvir sobre crises existenciais. Toda a conversa mudou de 'maximizar tokens' e 'correr rápido' para 'precisamos de barreiras de proteção, como controlar isso?'"

Esses apelos surgem depois que CEOs exigiram anteriormente que as equipes usassem os melhores modelos sem se preocupar com custos e avançassem rapidamente nos projetos. Novos modelos lançados em novembro, como o Claude Opus 4.5 da Anthropic, o GPT-5.1 da OpenAI e o Gemini 3 Pro do Google, trouxeram melhorias significativas nas ferramentas de agente, multiplicando o consumo. Segundo relatos, uma empresa enfrentou uma conta de US$ 500 milhões do Claude por ter esquecido de definir limites de uso para os funcionários.

"É como uma epidemia de crack", disse Chris Reed, diretor sênior de finanças de TI da Priceline. Ele observou que a empresa já começou a definir limites de tokens para certos grupos: "Eles te dão uma amostra grátis, te viciam, e então você fica preso a eles."

Vitaly Gordon, CEO da plataforma de operações de engenharia Faros AI, disse que conversou recentemente com um CTO que mencionou: "Um dos meus engenheiros gastou US$ 40 mil em tokens no mês passado. Eu realmente não sei se devo impedi-lo ou dizer a todos os outros para serem como ele."

Uma pesquisa da Faros em março descobriu que, entre 20 mil desenvolvedores, a produção estava aumentando, mas bugs e reescritas também. A plataforma de gestão de engenharia Jellyfish também descobriu que os engenheiros que mais usam tokens têm uma produtividade cerca do dobro daqueles que usam menos IA, mas gastam 10 vezes mais tokens.

Nicholas Arcolano, diretor de pesquisa da Jellyfish, disse ao TechCrunch por e-mail que o crescimento explosivo dos gastos com IA se deve em grande parte às funções de agente, com o consumo por desenvolvedor aumentando cerca de 18,6 vezes em 9 meses. Esses dados tornam a relação entre o aumento da produtividade e o crescimento dos gastos mais nebulosa. "Se o gasto extremo vale a pena depende, em última análise, do valor comercial final do código lançado (por exemplo, receita), e a maioria das empresas ainda não consegue medir isso", disse Arcolano.

Parte do problema de medição reside na enorme escala do uso atual de IA. "Rastrear custos de nuvem é um problema de dados de centenas de milhões de linhas por mês", disse Storment. "Rastrear custos de tokens é um problema de dados de trilhões de linhas por mês. Você não pode simplesmente colocar esses dados em qualquer planilha ou ferramenta básica. Você precisa repensar fundamentalmente suas ferramentas, normas e sistemas contábeis."

Na Priceline, Reed já viu diferenças, apontando problemas entre o uso relatado pelos fornecedores e os dados internos da Priceline. "Minha carreira começou na gestão de custos de telecomunicações, e vejo todas as semelhanças entre telecomunicações, nuvem e IA", disse ele. "Sempre que algo novo é introduzido, surgem erros de faturamento e oportunidades de auditoria e otimização."

Um mercado está se formando em torno desse problema. Empresas puras como a Pay-i podem rastrear, medir e otimizar os custos e o desempenho dos investimentos em GenAI; a Paid permite que desenvolvedores rastreiem custos, meçam o uso e cobrem dos usuários com base no valor real, em vez de taxas de assinatura. Há também empresas como Jellyfish, Waydev e Faros AI, que oferecem monitoramento de agentes de IA para comprovar o retorno sobre o investimento em ferramentas de desenvolvedor. Storment disse que a maioria dos 180 fornecedores da FinOps Foundation está se inclinando para essa área.

Empresas com canais de distribuição existentes também estão adicionando novos recursos. A Ramp entrou recentemente no campo da gestão de gastos com IA; Datadog e New Relic adicionaram serviços como gestão de custos de nuvem, observabilidade em nível de token e monitoramento de GPU. Na conferência FinOps X da próxima semana, espera-se que a AWS lance novos recursos de gestão financeira voltados para gastos empresariais com IA.

Tiffany Luck, sócia da NEA, acredita que a eficiência de tokens e a observabilidade podem ser adicionadas à "camada de harness ou camada de aplicação". Ela mencionou a startup Factory, que lançou esta semana um roteador de modelos que seleciona automaticamente o modelo mais adequado para cada tarefa. Gordon prevê que laboratórios de ponta e outros provedores de modelos adotarão a otimização no estilo OpenRouter, direcionando consultas para os modelos mais baratos — uma tendência já observada nas contas do Claude das empresas. "Mesmo que você esteja chamando o modelo Opus, parte do custo será atribuída ao Sonnet ou Haiku", disse Gordon, "porque estes são inteligentes o suficiente para realizar o trabalho. Acho que isso se tornará cada vez mais comum."

No entanto, todas essas ferramentas estão sendo construídas sem uma linguagem comum ou definições compartilhadas. É aqui que a Tokenomics Foundation espera atuar. A fundação está construindo definições e estruturas normativas para "tokenomics"; desenvolvendo padrões abertos, normas e métricas para uso e faturamento de tokens de IA; e criando novas métricas como custo por inteligência ou tokens por watt. Ela também planeja definir métricas para eficiência de fábrica de tokens e eficiência de consumo. A organização planeja ser lançada oficialmente em julho e anunciará mais membros na conferência FinOps X da próxima semana.

"A economia de tokens é fundamentalmente mais abstrata e opaca do que qualquer coisa que gerenciamos nessa escala antes", disse Nishant Gupta, diretor de usabilidade da Salesforce, em um comunicado. "Ela exige um músculo operacional diferente do que a indústria construiu para a nuvem."

Embora o Goldman Sachs preveja que o uso global de tokens crescerá 24 vezes até 2030, as empresas que já estouraram o orçamento precisam de soluções agora, e os primeiros resultados da fundação ainda levarão meses para sair. "Talvez tenhamos inventado a máquina a vapor, mas ainda não descobrimos a linha de montagem", disse Gordon. De acordo com Arcolano, o mais sensato é adotar de forma ampla e moderada. "O melhor retorno sobre o investimento vem de elevar uma ampla camada intermediária de baixo uso para médio uso, em vez de empurrar os usuários pesados para um nível ainda mais alto", disse ele.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com