Anthropic lança experimento "Project Deal": Agentes de IA avançados lucram 70% a mais que modelos básicos no mercado de usados_Boletins

Anthropic lança experimento "Project Deal": Agentes de IA avançados lucram 70% a mais que modelos básicos no mercado de usados

2026-04-27 16:10

Palavras-chave:

Favoritos

De acordo com pt.wedoany.com-A empresa de inteligência artificial Anthropic anunciou recentemente oficialmente um experimento interno denominado "Project Deal", com o objetivo de testar a capacidade de agentes de IA em realizar transações comerciais reais entre si. O experimento criou um ambiente fechado simulando um mercado de classificados, onde os agentes de IA desempenharam os papéis de compradores e vendedores, efetuando negociações reais com produtos genuínos e utilizando dinheiro real para liquidação.

De acordo com o relatório de pesquisa divulgado pela Anthropic, o experimento recrutou 69 funcionários do escritório de São Francisco. Cada participante recebeu um orçamento de 100 dólares (distribuído na forma de vale-presente) para comprar itens de colegas. Antes do início do experimento, o Claude realizou uma entrevista de no máximo 10 minutos com cada participante para entender sua disposição de vender, preço mínimo psicológico, preferências de compra e o estilo de negociação que gostariam que a IA adotasse. O Claude compilou essas entrevistas em instruções personalizadas do sistema, personalizando assim agentes de IA que representavam cada indivíduo. Em seguida, todos os agentes de IA foram lançados em um mercado fechado baseado no Slack, para realizar autonomamente todo o processo de postagem, oferta, contraproposta e fechamento de negócios. Durante todo o experimento, não houve nenhuma intervenção humana e os agentes de IA não solicitaram aprovação de seus empregadores.

Os resultados do experimento mostraram que os agentes de IA mediaram um total de 186 transações entre mais de 500 itens listados, com um valor total de transação superior a 4.000 dólares. No entanto, estas não foram ordens simples concluídas com um clique; os agentes precisaram identificar autonomamente potenciais correspondências, apresentar propostas, lidar com contrapropostas e, finalmente, chegar a um consenso em um ambiente de linguagem natural. A equipe de pesquisa da Anthropic afirmou: "Ficamos surpresos com o desempenho do Project Deal", e destacou que 46% dos participantes disseram que estariam dispostos a pagar por um serviço semelhante.

Para testar o impacto das capacidades de diferentes modelos nos resultados das transações, a Anthropic executou simultaneamente quatro mercados paralelos. Os mercados A e D usaram o então modelo principal mais forte, o Claude Opus 4.5; os mercados B e C atribuíram aleatoriamente metade dos participantes para usar Opus e a outra metade para usar o modelo mínimo Claude Haiku 4.5. Os funcionários só podiam ver as condições de negociação dos mercados A e B, mas não sabiam qual era o mercado "real" e qual era o mercado de pesquisa até o final do experimento. Este design duplo-cego garantiu que as avaliações subjetivas não fossem influenciadas pelas expectativas do modelo.

Os resultados do experimento revelaram duas descobertas principais. Primeiro, a qualidade do agente determina o resultado da transação. Quando os vendedores Opus vendiam os mesmos itens, o preço médio era 3,64 dólares mais alto; os compradores Opus conseguiam pagar, em média, 2,45 dólares a menos do que os compradores Haiku. Entre os 161 itens vendidos pelo menos duas vezes em todas as quatro rodadas do experimento, o preço médio do item era de apenas 12 dólares, o que significa que a diferença de 2 a 3 dólares trazida pelo Opus representa uma diferença de lucro de 15% a 20%. O caso mais extremo foi: uma mesma pedra preciosa cultivada em laboratório, vendida pelo Opus por 65 dólares, enquanto o Haiku vendeu por apenas 35 dólares; uma bicicleta quebrada, vendida pelo Opus por 65 dólares e pelo Haiku por apenas 38 dólares. Quando um vendedor Opus enfrentava um comprador Haiku, o preço médio de transação subia para 24,18 dólares, enquanto em transações simétricas Opus vs. Opus, o preço médio era de apenas 18,63 dólares.

Segundo, a parte em desvantagem não percebeu sua perda. A pesquisa pós-experimento mostrou que as pontuações de justiça das transações dos participantes eram quase idênticas — a nota média de justiça para transações realizadas pelo Opus foi de 4,05 (numa escala de 1 a 7), e para o Haiku, 4,06, praticamente sem diferença. Dos 28 participantes que usaram tanto Opus quanto Haiku em diferentes rodadas, apenas 17 classificaram a experiência com Opus como superior à do Haiku, enquanto 11 consideraram o desempenho do Haiku melhor. A Anthropic observou no relatório: "Objetivamente, a parte representada pelo modelo mais fraco sofreu perdas, mas subjetivamente, eles não sentiram nada. Se a diferença de capacidade dos agentes de IA surgir no mercado real, a parte em desvantagem pode nem perceber que sua situação piorou."

Outra descoberta inesperada do experimento foi: o estilo das instruções dadas pelos usuários aos agentes de IA teve quase nenhum impacto nos resultados das transações. Alguns participantes pediram ao Claude para adotar uma estratégia amigável e moderada, enquanto outros pediram para "negociar agressivamente o preço e fazer ofertas baixas logo no início". No entanto, os dados mostraram que instruções agressivas não tornaram mais fácil para os vendedores venderem itens, nem fizeram com que os compradores pagassem preços de fechamento mais baixos. A única diferença observada foi um preço de venda cerca de 6 dólares mais alto, mas isso foi quase inteiramente atribuído ao preço inicial mais alto, cerca de 26 dólares, apresentado pelos vendedores agressivos. A Anthropic concluiu: "A qualidade do modelo é o fator determinante, e o papel das instruções de prompt é muito menos importante do que se imagina."

A empresa admitiu que este experimento foi apenas "um piloto em pequena escala com participantes voluntários", mas acredita que "não estamos longe do surgimento de atividades comerciais entre agentes no mundo real". "Se a lacuna de qualidade dos agentes se formar no mercado real — e não há razão para pensar que não se formará — a parte em desvantagem pode não perceber que está sofrendo perdas." Com concorrentes como OpenAI e Google também explorando sistemas semelhantes, esta descoberta serve como um alerta para a governança econômica na era da IA.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com