De acordo com pt.wedoany.com-A Lenovo anunciou o lançamento do programa AION, que visa aumentar a eficiência operacional, reduzir custos operacionais e diminuir a dependência de GPUs ao realizar inferência diretamente na CPU.

O presidente da Lenovo Brasil, Ricardo Bloj, afirmou que, no contexto de crescimento da demanda por capacidade computacional, escassez e alto custo das GPUs, o programa AION define o posicionamento da empresa para o futuro. A ideia central do programa é otimizar as cargas de trabalho de IA de acordo com as necessidades de cada aplicação, a fim de aumentar a eficiência operacional e aproveitar ao máximo a infraestrutura existente. Bloj explicou que o AION reforça a visão da empresa sobre arquiteturas híbridas flexíveis, com o objetivo não apenas de fornecer infraestrutura, mas também de ajudar os clientes a construir ambientes de IA eficientes e escaláveis. Ele acrescentou que as empresas podem utilizar recursos existentes para acelerar projetos de IA, reduzindo assim o tempo de implantação, aumentando a eficiência operacional e ampliando o retorno sobre o investimento em infraestrutura.
A solução permite que cargas de trabalho de inferência mais leves ou distribuídas sejam executadas diretamente na CPU, liberando recursos de GPU para aplicações críticas com maior densidade computacional. Além de mitigar os problemas de custo e disponibilidade de GPUs, o AION também oferece uma resposta ao desafio comum da baixa utilização de CPUs em data centers, permitindo que as empresas iniciem projetos de IA utilizando recursos de CPU existentes, sem depender totalmente da aquisição de hardware dedicado.
Em termos técnicos, o programa aproveita as capacidades multi-core do Intel Xeon 6 para execução paralela em larga escala, podendo processar múltiplas solicitações de inferência simultaneamente, aumentando significativamente a capacidade de serviço por servidor em aplicações empresariais, APIs de IA, sistemas transacionais e chatbots. De acordo com a Lenovo, os resultados preliminares dos testes do AION mostram um tempo até a primeira palavra (FTTT) de 0,3 milissegundos para inferência em CPU, com uma velocidade de geração de resposta de 11 tokens por segundo, sem uso de GPU. Bloj afirmou que o projeto demonstra como a combinação inteligente de diferentes tecnologias pode ampliar o acesso à Inteligência Artificial de forma sustentável e eficiente.









