De acordo com pt.wedoany.com-A empresa americana de infraestrutura de IA distribuída Zero Latency adotou a plataforma AI Factory, projetada em conjunto pela Red Hat e pela Nvidia, como a base Kubernetes de nível empresarial para sua rede nos Estados Unidos. A empresa, anteriormente conhecida como Hyphastructure, lançou recentemente a plataforma Zerogrid em teste fechado, que atua como uma camada de orquestração de inferência de IA, roteando cargas de trabalho para a infraestrutura de borda com base em restrições de latência, localização e capacidade.

A adoção da plataforma Red Hat AI Factory fornece à Zero Latency uma camada de base conteinerizada, permitindo-lhe gerenciar recursos de Unidades de Processamento Gráfico (GPUs) distribuídos em diferentes locais dentro de um fluxo de trabalho unificado. Joe Fernandes, Vice-Presidente e Gerente Geral da unidade de negócios de IA da Red Hat, destacou: "Ao usar o Red Hat AI Enterprise para gerenciar infraestrutura distribuída, a Zero Latency demonstra como a tecnologia de nuvem híbrida pode escalar a inovação sem investir grandes quantidades de recursos. Estamos colaborando com a Zero Latency para definir conjuntamente a arquitetura de futuras aplicações de inferência de IA distribuída de baixa latência."
Embora a computação distribuída não seja um conceito novo, ela está ganhando cada vez mais atenção à medida que cresce a demanda por computação mais próxima do ponto de implantação real das aplicações. Em contraste com a infraestrutura monolítica centralizada adotada por hiperescaladores e novos provedores de nuvem, a equipe da Zero Latency se inspirou em usinas de energia virtuais para construir sua plataforma distribuída, agregando recursos no que chamam de pool de capacidade de inferência compartilhada. A empresa afirma que isso democratiza o acesso a GPUs de nível Nvidia, permitindo que os usuários impulsionem aplicações de IA de contexto longo ou autônomas, ao mesmo tempo em que atendem a requisitos de latência ou soberania.
Esta plataforma de inferência de IA distribuída utiliza "Índice de Residência de Prefixo", permitindo que os dados de cache de inferência sejam distribuídos pela memória da GPU, memória do sistema e camadas de armazenamento do cluster distribuído. A empresa acredita que essa abordagem resolve os gargalos causados por grandes estados de memória de cache KV que abrangem múltiplos sistemas e camadas de armazenamento. Michael Huerta, CEO da Zero Latency, declarou: "Há anos acreditamos que a infraestrutura descentralizada é superior à infraestrutura centralizada para as cargas de trabalho que mais precisam dela. A inferência de IA é seu próximo campo de aplicação: impulsionada por máquinas, sujeita a restrições e mal atendida por serviços de nuvem centralizados. O Red Hat AI Enterprise nos fornece a base conteinerizada para levar essa arquitetura a clientes empresariais, do chão de fábrica às ruas da cidade."
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com










