De acordo com pt.wedoany.com-A empresa de inteligência artificial Liquid AI, originária do Instituto de Tecnologia de Massachusetts, lançou recentemente um novo modelo, o LFM2.5-8B-A1B, com um total de 8 bilhões de parâmetros, mas que ativa apenas 1,5 bilhão de parâmetros por inferência, utilizando menos de um quinto do total de parâmetros em termos de poder computacional real. Este modelo é projetado especificamente para cenários de borda, como smartphones, PCs, robôs e servidores leves, não participando da competição de grandes modelos em nuvem.
Nos últimos dois anos, para executar grandes modelos em dispositivos IoT, a indústria tem adotado amplamente métodos como quantização, poda e destilação, comprimindo grandes modelos originalmente projetados para nuvem e implantando-os em dispositivos de borda. A Liquid AI adotou uma abordagem técnica diferente, focando em alterar a "forma de alimentação" do modelo, de modo que ele consuma menos recursos ao processar tarefas simples e apenas acione mais poder computacional para tarefas complexas. Especificamente, a energia consumida por cada inferência do modelo está diretamente ligada à dificuldade da tarefa de entrada, o que é alcançado através do mecanismo de ativação esparsa do modelo de especialistas mistos (MoE): o sistema ativa apenas os módulos especialistas mais relevantes para uma tarefa de entrada, mantendo o restante em estado de espera.
No lado da borda, a restrição central da inteligência mudou do custo computacional para o custo energético. A energia consumida (em joules) por cada inferência de um chip embarcado é limitada e fixa. Embora métodos como quantização, poda e destilação possam reduzir o tamanho do modelo, eles não alteram o padrão de que cada inferência requer a varredura de todos os parâmetros, tornando-se insustentáveis sob restrições rigorosas de bateria. A abordagem técnica da Liquid AI visa tornar o poder computacional consumido dinamicamente variável conforme a dificuldade da tarefa de entrada, ou seja, alcançar "computação adaptativa à entrada". Essa ideia deriva do estudo do nematódeo Caenorhabditis elegans, que possui apenas 302 neurônios em todo o corpo, mas cuja inteligência depende da variação dinâmica da força das conexões sinápticas entre os neurônios, e não do acúmulo de escala.
O modelo LFM2.5, ao manter operadores de baixo nível eficientes, sobrepõe o mecanismo de ativação esparsa MoE, com um total de 8 bilhões de parâmetros e ativação de apenas cerca de 1,5 bilhão por inferência, sendo essa a lógica subjacente. A trajetória técnica da Liquid AI evoluiu de redes dinâmicas de tempo contínuo iniciais para a arquitetura de ativação esparsa atual, compartilhando o núcleo de fazer a computação variar com a entrada. Além disso, essa escola técnica também se preocupa com a robustez do modelo após a implantação. Diferente de modelos estáticos, as redes neurais líquidas modelam através de equações de tempo contínuo e constantes de tempo adaptativas, permitindo que seus estados internos "fluam" e se ajustem em tempo real conforme o ritmo do sinal de entrada. Múltiplas demonstrações do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (MIT CSAIL) mostram que agentes impulsionados por tais redes ainda navegam de forma robusta em ambientes desconhecidos, lidando com deriva ambiental. Em comparação com métodos que dependem de atualizações remotas OTA para enviar novos modelos, essa arquitetura nativamente robusta pode defender contra perturbações desconhecidas ainda não surgidas.
Na era da inteligência de borda, o valor da indústria está migrando das extremidades do modelo e do chip para a camada de coordenação entre eles. O modelo LFM lançado pela Liquid AI foi otimizado para compatibilidade de hardware desde o início do design da arquitetura, com a alegação oficial de que pode ser executado perfeitamente em GPUs, CPUs ou NPUs, abrangendo dispositivos heterogêneos como wearables, robôs, smartphones, PCs e automóveis. A empresa fez uma parceria com a AMD em janeiro deste ano, levando apenas duas semanas para personalizar e implantar localmente um modelo de 2,6B (2,6 bilhões de parâmetros) no processador Ryzen AI desta última. A capacidade central por trás dessa eficiência é a habilidade de engenharia de rapidamente se aproximar da combinação ideal de operadores e do menor uso de memória sob restrições extremas de hardware.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









