De acordo com pt.wedoany.com-Em 3 de julho, na Conferência Global de Economia Digital de 2026, a ShengShu Technology lançou o modelo de vídeo de próxima geração Vidu S1, que realiza a geração de vídeo interativa em tempo real, transformando a criação de vídeos por IA de fragmentos únicos para suporte a interações contínuas em tempo real.

O Vidu S1 suporta diálogos de vídeo em tempo real com controle de personagens por meio de comandos de voz, permitindo que os usuários controlem naturalmente avatares de IA através de entrada de voz e realizem interações contínuas e ilimitadas. O modelo oferece resolução de 540P (960x540), taxa de quadros de 25 FPS (máximo de 42 FPS), permitindo que os usuários criem instantaneamente personagens interativos personalizados a partir de uma única imagem (pessoas reais, personagens de anime ou até animais de estimação), com voz personalizável. Todo o sistema pode ser executado em GPUs de nível consumidor, reduzindo significativamente a barreira de hardware para a geração de vídeo interativo em tempo real.
A maioria dos modelos de geração de vídeo existentes utiliza fluxos de trabalho offline, onde os usuários enviam um prompt e aguardam a geração do vídeo, que permanece fixo após a criação. O Vidu S1 introduz uma estrutura de geração de vídeo interativa em tempo real, permitindo que os usuários forneçam continuamente entrada de voz durante diálogos de vídeo em tempo real. O modelo processa a entrada de voz juntamente com o contexto do diálogo e o contexto visual atual, permitindo que o conteúdo de vídeo subsequente seja gerado e atualizado em tempo real. O modelo não depende de movimentos labiais acionados por áudio ou bibliotecas de animação predefinidas, mas compreende o significado semântico, a intenção e o contexto emocional da entrada de voz, gerando em tempo real movimentos labiais sincronizados, expressões faciais, movimentos oculares, gestos, posturas corporais e movimentos completos do corpo.
O Vidu S1 adota uma arquitetura de difusão autorregressiva (AR+Diffusion), que não gera todo o vídeo de uma vez, mas prevê e gera continuamente o conteúdo de vídeo subsequente com base nos quadros já gerados, nos comandos de voz atuais e no contexto do diálogo. Quando o usuário fornece novas instruções, o modelo atualiza em tempo real as expressões, ações e comportamentos subsequentes do personagem, permitindo que a interação evolua continuamente durante o diálogo. Este modelo é líder na geração de vídeo em tempo real de duração ilimitada, mantendo a consistência da identidade do personagem, movimentos naturais e coerentes, e processamento contínuo da entrada do usuário, realizando respostas em tempo real em diálogos prolongados.
Para alcançar a geração de vídeo interativo em tempo real com resolução de 540P (960x540) e 25 FPS, suportando até 42 FPS, a ShengShu Technology adotou tecnologias de aceleração de inferência no nível do modelo, incluindo TurboDiffusion, SageAttention de baixa precisão, métodos de atenção esparsa SLA e SpargeAttention, reduzindo o custo computacional por quadro através de geração em poucos passos, quantização do modelo e otimização do kernel de inferência. No nível do sistema, o motor de serviço de inferência TurboServe gerencia eficientemente a carga de trabalho de inferência, alocando dinamicamente recursos computacionais com base no estado da interação. Essas otimizações permitem que o Vidu S1 execute geração interativa em tempo real em GPUs de nível consumidor, fornecendo a base técnica para aplicações como diálogos de vídeo em tempo real, transmissões ao vivo interativas, companheiros de IA, jogos interativos e experiências de realidade estendida (XR).
Na criação de personagens, o Vidu S1 introduz um fluxo de trabalho totalmente generativo. O usuário só precisa enviar uma imagem, e o modelo captura a identidade, aparência e estilo visual do personagem, gerando em tempo real movimentos labiais sincronizados, expressões faciais, gestos e movimentos completos do corpo, sem necessidade de modelagem e treinamento específicos para o personagem. Seja baseado em pessoas reais, personagens de anime ou animais de estimação, uma única imagem pode ser transformada em um personagem interativo em tempo real, com suporte para voz personalizável.
O Vidu S1 já está disponível publicamente, permitindo que os usuários criem e interajam em tempo real com avatares de IA a partir de suas imagens personalizadas. Sua plataforma de API está disponível para desenvolvedores e parceiros empresariais construírem aplicações interativas em tempo real.










