A comunicação semântica remodela as futuras redes de comunicação Apresentação da Tecnologia_Aplicação da Tecnologia

A comunicação semântica remodela as futuras redes de comunicação

2026-06-11 10:12

Favoritos

A tecnologia de comunicação semântica, como um novo paradigma de comunicação, ajudará as futuras redes de comunicação a realizar uma transição de paradigma de orientação a dados para orientação semântica. A teoria da comunicação semântica foi proposta pela primeira vez por Shannon, sendo dividida em três níveis: o nível sintático, o nível semântico e o nível pragmático. Entre eles, o objetivo fundamental do nível sintático é transmitir com precisão os símbolos/bits da mensagem, sendo seu principal problema resolver a transmissão de símbolos do transmissor para o receptor. Já o nível semântico foca em como os símbolos transmitidos podem transmitir com precisão o significado pretendido; o processo de comunicação realizado neste nível é chamado de comunicação semântica. O nível pragmático, por sua vez, considera a utilidade da informação recebida para os objetivos do receptor, dando mais ênfase a como a informação semântica transmitida pode atingir eficientemente os objetivos pretendidos. Seu principal objetivo é resolver o problema da utilidade da informação semântica, e a comunicação neste nível é geralmente chamada de comunicação orientada a objetivos.

A comunicação semântica pode extrair informações de características semânticas altamente relevantes para o objetivo a partir dos dados de origem. Ao minimizar informações semanticamente irrelevantes, pode reduzir efetivamente o atraso de transmissão e diminuir a sobrecarga de recursos de comunicação, como largura de banda e consumo de energia. A comunicação semântica realiza uma transição de paradigma do nível sintático para o nível semântico.

Classificação da comunicação semântica

Dos três níveis de comunicação definidos por Shannon, o objetivo da comunicação semântica é integrar os níveis semântico e pragmático no design dos sistemas de comunicação existentes. Portanto, a comunicação semântica pode ser considerada dividida em três categorias: comunicação orientada à semântica, comunicação orientada a objetivos e comunicação com percepção semântica. Conforme mostrado na Figura 1, com base na modalidade dos dados, a comunicação semântica é dividida em três categorias: comunicação semântica unimodal, comunicação semântica cross-modal e comunicação semântica multimodal fundida.

A comunicação semântica unimodal refere-se a um sistema de transmissão de informações semânticas baseado em um único tipo de dado. No que diz respeito à pesquisa atual sobre comunicação semântica, ela se concentra em modalidades típicas como texto, imagem, fala e vídeo.

No campo da comunicação de texto, a tecnologia de comunicação semântica supera as limitações da transmissão tradicional de caracteres codificados. Especialmente em ambientes de baixa largura de banda, transmitir apenas informações semânticas-chave, em vez de frases completas, pode melhorar significativamente a eficiência da comunicação. A comunicação semântica de texto foi proposta pela primeira vez por Farsad et al., que usou um comprimento de bit fixo para codificar frases de diferentes comprimentos, o que pode causar problemas como desperdício de largura de banda e perda de informações. Rao et al. desenvolveram ainda um esquema de codificação conjunta de fonte e canal de comprimento variável para texto, capaz de codificar dinamicamente o texto de entrada em símbolos de transmissão de comprimento variável. Xie et al. propuseram um sistema de comunicação semântica baseado em Transformer para maximizar a capacidade do sistema e minimizar erros semânticos. Xie et al. continuaram usando técnicas como poda de redundância de modelo e quantização de modelo para comprimir ainda mais modelos de aprendizado profundo, visando uma transmissão rápida de modelo e implantação em dispositivos IoT de baixo custo. Jiang et al. propuseram um método de solicitação de repetição automática híbrida, que pode reduzir ainda mais os erros semânticos na transmissão de texto. Lu et al. projetaram um mecanismo de destilação baseado em confiança e propuseram um sistema de comunicação semântica de texto que utiliza aprendizado por reforço para resolver o hiato semântico. Zhang et al. propuseram um esquema de comunicação semântica de texto multirate baseado em aprendizado de máscara, alcançando transmissão em taxas arbitrárias com alto desempenho de recuperação semântica.

Na comunicação semântica de fala, Weng et al. projetaram um sistema de comunicação semântica de fala baseado em aprendizado profundo, que trata cada quadro do espectro de fala como uma imagem e usa redes neurais convolucionais para comprimir o espectro de fala; Xiao et al. introduziram um mecanismo de adaptação à relação sinal-ruído do canal, permitindo que um único modelo seja aplicado a várias condições de canal. Tong et al. propuseram um método baseado em aprendizado federado, que pode melhorar ainda mais a precisão da extração semântica. Weng et al. propuseram um sistema de comunicação semântica baseado em atenção, que mantém uma transmissão semântica clara mesmo em ambientes com baixa relação sinal-ruído. Weng et al. também propuseram um sistema de comunicação semântica de fala de alta robustez, que realiza a transmissão de fala transmitindo informações semânticas básicas. Zhou et al. propuseram um sistema de comunicação semântica de fala ponta a ponta, que elimina efetivamente o ruído do sinal semântico enquanto preserva a informação semântica original.

O desenvolvimento contínuo do aprendizado profundo também permitiu a extração inteligente de características semânticas no campo da imagem, oferecendo novas possibilidades para cenários como telemedicina e direção autônoma. Bourtsoulatze et al. propuseram um modelo de rede neural convolucional para codificação conjunta de fonte e canal para suportar transmissão de imagens sem fio, que pode ajustar adaptativamente a qualidade de reconstrução da imagem sob condições de largura de banda limitada e baixa relação sinal-ruído; Kurka et al. projetaram um esquema de transmissão de imagem sem fio hierárquico com múltiplas camadas de refinamento de diferentes taxas de compressão; Zhang et al. propuseram uma comunicação com percepção semântica multinível para transmissão de imagem, demonstrando a importância de informações semânticas de alto nível, como informações de legendas de imagem. Erdemir et al. estudaram um esquema de codificação conjunta de fonte e canal para transmissão semântica de imagem baseado em modelos generativos, e Huang et al. consideraram sistemas de comunicação semântica para transmissão de imagem. Peng et al. projetaram um sistema de comunicação semântica de imagem que utiliza informações semânticas multiescala para aliviar significativamente os danos semânticos e aumentar a fidelidade semântica.

A tecnologia de comunicação semântica de vídeo superou o gargalo do processamento de redundância espaço-temporal. Jiang et al. propuseram um sistema de videoconferência semântica, que reduz a carga de transmissão representando a semântica do rosto com pontos-chave. Huang et al. criaram um sistema de comunicação semântica inovador adaptado para dados de vídeo de nuvem de pontos, usando codecs leves e seleção de região de interesse para alcançar decodificação e renderização em tempo real em cenários com recursos limitados.

Comunicação semântica cross-modal

A comunicação semântica, como um novo paradigma de comunicação, ao extrair informações semânticas compactas de sinais multimodais, pode realizar associações semânticas entre diferentes modalidades, alcançando assim uma comunicação semântica cross-modal eficiente. No entanto, a semântica em si é polissêmica e ambígua, dificultando o atendimento aos requisitos de confiabilidade da comunicação semântica cross-modal. Pesquisas existentes, ao explorar associações latentes entre modalidades e construir bases de informações semânticas comuns, já alcançaram inicialmente a comunicação semântica cross-modal. Chen et al. propuseram um framework de comunicação semântica cross-modal, conforme mostrado na Figura 2, que, ao integrar associações semânticas cross-modal, pode fundir dados de diferentes modalidades para transmissão.

A comunicação semântica cross-modal, ao explorar as associações intrínsecas entre diferentes modalidades, realiza a representação e codificação eficientes de características semânticas, superando assim as barreiras de transmissão entre modalidades e melhorando significativamente o desempenho da comunicação. Weng et al. desenvolveram um sistema de comunicação semântica para reconhecimento de fala, realizando comunicação cross-modal entre dados de fala e dados de texto. Weng et al. também projetaram um sistema de comunicação semântica de fala para realizar tarefas de reconhecimento e síntese de fala, explorando ainda mais as tarefas de tradução de fala para texto e de fala para fala. Xie et al. projetaram um sistema de comunicação semântica orientado a tarefas para tarefas de tradução automática e resposta visual a perguntas. Xie et al. também projetaram um sistema de comunicação semântica de resposta visual a perguntas capaz de transmitir dados multimodais para tarefas. Li et al. propuseram um grafo de conhecimento cross-modal. Luo et al. propuseram um esquema de fusão de informações multimodais com fusão de informações em nível de canal, alcançando transmissão confiável em vários canais sem fio. Pokhrel et al. propuseram um método de hash adaptativo de domínio, capaz de extrair semântica de dados multimodais. Qin et al. propuseram um novo método para extrair semântica de fontes multimodais e canais sem fio. Xie et al. projetaram um sistema de comunicação semântica assistido por memória para dados multimodais, a fim de melhorar a eficiência da transmissão. Wang et al. propuseram um sistema de comunicação semântica de aprendizado profundo com calibração cross-modal, utilizando efetivamente a correlação entre sinais multimodais para aumentar a robustez da transmissão; Jiang et al. projetaram um sistema de comunicação semântica cross-modal construído com base em modelos de linguagem visual, realizando a reconstrução de imagem guiada por semântica de texto para reduzir o consumo de largura de banda; outra tecnologia de comunicação semântica editável suporta a edição e transmissão personalizadas da semântica texto-imagem pelos usuários. No entanto, a pesquisa existente ainda apresenta deficiências significativas na integração profunda de informações cross-modal no framework de codificação conjunta de fonte e canal (JSCC).

Comunicação semântica multimodal

A comunicação semântica multimodal profundamente fundida tem como núcleo a tecnologia de alinhamento semântico multimodal, realizando funções como extração semântica cross-modal, modelagem de associação e codificação adaptativa. Em futuros cenários 6G, a comunicação semântica multimodal, por meio da fusão profunda e codificação colaborativa de modalidades como texto, fala, imagem e vídeo, impulsiona a transição da interação humano-computador da transmissão de símbolos para a transmissão semântica unimodal e, em seguida, para a transmissão semântica multimodal fundida. Modelos de linguagem grande multimodal (MLLM), como GPT-4, Gemini e Llama, fornecem uma plataforma unificada de representação semântica para a comunicação semântica multimodal, capazes de integrar informações de várias modalidades, como texto, imagem e áudio, realizando alinhamento e geração semântica cross-modal.

Wang et al. propuseram um modelo de comunicação semântica aprendível ponta a ponta que integra LLM, utilizando várias estruturas do LLM para projetar codificadores semânticos, demonstrando desempenho superior em fidelidade semântica, generalização entre cenários e complexidade. Nam et al. propuseram um novo framework de comunicação semântica orientado à linguagem, que gera prompts personalizados para o ouvinte aprendendo o estilo de linguagem do ouvinte no contexto. Zhang et al. combinaram um codificador pré-treinado baseado em LLM com um decodificador gráfico personalizado para gerar semântica. Zhao et al. introduziram um sistema de comunicação semântica impulsionado por LLMs, que expande sistemas de transmissão unimodal e melhora sua capacidade de generalização usando características multimodais para reconstruir informações visuais originais, melhorando assim a qualidade da transmissão.

Os sistemas de comunicação semântica multimodal profundamente fundida podem modelar as dependências semânticas entre diferentes modalidades por meio de grafos semânticos, realizando a fusão de características semânticas de diferentes modalidades. Xing et al. propuseram um modelo de representação e fusão semântica multimodal baseado em grafo de conhecimento, capaz de utilizar as vantagens estruturais do grafo de conhecimento para fundir informações semânticas multimodais. Li et al., por sua vez, propuseram um algoritmo de complementação de características cross-modal baseado em grafo direcionado para aliviar o problema de heterogeneidade na fusão multimodal.

Tecnologias facilitadoras da comunicação semântica

De acordo com o fluxo geral de design do sistema de comunicação semântica, as principais tecnologias de implementação da comunicação semântica podem ser divididas em três aspectos: métricas de avaliação de desempenho, design do transmissor e receptor, e gerenciamento de recursos. Essas tecnologias apoiarão a comunicação semântica na realização da comunicação mútua entre as partes no nível semântico, promovendo a atualização da comunicação existente da transmissão tradicional de símbolos/bits para a transmissão semântica, conforme mostrado na Figura 3.

Métricas de avaliação de desempenho da comunicação semântica

A avaliação de desempenho do sistema de comunicação é um componente chave do design do sistema de comunicação. Dependendo dos indicadores de desempenho do sistema de comunicação, é possível comparar quantitativamente o desempenho de diferentes algoritmos de otimização de comunicação e realizar a otimização diferenciada de algoritmos com base nos requisitos de desempenho de cenários específicos.

Métricas semânticas para dados de diferentes modalidades

Devido às diferenças nas modalidades dos dados transmitidos, existem nuances nas métricas usadas para medir o desempenho dos sistemas de comunicação semântica. Para a transmissão semântica de texto, existem muitos métodos de métrica semântica de texto para avaliar sistemas semânticos de texto. Por exemplo, a distância semântica e a taxa de erro de palavras (WER), que avaliam a similaridade semântica até certo ponto, e o BLEU (Bilingual Evaluation Understudy), que mede a similaridade semântica entre duas sentenças. Além disso, do ponto de vista dos bits transmitidos na comunicação tradicional, Jiang et al. também introduziram o consumo médio de bits por frase como uma métrica para a comunicação semântica de texto.

Para dados de fala, geralmente são usadas as seguintes métricas: WER, taxa de erro de caractere (CER), taxa de distorção do sinal (SDR) e avaliação perceptual da qualidade da fala (PESQ).

Para dados de imagem, muitas métricas semânticas foram propostas para transmissão semântica de imagem. A relação sinal-ruído de pico em nível de pixel é usada para quantificar a razão entre a potência máxima possível do sinal de imagem desejado e a potência do ruído do sinal reconstruído desejado; a similaridade estrutural em nível de estrutura é usada para avaliar a qualidade geral da imagem de origem e da imagem reconstruída; a similaridade estrutural multiescala é usada para capturar detalhes da imagem em várias resoluções; e a similaridade de patch de imagem perceptual aprendida e a pontuação de transformação visual são usadas para avaliar a similaridade da imagem em nível semântico. Peng et al. focaram nos danos semânticos causados por perturbações adversárias em imagens, e Fan et al. propuseram uma pontuação de similaridade semântica para quantificar diferenças em nível semântico entre imagens. Como o vídeo é composto por múltiplos quadros de imagem, algumas métricas para dados de imagem também podem ser usadas para dados de vídeo, como a relação sinal-ruído de pico (PSNR).

Métricas semânticas orientadas à alocação de recursos

Com base nos indicadores de desempenho da arquitetura de comunicação tradicional e combinando as características essenciais da comunicação semântica, podem ser consideradas as seguintes métricas semânticas gerais orientadas à alocação de recursos.

1) Similaridade semântica. A similaridade semântica é um indicador que mede o grau de similaridade no significado entre dois conjuntos de dados. Não considera simplesmente a correspondência entre palavras, mas avalia, em nível semântico, se ambos expressam o mesmo significado ou significados semelhantes.

2) Taxa de transferência semântica. Na comunicação semântica, a taxa de transferência semântica é usada para medir a eficiência com que o sistema de comunicação semântica transmite informações semânticas efetivas por unidade de tempo. Yan et al. definiram a taxa de transferência semântica como a quantidade de informação semântica transmitida efetivamente por segundo.

3) Eficiência espectral semântica. A eficiência espectral é um indicador central para medir a capacidade de um sistema de comunicação tradicional de transmitir informações por unidade de largura de banda. A eficiência espectral semântica é definida como a taxa na qual a informação semântica pode ser transmitida com sucesso por unidade de largura de banda.

4) Informação mútua semântica. A informação mútua semântica visa quantificar a distorção em nível semântico existente no processo de compressão semântica de uma tarefa específica. A informação em nível semântico é o significado que é finalmente compreendido pela tarefa e incluído nos resultados da percepção.

5) Entropia semântica. A entropia da informação mede a informação com base nas características estatísticas dos símbolos da fonte, enquanto a entropia semântica quantifica diretamente a informação semântica da fonte, desempenhando um papel importante na quantificação da eficiência da comunicação semântica na alocação de recursos.

Design do transmissor e receptor na comunicação semântica

Representação semântica

A essência da comunicação semântica é a transmissão de informações semânticas. Ao transmitir apenas informações semânticas, a comunicação semântica pode gerar mais conhecimento com menos dados, sendo a representação semântica o primeiro passo na transmissão de informações semânticas.Com o desenvolvimento contínuo da comunicação semântica, a informação semântica pode ser representada de três formas, dependendo do algoritmo de representação semântica: vetores de características semânticas baseados em aprendizado profundo, redes de relacionamento de entidades baseadas em grafos de conhecimento e redes hierárquicas entre entidades baseadas em árvores semânticas hierárquicas.

1) Vetores de características semânticas baseados em aprendizado profundo. Através da tecnologia de aprendizado profundo, dados como imagens e texto podem ser mapeados para o espaço semântico. No entanto, a representação semântica baseada em aprendizado profundo precisa ser treinada para tarefas específicas, tendo baixa capacidade de generalização para representação semântica de tarefas não-alvo, exigindo o treinamento de modelos de aprendizado profundo relevantes para diferentes tarefas.

2) Redes de relacionamento de entidades baseadas em grafos de conhecimento. Um grafo de conhecimento é uma estrutura de dados usada para descrever entidades, atributos e seus relacionamentos no mundo real. Através do alinhamento de entidades, é possível alcançar consistência entre fontes e alta eficiência de interação para informações semânticas multimodais. Além disso, as informações semânticas de dados multimodais brutos podem ser modeladas como um grafo de conhecimento e, em seguida, serializadas em sequências de triplas para suportar transmissão e raciocínio eficientes de conhecimento.

3) Redes hierárquicas entre entidades baseadas em árvores semânticas hierárquicas. A árvore semântica hierárquica (HST) organiza as entidades em uma estrutura de árvore. De acordo com os relacionamentos entre as entidades, as árvores semânticas hierárquicas podem ser divididas em dois tipos: um é a HST baseada em ontologia, que contém apenas relações de atributos estritas; o outro é a HST baseada em classificação, que contém relações de hiponímia. Wilks forneceu cinco restrições que essa meta-informação semântica deve satisfazer: finitude, abrangência, independência, aciclicidade e continuidade. Zhong propôs um sistema de comunicação semântica baseado em HST. Shi et al. forneceram um exemplo de meta-informação semântica que inclui os sentidos humanos básicos, como visão, audição, olfato, paladar e tato. Zhang et al. definiram a meta-informação semântica como a "base semântica" da rede de comunicação semântica e explicaram que as informações semânticas de dados multimodais podem ser finalmente representadas por sequências de bases semânticas por meio de transformações multinível.

Codificação e decodificação semântica

A codificação semântica, ao capturar o significado latente dos dados transmitidos, realiza a transmissão eficiente de informações. Diferente das técnicas de codificação da comunicação tradicional, a codificação semântica considera a semântica e os relacionamentos nos dados, podendo obter taxas de compressão mais altas enquanto mantém o conteúdo básico e reduz a redundância.

As primeiras pesquisas em codificação semântica concentraram-se principalmente na realização da codificação e decodificação semântica do ponto de vista da teoria da informação. Juba et al. basearam-se no fato de que as distribuições de probabilidade a priori dos símbolos na fonte e no destino podem ser diferentes. Güler et al., do ponto de vista da similaridade semântica, usaram métodos de teoria dos jogos para projetar um framework de codificação com perdas.

Com o desenvolvimento contínuo do campo do aprendizado profundo, a codificação e decodificação semântica começaram a se desenvolver na direção do aprendizado profundo. Farsad et al. propuseram uma codificação conjunta de fonte e canal de texto baseada em aprendizado profundo, que alcança uma baixa taxa de erro de palavras e preserva a informação semântica das frases, enquanto Bourtsoulatze et al. mapearam diretamente os valores de pixel da imagem para símbolos de entrada de canal de valor complexo e aprenderam representações de codificação resilientes a ruído. Xu et al. propuseram uma codificação conjunta de fonte e canal baseada em mecanismo de atenção, conseguindo com sucesso a transmissão de imagem em diferentes níveis de relação sinal-ruído. Li et al. propuseram um framework de codificação semântica com escalabilidade, melhorando a precisão da representação semântica. Huang et al. propuseram um método de codificação semântica adaptativa baseado em aprendizado por reforço, realizando a codificação de imagens acima do nível de pixel. Barka et al. propuseram uma arquitetura de comunicação semântica de aprendizado profundo adaptativa a ruído impulsivo. Além disso, a tecnologia de redes neurais também é uma parte indispensável da codificação semântica, como a extração de características semânticas por redes convolucionais e a introdução de redes de atenção em grafos com mecanismo de atenção (Tabela 1).

De modo geral, o principal desafio no design do transmissor e receptor da comunicação semântica reside na construção de um modelo generalizado que combine fidelidade semântica e adaptabilidade a cenários.No futuro, é necessário explorar ainda mais as associações semânticas sob fusão multimodal profunda e a codificação conjunta de fonte e canal.

Estratégias de gerenciamento de recursos na comunicação semântica

A alocação de recursos na comunicação semântica visa melhorar a eficiência da comunicação no nível semântico, otimizar os indicadores de desempenho do sistema de comunicação semântica e impõe novos requisitos ao desempenho das tarefas na camada de aplicação. Com base nos três problemas propostos por Wang et al., nós os expandimos e aprofundamos nos quatro problemas-chave a seguir que precisam ser resolvidos urgentemente na alocação de recursos semânticos.

Otimização precisa de recursos no nível semântico

Em relação ao problema de otimização de recursos no nível semântico, o esquema de alocação de recursos proposto por Yan et al. pode otimizar a alocação de recursos no nível semântico, mas requer um mapeamento pré-treinado para orientar a alocação de recursos de rede, sendo difícil lidar com cenários de comunicação dinâmicos. Wang et al., por sua vez, propuseram um esquema de alocação de recursos usando quantização de bits semânticos, resolvendo o problema de percepção ambiental imprecisa devido ao mapeamento adicional entre métricas semânticas e métricas de transmissão.

Compatibilidade com dispositivos de hardware sob a arquitetura de comunicação sem fio tradicional

Em relação ao problema de compatibilidade de hardware, Hu et al., com base em uma base de conhecimento semântico baseada em codebook, realizaram a discretização de informações semânticas contínuas. No entanto, é necessário um método de quantização de bits semânticos mais eficiente e universal para se adaptar aos dispositivos de hardware de transmissão sem fio atuais. Para redes veiculares altamente dinâmicas, Su et al. propuseram um método para otimizar o controle de acesso e o controle de potência da informação semântica em cada camada, demonstrando bom desempenho em ambientes altamente dinâmicos com interferência co-canal e incerteza de canal. Para sistemas de fusão onde coexistem serviços de comunicação semântica e comunicação ultraconfiável de baixa latência, Ding et al. propuseram um esquema de multiplexação dinâmica e escalonamento colaborativo, maximizando a utilidade dos serviços semânticos enquanto atendem aos requisitos de latência do serviço. Para redes celulares uplink multitarefa multicélula, Yan et al. propuseram um método de alocação de recursos de rede multitarefa baseado em qualidade de experiência, resolvendo os problemas de alocação de canal e alocação de potência de transmissão.

Alocação eficiente de recursos de comunicação sob condições de recursos limitados

Mu et al. propuseram um framework de acesso múltiplo não ortogonal uplink orientado por semântica, utilizando a comunicação semântica para fornecer bom desempenho mesmo em condições de baixa relação sinal-ruído ou recursos sem fio limitados. Zhang et al. introduziram um esquema de alocação dinâmica de recursos para redes de comunicação semântica orientadas a tarefas baseado em aprendizado por reforço profundo, a fim de melhorar o desempenho das tarefas em redes sem fio com recursos limitados. Zhang et al. propuseram um esquema de alocação de recursos com percepção semântica em um cenário conjunto de coleta de energia, rádio cognitivo e acesso múltiplo não ortogonal, permitindo que dados ricos em informações semânticas ocupem recursos prioritariamente. Chen et al. propuseram um novo algoritmo baseado em aprendizado por reforço profundo para maximizar a eficiência energética semântica média de longo prazo, capaz de realizar comunicação semântica em cenários com restrições de energia. Wu et al. propuseram um esquema JSCC adaptativo ao canal em transmissão OFDM, usando informações de estado do canal estimadas em vários ambientes de relação sinal-ruído para determinar as características e a alocação de potência das subportadoras apropriadas. Tung et al. apresentaram o primeiro método de transmissão de vídeo E2E JSCC para alocar a largura de banda disponível para cada quadro de um grupo de imagens.

Integração profunda da alocação de recursos semânticos com as tecnologias de codificação semântica existentes

Wang et al., calculando a importância da estrutura de informações semânticas baseada em grafo de conhecimento, otimizam a alocação de blocos de recursos e a codificação de informações semânticas, realizando a sinergia entre codificação semântica e alocação de recursos semânticos. Liu et al. propuseram um algoritmo que determina adaptativamente a taxa de compressão com base na importância semântica, otimizando simultaneamente a alocação de recursos e a seleção de usuários, e realizaram simulações para verificar o algoritmo. Zhang et al. também propuseram uma estratégia de otimização conjunta da taxa de compressão semântica, potência de transmissão e alocação de largura de banda (Tabela 2).

Perspectivas de pesquisa futura para comunicação semântica

1) Em relação às modalidades de dados na comunicação semântica, pesquisar a fusão profunda da comunicação semântica multimodal, considerar a representação unificada da semântica multimodal, realizar o mapeamento de dados de diferentes modalidades para um espaço semântico unificado e eliminar a heterogeneidade entre modalidades; pesquisar novos métodos de modelagem de associação semântica dinâmica sob fusão multimodal profunda, desenvolver mecanismos de fusão adaptativos dinâmicos para capturar dependências semânticas dinâmicas entre dados multimodais. Para o cenário de telemedicina, fundir imagens médicas, relatórios de diagnóstico e descrições de fala para realizar diagnóstico auxiliado por associação semântica com fusão de dados multimodais. Para o cenário de direção autônoma, fundir dados de LiDAR, imagens de vídeo e GPS (Sistema de Posicionamento Global) para realizar compreensão semântica multimodal e transmissão eficiente em ambientes complexos.

2) Em relação à avaliação de desempenho da comunicação semântica, projetar conjuntos de teste de referência para diferentes cenários de aplicação, como direção autônoma e telemedicina, formando um framework padronizado de avaliação de comunicação semântica. No cenário de telemedicina, focar no impacto da precisão da compressão semântica, da tempestividade da transmissão semântica e da precisão da compreensão semântica no diagnóstico médico, realizando a avaliação de desempenho da comunicação semântica no campo da telemedicina; na direção autônoma, quantificar e avaliar a tempestividade e precisão da extração e compreensão semântica, realizando a avaliação de desempenho da comunicação no campo da direção autônoma. Para cenários de aplicação diversificados, considerar a construção de um sistema de avaliação de comunicação semântica multidimensional, realizando a unificação dos indicadores de comunicação semântica e do desempenho da comunicação semântica.

3) Em relação ao controle de recursos da comunicação semântica, pesquisar mecanismos de otimização de recursos de comunicação semântica inteligente e colaborativa, capazes de construir um framework unificado de controle de recursos cross-domain orientado por semântica para necessidades de poder computacional heterogêneo e redes dinâmicas, realizando a alocação eficiente de recursos semânticos sob a fusão profunda de poder computacional e rede. Para atender aos requisitos de alta fidelidade, baixa latência e proteção de privacidade da comunicação semântica para dados médicos, considerar o uso de estratégias de descarregamento semântico dinâmico e alocação de poder computacional; com base nas características de risco dos dados médicos, realizar o descarregamento dinâmico de tarefas semânticas e o controle de recursos; para atender aos requisitos de baixa latência e alta confiabilidade da comunicação semântica de fontes múltiplas no cenário de direção autônoma, realizar uma arquitetura de controle de recursos de comunicação semântica hierárquica com extração semântica leve no terminal, fusão semântica local na borda e otimização semântica global na nuvem.

Conclusão

A comunicação semântica, como um novo paradigma de comunicação inteligente, possui enorme potencial de aplicação nas comunicações futuras, podendo reestruturar a arquitetura atual das redes de comunicação tradicionais. No entanto, para alcançar a aplicação generalizada da comunicação semântica, ainda é necessário superar os problemas de fusão multimodal profunda, controle de recursos cross-domain e projetar um sistema de métricas de avaliação de desempenho mais universal e razoável.Pesquisas futuras podem se concentrar no alinhamento semântico multimodal, na percepção de recursos semânticos e na teoria básica da informação semântica, construindo um sistema de comunicação semântica eficiente para suportar redes 6G por meio de inovação teórica e otimização de algoritmos.

China

Informação e Comunicação

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：192 núcleos em processo de 3 nm, a CPU mais poderosa da arquitetura Arm é oficialmente lançada

Próximo：Universidade de Jiangnan, na China, desenvolve "tapete de cimento flexível", inaugurando uma nova era de concreto reforçado com tecido 3D