赞
踩
论文地址:
https://ieeexplore.ieee.org/document/10582829
前言:之前就想,大语言模型是否可以通过微调用于通信系统的无线空口应用,这篇文章给出了答案。通过讲信道状态信息进行嵌入和注意力操作,变成大语言模型可以适配的数据,然后LLM只需要微调就可以活得较好的信道预测性能。
本文提出了一种名为LLM4CP(Large Language Model-empowered Channel Prediction)的方法,用于预测大规模多输入多输出(m-MIMO)系统中的信道状态信息(CSI)。现有的信道预测方法由于模型不匹配错误或网络泛化问题而缺乏精度。利用大型语言模型(LLMs)的强大建模和泛化能力,作者提出了一种基于预训练LLM的信道预测方法,通过历史上行CSI序列预测未来的下行CSI序列。在微调网络时,冻结了预训练LLM的大部分参数,以实现更好的跨模态知识迁移。为了弥合信道数据与LLM特征空间之间的差距,特别定制了预处理器、嵌入层和输出模块,并考虑了独特的信道特性。仿真验证了所提出方法在全样本、少样本和泛化测试中的最先进(SOTA)预测性能,并且具有较低的训练和推理成本。
大规模多输入多输出(MIMO)技术被认为是第五代(5G)及未来5G移动通信系统的核心技术,用于提高频谱效率(SE)。准确的信道状态信息(CSI)在促进m-MIMO相关设计中起着基础性作用,例如收发器优化、自适应调制、资源分配等。通常,CSI是通过信道估计获得的,其更新频率由信道相干时间决定。对于涉及高速用户移动的场景,缩短的信道相干时间显著增加了信道估计的开销,从而导致系统SE的显著降低。此外,在频分双工(FDD)系统中,由于上行链路和下行链路的信道互易性不成立,基站(BS)只能通过用户反馈获得下行链路CSI,导致开销增加和延迟。信道预测是一项有前景的技术,可以减少CSI获取的开销,它基于历史CSI数据预测未来的CSI。历史CSI和预测CSI可以位于相同或不同的频带中,分别对应时分双工(TDD)和FDD模式。例如,在FDD系统中,下行链路CSI可以从之前的上行链路CSI推断出来,从而避免了信道估计和反馈的需要。现有的信道预测研究可以分为三种类型,即基于模型的方法、基于深度学习的方法和混合(物理信息深度学习基础)方法。对于基于模型的方法,已经研究了几个参数模型用于时序信道预测,包括自回归(AR)模型、正弦波叠加模型和多项式外推模型。在文献[13]中,提出了一种基于Prony的角-延迟域(PAD)信道预测算法,利用大规模MIMO正交频分复用(OFDM)系统中多径角度和延迟的高分辨率。此外,还设计了一个联合角-延迟-多普勒(JADD)CSI获取框架,用于利用上行链路和下行链路信道之间的部分互易性。尽管如此,基于模型的方法的有效性在很大程度上取决于理论模型的准确性,这可能难以适应实际信道的复杂多径特性。深度学习展示了其在自动适应数据分布方面的强大能力,无需事先假设。最近,几种经典神经网络已应用于信道预测任务。在文献[15]中,基于多层感知器(MLP)的信道预测方法展示了与基于向量卡尔曼滤波器(VKF)的信道预测器相当的性能。为了更好地学习时序变化,递归神经网络(RNN)和长短期记忆(LSTM)被应用于信道预测。此外,提出了一种基于transformer的并行信道预测方案,以避免顺序CSI预测过程中的错误传播。在文献[19][20]中,通过将预测过程视为图像处理,卷积神经网络(CNN)和生成对抗网络(GAN)被用于下行链路CSI预测。然而,由于缺乏对信道独特结构的考虑,上述方法在处理复杂的信道预测任务时存在困难,并表现出高复杂性。因此,一些基于物理信息的深度学习工作考虑了CSI的独特特性,被称为混合方法。例如,在文献[23]中,使用基于3D复杂CNN的预测器来捕获基于角-延迟域表示的时序和空间相关性。在文献[24]中,提出了一种基于ConvLSTM的时空神经网络(STNN),以并行处理高维时空CSI。尽管如此,混合方法的可扩展性相对较差,需要充分理解信道结构。尽管深度学习方法取得了显著进展,但仍存在一些限制其在实际场景中应用的不足之处。首先,预测能力受到网络大小的限制。现有方法难以准确建模复杂的空间、时间、频率关系,尤其是在高速场景和FDD系统中。其次,与基于模型的方法相比,基于深度学习的方法表现出较差的泛化能力,当CSI分布发生变化时需要重新训练。尽管一些研究通过元学习或超网络来提高泛化能力,但额外的适应阶段或超网络分支增加了操作复杂性。总之,现有的基于深度学习的预测模型难以满足高泛化性能和准确预测能力的要求。大型语言模型(LLMs)在自然语言处理(NLP)领域取得了巨大成功,并引领了一种新的范式,即微调在大规模数据集上预训练的模型,以进行需要少量或零标签的下游任务。这为解决现有信道预测方案的不足提供了有希望的解决方案。然而,以前的下游任务限于NLP领域。最近,一些研究提供了预训练LLM强大跨模态转移能力的初步证据。例如,在文献[28]中,在时间序列数据集上冻结微调预训练LLM,并在主要时间序列分析任务上实现了最先进的(SOTA)性能。在文献[30]中,提出了一种基于预训练LLM(TPLLM)的交通预测框架,采用低秩适应(LoRA)微调方法。尽管如此,现有的跨模态微调工作主要集中在时间或时空序列预测上,而不是信道预测任务。与时间序列预测任务不同,适应LLM进行信道预测存在一定的困难。首先,CSI是具有多径信道模型的高维结构数据,而不是简单的一维数据,这增加了处理的复杂性。此外,CSI和自然语言之间存在巨大的领域差距。此外,对于FDD信道预测任务,外推是在时域和频域同时完成的,进一步增加了难度。与专门为信道预测任务设计整个网络的现有方法不同,在本文中,我们尝试将LLM适应于多输入单输出(MISO)OFDM信道预测,以实现改进的预测能力和泛化能力。具体来说,我们基于预训练的GPT-2构建了一个信道预测神经网络,并对其进行微调,以基于历史上行CSI序列预测未来的下行CSI序列。与LLM用于时间序列预测的现有研究不同,我们充分考虑了信道的特定特性,并设计了预处理器、嵌入层和输出模块,以弥合CSI数据和LLM之间的差距。具体来说,考虑到多径效应,我们从频率域和延迟域处理CSI,以提取潜在的物理传播特征。为了充分保留预训练LLM中的通用知识,在训练期间冻结了其大部分参数。仿真评估了所提出方法在TDD和FDD信道预测任务中的性能,并证明了其在现有基线中的优越性。我们工作的主要贡献如下:
图2在文章中提供了三种不同的下行信道状态信息(CSI)获取方案的说明,分别对应时分双工(TDD)和频分双工(FDD)系统。每种方案都通过图示的方式展示了信道估计和预测的过程。下面是对每幅图的详细解释:
(a) TDD系统中的传统下行CSI获取方案:
(b) FDD系统中的传统下行CSI获取方案:
(c)基于信道预测的下行CSI获取方案:
图3在文章中提供了信道预测方案在时频域中的资源块(Resource Block, RB)和信道预测的示意图。它进一步阐释了信道预测的时频关系,具体包括以下两个部分:
(a) 资源块(RB)的示意图:
(b) 时频域中的信道预测方案:
这部分本文的核心部分,其中详细介绍了作者提出的基于预训练大型语言模型(LLM)的信道预测方法,称为LLM4CP(LLM-empowered Channel Prediction)。以下是对该部分内容的分析:
总体而言,这部分详细介绍了如何将大型语言模型适应并应用于信道预测任务,包括数据的预处理、特征提取、主干网络的微调和最终预测结果的生成。通过这种方法,作者旨在利用LLM的强大建模和泛化能力,以提高信道预测的准确性和效率。
Preprocessor(预处理器):
Embedding(嵌入层):
Frozen LLM(冻结的LLM):
CSI Attention(CSI注意力):
Patching(分块):
Norm(归一化):
Rearrange(重排):
Positional Embeddings(位置嵌入):
Backbone Network(主干网络):
Output(输出层):
Training(训练):
Additional Components(附加组件):
图4展示了数据如何在网络中流动,以及不同模块如何协同工作以实现信道预测的目标。通过这种设计,LLM4CP能够利用预训练的大型语言模型的强大能力,同时针对信道预测任务进行定制化处理。
图5在文章中提供了对"patching"操作的说明,这是一种在深度学习中常用的技术,用于处理序列数据。具体来说,图5展示了如何将时间序列数据分割成固定大小的块或"patches",以便网络可以更有效地处理它们。以下是对图5中描述的patching操作的详细解释:
Patching Operation:这是一种将长序列分割成较短序列块的方法。在信道预测的上下文中,这意味着将历史信道状态信息(CSI)序列分割成较小的部分,以便可以并行处理,这有助于捕获局部时间特征并减少计算复杂性。
Input Tensor:表示原始的CSI数据,通常是一个二维或三维的张量,其包含了时间序列的特征。
Output Patches:表示经过patching操作后得到的序列块。这些序列块是输入张量的一部分,但是被重新组织成固定大小的小块,以便于后续的网络处理。
Dimensionality:图5中还展示了输入和输出张量的维度变化。例如,输入可能是一个形状为 [2K, P]
的二维张量,其中 2K
表示数据的两个极化维度(如垂直和水平),P
表示时间序列的长度。经过patching操作后,这些数据被分割成 [2K, N, P']
形状的三维张量,其中 N
是每个patch的大小,P'
是patches的数量。
Non-overlapping Patches:图中的patching操作是将序列数据分割成不重叠的块。这意味着每个patch都是独立的,没有与其他patches共享数据点。
Zero-padding:如果最后一个patch由于序列长度不是块大小的整数倍而不完全填满,会使用零填充(zero-padding)来确保所有的patches都有相同的尺寸。
图5通过视觉化的方式展示了patching操作的流程和效果,帮助读者理解如何将连续的序列数据转换为适合深度学习模型输入的格式。这种操作在处理长序列数据时非常有用,因为它可以减少计算负担,同时允许模型学习局部时间依赖性。
图6在文章中提供了CSI(信道状态信息)注意力模块的网络结构和维度变化的详细说明。CSI注意力模块是用于特征分析的关键组件,它有助于从处理过的CSI数据中提取重要的时频特征。以下是对图6中描述的CSI注意力模块的详细解释:
输入和输出:图6展示了CSI注意力模块的输入(Xi)和输出(Xo)。这些表示进入和离开注意力模块的数据张量。
卷积层(Conv):使用一维卷积层来提取数据中的时间特征和频率特征。这些卷积操作通常跟随着ReLU(Rectified Linear Unit)激活函数,以引入非线性并增强特征表示。
特征图(Feature Map, Xfm):通过卷积和ReLU操作得到的中间特征表示,它包含了经过初步处理的时频信息。
Squeeze-and-Excitation(SE)模块:这是一个特殊设计的模块,用于加强特征的表示能力。它通过"squeeze"(全局平均池化)和"excitation"(两个全连接层和Sigmoid激活函数)来生成不同patch的权重。
全局平均池化(Global Average Pooling, XGAP):在SE模块中,首先应用全局平均池化来生成通道统计信息,这有助于捕获整体的特征趋势。
全连接层(Fully Connected, FC):SE模块中使用两个全连接层来学习不同patch之间的相互关系,并通过Sigmoid函数生成注意力权重。
注意力权重(Attention Weights, XSE):通过SE模块生成的权重张量,用于对特征图Xfm中的每个patch进行加权。
缩放特征(Scaled Features, XSca):使用注意力权重对特征图进行加权,以突出重要特征并抑制不重要的特征。
残差连接(Residual Connection):将加权后的特征与原始特征图相加,以保留所有有用的信息并促进网络训练。
CSI注意力模块的堆叠(CSI Attention Module Cascaded):可以通过多次堆叠CSI注意力模块来增强特征提取的效果。
网络结构和维度变化:图6还展示了数据在通过网络时的维度变化,从输入到输出,包括通过卷积、ReLU、SE模块、全连接层和残差连接的各个步骤。
图6通过视觉化的方式展示了CSI注意力模块如何通过一系列操作来处理和提炼信道状态信息,从而为信道预测任务提供更加丰富和有区分性的特征表示。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。