【论文阅读】基于状态空间模型的遥感图像分类
文章目录
RSMamba: Remote Sensing Image Classification with State Space Mode
遥感图像分类是各种理解任务的基础,在遥感图像解译中起着至关重要的作用
卷积神经网络(cnn)和变压器的最新进展显著提高了分类精度。然而,遥感场景分类仍然是一个重大挑战,特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的可变性
本文介绍了一种新的遥感图像分类体系RSMamba
并结合了称为Mamba的高效、硬件感知的设计。它综合了全局接受场和线性建模复杂性的优点
为了克服vanilla Mamba只能对因果序列进行建模,不能适应二维图像数据的局限性
提出了一种动态多路径激活机制来增强曼巴对非因果数据的建模能力
但在多个遥感图像分类数据集上表现出优越的性能
一、介绍
遥感技术的进步极大地提高了人们对高分辨率地球观测的兴趣
遥感图像分类是遥感图像智能解译的基础,是后续工作的关键
研究人员一直在努力缓解这些挑战,提高模型在不同应用场景中的适用性
深度学习具有从数据中自主挖掘有效特征并以端到端方式输出分类概率的能力
主要可以分为cnn和注意力网络。前者通过二维卷积运算逐层提取图像特征,如ResNet所示。后者通过注意机制捕获整个图像局部区域之间的远距离依赖关系,从而实现更鲁棒的语义响应,以ViT、SwinTransformer等为代表
ET-GSNet将ViT丰富的语义先验提炼到ResNet18中,充分利用了两者的优势
分类精度在很大程度上取决于模型能否有效处理复杂多样的遥感情景和多变时空分辨率的影响。Transformer基于注意力机制,能够从整个图像的有价值区域获得响应,为这些挑战提供了最优解决方案
Mamba的发展过程:
状态空间模型(State Space Model, SSM)可以通过状态转移建立远距离依赖关系,并通过卷积计算执行这些转移,从而实现近线性的复杂性
Mamba通过将时变参数纳入普通SSM并进行硬件优化,证明了其训练和推理的高效率
Vim和VMamba成功地将Mamba引入二维视觉领域,在多个任务之间实现了性能和效率的良好平衡
本文介绍了一种高效的遥感图像分类状态空间模型RSMamba。由于其在整个图像中建模全局关系的强大能力
以减轻普通曼巴只能在单一方向建模和位置不可知的局限性
RSMamba的设计保留了原始Mamba区块的固有建模机制,同时在区块外部引入了非因果性和位置积极的改进
具体而言,将遥感图像分割成重叠的patch令牌,并在其上添加位置编码以形成序列
构造三个路径拷贝:
- 正向
- 反向
- 随机
这些序列通过使用共享参数对Mamba区块的全局关系进行建模,随后通过不同路径的线性映射激活
考虑到曼巴块的效率,RSMamba的大规模预训练可以经济有效地实现。
主要研究成果如下:
提出了一种基于状态空间模型(SSM)的高效遥感图像全局特征建模方法RSMamba
引入了位置敏感的动态多路径激活机制,以解决vanilla Mamba仅限于建模因果序列且对空间位置不敏感的局限性
在三种不同的遥感图像分类数据集上进行了综合实验。结果表明,RSMamba与基于cnn和transformer的分类方法相比具有显著的优势
二、方法
RSMamba的整体框架
2.1 预准备
利用SSM模型的固有特性,RSMamba能够有效地捕获遥感图像中的全局依赖关系,从而产生丰富的语义类别信息
将深入探讨动态多径激活块
详细说明RSMamba的三个不同版本的网络结构
y∈RN由输入信号x∈RN和隐藏状态h∈RN
A∈RN×N表示状态转移矩阵,B∈RN和C∈RN是投影矩阵
以离散形式实现Eq. 1中描述的连续系统,并将其集成到深度学习方法中
使用时间尺度参数∆的零阶保持器(ZOH)将A和B离散化
式1可以改写为:
其中¯C表示C。最后,可以用卷积表示的形式计算输出,如下:
L为输入序列的长度,¯K∈RL为结构化卷积核
2.1 RSMamba
RSMamba将二维图像转换为一维序列,并使用多路径SSM编码器捕获远距离依赖关系
给定图像I∈RH×W×3,我们使用核为k,步长为s的二维卷积将局部补丁映射到像素级特征嵌入中
特征映射被平面化成一维序列
为了保持图像内的相对空间位置关系,我们采用了位置编码P
其中ΦConv2D表示二维卷积,ΦFlatten表示平坦化操作。T∈RL×d和P∈RL×d分别对应输入的1-D序列和位置编码。
我们没有像在ViT中那样使用cls_token来聚合全局表示。相反,该序列被馈送到多个动态多路径激活Mamba块中
用于远程依赖关系建模
通过应用于序列的平均池化操作获得类别预测所需的密集特征
模块含义:
- i表示第i层
- Ti表示第i层的输出序列
- Φmp-ssm表示动态多路径激活曼巴块,总个数为n
- Φmean表示序列维池化操作
- ΦLN表示层归一化
- Φproj用于将潜在维数d投影到类的数量
2.2 动态多路径激活
vanilla Mamba被用于一维序列的因果建模。它在空间位置关系和单向路径建模方面遇到困难
为了增强其处理二维数据的能力,我们引入了一种动态多路径激活机制
为了保持香草曼巴区块的结构,这种机制专门对区块的输入和输出进行操作
我们复制了输入序列的三个副本
建立三个不同的路径
- 正向路径
- 反向路径
- 随机洗牌路径
利用具有共享参数的普通Mamba混频器分别对这三个序列中的token之间的依赖关系进行建模
我们将序列中的所有标记恢复到正确的顺序,并使用线性层来压缩序列信息,从而建立三条路径的门
其中Ti表示第i层的输入序列
- Φpather, k∈{0,1,2}表示K序列路径,包括正向路径、反向路径和随机洗牌路径
- Φmixer是参数θ的香草曼巴混音器
- Φrevert-pather表示将所有令牌还原为正向顺序的操作
- Φcat表示序列与特征维度的连接
- Φmean表示沿序列长度维度的平均池化
- Φgate-proj线性投影3d维度到3序列信息激活
- Φsoftmax表示Softmax操作
2.3 模型结构
曼巴混合块Φmixer代表了曼巴框架内的标准混频器块。根据ViT的原则,我们开发了三个不同版本的RSMamba
三、实验结果
数据集描述:
UC Merced土地使用数据集(UC Merced)、AID和NWPU-RESISC45 Dataset。每个都包含一个独特的分类和图像数量。
具体参数:
- 采用固定的输入图像大小为224 × 224,
- 随机裁剪,翻转,光度失真,mixup, cutMix等
- 图像通过核大小为16 (k = 16),步长为8 (s = 8)的二维卷积理成顺序数据
- 位置编码由随机初始化的可学习参数表示
- 交叉熵损失函数和AdamW优化器
- 初始学习率为5e−4
- 权衰减为0.05
- 学习率衰减使用余弦退火调度与线性预热
- 训练的批大小设置为1024
- 训练过程总共跨越500个epoch
RSMamba的性能不依赖于大量的数据积累,但更长的训练时间可以进一步带来实质性的性能提升
利用RSMamba中的均值池来合并全局信息,而不是使用类似于ViT的类令牌
实验结果表明,在头部、尾部或两者同时插入类标记不会产生优越的性能。但是,在序列的中间插入可以大大提高性能
对序列进行平均池化可以表现出最优的性能
基于因果序列建模的香草曼巴对缺乏因果关系的二维图像数据的应用提出了重大挑战。为了解决这个问题,我们提出了多扫描路径机制,即正向、反向和随机洗牌。要融合来自这些不同路径的信息流,最直接的方法是取平均值
然而,我们的目标是自适应地激活从每个路径派生的信息。因此,我们设计了一个门来调节来自不同路径的信息流
门控机制也具有一定的优势