原名:Physically explainable CNN for SAR image classification
译名:用于SAR图像分类的物理可解释CNN
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
发表时间:2022.05
文章链接:https://www.sciencedirect.com/science/article/pii/S0924271622001472
DOI:10.1016/j.isprsjprs.2022.05.008
1 文章背景
为了更全面地理解SAR图像,人工智能方法不仅要关注视觉信息,还要关注SAR的物理特性。基于模型的方法具有很强的可解释性,但特征选择和分类器设计耗时且缺乏灵活性。深度学习方法可以构建一个端到端的系统,自动学习分层特征,却缺乏物理解释,使得传统的遥感知识无法嵌入到深度学习网络中。特别是在SAR图像分类领域,需要更先进的混合方法将物理模型中的先验知识嵌入深度神经网络。为了应对SAR图像分类中的上述挑战,文章提出了一种新的物理可解释的网络,它融合了数据驱动和模型驱动方法,实现物理可解释的预测。模型包括三个主要模块:解释性模块(Explainable Model,XM)、物理引导网络(Physics Guided Network,PGN)和物理注入网络(Physics Injected Network,PIN)。在Sentinel-1海冰分类数据集和高分3号SAR数据上进行了充分的实验,证明了模型中每个模块有更好的泛化性和物理解释性。
2 文章的物理背景
2.1 极化SAR分解模型
Cloude-Pottier分解是极化SAR分解中常用的分解,熵H和角度α由相干矩阵计算。H/α平面被分成九个区域,以描述全极化SAR数据的不同散射特性,如图1(a)所示。
2.2 二维短时傅里叶变换时频分析
极化分解在单通道SAR图像数据中不再可用。第二个物理模型基于单极化SAR数据的时频分析模型,如图1(b)所示。高分辨率SAR数据的二维短时傅里叶变换时频分析表征了具有不同距离和方位带宽的目标的后向散射强度变化。
公式(1)傅里叶变换公式,其中是表示在距离和方位方向上以频率对为中心的一系列带通滤波器。也就是说这包含三个过程:(1)傅里叶变换(2)带通滤波器滤波(3)傅里叶逆变换。
图1 Cloude-Pottier分解
3 模型结构
PGIL包括三个主要模块,即可解释模型(XM)、物理引导学习网络(PGN)和物理注入学习网络(PIN)。XM提供了物理模型的先验知识。PGN将先验知识转化为特征嵌入,然后将特征嵌入到PIN中,用于标签预测。总体框架如图2所示。
图2 用于SAR图像分类的物理引导和注入学习网络主体结构
3.1 解释性模块(Explainable Model,XM)
可解释模型(XM)本质上是一个物理模型,在双极化SAR中是分解模型,在单极化SAR中是一个短时傅里叶变换,它使用了物理知识处理SAR图像。这种方式处理的图像嵌入到CNN网络中,作者认为这里面的物理信息和卷积后的网络可以实现语义上的联系,所以设计了一个卷积层物理引导网络(Physics Guided Network,PGN)用于引导解释性模块的输出(Explainable Model,XM)。具体的XM模块如图2 上部分所示:首先对极化图像进行极化SAR分解或者这短时傅里叶变换,之后对变换后的影像进行潜在狄利克雷分配(Latent Dirichlet Allocation,LDA),变换成512个主题,假设其与卷积后生成的512维的向量呈现出一一对应的关系,这一部分作为损失函数放入最终的损失中。
3.2 物理引导网络(Physics Guided Network,PGN)
物理引导网络的主体是ResNet-18,经过多层的卷积,生成256个通道的卷积层。这时存在两个分支,其中一个分支将这256个通道的数据再经过一个卷积层,生成512个通道的数据,并将该数据变换为512维的行向量,与XM块中LDA算法生成的512个主题成一一对应。另一个分支作为注入层,加入到主网络中。
3.3 物理注入网络(Physics Injected Network,PIN)
物理注入网络主网络也是一个ResNet的网络结构,在第2、3和4层分别和物理引导网络的256通道的那一层相加,实现物理信息的注入。在最后的损失函数,如公式(2)所示,包含两个部分:
第一部分是普通的交叉熵损失,第一部分是物理模型的损失,我感觉更像是一个“正则项”,用来平衡模型对于物理和卷积的关注度,加上这一个“正则项”,网络就关注到了物理的先验信息,就能解释为什么深度学习是有用的。
4 总结
文章提出了一种新的物理引导和注入学习神经网络,用于有限标记数据的SAR图像分类,以探索物理可解释深度学习的潜力。可解释模型中的先验知识通过无监督PGN学习编码到物理感知特征中,然后通过PIN注入分类管道。作者对哨兵一号和高分三号SAR数据进行了大量实验。结果表明,PGN对学习特征的语义判别和物理意识良好,泛化良好。
转自:“科研圈内人”微信公众号
如有侵权,请联系本站删除!