投稿问答最小化  关闭

万维书刊APP下载

一种UWB异常信号识别方法

2023/7/20 10:08:41  阅读:63 发布者:

一种基于机器学习分类器的UWB异常信号识别

孙伟,孙沛伦

(辽宁工程技术大学 测绘与地理科学学院,辽宁 阜新 123000)

摘要:

针对超宽带定位技术中非视距信号与多径信号影响超宽带定位精度的问题,在不考虑信道冲激响应这一重要特征前提下,分别从测试与训练场景相同和异同两方面对比研究支持向量机、随机森林和多层感知器3种机器学习方法的低成本超宽带异常信号识别性能。通过将多径信号与非视距信号分离,完成视距信号、非视距信号和多径信号的数据多分类。对比性实验结果表明,测试环境与训练环境相同和异同两种情况下的随机森林分类器表现最优,识别准确度可达92.52%74.82%;在缺失信道冲激响应这一重要特征条件下,机器学习依然可以较好地识别非视距信号和多径信号,为低成本室内定位提供新思路。

0 引言

超宽带定位技术(ultra-wideband, UWB)自问世以来一直因其信号的稳定性和较低的功耗而被广泛使用于室内定位系统中;为智能生活互联、物联网、工业自动化、医护跟踪、商超辅助等应用提供了良好的技术支持[1-3]。目前较为常见的UWB定位方式是利用目标与基站间的信号收发时间差提供精确的距离估计,后通过多基站间的几何关系确定目标的三维坐标[4]。然而,在室内定位中,受到墙体、家具等障碍物的影响,目标与基站间的信号传播往往会形成有遮挡的非视距(Non-line-of-sight, NLOS)情形和有反射、折射的多径(multipathMP)情形,造成极大的距离估计偏差,进而影响目标定位的精度。

目前针对这一问题的研究方案主要分为两类;一类从测距结果角度出发,将NLOSMP测距值视作异常值,利用残差加权的方法平滑异常信号对定位结果的影响,提高定位精度[5-6]。另一类从无线信道特征出发,利用机器学习(machine learning, ML)理论选择无线信号的典型特征进行训练从而达到对NLOSMP信号自主分类的效果,剔除识别到的异常信号后使用LOS信号进行解算得到标签的三维位置坐标[7-8]

本文着眼于第二类方法展开UWB多信号识别方法的研究。文献[9]较早的使用支持向量机的方法对采集到的室内UWB数据进行识别,通过分析信道参数,确定了受传播条件影响的几种特征。文献[10]对采集到数据的波形信息进行分析,提取特征使用非参数的LS-SVM方法完成了对NLOS的识别。但广大学者在诸如上述的对于UWB信号识别的研究中往往局限于LOSNLOS的二值分类,常忽略MP信号或将NLOSMP信号混合识别[11-12],针对这一情况本文将MP信号作为一项独立存在的信号种类,实现了LOSNLOSMP信号的三值分类。另一值得注意的问题是在利用机器学习方法进行信号识别的过程中,诸如信道冲击响应(channel impulse response, CIR),第一路径信号谐波振幅等重要特征往往是可以轻松得到的,显然这对于低成本设备的信号识别是困难的。文献[11]注意到了这一问题,并对比分析了支持向量机、决策树、最邻近节点3种方法在低成本环境中的识别性能,但它却忽略了MP信号的影响。因此针对这些问题,论文综合考虑可行性和研究性比较分析了支持向量机(support vector machine, SVM)、随机森林(random forest, RF)、多层感知器(multi-layer perceptron, MLP) 3种机器学习分类器在仅能获取测量距离和接收信号强度(received signal strength, RSS)两类特征的情况下直接对LOSNLOSMP信号进行信号多分类的性能及效率,为低成本设备UWB室内定位方法提供了新的设计思路。

1 UWB信号分析

前文提到,影响UWB定位精度的主要因素是测距过程中累积的误差。图一给出了LOSNLOSMP3种典型信号的传播情形。路径1表示为在无遮挡情况下的LOS信号传播情形,路径2表示为经过多次反射造成失真的MP信号传播情形,路径3表示为遮挡情况下的NLOS信号传播情形。当信号通过路径23传输到节点时,会因反射或遮挡导致记录到达时间延长,造成较大的测距结果偏差,进而影响定位精度。

           

为了验证NLOS信号与MP信号对定位结果的影响,论文模拟了一段3 m/s的动态运动,轨迹如图2所示。使用平板车负载UWB模块推动行进,第一次按轨迹行进由狭窄的走廊提供天然MP条件。第二次按轨迹行进使用纸质方盒覆盖UWB模块提供NLOS条件。

         

使用测距仪的测距结果作为基准,将测距误差结果截取180 s形成测距误差曲线如图3所示。可以看出,MPNLOS信号都对UWB的测距精度产生了影响。NLOS环境造成测距误差出现了较严重峰值抖动;精度影响程度为米级;MP环境造成的测距误差明显弱于NLOS环境,但精度影响程度也达到了分米级。这种影响说明了设计LOSNLOSMP3种信号的有效识别方法对精确的UWB室内定位而言至关重要。

2 机器学习技术识别异常信号

传统的UWB异常信号识别问题,常常忽视了MP的影响,将识别问题简化为了LOSNLOS的二分类。常用方法多从信号的统计数据出发,通过设置阈值识别NLOS信号。

2.1支持向量机(SVM)分类器

支持向量机用于解决分类和回归问题,一直因其较好的性能和较强的稳定性广泛应用于分类领域。SVM的学习过程简单来说就是间隔最大化的过程。

2.2随机森林(RF)分类器

随即森林是一种集成多决策树的算法。对于一组数据而言,每棵树都会提供一个分类结果,RF通过集成这些结果并选择最优解输出实现分类目的。随机森林的基分类器是决策树,其核心是一种基于if-then-else判决机制的分类方法,图4展示了决策树的工作逻辑。

          

当图4中的特征参数选择不准确时,决策树容易出现过拟合的情况,而随机森林通过对大量互相独立的决策树进行投票弥补了这一缺陷。图5展示了随机森林的工作机制。

首先对容量为N的样本进行N次有放回的抽取,每次抽取1个,形成N个样本。其次在决策树的每个节点需要分裂时,随机从每个样本的m个属性中选取出远小于mn个属性。然后从这n个属性中使用优化策略选取1个属性作为该节点的分裂属性。循环往复直到无法分裂为止。最后按照上述方法建立大量的决策树最终形成随机森林[16]

不难看出,决策树的数量在很大程度上决定了随机森林的分类性能,本文将在第4章阐述决策树数量的选取。

2.3多层感知机(MLP)分类器

多层感知机本质上是一种前向型人工神经网络,结构如图6所示。

          

它模仿人脑神经元的工作原理包含了输入层、隐藏层、输出层3个要素。第一层为输入层,最后一层为输出层,中间层皆称为隐藏层,每层包括很多神经元。其中,输入层的神经元个数由输入特征数决定,输出层的神经元个数由目标类数决定,隐藏层的层数以及每层的神经元个数根据应用情况确定,决定着分类器的分类性能[17]。神经元与神经元之间需要通过激活函数激活。本文选用常用的RELU函数(f(x)=max(0,x))作为MLP的激活函数。选用softmax函数作为输出层函数,选用自适应矩估计(Adaptive Moment Estimation, ADAM)作为优化函数。有关隐藏层层数与神经元个数的选择将在第四章中给出。

3数据与参数设置

3.1数据准备

本文选用比勒菲尔德大学(Bielefeld University)开源数据集进行实验[18]该数据集的采集场景由两个房间、一个大厅、四间走廊组成。狭窄的走廊利于信号的反射、折射故用于提供MP信号,空旷的大厅用于提供LOS信号,两个房间分别为仓库和实验室,其中仓库采集的数据用于验证不同环境下3种分类器的分类性能,不参与分类器的训练。在两个房间中都通过人站在标签与基站中间作为障碍物来形成NLOS条件;同时还添加了混凝土墙、混凝土块以及木材和金属的混合物作为NLOS条件的一部分,如图7所示。

         

原始数据集采集到的训练特征含有包括CIRFP在内的十数种重要信号参数,为了验证无法提供全部训练特征的低成本设备的识别性能,论文将含有距离和信号强度信息的三个信号参数(估计距离(Dist)、接收信号总强度(RSS_RX)以及第一路径接收信号强度(RSS_FP))作为训练特征,直接进行数据输入。

3.2数据预处理

原始数据集提供了用于分类器训练的LOSNLOSMP3类数据各61930组。论文采用随机抽样的方法将此数据集中的3类数据各抽取样本总量的1/3作为一类测试数据集[19],这类数据集是用于研究测试环境与训练环境相同情况下3种分类器的性能。同时原始数据集还提供了在实验室采集的3类数据各12 005组,这类数据集是为了研究训练环境与测试环境不同情况下分类器的性能。为了防止相同环境下通过随机抽样得到的测试集与训练集发生部分数据重合的风险,采用十次迭代进行十次随机抽样训练十次分类模型的方式,最终使用十次实验的平均结果作为分析性能的依据。

3.3参数配置

SVM的核函数、RF的决策树以及MLP的隐藏层和神经元是3种分类器最核心的参数。本节将通过实验讨论确定上述参数的配置。本节中所有分类器的训练与测试都控制在一台机器上运行,采用单核CPU运算且不加入GPU。对于核心参数的配置分析是使用相同环境下采集到的数据进行的,不同环境下采集到的数据仅用于最终分类性能的测试实验。对于激活函数、优化器、训练的早期停止标准、学习率等分类器的其他参数,若第二章及下文中未特别提及,则均采用python Scikit-Learn机器学习库的默认配置[20]

3.3.1核函数

SVM分类器中,核函数的选择直接决定着分类器的性能,表1给出了选用3种常见核函数进行分类的结果。

1 SVM核函数配置分析表

不难看出,使用径向基核函数进行识别时精度最高,使用Sigmoid核函数进行识别时精度最低。而从训练时间与测试时间角度来看,使用径向基核函数的训练时间最短,使用三次多项式核函数的测试时间最短。为了综合考虑精度与时间的平衡,论文选用径向基核函数作为SVM分类器的核函数进行实验。

3.3.2决策树

RF分类器的本质即多决策树的组合,因此决策树数量的选择对分类器的运行效率有很大影响,表2给出了选用不同数量的决策树进行分类的结果。

2 RF决策树配置分析表

可以看到,随着决策树的增加,分类器的识别精度、训练时间、测试时间也在增长;但需要注意的是当模型配置超过50棵决策树时,训练时间与测试时间在成倍的增长,相对应的识别精度却不能与之成正比,因此,论文选用50棵决策树组成RF分类器进行实验。

3.3.3隐藏层与神经元

神经元是所有神经网络模型共同关注的参数,而多隐藏层的设定则使多层感知机区别于传统人工神经网络。表3给出了选择不同数量神经元与隐藏层的分类结果。

3 MLP神经元与隐藏层配置分析表

不难看出,使用100个神经元4个隐藏层进行实验时模型识别准确率最高。但值得注意的是,相对于使用50个神经元3个隐藏层进行实验而言,前者的识别准确率仅仅比后者高出0.38%但训练时间却增加了230.22 s,因此论文认为选用50个神经元3个隐藏层是权衡精度与效率的最佳方案。

4 实验分析

4.1评价指标

为了衡量3种分类器在低成本设备上的异常信号识别性能,论文引入了机器学习领域应用最为广泛的两个指标:混淆矩阵、F1分数及其对应的召回率与准确率。

混淆矩阵又被称为错误矩阵或可能矩阵,常用于监督学习的可视化。图7展示了混淆矩阵针对二元分类的一般形式。针对多分类应用通过添加行列即可实现。

                     

4.2 F1分数评价3种分类器的结果

在多分类问题中,针对LOSNLOSMP 3类信号的分类结果有多种F1分数的表达形式。可以采用全平均的方式,即对所有标签的F1分数进行平均处理;也可以采用权平均的方式,即赋予3类信号不同的权重,根据所附权重求得最终的分类器F1分数。本文认为LOSNLOSMP3种信号的分类结果同等重要,所以采用全平均的方式求解F1分数值。表4列出了3种分类器经过十次实验后的平均训练与测试时间以及在测试场景与训练场景相同和不同的情况下的平均F1分数及对应的平均查准率与查全率。

4 3种分类器平均查准率、查全率、F1分数表

可以看到,在相同场景下,RFMLP的分类性能都非常优秀,平均F1分数分别能够达到0.92550.9165,查准率分别可达0.92600.9175,查全率分别可达0.92530.9163。相对而言,SVM的表现较差,平均F1分数仅有0.7539,查准率仅有0.7671,查全率仅有0.7548;在不同场景下,明显看出3种分类器的分类性能均出现了下滑,SVM的查准率略好可达0.7918,而MLP的查全率和F1分数相对表现最好分别可达0.74980.7466。分析这种现象的原因是UWB信号传播过程中不同材料的遮挡物对训练的特征信息影响不同造成的。同时在分类效率方面,RF表现极为优秀,可以将训练与测试时间限制在1 s之内,反之SVM表现则不尽人意,训练与测试时间均在250 s浮动。

为了研究3种分类器性能的稳定性,图8展示了3种分类器的10次实验F1分数、查准率、查全率结果曲线。

可以看出,虽然RFMLP在相同场景下的总体分类性能都很优秀,但显然RF更加稳定,MLP在第九次实验中查准率、查全率以及F1分数跌至0.9以下。而在不同场景下,SVM的总体分类性能虽然较弱但十分稳定,3种指标的十次实验数值非常接近。

综合分析性能、效率与稳定性不难看出,在3种分类器中RF的分类性能最强,运行时间最短,分类能力稳健,综合表现极佳,而SVM的分类性能最弱,运行时间较短,但在相同与不同场景下的表现相近,且分类结果非常稳定,这使得SVM最早在多种分类任务中被广泛使用。

4.3混淆矩阵评价3种分类器的结果

为了更加全面的分析3种分类器的表现,使用混淆矩阵作为评价指标。在十次实验中,论文选择了3种分类器与平均F1分数最为接近的一次实验结果绘制混淆矩阵进行分析,分别是SVM的第九次实验、RF的第十次实验、MLP的第三次实验.混淆矩阵中最后一列表示分类器分类3种信号的查全率,最后一行表示分类器分类3种信号的查准率。

SVM分类器在训练场景与测试场景相同与不同两种情况下的分类结果混淆矩阵如图9所示。

从结果来看,分类器在不同场景下的整体识别精度略低于在相同场景下的识别精度,从75.74%下降到73.45%;且分类器在不同场景下对MP信号的分类能力急速下降,分析可能的原因是MP信号测量过程中标签与设备间形成了视距环境干扰了分类器对MP信号特征的判断,这一结论可以通过分类器对于不同场景下的LOS信号查准率也在急速下降验证;而分析分类器整体精度没有发生较大下滑的原因则是在不同场景下分类器对LOSNLOS信号的识别精度上升导致的。

10则展示了RF分类器在训练场景与测试场景相同与不同两种情况下的混淆矩阵。

SVM分类器类似,RF分类器在不同场景下的整体识别精度下降从92.52%跌至74.82%,造成这一结果的原因亦为MP信号的识别精度下降,不同的是,RF分类器中影响MP识别结果的因素,更多因为错误识别为NLOS信号的情况增加导致。

通过图11所示的MLP分类器在训练场景与测试场景相同与不同两种情况下的分类结果混淆矩阵可以看出,在不同场景下的整体识别精度再次出现下降同时分类器对MP信号的识别精度也再次出现了下降的情况,这一现象产生的原因同样是因为MP信号错判为NLOS信号的情况增加导致的。

因此综合3种分类器的混淆矩阵结果可以看出,在相同场景下使用机器学习方法对异常信号识别可以达到极佳的效果,而在不同场景下对MP信号的识别则始终较弱,这种困难的形成多是因为系统将MP信号错判为了LOS信号或NLOS信号,但前文已经证明UWB定位误差的最大影响因素是NLOS信号,故MP信号的识别误差对定位的结果影响并不大,原因是错判为NLOS信号的MP信号在参与定位时与真NLOS信号一样经过了诸如赋予权重、舍弃样本点等处理得到了极大平滑。因此总体来看,低成本UWB可以使用ML方法达到较好的对异常信号识别的目的。同时也不可否认,不同环境下使用ML方法进行异常信号识别的性能弱于相同环境,因此在实际应用中应该尽量避免在新场景中直接使用已训练完成的分类模型,而是重新采集应用场景的训练数据进行模型训练,以确保良好的分类性能。

5 结束语

本文通过对比分析SVMRFMLP3种基于机器学习的分类器在缺失CIR等重要特征的情况下识别LOSNLOSMP信号的能力,讨论了在低成本设备上使用ML方法进行UWB异常信号识别的可行性。实验结果显示,3种分类器中RF分类器在训练环境与测试环境相同和不同两种场景下识别效果均为最佳,整体识别精度分别可达92.52%74.82%,平均F1分数分别可达0.92550.7434SVM分类器在两种测试环境下整体识别精度分别可达75.74%73.45%,平均F1分数分别可达0.75390.7387,分类能力表现相仿最为稳定;证明在仅考虑估计距离与接收信号强度两类特征的情况下,ML方法依然可以有效的完成识别任务。这一结论为ML方法应用于低成本设备的异常信号识别提供了依据,并为低成本室内定位提供了新的思路和方向。

【作者简介】孙伟(1984—),男,黑龙江萝北人,教授,博士,主要研究方向为惯性及组合导航技术。

转自:“测绘学术资讯”微信公众号

如有侵权,请联系本站删除!


本文评论

暂无相应记录!

首页<<1>>尾页共0页共0条记录
  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com