收藏 分销(赏)

基于n个标准差法和箱线图法识别变形监测中异常值的应用探究.pdf

上传人:自信****多点 文档编号:633302 上传时间:2024-01-19 格式:PDF 页数:5 大小:1,010.39KB
下载 相关 举报
基于n个标准差法和箱线图法识别变形监测中异常值的应用探究.pdf_第1页
第1页 / 共5页
基于n个标准差法和箱线图法识别变形监测中异常值的应用探究.pdf_第2页
第2页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、以某工程多期沉降观测资料为检测对象,采用 n 个标准差法和箱线图法识别监测数据中的异常值,并对两种方法进行分析比较。结果表明:当精度要求较高或对变形量数据要求一般时,可适当改变两种方法中的限制参数 n,以识别不同要求下的异常值;标准差法和箱线图法在识别异常值及极限异常值时效率高、作用明显;结合监测点的实际变化图,能更进一步验证两种方法对异常变化量准确识别的正确性;对于离散分布且监测精度要求较高的情况,箱线图法识别微异常值的效果更好。关键词院 n 个标准差法;箱线图法;变形监测;异常值识别中图分类号院 P228.4文献标志码院 A文章编号院 1008-5327渊2023冤02-0100-05Ap

2、plication of Processing Abnormal Valuesin Deformation Monitoring Based on N-standard-deviation Methodand Boxplot MethodMU Bao-sheng1,LIU Xin1,ZHU Wen-yan2(1.Department of Land Information and Management,Henan Vocational College of Surveying and Mapping,Zhengzhou 451464,China;2.Zheng Bian Development

3、 and Construction Co.,Ltd.,Zhengzhou 451464,China)Abstract:With the multi-phase settlement observation data of Wanda Twin Towers in Kunming as themonitoring object,the n-standard-deviation and boxplot methods are used to identify abnormal data in themonitored data,and a comparative analysis is made

4、of the two methods.The results show that when therequirement for accuracy is high or the requirement for deformation data is average,the limiting parameter nin the two methods can be changed appropriately to identify abnormal values under different requirements;both methods are efficient and effecti

5、ve in identifying abnormal and limit abnormal values;combining theactual change maps of monitoring points,the accuracy of the two methods in accurately identifying abnormalchanges can be further verified;for discrete distribution and high requirements of monitoring accuracy,thebox-and-line diagram m

6、ethod is more effective in identifying micro abnormal values.Keywords:n-standard-deviation method;boxplot method;deformation monitoring;identification of abnormalvalues在各种荷载的作用下,物体的形状、大小及位置在时间域和空间域中发生的变化称为变形。一定范围内的变形被认为是允许的,但超出限值,则可能引发各种危害。因此,需利用测量专用仪器和方法对变形状况进行监测。科学、准确、及时地分析和预报工程及建筑物的变形状况,对建筑施工100第

7、 2 期和运营管理极为重要。若变形监测数据中存在较大的观测误差,会对变形分析和处理带来影响,甚至导致错误结果。同时,在变形监测中,若变形量较小,接近于测量误差时,为区分变形和误差,须剔除粗差,提取变形特征。异常值的存在对检测模型的创建和变形预测产生干扰。因此,应尽可能地准确判断变形观测数据的误差,减少异常值对变形分析的影响。变形观测数据误差的常规判断方法如统计法、直方图法等,仅适用于处理少量观测数据。随着测绘技术及监测仪器的不断发展,海量监测数据产出,需用更高效的方法处理监测数据。变形监测数据的预处理包括分析可能存在的监测误差,区别观测数据中的粗差、系统误差及偶然误差和实际变形量,以及对变形体

8、的变化趋势进行分析 1-3 等。通常可通过对称、重复观测方式有效地减小或消除观测误差。本文采用 n 个标准差法和箱线图法检测变形监测数据中的异常值,结合某超高层建筑的观测资料,分析比较两种方法的检测效果,以探究更为合适的变形数据异常值识别法。1异常值检测方法1.1n 个标准差法n 个标准差法可视作一种不确定性的测量法。在做重复性测量时,测量数据集合的标准差代表测量精确度,其大小反映着测量值与预测值的相符程度。测量值在 n 个标准差范围内,则认为观测数据在正常变化范围内,否则认为观测数据出现异常量(outlinear),应该对该观测数据进行分析处理。n 个标准差法的原理如图 1 所示。标准差法的

9、判断公式为:Out x 軃 依 n啄(1)其中:Out 为异常量 outlinear;x 軃 为样本观测值均值;啄 为样本标准差,表示样本数据的离散程度,用几倍标准差来确定其上限和下限,可观察数据的分布情况或者确定是否存在异常取值。当测量值超出一定倍数的标准差范围时,则认为观测值异常。正态分布中满足正负 1 倍标准差时的置信区间数据概率为 68.3%,2 倍时的为 95.5%,3 倍时的为 99.7%,超过 3 倍标准差范围的数据置信度小于 0.03,可忽略不计。当 n=2 时,满足条件的观测值为异常值;当 n=3 时,满足条件的观测值为极端异常值;对观测精度要求提高时,可对n 进行适当调整。

10、n 越小,观测数据变化量区间越窄,更多浮动稍大的观测值会被识别。1.2箱线图法箱线图又称为盒须图、盒式图、盒状图,是一种显示一组数据分散情况的统计图,因形状如箱子而得名。如图 2 所示,箱线图法基于经验判断,提供了一个识别异常值的标准,即异常值被定义为 Q1-nIRQ和 Q3+nIRQ区间之外的值。与标准差法不同,箱线图法的实际数据不必满足正态分布,不需要事先假定数据服从特定分布,可真实直观地表现数据的本来状况。箱线图法的判定公式为:Out Q3+nIRQOut Q1-nIRQ嗓(2)IRQ=Q3-Q1(3)其中:Q1为下四分位数(25%),Q3为上四位数(75%),箱体范围之外的值均为异常值

11、,IRQ为四分位差(上四分位数与下四分位数的差)。一般情况下,当 n=1.5 时,满足条件的观测值为异常值,图 2 中的圆点即为异常值 4;当 n=3 时,对观测值的浮动要求较低,此条件下被识别出的观测值图 1n 个标准差法x 軃+n啄x 軃-n啄图 2箱线图法Q3+nIRQQ3Q1Q1-nIRQ穆宝胜,等:基于 n 个标准差法和箱线图法识别变形监测中异常值的应用探究101南 通 职 业 大 学 学 报圆园23 年为极端异常值,即变化量较大的值;相反,对观测精度要求提高时,n 越小,观测数据的非异常值区间就越窄,非异常值应更接近箱体范围,更多细微变化的观测值(微异常值)会被识别出。2实例对比分

12、析2.1案例概况及处理流程本文采用昆明万达双塔主体及裙房的多期沉降观测资料进行变形监测的异常值分析,验证算法的可靠性。该建筑主体为地上 20 层,地下 3 层地下室,为框架、剪力墙、框筒结构。为使建筑物基础各空间位置和不同时间段的沉降情况得到准确、及时、全面的反映,需了解地基基础随着建筑层高增加而改变的情况,对建筑物及周边的建筑群的垂直位移量和不均匀沉降量进行定周期、定仪器和定人员的连续观测。选取 2018 年 2 月 4 日至 2019 年 7 月 14 日的观测资料(包括对编号925 的 17 个变形监测点进行 28 期连续观测的结果)进行分析。标准差法程序处理流程为:首先,对数据进行处理

13、,计算所有观测数据的均值x 軃 和标准差 啄;其次,根据式(1)对异常值的上下限进行检测,若发现异常值,结果为 TRUE,未发现异常值,结果为FALSE。箱线图法程序处理流程为:首先,计算观测数据的 Q1和 Q3,并利用式(3)计算四分位差 IRQ;其次,利用式(2)对异常值的上下限临界值进行计算,以上下临界值线作为箱体的上下边界,判断超出箱体范围的异常值。若有超过箱体范围的异常值,检测结果为 TRUE,未发现异常值,则检测结果为 FALSE。2.2非精密要求时变形监测异常值识别对 17 个监测点的多期观测资料分别采用 n个标准差法和箱线图法进行处理。处理过程中改变异常参数 n,分别得到不同上

14、下限的异常值计算结果(分布在临界值外的观测值判定为异常值)和极限异常值识别情况。当 n 个标准差法中的 n=2,箱线图法中的n=1.5 时,计算得到 17 个监测点的 28 期观测结果均在限差范围内(结果均为 FALSE),表明未出现异常值。这也与实际精度要求下的后期分析情况一致。当两种计算法中的 n=3,计算得到 17 个观测点的 28 期观测结果均在限差范围内(结果均显示为 FALSE),表明均未出现极端异常值。2.3精密要求时变形监测异常值识别进行精密测量或变形观测要求较高时,可将两种方法中的 n 减小 5-6。如当 n 个标准差法中的n=1.5,箱线图法中的 n=1 时,计算得到 17

15、 个观测点的 28 期观测结果如表 1 所示。由表 1 可知,两种计算法所得结果迥异,n 个标准差法的上限出现异常情况,而箱线图法的上下限均出现异常。表 1 中,编号为 9、13、14 的三个测点箱线图法计算结果出现异常,其 28 期观测值统计情况如图 3 所示。结合测点多期观测数据的实际观测值,利用直方图和核密度变化图对不同期的观测结果进行直观表示,并采用箱线图法对异常值进行识别处理。其中,核密度图主要用于检验数据分布是否近似服从正态分布 7。图 3 中,直方图和核密度图反映了实际测点的多期观测资料的变化情况。三个测点在某一期的观测中均出现一个迥异于邻近期观测的值(直方图中高度迥异于邻近期的

16、观测结果)。但是,该迥异值减去邻近值的差值满足限差要求(与邻近期的差值在限差范围内),探测中就难以识别该迥异值,即选用一般异常值测试法未监测点标准差法(n=1.5)箱线图法(n=1)上限下限上限下限9TRUEFALSETRUEFALSE10TRUEFALSEFALSEFALSE11TRUEFALSEFALSEFALSE12TRUEFALSEFALSEFALSE13TRUEFALSETRUEFALSE14TRUEFALSETRUEFALSE15TRUEFALSEFALSEFALSE16TRUEFALSEFALSEFALSE17TRUEFALSEFALSEFALSE18TRUEFALSEFALSE

17、FALSE19TRUEFALSEFALSEFALSE20TRUEFALSEFALSEFALSE21TRUEFALSEFALSEFALSE22TRUEFALSEFALSEFALSE23TRUEFALSEFALSEFALSE24TRUEFALSEFALSEFALSE25TRUEFALSEFALSEFALSE表 1两种方法微异常值限定计算结果102第 2 期能识别。缩小变形体变化量区间范围,该突出变化即被识别,说明箱线图法在对变形体整体变异量较小但局部突然变化的离散点具有很好的识别效果。3结论在异常量变化识别时,n 个标准差法和箱线图法均可直观地表示出变形体的异常变形量,通过设定识别变形体变化量参数

18、 n,可识别出极限异常和异常值。在精密工程变形监测中,两种方法也均可通过设置参数 n,识别出细微异常值。对测点的多期观测资料作图分析,可识别出测点具体时刻的异常值。两种方法的适用范围不同:n 个标准差法要求数据满足正态分布,以样本数据偏离(a)监测点 971.171.070.970.870.7测点观测量/mm核密度图直方图4.03.53.02.52.01.51.00.50.070.670.871.071.271.4(b)监测点 13核密度图直方图4.03.53.02.52.01.51.00.50.0测点观测量/mm70.0 70.1 70.2 70.3 70.4 70.5 70.6 70.7

19、70.870.6070.5570.5070.4570.4070.3570.3070.2570.2070.15(c)监测点 14图 33 个测点的实际观测图和箱线图核密度图直方图6543210测点观测量/mm70.170.270.370.470.570.670.770.870.6070.5570.5070.4570.4070.3570.3070.25穆宝胜,等:基于 n 个标准差法和箱线图法识别变形监测中异常值的应用探究103南 通 职 业 大 学 学 报圆园23 年参考文献院1 田艳涛,康文哲.全球癌症发病情况研究新进展J.中国医药,2021,16(10):1446-1447.2 汤晟,孙鑫,

20、陈铮,等.吲哚类抗癌药物的研究进展J.中南药学,2022,20(1):121-128.3 夏玉兰,谢济铭,王雅婧,等.抗癌候选药物 ER琢 抑制剂活性预测J.深圳大学学报(理工版),2022,39(5):529-537.4 吕婷婷,禹文韬,张慧琳.面向抗乳腺癌候选药物拮抗雌激素受体 琢 生物活性的定量构效关系模型构建J.中南药学,2022,20(11):2542-2548.5 卢皎玲,谢沁沁.基于 K-MEANS 算法的抗乳腺癌候选药物ER琢 活性优化研究J.信息技术与信息化,2021(12):45-48.6 LOPES R,KORKMAZ G,REVILLA S A,et al.CUEDC1

21、 is a pri原mary target of ER琢 essential for the growth of breast cancer cellsJ.Cancer Letters,2018,436:87-95.7 刘红艳,宋丰举,雷蕾,等.1267 例乳腺癌临床与免疫组化指标的相关性分析J.中国肿瘤临床,2011,38(11):656-659.8 佟菲,王传合,韩苏,等.D-二聚体与慢性心力衰竭院内死亡的相关性J.中国医科大学学报,2020,49(8):737-742.9 宁瀚文,屠雪永.基于高维波动率网络模型的股票市场风险特征研究J.统计研究,2019,36(10):58-73.10

22、夏茂森,江玲玲.变分模态分解模型中关键参数 K 的辨识研究基于加权最大信息系数法J.统计与信息论坛,2021,36(2):23-35.11 方匡南,吴见彬,朱建平,等.随机森林方法研究综述J.统计与信息论坛,2011,26(3):32-38.12 ZHANG S C,CHENG D B,HU R Y,et al.Supervised featureselection algorithm via discriminative ridge regressionJ.WorldWide Web,2018,21(6):1545-1562.13 AVDEEF A.Prediction of aqueous

23、 intrinsic solubility of drug原like molecules using Random Forest regression trained withWiki-pS0 databaseJ.ADMET and DMPK,2020,8(1):29-77.责任编辑谭华渊上接第 72 页冤全部样本数据均值的程度为判断依据,即测量值的标准差具有决定性作用,对于满足偶然误差分布条件的观测数据有较好的适用性;而箱线图法对数据分布无严格要求,对于具有系统误差或者偶然误差分布特征的观测数据,均具有较好的适用性,在样本数据异常值的检验中应用范围更为广泛。参考文献院1 张世强,王贵山.基于

24、高分辨率遥感影像的车道线提取J.测绘通报,2019(12):22-25.2 邓春宇,吴克河,谈元鹏,等.基于多元时间序列分割聚类的异常值检测方法J.计算机工程与设计,2020,41(11):3123-3128.3 和田和美.官方统计中的异常值处理J.日本统计与数据科学杂志,2020,3(2):669-691.4 佘宇晨,陈彩虹,常双双,等.基于箱线图的海南省东方市景观格局适宜窗口分析J.林业资源管理,2016(3):104-111.5 明国华.测量过程中异常值的产生及其处理方法J.铁道技术监督,1999,27(3):40-41.6 程度.异常值剔除法在 RCS 测量数据处理中的应用J.现代电子技术,2007,30(19):82-84.责任编辑王晓丹104

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服