收藏 分销(赏)

机器学习在探测新物理信号中的应用.pdf

上传人:自信****多点 文档编号:2056810 上传时间:2024-05-14 格式:PDF 页数:5 大小:2.35MB
下载 相关 举报
机器学习在探测新物理信号中的应用.pdf_第1页
第1页 / 共5页
机器学习在探测新物理信号中的应用.pdf_第2页
第2页 / 共5页
机器学习在探测新物理信号中的应用.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第4 6卷3期2 0 2 3年9月 辽宁师范大学学报(自然科学版)J o u r n a l o fL i a o n i n gN o r m a lU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n)V o l.4 6 N o.3S e p.2 0 2 3 收稿日期:2 0 2 3-0 3-2 7基金项目:国家自然科学基金资助项目(1 1 9 0 5 0 9 3,1 2 1 4 7 2 1 4);教育部产学合作协同育人项目(2 2 0 8 0 0 5 7 5 3 1 3 4 1 2);辽宁省普通高等教育本科教学改革研究项目

2、(辽教通2 0 2 21 6 6号)作者简介:郭禹辰(1 9 8 8-),男,辽宁锦州人,辽宁师范大学副教授,博士.E-m a i l:y c g u o l n n u.e d u.c n 文章编号:1 0 0 0-1 7 3 5(2 0 2 3)0 3-0 3 3 1-0 5 D O I:1 0.1 1 6 7 9/l s x b l k 2 0 2 3 0 3 0 3 3 1机器学习在探测新物理信号中的应用郭禹辰,陆仕奇,潘春静,杨冀翀(辽宁师范大学 物理与电子技术学院,辽宁 大连 1 1 6 0 2 9)摘 要:机器学习是许多现代技术进步的基础,并被越来越多地用于解决物理问题.在高能物

3、理研究中,物理学家面对海量的实验或模拟数据,需要机器学习帮助我们提高数据分析的效率和效果.本文利用孤立森林(I F)算法在背景中提取了新物理信号,并在此基础上提出了嵌套的孤立森林(N I F)算法,可以对I F算法失效的问题上有效提取信号.I F和N I F算法为优化新物理信号的事例选择策略提供了一种模型和算符无关的新思路.关键词:机器学习;新物理;孤立森林;嵌套的孤立森林中图分类号:O 5 7 2.2 文献标识码:A机器学习算法被广泛应用于高能物理领域,比如实验数据处理、信号鉴别、粒子重建和新物理(N P)信号搜索等多个方面.对于大型实验,比如LHC,机器学习可以用于实验数据的快速处理1-4

4、.通过使用高效的算法和技术,机器学习可以快速分析大量的数据,并从中挑选出重要的信号,大大缩短了实验数据分析的时间.如果要在海量实验数据中寻找可能存在的N P信号,也可以借助机器学习算法的帮助5-1 8.这些N P信号因为其数量稀少且与标准模型(S M)背景不同,因此往往以反常事例形式出现.机器学习可以帮助实验物理学家区分反常信号和S M背景,进行进一步分析新物理信号,确定相关的物理参数.近年来,很多高能物理研究中都应用了机器学习算法,包括神经网络、支持向量机、异常检测、决策树等算法.数据科学和计算技术的进步帮助人们解决高能物理学中的一些难题.同时,高能物理也推动了机器学习算法的开发和应用.1

5、机器学习算法在高能物理实验中,异常检测可以用于寻找可能存在的新物理信号,这些信号可能与已知物理模型不同,或者是由数据处理或检测器噪声等原因引起的异常事件.孤立森林(I F)算法1 9就是一种用于处理异常检测问题的具有线性复杂性的无监督机器学习算法,能有效处理大规模的多维数据.它擅长挑选“少而不同”的异常事例.如图1所示,相比阴影圆点代表的正常样本,空心圆点代表的异常样本数量上比较少,特征值差异比较大,因此更容易被孤立.孤立森林通过构建二进制树结构的方法分离每个异常样本,异常样本更靠近根节点,正常样本在树的末端,这种二叉树被称为孤立树(i T r e e).N P信号符合“少而不同”的特性,因此

6、非常适合采用I F算法进行探测.将末态粒子的四动量作为多维度的数据集,I F可以模型无关地找出运动学上的反常事例作为N P信号的候选者.此外,在有效场理论框架下,传统运动学方法需要对不同算符进行信号背景分析,而通过异常检测算法则可以算符无3 3 2 辽宁师范大学学报(自然科学版)第4 6卷图1 I F算法辨别二维数据中的反常数据F i g.1 T h e I Fa l g o r i t h mi d e n t i f ya n o m a l o u sd a t a i nt w o-d i m e n s i o n a l d a t a关的分析,这将极大地提高分析效率.虽然I F算

7、法可以在S M背景中筛选N P信号,但当N P和S M的干涉效应占主导时,基于异常检测的算法就不再适用.以二维向量为例描述这个问题,假设事例在相位空间中是高斯分布,那么数据的异常情况可以用数据点与所有事例中心点的距离来量化.如果数据集中的干涉项为正或可忽略的,则信号事例就是新增的空心点,属于异常事例,图1的情况就可以用异常检测来处理.如果数据集中的干涉项是主要贡献,则信号事例的分布会夹杂在背景事例中间,此时异常检测算法失效.在这种情况下,新物理的主要贡献不再是异常信号,图2就是这种情况.N P信号会增加数据点分布的密度.由I F算法可知,异常值在密度小的区域会更高,所以当信号出现时,一些点的异

8、常值会减少.针对这个特点,提出了一种新的嵌套式异常检测(N I F)分析框架作为异常检测算法的补充.该算法需要以S M事例的异常值分布作为参考基准,通过异常值来衡量相空间中事例密度的变化,实现探测N P信号的效果.图2 通过对比S M的数据分布,N I F可以通过分布密度的变化辨别与背景分布重叠的信号F i g.2 B yc o m p a r i n gt h ed a t ad i s t r i b u t i o no fS M,N I Fc a nd i s t i n g u i s hs i g n a l o v e r l a p sw i t ht h eb a c k g

9、 r o u n da c c o r d i n gt ot h ec h a n g eo f t h ed i s t r i b u t i o nd e n s i t y2 结果与讨论2.1 孤立森林算法(I F)在I F算法中,需要设置两个参数,一个参数是孤立树的数量n,另一个参数是数据集的大小N.它们是模型无关的参数.因为孤立树是随机构建的,所以对于单个孤立树,数据集中点的路径长度并不稳第3期郭禹辰等:机器学习在探测新物理信号中的应用3 3 3 定.因此,引入多个孤立树构成孤立森林,效果会更有说服力.孤立树的集合即为孤立森林.对于I F算法来说,异常是指多个孤立树上平均路径长度

10、L较短的事例.L随n的增长而快速收敛,因此n用来控制I F算法的精度.将测试数据输入I F,可以得到异常得分a,其定义为a=2-L-c(N),其中,c(N)=2H(N-1)-2(N-1)/N,H(N)是调和级数.异常值a的范围是0到1之间,越接近于1,其对应的样本就越异常.图3 异常值a(左图)和所选事例组成(右图)的归一化分布F i g.3 N o r m a l i z e dd i s t r i b u t i o n so fa(l e f t)a n dc o m p o s i t i o n so f t h es e l e c t e de v e n t s(r i g

11、h t)以1 3T e V大型强子对撞机上轻子衰变的矢量玻色子散射(V B S)过程 W+W-为信号,以误标记b-喷住的t t事例为背景,测试I F算法区分信号背景的能力.信号和背景的事例文件均由M a d-G r a p h 5_a MCN L O工具产生,强子化过程在P y t h i a中完成,最后由D e l p h e s完成探测器模拟.在I F算法中,背景的平均路径长度明显大于信号,且孤立树的数量n在大于1 0 0 0后,信号和背景的孤立树平均路径长度L开始变得稳定.这些证明I F算法在n大于1 0 0 0后有能力稳定区分该过程的S M信号和t t背景.如果考虑N P作为信号,比如

12、反常4次规范耦合(a QG C),更符合“少而不同”的设计理念,I F算法的筛选能力将得到进一步的提升.我们计算了样本的异常值a,并通过聚类分析将信号和背景分离.如图3所示,如果要求a=0.6,则样本中N P信号所占的比例将接近6 0%,而在a=0.4时,N P信号的比例只占不到5%.注意,例子中数据集可以替换成任何数据集,使用I F算法时无需知道数据集中包含何种N P信号,也不用根据N P信号的特征进行参数优化.也就是说,通过调整异常值,I F算法能够在没有N P模型先验知识的前提下在大量背景事例中筛选N P信号.2.2嵌套的孤立森林算法(N I F)基于I F的基础,提出了一种无监督的机器

13、学习算法,N I F算法.首先,以S M的MC模拟数据集作为训练数据集,记作SS M.通过I F可以得到其中每个事件的异常值aS M.然后,用I F获得目标数据集Sd a t a中每个事例的异常值ad a t a.最后,在相空间中找到目标数据集和训练数据集中相距最近的事例并将之配对.每对事例异常值的变化为ai=aid a t a-aiS M.这里距离的定义为d=i j(pij-qij)2,其中,p和q是分别来自目标数据集和训练数据集中粒子的四动量,上标i代表四动量的第i分量.a就是用来检测N P信号是否存在的指标,当事例中存在B S M的N P信号,该指标就会0.可以通过设置a的最大值可以调节

14、N I F算法对N P信号的敏感度.在正负电子对撞机上通过e+e-Z 寻找中性三次规范耦合(n T G C)就属于干涉项为主要贡献的过程.将N I F算法的结果与文献2 0 中基于运动学分析的结果进行比较.图4展示了过程截面随算符系数的变化,其中,算符系数为0时对应的是S M背景.可以看出,经过N I F算法筛选后的信号和背景事例数量的差值跟传统事例筛选策略(E S S)相似,但事例数更少,这将带来更好的统计显著性.3 3 4 辽宁师范大学学报(自然科学版)第4 6卷图4 过程截面随fBW的变化在应用传统E S S和N I F下的对比F i g.4 T h ec r o s ss e c t

15、i o n sa s f u n c t i o n so ffBWw i t ht h e t r a d i t i o n a lE S Sa n dN I FN I F算法不仅解决了异常检测无法处理的难题,还继承了I F算法与模型和算符无关的优点.因此,应用该算法时无需标记事例的来源.此外,它的运算机制透明,还基本不需要调节参数.在扩展性方面,N I F的程序框架不仅限于嵌套I F,原则上它可以嵌套任何能定量测量每个样本异常程度的算法.这使它的扩展能力和应用范围都较I F算法有极大的提升.3 结 论I F算法是一种无监督学习的异常检测算法,该算法不依赖于理论模型和算符的选择.无论数据集

16、中存在何种新物理信号,只要满足数量少和与S M事例的运动学特征不同这两个要求,就能够被I F筛选出来.N I F算法的优点与I F类似,可以在完全不知道信号属于何种模型或算符的情况下,不依赖运动学分析筛选出信号.但N I F能处理非异常检测问题,比如探测由干涉相为主导的新物理效应.I F和N I F可以做到信号识别能力完全不弱于传统E S S的同时,拥有更高的分析效率.参考文献:1 L A R KO S K IAJ,MOU L TI,NA C HMANB.J e t s u b s t r u c t u r ea tt h e l a r g eh a d r o nc o l l i d

17、e r:Ar e v i e wo fr e c e n ta d v a n c e s i nt h e o r ya n dm a c h i n e l e a r n i n gJ.P h y s i c sR e p o r t s,2 0 2 0,8 4 1:1-6 3.2 KA S I E C Z KAG,NA C HMANB,S H I HD,e t a l.T h eL HCo l y m p i c s 2 0 2 0a c o mm u n i t yc h a l l e n g e f o r a n o m a l yd e t e c t i o n i nh

18、i g he n-e r g yp h y s i c sJ.R e p o r t sO nP r o g r e s s I nP h y s i c s,2 0 2 1,8 4(1 2):1 2 4 2 0 1.3 A B D UGHAN IM,R E NJ,WUL,e ta l.S u p e r v i s e dd e e pl e a r n i n gi nh i g he n e r g yp h e n o m e n o l o g y:A m i n i r e v i e wJ.C o mm u n i c a-t i o n s i nT h e o r e t i

19、 c a lP h y s i c s,2 0 1 9,7 1(8):9 5 5.4 R A D OV I CA,W I L L I AM SM,ROU S S E AUD,e t a l.M a c h i n e l e a r n i n ga t t h ee n e r g ya n d i n t e n s i t yf r o n t i e r so fp a r t i c l ep h y s i c sJ.N a t u r e,2 0 1 8,5 6 0(7 7 1 6):4 1-4 8.5 B A L D IP,S A D OWS K IP,WH I T E S O

20、ND.S e a r c h i n g f o r e x o t i cp a r t i c l e s i nh i g h-e n e r g yp h y s i c sw i t hd e e p l e a r n i n gJ.N a t u r eC o m-m u n i c a t i o n s,2 0 1 4,5:4 3 0 8.6 R E NJ,WUL,YAN GJM,e t a l.E x p l o r i n gs u p e r s y mm e t r yw i t hm a c h i n e l e a r n i n gJ.N u c l e a

21、rP h y s i c sB,2 0 1 9,9 4 3:1 1 4 6 1 3.7 A B D UGHAN IM,R E NJ,WUL,e ta l.P r o b i n gs t o pp a i rp r o d u c t i o na t t h eL HCw i t hg r a p hn e u r a ln e t w o r k sJ.J o u r n a lo fH i g hE n e r g yP h y s i c s,2 0 1 9,8:0 5 5.8 D ES I MON EA,J A C QU E ST.G u i d i n gn e wp h y s

22、i c s s e a r c h e sw i t hu n s u p e r v i s e dL e a r n i n gJ.E u r o p e a nP h y s i c a l J o u r n a lC,2 0 1 9,7 9(4):2 8 9.9 R E NJ,WUL,YAN GJM.U n v e i l i n gC Pp r o p e r t yo f t o p-H i g g s c o u p l i n gw i t hg r a p hn e u r a l n e t w o r k s a t t h eL HCJ.N u c l e a rP

23、h y s-i c sB,2 0 2 0,8 0 2:1 3 5 1 9 8.1 0 DA GNO L ORT,WU L Z E RA.L e a r n i n gn e wp h y s i c s f r o mam a c h i n eJ.P h y s i c a lR e v i e wD,2 0 1 9,9 9(1):0 1 5 0 1 4.第3期郭禹辰等:机器学习在探测新物理信号中的应用3 3 5 1 1 I T E NR,ME T G E RT,W I LM I N GH,e t a l.D i s c o v e r i n gp h y s i c a l c o n

24、c e p t sw i t hn e u r a l n e t w o r k sJ.P h y s i c a lR e v i e wL e t t e r s,2 0 2 0,1 2 4:0 1 0 5 0 8.1 2 GUOJ,L I J,L IT,e t a l.D e e p l e a r n i n g f o rR-p a r i t yv i o l a t i n gs u p e r s y mm e t r ys e a r c h e s a t t h eL HCJ.P h y s i c a lR e v i e wD,2 0 1 8,9 8(7):0 7

25、6 0 1 7.1 3 L I J,YAN GS,Z HAN GR.D e t e c t i n ga n o m a l i e s i nv e c t o rb o s o ns c a t t e r i n gJ.C h i n e s eP h y s i c sC,2 0 2 1,4 5(7):0 7 3 1 0 4.1 4 GUOYC,J I AN GL,YAN GJC.D e t e c t i n ga n o m a l o u sq u a r t i cg a u g ec o u p l i n g su s i n gt h e i s o l a t i o

26、nf o r e s tm a c h i n e l e a r n i n ga l g o-r i t h mJ.P h y s i c a lR e v i e wD,2 0 2 1,1 0 4(3):0 3 5 0 2 1.1 5 YAN GJC,GUOYC,C A ILH.U s i n gan e s t e da n o m a l yd e t e c t i o nm a c h i n e l e a r n i n ga l g o r i t h mt os t u d yt h en e u t r a l t r i p l eg a u g ec o u p l

27、 i n g sa t a n ee+e-c o l l i d e rJ.N u c l e a rP h y s i c sB,2 0 2 2,9 7 7:1 1 5 7 3 5.1 6 YAN GJC,C HE NJH,GUOYC.E x t r a c t t h ee n e r g ys c a l eo f a n o m a l o u s W+W-s c a t t e r i n g i nt h ev e c t o rb o s o ns c a t t e r i n gp r o c e s su s i n ga r t i f i c i a l n e u r

28、 a ln e t w o r k sJ.J o u r n a l o fH i g hE n e r g yP h y s i c s,2 0 2 1,9:0 8 5.1 7 YAN GJC,HANXY,Q I NZB,e t a l.M e a s u r i n g t h e a n o m a l o u sq u a r t i cg a u g e c o u p l i n g s i nt h eW+W-W+W-p r o c e s s a tm u-o nc o l l i d e ru s i n ga r t i f i c i a l n e u r a l n

29、e t w o r k sJ.J o u r n a l o fH i g hE n e r g yP h y s i c s,2 0 2 2,9:0 7 4.1 8 YAN GJC,GUOYC,C A ILH.U s i n gan e s t e da n o m a l yd e t e c t i o nm a c h i n e l e a r n i n ga l g o r i t h mt os t u d yt h en e u t r a l t r i p l eg a u g ec o u p l i n g sa t a ne+e-c o l l i d e rJ.N

30、 u c l e a rP h y s i c sB,2 0 2 2,9 7 7:1 1 5 7 3 5.1 9 L I UFT,T I N GK M,Z HOUZ.I s o l a t i o nf o r e s tC.2 0 0 8E i g h t hI E E EI n t e r n a t i o n a lC o n f e r e n c eo nD a t aM i n i n g.2 0 0 8:4 1 3-4 2 2.2 0 F U Q,YAN GJC,YU ECX,e ta l.T h es t u d yo fn e u t r a l t r i p l eg

31、a u g ec o u p l i n g s i nt h ep r o c e s se+e-Z i n c l u d i n gu n i t a r i t yb o u n d sJ.N u c l e a rP h y s i c sB,2 0 2 1,9 7 2:1 1 5 5 4 3.A p p l i c a t i o no fm a c h i n e l e a r n i n g i nd e t e c t i n gn e wp h y s i c s s i g n a l sG U OY u c h e n,L US h i q i,P A NC h u

32、n j i n g,Y A N GJ i c h o n g(S c h o o l o fP h y s i c sa n dE l e c t r o n i cT e c h n o l o g y,L i a o n i n gN o r m a lU n i v e r s i t y,D a l i a n1 1 6 0 2 9,C h i n a)A b s t r a c t:M a c h i n e l e a r n i n gi st h eb a s i sf o rm a n ym o d e r nt e c h n o l o g i c a la d v a

33、n c e sa n di si n c r e a s i n g l yu s e dt os o l v ep h y s i c sp r o b l e m s.I nh i g h-e n e r g yp h y s i c sr e s e a r c h,p h y s i c i s t sa r ec o n f r o n t e dw i t hh u g ea m o u n t so f e x p e r i m e n t a l o rs i m u l a t i o nd a t aa n dn e e dm a c h i n el e a r n i

34、 n gt oh e l pu s i m p r o v et h ee f f i-c i e n c ya n de f f e c t i v e n e s so fd a t aa n a l y s i s.T h i sp a p e ru s e s t h e i s o l a t e d f o r e s t(I F)a l g o r i t h mt oe x t r a c tn e wp h y s i c ss i g n a l s i nb a c k g r o u n d s.B a s e do nt h i s,w ep r o p o s e

35、t h en e s t e d i s o l a t e df o r e s t(N I F)a l g o-r i t h m,w h i c hc a ne f f e c t i v e l ye x t r a c t s i g n a l so np r o b l e m sw h e r e t h e I Fa l g o r i t h mf a i l s.T h e I Fa n dN I Fa l g o r i t h m sp r o v i d ean e wi d e a f o ro p t i m i z i n gt h ee v e n t s e l e c t i o ns t r a t e g y f o rn e wp h y s i c s s i g n a l s i nam o d e l a n do p e r a t o r-i n d e p e n d e n tw a y.K e yw o r d s:m a c h i n e l e a r n i n g;n e wp h y s i c s;i s o l a t e df o r e s t;n e s t e d i s o l a t e df o r e s t

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服