deepCR宇宙线识别方法在CSST巡天数据处理中的可用性及稳定性定量评价研究.pdf

资源描述

1、 .天文研究与技术第卷第期年月:./.宇宙线识别方法在巡天数据处理中的可用性及稳定性定量评价研究林准黄伟荣王锋邓辉梅盈(广州大学物理与材料科学学院天体物理中心广东广州)摘要:宇宙线识别方法是哈勃空间望远镜()剔除宇宙线的有效方法但这一方法是否可以满足中国空间站望远镜()的要求始终缺乏科学的定量分析采用哈勃望远镜的真实观测数据对宇宙线识别方法进行了深入分析对其稳定性和可用性进行了实测研究结果表明在天空背景区域识别宇宙线的灵敏度较高但越靠近星像中心识别宇宙线的灵敏度越低分析了宇宙线密度和测光精度的关系发现当宇宙线密度达到时几乎

2、的星受到宇宙线的污染当宇宙线密度达到时对于不同轮廓面积的星存在的异常测光结果实验结果表明宇宙线识别模型稳定性相对较好一次建模后可以在较长时间内应用但在高精度测光等应用场景仍面临着一系列问题需要有针对性的解决方案关键词:宇宙线定量评价中图分类号:文献标识码:文章编号:()宇宙线是来自宇宙的高能带电粒子它能穿过地面或设备留下能量痕迹宇宙线常常干扰正常的天文观测尤其是在天文图像处理领域为了提高数据的质量和可靠性确保科学分析的可靠性和准确性宇宙线必须正确地识别和剔除最传统的做法是对同一天空区域进行多次曝光多张曝光图对齐并计算中值图以获得一幅无宇宙线的图像将每张曝

3、光图与中值图进行比较可以识别宇宙线这类方法效果很好然而它并不适用于单次曝光的图像近年来人们提出了各种技术识别和剔除单次曝光天文图像中的宇宙射线文提出基于卷积的方法用点扩散函数减去函数以构建空间滤波器并与原图像进行卷积根据滤波图像的噪声特性设置阈值以识别宇宙线文指出程序需要进行多次迭代才能更好地识别多个像素点组成的宇宙线因此较为耗时同时该方法要求采样数据良好半高全宽要大于等于两个像素文根据宇宙线尖锐的边缘和无对称性两个特征将原始图像子采样放大并与拉普拉斯算子进行卷积恢复原始分辨率后得到拉普拉斯图像另外使用中值滤波构造精细结构通过设置拉普拉斯图像与噪声模型、精细结

4、构的对比度识别宇宙线该方法检测效果较好但程序需要不断迭代直到没有新的宇宙线对于大图程序运行时间较长而且在面对不同的图像数据时需要手动调整对比度以获得最好的识别效果文考虑到宇宙线的直方图分布不是高斯分布提出基于图像直方图统计的方法该方法先将图像划分为若干个子图通过分析多个子图的直方图分布设置阈值将偏离分布的像素点识别为宇宙线文指出该方法适合处理光谱图像数据而且运行速度快但对于点扩散函数较窄的图像宇宙线识别效果不如文和文基金项目:国家自然科学天文联合基金()国家自然科学基金国际合作项目()资助.收稿日期:修订日期:作者简介:林准男硕士研究生主要研究天文技术与方

5、法.:.通信作者:王锋男教授主要研究天文技术与方法.:.天文研究与技术卷随着深度学习技术的发展人们开始利用深度学习方法识别宇宙线其中由于其高精确度和高效率而受到极大关注整个框架包括两个独立的深度神经网络分别用于标记宇宙线和标记过后的图像恢复已在哈勃空间望远镜高级巡天相机()/广域通道()(滤波器)的数据上展示了比拉普拉斯边缘检测算法更高的召回率以及更快的处理速度中国空间站望远镜是我国载人航天工程规划建设的重大科学项目主要任务是进行大规模天文巡天然而在巡天观测中宇宙线干扰是一个严峻的问题中国空间站望远镜主巡天相机由块探测器拼接组成覆盖区域大约为平方度焦面

6、感光面积约为根据与中国空间站望远镜有相近轨道高度的哈勃空间望远镜的数据估计每块探测器在的曝光过程中有超过万个像元受到宇宙线的影响宇宙线会破坏这些像元的读数因此需要对这些像元的位置进行标定以避免对科学数据的测量产生影响在巡天模式中由于每个探测器只对相应天区覆盖一次无法使用多次曝光合并这种传统的去除方式只能利用单次曝光图像实现宇宙线去除尽管取得了较好的结果在实际应用中它的真实效果仍缺少定量分析这个方法是否可以应用于未来的中国空间站望远镜数据处理值得研究本文基于哈勃空间望远镜的观测数据针对进行深入分析对其实际应用的稳定性和可用性进行了系统的定量研究宇宙线识别方

7、法宇宙线识别模型由两个独立的深度神经网络组成分别是和对输入图像预测每一个像素被宇宙线影响的概率而后用倍阈值将概率图转换为二值图代表非宇宙线代表宇宙线预测输入图像中标记为宇宙线的像素点在没有宇宙线干扰时的值以此恢复图像在没有宇宙线干扰时的情况这两个网络都基于结构搭建模型的训练数据包括受宇宙线影响的图像和与之对应的宇宙线二值标签图选择多次曝光数据作为训练数据通过比较每张曝光图与中值图的方法制作准确的宇宙线二值标记我们直接使用文提供的基于年的 /()数据训练好的模型进行后续测试后续测试的数据在第节介绍测试数据准备为了与文保持一致我们使用 /()的观测数据随机

8、选取组每组由视场相同并且经过校准的次曝光的科学图像构成(见图)图为每组数据的观测日期以及平均曝光时间数据管线可以自动对多张观测图像进行天空投影对齐随后进行中值合并得到没有宇宙线的中值图再将中值图映射至每张原始的观测图像得到多张映射中值图使用倍均方根()和倍均方根作为第道和第道阈值比较映射中值图与原始观测图像的差异从而标记宇宙线的位置用映射中值图上的像素值替换原始观测图像中的宇宙线最终得到干净图像此外我们还将哈勃望远镜观测数据(文件)中的数据质量数组作为坏像素的掩码并为大于的像素创建的饱和掩码以保证这些异常像素不参与后续的模型评价基于数据管线我们

9、得到了每张原始观测图像剔除宇宙线后的干净图像把这些干净图像作为基准图像以基准图像上的测光结果作为基准的测光结果开展后续的定量评价实验定量评价基于深度学习指标的定量评价由于宇宙线在全图的占比小导致正负样本不均衡因此精确率和召回率是最重要的衡量指标期林准等:宇宙线识别方法在巡天数据处理中的可用性及稳定性定量评价研究精确率/()召回率/()其中代表正确识别为宇宙线的宇宙线像素的数量代表错误识别为宇宙线的非宇宙线像素的数量代表错误识别为非宇宙线的宇宙线像素的数量图实验数据描述利用文的模型我们首先对所有测试数据进行全图像区域的宇宙线识别评估结果显示召回率达到精确率为

10、这表明模型不仅可以较准确地分辨宇宙线而且具有较高的识别灵敏度然而由于宇宙线大部分落在天光背景上可能导致识别效果被高估为了得到更可信的精确率和召回率我们进一步对星的区域进行评估使用计算干净图像背景的均方根并使用均方根的倍、倍、倍等阈值来提取星的连通区倍数越大表示提取的连通区域越接近星的中心我们用这些连通区作为掩模得到位于星上不同区域的宇宙线的识别情况表展示了模型对位于星上不同区域的宇宙线的识别性能我们发现与整个图像区域的宇宙线识别效果相比对落在星上的宇宙线的识别灵敏度与准确率显著下降(越接近星像中心召回率与精确率越低)说明方法在星的中心区域很容易漏掉宇宙线

11、表模型表现随距星像中心的变化 /()/()基于测光的定量评价虽然精确率和召回率是评估模型效果的重要指标但它们并不能反映模型在实际应用场景的效果因此我们基于测光结果进一步分析了的宇宙线剔除效果图展示了测光的过程本文提取源的标准为()单像素高于倍背景噪声()连通区域像素数大于 ()只对点源进行分析每个源的长轴与短轴之比为 ()为了避免图像边沿不可靠的测光结果提取范围为距离四条边大于个像素的位置另外对同一组数据中每张图的星进行匹配把坐标距离小于的星判定为同一颗星为了得到更准确的宇宙线剔除效果同一组数据中的每颗相同的星均采用相同的测光中心坐标和测光半径我们定义原始

12、图流量与干净图流量的差值大于倍流量噪声的星为受宇宙线污染的星图为测试数据的测光结果分析()图中黑线为原始图像的测光结果和干净图像中的测光结果的比值天文研究与技术卷()图中蓝线为对原始图像剔除宇宙线后的测光结果和干净图像的测光结果的比值(下文简称为“流量比值”)如果流量比值越接近说明的效果越接近基准结果比值小于说明把星信号误判为宇宙线比值大于则说明剔除宇宙线不干净图测光流程图图测光结果图经过统计发现每组数据的异常星占所有星的比例在与之间可见大部分星受到宇宙线的污染在这些被宇宙线影响的异常星中有的星剔除宇宙线后的测光结果与基准测光结果比值大于

13、或小于有的星剔除宇宙线后的测光结果与基准测光结果比值在与之间尽管整体的剔除效果较好但仍有部分星被错误剔除或者没有剔除宇宙线从而导致测光结果异常进一步我们检查了流量比值明显小于、明显大于的星的图像(见图、图)在每一行的图像中第个子图为原始图像第个子图为干净图像第个子图为第个子图减去第个子图的差该差值表示真实宇宙线的位置第个子图是剔除宇宙线后的图像第个子图为第个子图与第个子图的差(取绝对值)该差值表示误识别的宇宙线或者漏识别的宇宙线在流量比值明显小于的例子中发现可能错误地把轮廓较小的整颗星识别为宇宙线(参考图)这极大影响了测光精度而当

14、宇宙线落在星的中心区域时往往没有成功识别出该宇宙线(参考图)在另一些情况下当宇宙线落在星的边缘时的识别效果良好落在星上的宇宙线较少或较弱时无论识别宇宙线的效果如何都不会对测光结果造成明显影响期林准等:宇宙线识别方法在巡天数据处理中的可用性及稳定性定量评价研究图流量比值明显小于的典型情况图流量比值明显大于的典型情况以上的分析说明落在星上的宇宙线模型识别效果并不好因此宇宙线的密度是测光精度的重要影响因素图展示了宇宙线密度对测光精度的影响其中横轴代表宇宙线全图占比宇宙线占比时对应的曝光时间约为纵坐标分别代表被宇宙线污染的星的比例(星被宇宙线污染的判

15、别标准为原始图像测光结果在干净图像测光结果的倍流量误差的范围外)和测光结果异常的比例(异常的判别标准为测光结果在干净图像测光结果的倍流量误差的范围外)()图中红线为线性拟合结果皮尔逊相关系数 ()图中黑线、红线和蓝线分别为和个像素大小的星的线性拟合结果其皮尔逊相关系数和值分别为()()和()从()图可以看到当宇宙线全图占比为时几乎的星被宇宙线污染了从()图可以看到当星的轮廓面积为个像素且宇宙线全图占比约时大约的星测光结果异常由于宇宙线的密度随着曝光时间的增加而增大因此中国空间站望远镜巡天过程中不应该采用过长的曝光时间天文研究与技术卷图不同宇宙

16、线密度时的测光结果异常的比例不同颜色的点代表不同大小的星模型稳定性分析天文图像的质量和稳定性往往难以保证因此一个好的深度学习模型应该具有高度的稳定性先前缺乏对模型稳定性的研究因此本文通过基于深度学习评估指标和测光精度两个方面分析模型的稳定性图展示了年月至年月期间组观测数据基于星上的宇宙线统计的分数和分数的值为()的值为()可以看到随着时间变化分数和分数没有明显的变化图分数和分数随观测日期的变化图中横轴的日期跨度从年月到年月纵坐标是每一组数据中所有星的流量比值的均方根(参考图的做法)蓝点代表测光精度红线是蓝点数据的均值绿线代表均值倍标

17、准差另外为了得到更加准确的均方根去除数据中最大和最小的的数据再进行均方根的计算结果表明每组数据的均方根基本在误差范围内即剔除宇宙线的测光精度和探测器的工作年龄没有显著关系期林准等:宇宙线识别方法在巡天数据处理中的可用性及稳定性定量评价研究图不同观测时间数据的测光精度()图 ()总结本文系统定量地分析了方法对宇宙线识别的结果年至年期间哈勃空间望远镜观测数据的分数、分数和测光精度均没有明显的变化总体来看方法有较好的模型稳定性实验表明越接近星像中心识别宇宙线的灵敏度越低与大于倍背景均方根的星上区域相比在大于倍背景均方根的星上区域识别宇宙线的灵敏度

18、从下降到此外本文研究了宇宙线密度和受到宇宙线污染的星的比例、方法导致异常测光结果的比例的关系研究发现当宇宙线像素的全图占比为时几乎的星受到宇宙线污染当宇宙线占比为时在轮廓面积为个像素的星中大约有的星测光结果异常在轮廓面积为个像素的星中大约有的星测光结果异常由于图像中的宇宙线占比越大星像上宇宙线的识别效果越差因此建议中国空间站望远镜在巡天过程中尽量采用较短的曝光时间以控制图像中宇宙线的数量参考文献:卢伯强.宇宙线和暗物质探测研究.南京:南京大学.:.():.冯海霞陈建军邓建榕等.图像中宇宙线子甄选技术.天文研究与技术():.():.():.():.天文研究与技术卷 .():.刘婷婷彭青玉.消除图像中宇宙射线的算法的比较.天文研究与技术 ():.():.():.():.:.():.詹虎.载人航天工程巡天空间望远镜大视场多色成像与无缝光谱巡天.科学通报():.():.:/.:.():.:.():.(:.):().().()().:

展开阅读全文