一种基于SDSS白矮星光谱数据的机器学习分类方法_王茜.pdf

资源描述

1、中国科技信息 2023 年第 7 期CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr.2023-104-三星推荐白矮星是一种低光度、高密度、高温较度的恒星，主要由碳构成，外部覆盖一层氢气与氦气。颜色一般呈现为白色、拥有较小的体积。白矮星是低质量和中等质量（小于 10 个太阳质量）恒星演化的产物，存在于所有年龄阶段的星族当中，根据资料分析与观测研究得出中低质量的恒星度过主序星阶段，在结束氢聚变过后，便会在核心发生氦聚变，进而演化到红巨星，经过星风、氦闪等演化过程造成质量的大量损失最后变为白矮星。因为其表面大气成分等因素的不同，将其划分为分 DA 和 DB

2、等不同光谱类型，但可能随着大气层中元素含量的改变而发生变化。近年来不同巡天项目的飞速发展（SDSS、LAMOST 等），在他们所搜寻的数据中已经得到了超过 40 000 颗的白矮星样本库。其中占据较大比列约 80%的 DA 型白矮星（H 主导），以及大气成分主要为 He 的 DB 型白矮星。传统的分类方式都是采用Pipeliner软件与光谱模版进行匹配，以保证结果准确性，但因为信噪比较低的缘故也会出现匹配错误的现象。所以，许多科研工作者对白矮星的分类方法进行了补充完善，例如：Kepler 和 Kleinman 等科学家先根据恒星颜色分布来筛选出候选体，再利用白矮星大气模型拟合得到分类结果。但随

3、着科技的不断进步，机器学习作为人工智能的一个分支在各个科学领域都得到了广泛应用。利用机器学习筛选分类白矮星的方法也得到了充分认可，如：Kong 等人采取LASSO 方法提取出 DB 型白矮星光谱与其他类型光谱具有明显的特征，通过该类区别可以有效对 DB 型白矮星实现分类。基于机器学习分类白矮星是利用算法并使用大量的已知光谱分类的白矮星样本数据进行训练，在训练完成之后得到一个分类模型。当下一次输入新恒星光谱数据时，可以利用此模型对新数据样本进行预测，得到目标分类结果。在本文中，我们将机器学习方法与 SDSS-DR3 白矮星样本数据相结合利用恒星光谱这一限制条件对白矮星的光谱类型进行预测，在实验过

4、程中我们将整个样本库均分为训练集和测试集两个集合，通过训练集对模型进行训练以及对测试集的精分析对模型进行多次修正以达到高精度和高效率的目标模型。该项工作可以大大提高工作效率，并且能够有效辨别出信噪比低、难以用肉眼区分的样本，对白矮星的科学研究具有较强的推动意义。数据样本处理行业曲线开放度创新度生态度互交度持续度可替代度影响力可实现度行业关联度真实度一种基于 SDSS 白矮星光谱数据的机器学习分类方法王茜王茜（1997），女，四川万源，研究生，西华师范大学物理与天文学院，研究方向：机器学习白矮星。-105-CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr

5、.2023中国科技信息 2023 年第 7 期三星推荐因为现在大型巡天项目的开展，在目前的白矮星光谱分类研究中已经存在许多已知具体分类的星表。在本文中我们将 42 006 颗 SDSS 巡天项目提供的白矮星作为本次机器学习的样本。并且利用该样本对分类模型进行训练，以保证最终模型的准确率和可信度。因最终的机器学习模型是根据恒星光谱实现分类，所以要先将样本中含有光谱文件的恒星（约12 082 颗）提取出来，但在完成此操作之前应该根据此白矮星恒星星表中已知的光谱类型贴上从小到大的数字标签，将其重新按数字归类。如表格所示：表 1 白矮星样本光谱标签分类光谱类型标签数量DADBOTHER CLASSNO

6、T123426 8932 4875 5467 080导入光谱绘制图像通过对 SDSS-DR7 白矮星光谱文件进行处理，可以得到白矮星波长与流量的图像。因为恒星的相对运动的影响会使恒星光谱产生多普勒效造成误差。如果不对此加以处理将会影响最终模型分类结果正确率所以要先对白矮星光谱进行修正，得到正确的图像。对光谱进行 kNN（k-nearest neighbor）插值kNN 算法是一种简单且有效的机器学习分类算法，其原理是对于给定测试样本，基于距离度量找出训练集中与其最为靠近的 k 个训练样本，然后基于这 k 个“邻居”的信息来进行预测。目前，已经存在很多改进 kNN 算法的方法，使得在不同研究领域

7、都取得了进步，算法在作用范围上得到了提升。本篇文章采用的是对白矮星样本中的光谱进行插值，使得在同一个波长段，可以保证每颗星都有对应的流量与之对应。通过这种处理方式确保最后分类结果正确。方法划分训练集和测试集为了直观得到模型最终的分类预测结果，我们要先将上述样本提取到的具有恒星光谱文件的 12 082 颗 SDSS-DR3 白矮星样本分为分类模型的训练集和测试集。因为样本的数量较多并且存在很多的不定因素（如：含有光谱的白矮星样本在星表的分布并不均匀），所以选择恰当的划分方案显得尤为重要。在很多其他使用机器学习对样本实施预测分类的文章中采用随机取样的方法，这种分类方法虽然较为方便快捷，但是因为本文

8、中样本的不确定性，所以经过多方面的因素的考量，最终采用奇偶个数取样的方法将样本分为训练集和测试集。具体分类步骤如下：将贴好数字标签的 42 006 颗白矮星星表按照数字大小进行排序；合并 Plate、MJD、FiberID 三列数据得到每颗白矮星样本的光谱名称，方便与每个恒星光谱文件进行匹配，得到对应的预测结果；对每个样本进行多普勒效应和 kNN 插值处理；采用奇偶数的分类方法将样本分为训练集和测试集，两个集合平均得到 6 042 颗白矮星样本；这种取样方法不但可以保证每种光谱型的白矮星样本平均分配到训练集和测试集并且还能够很好让每个白矮星样本对应好波长和流量，让训练模型结果更具有可靠性。测试

9、集性能预测“X”训练集、“Y”测试集对模型进行预测评估时，首先我们将“X”、“Y”分图 3 kNN 插值后白矮星光谱图黄色为原始光谱；紫色为插值后光谱图 2 多普勒修正光谱图图 1 一颗白矮星样本光谱图中国科技信息 2023 年第 7 期CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr.2023-106-三星推荐别代表为白矮星样本的训练集和测试集，并在后面直接输出到对应的表格数据中，这样能够直观的看出模型预测出的恒星光谱类型与实际光谱类型的对比情况，方便观察模型分类结果，并且有益于发现模型存在的问题，便于改进。入参归一化因为本文使用的白矮星光谱样本中参数

10、极值范围和度量单位不一样，会对训练分类模型时产生影响。所以为了降低最终结果的误差，应将样本光谱中的相应参数归一化，归一化是一种简化计算的方式,是为了将数据处理时更加方便。原理是把数据按照等比列缩小，使原来的光谱参数和度量单位限制在（01）的特定范围区间内。这种方式只是在形式上让数据发生了变化，但本质上是一样的，并不会改变模型最终的预测结果。随机森林分类在模型训练时，我们利用随机森林（Random Forest）算法对样本进行训练预测，该方法是将 Breimans的“Bootstrap aggreting”和“Random subspace method”相结合来建造决策

11、树集合。随机森林对于处理分类工作时，可以平衡误差并且在丢失一部分数据仍可以维持较高的准确度，所以选用随机森林分类足以满足本次研究要求。波长权重进行前面的步骤后，将会得到白矮星光谱中恒星不同波长占分类预测结果的权重柱状图，在该柱状图中可以清晰的看到处于 4 200、4 300、4 700、6 600 左右附近的波段有较高的权重比。结果如图 4 所示。模型预测结果及正确率通过训练集对机器学习模型进行多次训练后，可以得到满足利用恒星光谱实现白矮星分类的机器学习模型。利用模型对测试集样本进行预测分析，得到预测出的不同白矮星光谱类型颗数以及和原本 SDSS 样本中光谱类型对比出来的正确率。其中可以看到：

12、DA 型白矮星有 3 954 颗，并且与预测正确率达到了 86%；DB 型白矮星有 341 颗，预测正确率接近 19%；其他光谱类型的白矮星有 340 颗（其他光谱类型白矮星的预测结果因其在样本中的颗数太少，得出的分类结果不太具有参考性，所以将其统一归为标签 3 一类），预测正确率为 9%。虽然其他光谱类型的正确率没有 DA 型、DB 型好，但在现在的白矮星研究中利用较多对是 DA、DB型并且与其他传统分类方法相比节约时间，精确度，所以达到了实验预期。其具体数据如表 2 所示：表 2 模型预测结果光谱类型数量正确率（%）DADBOTHER CLASSNOT3 9543415681 1780.

13、8520.1820.0860.222结语白矮星作为追踪银河系的重要工具，经常用来研究等质量恒星的演化，其中对 DA 型光谱类型白矮星对运动学研究是现在天体物理较为热门的领域。所以找出一种能实现精准高效的白矮星光谱分类方法对白矮星的研究发展有着重要的意义。本篇文章使用 kNN 插值，随机森林等机器学习方法对 42 006 颗 SDSS 白矮星样本进行了光谱类型预测。训练模型中，将恒星光谱中的波长、流量作为预测白矮星类型的主要成分来实现目标。并且利用测试集对模型进行考证，得出了较为理想的白矮星分类结果。其中可以看到 DA、DB、型光谱类型白矮星的预测正确率达到了 86%、19%。这篇文章中利用恒星光谱对目标恒星实现分类，是将机器学习和传统分类结合运用到研究中，在技术和方法上都进行了新的探索。但是在一些问题的处理方式和结果准确率上还存在提升空间，在后续的工作中我们学习探索更多的机器学习方式来提升白矮星光谱分类模型的准确率，以及将机器学习分类这种高效的方法运用到更多种类的恒星样本中。图 4 模型预测波长权重图

展开阅读全文