收藏 分销(赏)

基于改进随机森林集成模型的疾病风险预测_李丹.pdf

上传人:自信****多点 文档编号:2345111 上传时间:2024-05-28 格式:PDF 页数:6 大小:1.74MB
下载 相关 举报
基于改进随机森林集成模型的疾病风险预测_李丹.pdf_第1页
第1页 / 共6页
基于改进随机森林集成模型的疾病风险预测_李丹.pdf_第2页
第2页 / 共6页
基于改进随机森林集成模型的疾病风险预测_李丹.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 第 卷 第 期 年 月:基于改进随机森林集成模型的疾病风险预测李 丹,卢 琰,吴佩珊,李春玲,杜宝林,(广东省科技基础条件平台中心,广州;广东省农业科学院 动物卫生研究所,广州;广东省计算技术应用研究所,广州)摘 要:针对疾病样本数据集不均衡以及传统模型预测精度低等问题,提出一种混合随机森林与人工神经网络()的集成预测模型。采用少数样本合成过采样技术()构建平衡训练数据集;结合随机森林特征选择优势和 的预测能力,通过集成方法构建混合随机森林与 的集成预测模型 以对畜禽疾病风险进行预警预测;将多种预测模型进行对比实验。实验结果表明,该模型能有效提高疾病预测的精准度与召回率,在少数类样本中的精确

2、率和 值分别达到 和。关键词:畜禽疾病风险预测;非均衡数据;集成模型;随机森林中图分类号:文献标志码:文章编号:(),(,;,;,):,:;收稿日期:基金项目:广东 省畜禽 疫病防 治 研 究 重 点 实 验 室 开 放 课 题();广东省重大科技计划项目()作者简介:李 丹(),女,湖南衡阳人,硕士,高级工程师,主要从事医疗数据挖掘与分析等方面研究。:;:通信作者:杜宝林(),男,广东茂名人,硕士,工程师,主要从事人工智能与医疗影像识别等方面研究。:;:引 言随着国民生活水平的提高,国内畜禽养殖业得到了快速发展,其总产值目前占农林牧渔业的 以上,并朝着规模化、集约化以及智能化模式加速推进。在

3、这种形势下,畜禽疫病防控问题愈加凸显,存在爆发风险大、人畜共患病危险高等,对产业的生产效益、产品出口以及公共卫生安全构成严重威胁。提高畜禽重大疫病诊断、防控与高效安全养殖综合技第 卷术水平对畜禽养殖业健康发展尤为重要。目前畜禽疾病的检测主要依靠兽医以及行业专家的巡视与诊断,存在诊断滞后、交叉感染等不足,无法开展高质量的群体化和个性化疾病防控管理工作。与此同时,随着计算机与人工智能技术的发展,畜禽疾病检测技术不断升级,研究人员通过运用关联、聚类以及分类等数据挖掘策略建立了各种有效的畜禽疾病风险预测模型,例如 神经网络、决策树、支持向量机、随机森林以及深度学习等。叶婵等针对传统专家系统推理能力弱以

4、及自学习能力差等,提出一种基于 神经网络算法的虾病害诊断以及防治专家系统。李尚汝等利用机器学习算法建立奶牛疾病预测模型,并评估了人工神经网络(,)、决策树、逻辑回归等算法的性能,由实验结果可知,基于机器学习的预测模型在畜禽疾病风险预测应用中展现了极大的潜力。虽然在 神经网络的基础上有较大改进,并表现出较好的非线性映射能力以及自学习能力。但在实际工程应用中通常存在着训练数据缺失等情况,模型中存在较多的隐节点,在函数逼近的过程中该模型容易出现过拟合等。随机森林算法对训练样本缺失数据的敏感度较低,并且能较好地处理非均衡数据,目前已被广泛应用于疾病预测研究。等设计了基于随机森林与 算法的疾病预测模型,

5、并对手足口病的发病率及其影响因素进行了分析和预测,取得了较好的预测性能。然而,当输入训练样本数据集过大时,基于随机森林算法的疾病预测模型容易出现过拟合现象,对疾病风险预测的性能产生较大影响。针对于此,等提出一种混合随机森林与线性算法的预测模型,提高了疾病预测水平,准确率达到.。针对 模型收敛速度慢等缺陷,张春富等利用遗传算法(,)优异的全局优化性能,设计了一种基于 算法的疾病预测模型,确保所设计算法在每一轮中的进化效果最优。因此,学习模型的集合方法比交叉验证测试确定的“单一最佳”模型能够获得更为准确的性能。机器学习技术为畜禽疾病风险预警预测提供了有效的解决方案,由于畜禽疾病数据集的相关数据记录

6、较少,增加了学习的复杂度;畜禽疾病数据集在类别中往往存在严重的分布不平衡,即绝大多数类别为正常案例,少数类别是患病案例,容易导致预测过拟合以及误导等情况。为此,研究人员引入随机过采样、重采样、动态采样以及合成少数样本过采样等方法。等针对不平衡数据的复杂特性,提出一种新的过采样技术,并获得较好的效果。陈旭等针对不均衡医学数据疾病预测,设计了一种基于欠采样技术的集成分类模型,提高了疾病预测性能。如果样本是随机选取的,潜在的有用数据可能会被丢弃,等提出一种自步调学习的非平衡抽样方法,可有效地选择高质量样本,提高预测鲁棒性。本文根据猪口蹄疫实验检测的临床指标,结合随机森林的特征选择优势和 的预测能力,

7、设计了基于合成少数类过采样技术(,)算法的混合随机森林(,)与 的 集 成 预 测 模 型(,);采用合成少数样本过采样技术算法 对非均衡训练数据集的少数样本进行线性插值以生成新的训练样本,实现对数据集的均衡化处理;通过使用随机森林算法对人工神经网络的输入属性进行优化,对相关特征进行优化选择,能有效避免特征过多导致过拟合现象,提高畜禽疾病预测模型的预测精准度。基于集成模型的疾病风险预测.算法在畜禽养殖领域由于疾病的发病率存在差异,容易导致畜禽疾病样本数据样本量小、不均衡等,样本(即非患者病例样本)往往在数据集中占比较高,不利于畜禽疾病预测模型的训练。本研究采用 算法对训练数据集进行插值处理:(

8、,)()(),式中:(,)为区间(,)内的随机数;为少数类数据;为距离样本 的 个最近邻样本中的第 个数据。.随机森林算法随机森林模型是一类由多决策树组成的自举聚类()方法,通过节点随机分裂以及随机重采样构建多棵决策树,采用投票的方式获得模型的预测结果。本研究采用随机森林通过分类回归树生成的决策树的策略进行学习。随机森林在训练集总样本中随机又放回地抽取 个子样本;将每一个单独抽取的子样本对单棵决策树进行循环处理,构建由 个决策树所组成的决策“森林”,具体步骤如下:步骤 预设初始参数。设置 棵决策树以及决策树节点的阈值。步骤 获取数据子集。在预设参数的基础上,以随机森林理论思想,根据自主抽样法从

9、疾病原始数据集 中有放回地随机抽取 个独立的训练子集 ,在此抽样过程中,独立抽样 次,每个子样本没有被抽取的概率 ()()第 期李 丹,等:基于改进随机森林集成模型的疾病风险预测 步骤 随机选取节点特征指标。根据所获取的数据子集建立个体决策树,计算每个节点特征指标的纯度以获得 指数(采用 值作为纯度标准来分割节点)()()式中,为从当前的样本空间中各取值的概率。步骤 确定分裂节点。在获得 值的基础上,对 指数最大的节点进行分裂,同时重新计算 指数;通过循环步骤使得对应指数小于初始设置的阈值,生成目标的决策“森林”。步骤 递归分类。基于上述步骤,对生成的决策树分类结果进行反馈,根据票数最多的原则

10、选择指标变量的最佳线性分解的方法,实现对疾病风险指标特征的排序。其中,模型生成流程如图 所示。图 模型生成流程 综上,随机森林模型能通过构建多个决策树的方法获得准确的预测结果,并对样本缺失数据的敏感度较小;当输入的训练样本数据集过大时,训练模型容易出现过拟合现象,对疾病风险预测的性能产生较大影响。人工神经网络算法 主要由输入层、隐藏层以及输出层组成。网络中的隐藏层包含若干神经元,且各神经元间通过带可变权重的有向弧进行连接;该模型能通过对已知样本信息进行学习训练,达到处理大量信息的目的。结构如图 所示。.集成预测模型在畜禽疾病预警预测领域,动物疾病样本存在数据集中以及数据不均衡等,这对疾病风险预

11、测模型的训练产生巨大的挑战,容易出现模型过拟合,降低模型预测的可靠性。图 人工神经网络结构图 考虑到 具备优异的非线性匹配以及泛化能力。本研究结合随机森林在特征选择中的优势以及 在预测中的能力,提出一种基于 算法的混合随机森林与 集成预测模型。将经 算法处理过的数据输入随机森林模型进行训练;通过计算其特征属性的 指数,排除 指数最高的特征;对随机森林模型进行新一轮的训练以得到新的 指数排名;通过重复上一步骤直到每一个特征的 指数都保持在预设的阈值范围内。将随机森林模型优选后的特征输入 进行预测处理,以获得精确度较高的疾病风险预测值。其算法流程如图 所示。图 算法流程 算法步骤如下:步骤 输入目

12、标疾病样本数据集。步骤 预设数据集非均衡尺度,其中多数类样本数据设为,少数类样本数据设为。步骤 判断 与 数据集的大小。如果,则进行步骤,否则进行步骤。步骤 对少数类数据集 使用 算法处理,以增加其样本数量,得到数据集。步骤 合并数据集 与 得到数据集。步骤 计算非均衡尺度 ,判断 第 卷与 是否相等,如果 则返回步骤,否则进行步骤。步骤 输入数据集。将获得均衡的数据集使用所提出的算法对疾病风险进行预测研究,得到疾病诊断结果。实验分析.数据准备为研究面向非平衡数据集的疾病风险预测模型的性能,分别对 种特征不同的疾病数据集进行对比,实验数据集分别来自于:()平台提供的 心脏病数据集,有效患者数据

13、为 例,其中,非患者样本 例、患者样本 例。常见的 个心脏病主要属性见表。其中,属性表示患者诊断结果,用以分类样本。表 心脏病数据集特征信息表序号特征名称特征含义年龄性别胸痛类型:具体有典型性心绞痛;非典型性心绞痛;非心绞痛型胸痛;无症状静息血压胆固醇浓度空腹血糖静息心电图效果最大心率运动诱发心绞痛:无;:有相对于休息,运动引起的 抑郁峰值运动 段的斜率主要血管数目地中海贫血:;:;心脏病诊断:()猪口蹄疫疾病数据集来源于某省农业科学院动物卫生研究所的实验室送样样本的检测数据,总计检测数据 条;该数据集特征信息包含年龄、猪类型、血清试验结果、养殖环境温度、养殖环境湿度、是否出现水泡和蹄壳是否脱

14、落等特征数据。.模型评价为验证疾病预测模型在非平衡数据集中的性能,采 用 曲 线(,)对预测模型的性能进行评价与对比,具体指标选择了精确率、值和召回率。其中,定义、分别为实例为正类的正确预测数与错误预测数,、分别为实例为负类的正确预测数与错误预测数。则精确率()()()召回率()()()().实验与分析为验证 算法面向非均衡训练数据集的疾病预测性能,将算法与、以及 等算法进行对比,实验结果见表、,不同算法在 数据集中的 变化如图 所示,不同算法在猪口蹄疫数据集中的 变化如图 所示,图中,为曲线下面积。表 在 数据集中各模型指标对比评价(非患病病例)模型多数类(非患病病例)本文方法表 在 数据集

15、中各模型对比评价指标结果(患病病例)模型少数类(患病病例)本文方法图 在 数据集中不同算法的 变化 第 期李 丹,等:基于改进随机森林集成模型的疾病风险预测图 在猪口蹄疫数据集中不同算法的 变化 由图 可知,使用合成少数样本过采样技术 对数据集进行处理后的模型分类性能有了一定程度的提升。随机森林模型与 模型的 值分别提高了 和;在同等的情况下,预测模型的 值要高于其他的模型,最大提升了,验证了所提方法的有效性以及优越性。由图 可知,在猪口蹄疫数据集中,所设计模型的 曲线的 值达到了,获得了较好的预测性能。与此同时,由表、可知,在 数据集中,所设计的 算法在少数类样本中的精确率和 值分别达到 和

16、,该算法在两个指标下都取得了较高值。由此表明,所设计方法相较于其他预测模型能有效地提高对非平衡样本数据的疾病风险预测性能,为实现畜禽疾病风险预警预测的业务化运行进行了积极的尝试。综上所述,通过 算法对训练样本数据进行处理,能有效增强预测模型在面对非均衡训练样本数据时对少数类样本的识别能力。结 语在畜禽养殖领域中由于疾病的发病率存在差异,导致畜禽疾病样本数据样本量小、不均衡,为避免畜禽疫病风险预测模型过拟合,利用 算法对训练数据集进行均衡处理,并结合随机森林和 的特点,通过集成方法构建混合集成预测模型。实验结果表明:畜禽疾病风险预警预测模型相较于随机森林、等算法优势如下:()利用少数样本合成过采

17、样技术 构建平衡训练数据集,避免预测模型过拟合。()使用 对经过随机森林算法优选后的特征进行学习训练,避免特征冗余导致的预测精确度下降。()预测技术在实验过程中多指标的平均水平上表现更优,为实现畜禽疾病风险预测业务化运行进行了积极的尝试。下一步研究将重点考虑多标签预测场景和小样本预测研究,更加智能地实现疾病诊断。参考文献():蒋瑞祥,余礼根,丁露雨,等 畜禽疫病智能防控技术发展现状与展望 中国畜牧杂志,():,():杜永兴,牛丽静,秦 岭,等 基于改进 算法的牛疾病智能诊断系统 计算机应用与软件,():,:,():徐甜甜,薛旻,刘卫勇,等 基于 神经网络的甲状腺结节辅助诊断模型 计算机工程与设

18、计,():,():冯 妍,高志天,郑炜缤,等 机器学习在奶牛临床疾病预测中的应用 动物医学进展,():,():,():,():叶 婵,邓长辉,曹向南,等 基于 神经网络的对虾病害防治专家系统 大连海洋大学学报,():李尚汝,宋佳美,张城瑞,等 基于机器学习算法的奶牛疾病预测模型的研究 中国畜牧兽医,():闫贺新 基于组合预测模型的数据挖掘技术研究与探索 实验室研究与探索,():,():,():张春富,王 松,吴亚东 基于 模型的糖尿病风险预测 计算机工程,():,():(下转第 页)第 期何 平,等:基于改进 的红掌佛焰与病虫害特征检测研究考察算法的精度也需要考虑算法的运行速度,虽然 检测精度

19、较高,但其检测速度慢,不能满足红掌分级的实时性。由表 可知,改进 检测速度是 的近 倍,所以 不能选用。改进 在不明显降低检测速度的同时提升了模型的精度、召回率、精度以及 精度,证明本文对 的改进是有效的。结 语由于红掌佛焰与病虫害特征较复杂,且病虫害存在小目标,为使红掌佛焰和病虫害特征检测更加精确,本文提出改进 网络模型。通过对 网络模型的改进,创新性地将 的 网络修改为,加强网络层不同尺度特征的融合,提升模型的感受野。在 后加入通道注意力模块,加强网络对有效特征的提取能力,提升网络泛化性。创新性地将耦合 检测头改为解耦合检测头,使检测头更加关注各自的分类和回归任务,提升模型的精度。通过将、

20、和 目标检测模型与改进 模型进行试验与讨论,得出改进 模型对红掌佛焰与病虫害特征检测具有更高的精确率和召回率,检测效果有明显提升。结果表明,改进 检测网络能适用于大量红掌佛焰和病虫害的检测,满足实际生产需要,在红掌检测应用上实现了突破。参考文献():王珏 我国花卉产业现状和发展刍议 现代农业研究,():马淑敏,范昕雨,田源,等 休闲观光业态下红掌的发展探究 现代园艺,():李 恺,杨艳丽,刘凯,等 基于机器视觉的红掌检测分级方法 农业工程学报,():宁健,马淼,柴立臣,等 深度学习的目标检测算法综述 信息记录材料,():张顺,龚怡宏,王进军 深度卷积神经网络的发展及其在计算机视觉领域的应用 计

21、算机学报,():,():,:,():过铭涛 基于改进 的目标检测模型研究与应用 南京:南京邮电大学,于 晓,张茂松,周子杰 基于 改进的深度学习口罩人脸检测方法 软件工程,():康益华 基于通道间注意力模型的铁路异物检测算法研究 兰州:兰州交通大学,():,:,:于秀萍,吕淑平,陈志韬 基于 算法的多类目标识别实验室研究与探索,():徐 融,邱晓晖 一种改进的 目标检测方法 计算机技术与发展,():金林华,柳凯玲,邹家正,等 基于 的草莓目标检测技术研究 现代农业科技,():王丽文,朱正礼,云 挺 基于改进 的单木树冠检测算法 计算机仿真,():(上接第 页),():李艳霞,柴 毅,胡友强,等 不平衡数据分类方法综述 控制与决策,():,():胡满满,杨 杰,杨 焱,等 基于动态采样和迁移学习的疾病预测模型 计算机学报,():,:,():,:,():陈 旭,刘鹏鹤,孙毓忠,等 面向不均衡医学数据集的疾病预测模型研究 计算机学报,():,():办好期刊,用好期刊,提升理念,推进实验室的创新与发展。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服