收藏 分销(赏)

通讯有效的DL回归与变量选择在冠心病数据中的应用.pdf

上传人:自信****多点 文档编号:712424 上传时间:2024-02-19 格式:PDF 页数:7 大小:985.07KB
下载 相关 举报
通讯有效的DL回归与变量选择在冠心病数据中的应用.pdf_第1页
第1页 / 共7页
通讯有效的DL回归与变量选择在冠心病数据中的应用.pdf_第2页
第2页 / 共7页
通讯有效的DL回归与变量选择在冠心病数据中的应用.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷 第 期吉林师范大学学报(自然科学版).年 月 ().收稿日期:基金项目:国家自然科学基金项目()国家社会科学基金项目()第一作者简介:袁晓惠()女四川省广元市人副教授博士博士生导师.研究方向:生存分析和变量选择.:./.通讯有效的 回归与变量选择在冠心病数据中的应用袁晓惠夏爱薇刘湘宁马重阳(长春工业大学 数学与统计学院吉林 长春)摘 要:探讨了分布式()回归模型的参数估计与变量选择方法并在不同设置下有限样本中验证方法的有效性.模拟结果显示所提出的 回归变量选择方法不仅能正确选择出重要变量而且对应的模型系数的平均估计误差也较小.最后将所提出的方法应用于冠心病的实例数据集结果表明性别、年龄

2、等 个因素对是否患有冠心病具有显著影响.关键词:通讯有效 回归模型变量选择冠心病数据中图分类号:文献标志码:文章编号:()引言冠心病是中老年人的常见病、多发病严重危及人的生命健康因此研究冠心病的影响因素对于尽早预防、尽早治疗具有重大意义.近年来国内外学者对冠心病的影响因素进行了深入研究.戴柔丽和李歆探讨发现冠心病发病危险因素主要有年龄、高血压、糖尿病病史以及吸烟史等且年龄与高血压、年龄与糖尿病、高血压与吸烟之间存在冠心病发生的正交互作用张丽和左蕾探究了老年冠心病患者介入治疗术后 年内再入院治疗的影响因素发现年龄大于等于 岁、高血压、高血脂、糖尿病以及脑血管疾病等是影响患者术后 年内再入院治疗的

3、重要因素.等将年龄、性别、体重指数以及饮食摄入量等作为协变量建立了冠心病风险预测模型.张晓玲和方玲运用多因素 回归分析发现文化程度初中及以下、家庭月收入小于 元、无医疗保险等均是影响中青年冠心病患者经皮冠状动脉介入治疗术后社会功能的独立危险因素.回归模型可用于预测某件事情的发生概率因此本文基于 回归模型预测患有冠心病的概率.但由于该模型本质上是一个线性分类器因此传统的 回归模型在变量较多的情况下会产生线性干扰.随着大数据时代的到来分布式存储系统被广泛应用.等提出了一个通信有效的替代似然()框架来解决分布式统计推理问题.等研究了在大数据和有效计算的背景下一般对称统计量的分布式统计推断问题提出并分

4、析了两种分布式自助方法.李莉莉等提出了分布式两步子抽样算法利用该算法得到的参数估计具有相合性和渐近正态性.自此应用 回归模型的数据分析研究方兴未艾.在对大数据的统计分析过程中变量选择的结果直接影响参数估计的效果及模型的预测结果.等在分布式复合分位数数据上应用平滑阈值估计方程来进行变量选择王倩和李风军发现在 回归中使用平滑裁剪绝对偏差()方法可以较准吉林师范大学学报(自然科学版)第 卷确地将非重要变量的回归系数压缩为零张健涛在 回归模型上运用稳健的自适应权重的惩罚回归方法进行变量选择.本文基于 回归模型的变量选择方法对冠心病数据进行研究分析多个因素对于患有冠心病的影响并给出相关建议.方法介绍令

5、是二值响应变量取值为是 维协变量 ().观测数据为().假设给定 时 回归模型可以写成 ()()()()()这里 是第 个个体的协变量和 ()是未知的参数.由二分类 回归模型知模型的全局似然函数为()()()()()与之对应的全局对数似然函数()的定义式可表示为()()().模型中参数 的估计是如下最大化问题的解:().当数据量较大时数据存储在 个机器中.此时不能得到全局似然函数只能得到局部似然函数但使用局部的似然函数会对结果产生偏差为了减少这种偏差定义数据().()为局部似然函数具体公式为()().接着利用.等的方法构造()的替代函数:():()()()()()()().此时参数 的估计是如

6、下最大化问题的解:().对参数 的估计就转而对参数 的估计其中 是 的初始估计值是相对于 的梯度.在分布式环境中梯度向量()可以很容易地进行传输.显而易见优化 的问题只在第一台机器上进行求解而其他机器只需要计算和传输局部梯度.当数据的维度 较大时庞大的信息量会影响预测的准确性.一方面搜集到的变量中可能存在与目标无关的冗余变量将冗余变量纳入模型进行预测自然就会做出误判.另一方面尽管有些变量和目标相关但实际的影响微乎其微把这些变量包含在模型中无疑增加了模型的难度.因此在估计回归参数 的同时将利用.的方法进行变量选择.提出了一种能够消除无关变量的平滑阈值第 期 袁晓惠等:通讯有效的 回归与变量选择在

7、冠心病数据中的应用估计方程具体描述为:设()是一个估计 的 维估计函数其中 ()假设 满足 ()和 ()令()().该平滑阈值估计方程表达式为()().其中:为对角矩阵其对角元素为 ()/()()初始估计值为()调谐参数()可由 准则来选择为 维单位矩阵.本文中上述平滑阈值估计方程对应()().其中:是 维单位矩阵 ()为调谐参数()()()().对于方程的求解可以通过类似于牛顿迭代法的步骤来实现.具体来说在给定调谐参数 时对方程()()().使用迭代算法迭代公式为()()()()()()不断地更新()当()与()之间的差距足够小时此时算法收敛迭代完成.由此求解公式可得:()()()()()(

8、)()()().最终可得()迭代过程选出的估计参数.对于调谐参数 的选取考虑 准则()()其中 表示 中非零分量的个数而 可基于多轮通信程序计算.调谐参数 可通过最小化函数()来选择设置 的最优值选取介于 与.之间并使得 ()最小.数值模拟下面将通过模拟数据来探究本文提出的 回归方法的性能和效果.假定总样本量 回归参数真值为 ().设置不同维数、不同系数的两种条件:()当 时 .()当 时.情况 在模拟的样本数据集中假定协变量 服从均值向量、协方差矩阵 的多元标准正态分布响应变量 服从多元 分布其中每个 的分类概率为()()().情况 在模拟的样本数据集中假定协变量 服从均值向量 、协方差矩阵

9、().的多元正态分布响应变量 服从多元 分布其中每个 的分类概率为()()().此外比较了 回归方法与全局 回归方法在上述两种情况下的计算成本.表 总结了平均计算时间的比值()记为 公式为全局平均计算时间分布式平均计算时间.吉林师范大学学报(自然科学版)第 卷表 两种情况下 计算时间比.维数情况 情况.情况.情况.情况.从表 中可以看出 回归比全局 回归方法更快且该方法的计算时间大致随 的增加而减小.这是因为 回归只涉及第一台储存机器上的一组子样本并且子样本的大小随储存机器数量的增加而减小.当数据维数越大时 回归方法的优越性更加明显.定义模型系数的平均估计误差()记为 公式为 ().通过 衡量

10、不同估计的精度比较 回归估计结果与其他 个估计结果结果如图 所示图中 表示在常规()回归模型下使用部分数据得到的变量系数表示在 回归模型下使用全部数据得到的变量系数表示基于.等提出的运用 的 回归模型下使用部分数据得到的变量系数是基于.等的方法基础上利用.提出的变量选择方法后得到的 回归变量选择模型使用部分数据得到的变量系数.图 当 时两种情况下的.图 展示的是在维数 的情形下上述 种估计方法在两种情况下重复 次模拟实验的.由图 可以看出 取不同值时与 对应的 非常接近几乎重合并且都略高于 的.而 的 随 的增加而显著增加.这是因为随 的增加使用的子样本数量减小的误差也逐渐增加.可见 种估计方

11、法中的误差 最小并且表现得也很稳定.图 展示的是在维数 的情形下上述 种估计方法在两种情况下重复 次模拟实验的.与图 类似 取不同值时与 对应的 非常接近并且都高于 的.的 随 的增加而显著增加.情况 中 的误差 表现得很平稳几乎位于一条水平线上.在情况 中在 时 的值最大但此时仍然是 种估计方法中最小的.并且在两种不同情况下的 次模拟实验中 取 种不同值时 回归变量选择方法正确选择重要变量的概率都为.可以得出无论维数 还是 该方法都能非常准确地选择重要变量这说明 回归变量选择的方法是有效的.第 期 袁晓惠等:通讯有效的 回归与变量选择在冠心病数据中的应用图 当 时两种情况下的.实证分析下面将

12、 回归方法应用于是否患有冠心病及其相关影响因素的医疗数据.该数据来源于:.数据包括 个样本 个协变量被分为了 个维度:基本特征、生活习惯、医疗状况、身体状况.原始变量中包含数值型变量 个分类型变量 个.对数据进行极差标准化和哑变量处理处理后的协变量个数为 个.因变量为是否患有冠心病用“”表示未患病“”表示患病.将该数据集平均分为训练集和测试集两个数据集均包含 个观测值.将训练数据分成 个部分(、)分别运用 回归变量选择方法、方法和 回归方法对测试集进行预测计算它们混淆矩阵并将其作为二分类模型的评价指标比较 种估计方法的预测性能.种方法在不同 下的分类结果见表.由表 的混淆矩阵分类结果可知本文提

13、出的 方法在不同 下的误判率都比另外两种方法低在正确分类方面 方法对冠心病案例的正确分类比率分别约为.、.、.其他两种方法在不同 下的正确分类比率都约为.由此可见 方法优于其他两种方法.因此本文提出的 方法相较于其他两种方法不论在准确率还是误判率上都达到了比较高的预测精度这体现了使用 方法分类模型的优越性能.将 回归方法与 方法应用到该冠心病数据集中估计相应的回归参数并得到变量选择的结果其中 回归方法()应用的是完整数据集结果如表 所示.用 表示事件发生的概率定义 则 称为比值比为实验组的事件发生概率()/对照组的事件发生概率().表 中 为 、和 三种情况下 的平均值.例如对于变量性别 时系

14、数 .其中男性 为基准组()(女性)/(男性).所以.即女性得冠心病的概率约是男性的.倍.根据 方法选择出了 个系数不为 的变量其中基本特征变量 个、生活习惯变量 个、医疗状况变量 个、身体状况变量 个.表 展示的是在 的条件下根据 值选择了对因变量影响最大的 个变量其中睡眠时长、身高与患冠心病的概率呈负相关也就是说睡眠时长与身高增加患冠心病的概率会减小而体检间隔时间和年龄与患冠心病的概率呈正相关即随着体检间隔时间与年龄的增加患病概率会有所提升.同时对于中风、慢性肺病等身体疾病也都能够明显地增加患冠心病的概率.具体结果如表 所示.由表 结果可知在 、的情况下是在全部数据下利用 回归方法得到的参

15、数所以它的值并不随 而变化.最后、分别是 方法、方法得到的参数两者的值在 不同的情况下并没有明显的区别这表明子样本 的数量不会对参数产生较大的影响.吉林师范大学学报(自然科学版)第 卷表 种方法下的分类结果.真实值方法预测值误判率 .表 回归参数估计结果.变量 方法 方法 性别.睡眠时长.是否有心肌梗死.是否中风.是否有慢性肺病.是否有肾脏疾病.是否接种肺炎疫苗.身高.体检间隔时间.体检间隔时间.体检间隔时间.体检间隔时间.年龄.年龄.年龄.年龄.年龄.第 期 袁晓惠等:通讯有效的 回归与变量选择在冠心病数据中的应用 结论本文基于 模型对回归系数进行变量选择.模拟实验部分在两种不同情况设置下

16、方法的误差 最小并且随 的变化表现得也很稳定.实例部分通过对冠心病数据进行研究分析了多个变量对于患有冠心病的影响.结果显示:女性得冠心病的概率低于男性睡眠时长与患冠心病的概率呈负相关经常体检和越年轻、身高较高的人群患冠心病的概率会更小心肌梗死患者患冠心病的概率远超于未患心肌梗死的患病概率此外中风、慢性肺病、肾脏疾病对于患冠心病的影响也是不容忽视的.为了降低冠心病的得病率给出以下 点建议:()经常做体检尤其是关于心肌梗死、肺部、肾脏的检查及时发现身体的状况减少患病几率()保持充足的睡眠时间让身体得到充分的放松和休息从而使身体免疫力得到保障()保持良好的生活习惯增强身体机能让身体处于更加年轻和精力充沛的状态.参 考 文 献戴柔丽李歆.江苏地区不同类型冠心病患者发病及预后的多危险因素 分析.药学与临床研究():.张丽左蕾.老年冠心病患者 术后 年内再入院影响因素分析及其风险列线图模型的建立与验证.南昌大学学报(医学版)():.:.():.张晓玲方玲.影响中青年冠心病患者经皮冠状动脉介入治疗术后社会功能的危险因素.医疗装备():.():.():.李莉莉杜梅慧张璇.基于 回归模型的大数据分布式两步子抽样算法.数理统计与管理():.:.王倩李风军.回归模型的变量选择.统计与决策():.张健涛.回归模型的稳健变量选择及应用.广州:暨南大学.():.():().:(责任编辑:孙爱慧)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服