1、面 向 乳 腺 肿 瘤 的 诊 前 问 答 系 统 决 策 模 型构 建 研 究王世文李一凡郑群曹旭晨(天津师范大学管理学院天津 天津医科大学肿瘤医院乳腺一科天津 )摘要目的 意义 运用决策树分类模型模拟专家问诊思路,预测潜在或已有乳腺肿瘤患者的疾病风险。方法 过程 采用 经典分类算法和悲观剪枝法,对调研收集的病例数据进行患者预问诊的结果预测。结果 结论 生成一棵以“术后化疗 放疗在院是否结束”为根节点、拥有 个叶子节点的 决策树,预测准确率达 ,并根据分类标签划分为 个风险等级。关键词乳腺肿瘤;算法;决策树;模型构建 中图分类号 文献标识码 ,;,“”;修回日期 作者简介王世文,教授,硕士生
2、导师,发表论文 余篇;通信作者:李一凡,硕士研究生。基金项目天津市应用基础计划重点项目(项目编号:)。引言 年世界卫生组织国际癌症研究机构发布数据显示,乳腺癌已成为全球新诊断人数最多的癌症。作为全球第一大癌,其医师资源紧缺且分布不均衡,优质医生资源多集中于大城市三甲医院。受限于医疗资源以及交通条件,不少乳腺肿瘤患者对个人乳腺疾病发展程度缺乏判断,导致治疗不及时,延误救治时机。在就诊前通过问答系统对乳腺肿瘤患者进行疾病初步风险程度评估是了解个人病情、缓解医疗压力的重要方式。因此,本文拟利用乳腺肿瘤科专家门诊医患对话数据,根据名医面对不同患者时所询问病症因素的逻辑顺序,构建面向乳腺肿瘤的诊前问答系
3、统 决策树模型。所谓医学信息学杂志 年第 卷第 期 ,“诊前”即患者此前未到过医院就诊乳腺肿瘤相关疾病。该决策树模型可模拟专家问诊思路进行预问诊,进而根据病情信息评估患者风险程度,提供初步的乳腺肿瘤风险评估,帮助患者了解个人病情,对疾病的及时发现和治疗具有重要意义,对医生在患者就诊前提前收集病情信息具有一定辅助作用。目前已有不少学者针对乳腺癌领域的决策模型开展研究。段明月 选择决策树(,)的回归树算法构建预测模型对女性乳腺癌 年内生存状况进行预测,为临床医生预测乳腺癌患者预后和调整个体化随访策略提供参考。刘绿 对比 回归模型、神经网络模型和决策树模型在乳腺癌彩超影像诊断中的灵敏度、特异度及准确
4、度。余秋燕等 研究指出决策树在小样本数据上有优势,相比神经网络、支持向量机、贝叶斯、随机森林算法,决策树模型分类效果最优。决策树作为问答系统的一种决策支持模型,具有清晰的树形结构和较好的分类、预测能力 。算法作为最常用、最经典的分类算法,其稳定性较好、准确率较高,被广泛应用于预测疾病发生风险、危重疾病的生存时间等医疗领域 。尽管国内外有关乳腺癌的人工智能研究大都具有较好的准确率,然而大多数研究都基于刻板的临床病历资料或者知识库,并不需要接触患者,面向对象仅是疾病,通过庞大病历库理解和推理,系统给出的方案可能是最正确的。而医生在临床实践中面对的是患者,除疾病外还需考虑医保、婚育等生活因素。另外,
5、大多数决策模型的特征名词比较专业,普通人理解和认识存在障碍,应用层面受限。本研究叶子节点语言更贴近生活,因而对诊前决策辅助更有应用价值。数据获取与处理 数据获取 年 月 日月 日共 次前往天津市肿瘤医院乳腺一科,以乳腺门诊患者为研究对象,以录音方式记录医患对话,并对乳腺影像报告数据系统(?,)分析等患者信息进行必要的补充记录,获得门诊对话原始音频数据。目前研究中所有数据均来源于同一医院、同一科室、同一医生的出诊、问诊、触诊数据。数据采集方式获得医院、医生许可,所有研究数据不涉及患者唯一可识别的个人具体信息(如姓名、身份证号、病历号等),采集的患者数据包括性别、症状(外在症状、触诊结果)、检查结
6、果等与病情决策有关的属性,不存在伦理及隐私问题。数据处理 确定数据处理原则与清洗标准为了便于利用与分析,需要对原始音频数据进行文本转写。其间试用多种转文本工具,但效果不佳,存在语义不连贯、语义转写错误等问题,最终决定进行人工转写。在采集的数据源中,剔除数据不完整的问诊,并通过实地调研、医生访谈方式进一步使模糊的医学或药物名词精确化;在问诊录音采集过程中,对来院患者所携带体检报告、病历资料、检查报告等与乳腺肿瘤诊断相关的检查结果、等级、指标等进行补充记录。同时通过访谈和实地调研获得问诊、触诊未涉及的属性,以完善数据属性值。由此,补充患者疾病情况,弥补患者病情程度的随机性的不足。经过对门诊录音数据
7、的整理,最终获得原始问诊文本数据。为降低门诊医患对话口语化随意性的影响,对录音转文本数据进行清洗,获得源病例 例,其中女性患者占比 。确定属性、属性值、类别及其定义本研究所选取的数据包含的信息量大,且存在大量非相关属性信息,笔者依据相关医学文献、医生访谈以及数据采集过程中医生问诊、视诊、触诊考虑到的属性因素,最终确定 个属性、个属性值、个分类标签,见表 。为便于后续绘制决策树,将属性名用英文简称进行标识,将属性取值用数字表示;每个分类标签用“数字 英文简称”进行标识。其中属性值“未提及”的含义为该属性在医患对话过程中未谈到且前往实地调研的人员未收集到。分类标签即代表医生在该次问诊结束时得出的诊
8、断结果或处理结果,个分类标签的确定均是对采集对话文本问诊结果归类分析所得。其中,分类医学信息学杂志 年第 卷第 期 ,标签“手术”的含义为在医患对话过程中,医生对患者的诊疗建议为手术;“没事”的含义为乳腺肿块不需要治疗,乳腺较健康;“进一步做检查”建议患者做乳腺相关检查以帮助后续进一步给出问诊结果;“进一步治疗”表示患者正在放疗或者化疗;“其他情况”表示患者所患疾病不属于乳腺肿瘤科室业务范围。表 乳腺科问诊资料属性定义及取值属性名属性标识属性取值患者性别 :女,:男乳腺肿瘤手术史 :是,:否两侧乳房对称 :是,:否,:未提及年龄 :不大于 岁,:大于 岁乳头溢液情况 :血性 单孔,:非血性 非
9、单孔,:无溢液乳腺超声检查结果 :未做 超,:级及以下,:,:,:,:级及以上腋下淋巴结坚硬肿大 :是,:否,:未提及肿块表面伴有坚硬小结节 :是,:否,:未提及肿块是否边界清晰、形状规则 :是,:否,:未提及肿块大小 :大,:小,:未提及肿块活动度 :活动度好,:活动度差,:未提及肿块质地 :质地较软,:质地较硬,:未提及怀孕情况 :未孕,:怀孕中,:已育,:未提及乳头凹陷、乳房皮肤橘皮样改变、皮肤溃烂 :是,:否,:未提及乳房疼痛 :是,:否,:未提及患者类型 :初诊,:复诊术后化疗 放疗在院是否结束:是,:否,:不涉及分类标签 :手术,:定期复查,:没事,:建议进一步检查,:建议进一步治
10、疗,:其他情况进一步按照定义的属性规则对录音文本进行标注,帮助计算机识别语义并训练数据。标注过程中,将过于口语化的表达同义替换为对应属性。文本中下划线斜体词语语义上对应表格中间列的属性值,即对文本进行同义词标注并对文本赋值,见表 。标注过程为了防止结果存在主观性,在确立属性规则后将文本数据转交第三方人员依照属性规则进行标注,再由研究人员分工进行属性值检查、修改和互检,确保标注规范、所得数据集客观。表 录音对话中的部分同义表达属性属性值自然语言表述乳腺肿瘤手术史是(术后)“刚烤完哈,怎么还烤糊了呢。”术后放疗“现在在吃什么药?”术后吃化疗药“在我们这做的手术?”术后否(术前)“结婚了吗?”“小孩
11、有吗?”乳头溢液情况非血性 非单孔“乳头流水吗,我看一下。”“乳头老出血”血性 单孔“乳头溢液要是单管的、血性的就得做了”决策树构建方法 算法作为数据挖掘技术中最常用的分类预测方法,其主要思想是根据信息熵的增益从样本属性中提取最有利于区分实例类别的属性,逐步由根节点向叶子节点构造决策树,可以从生成的决策医学信息学杂志 年第 卷第 期 ,树中提取规则 。决策树确定每个节点属性的计算方法如下。设 为样本集合,其中第 类样本所占的比例为(,),为样本分类的个数,则的信息熵为:()()对应数据集 ,选择特征属性 作为决策树的判断节点,设属性 有 个可能的取值 ,则属性 对样本集 的条件熵为:()()(
12、)利用属性 划分样本集 ,则信息增益 ()为:()()()()计算属性 的“固有值”(),由属性 产生的分支节点数目越多,该固定值越大 。()()计算属性 的信息增益比:(,)(,)()()选择具有最高信息增益比的属性作为该集合的测试属性,创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。为了提高决策树预测的准确率和泛化能力,解决决策树的“过拟合”问题,在训练决策树模型时需要对其进行剪枝处理。决策树算法所采用的剪枝策略是后剪枝法中的悲观剪枝法,即从树的根节点开始搜索,对决策树上的所有内部节点进行计算并分析。重点计算每个内部节点被剪或者被子树代替之后的期望错误率。在剪枝过程中
13、,树中的每棵子树最多需要访问一次,在最坏的情况下,其计算时间复杂度只和非剪枝树的非叶子节点数目成线性关系。因此,相较于其他剪枝方法,悲观剪枝法在实际应用中具有精度高、速度快的优点 。决策树模型构建 决策树模型初建与问题分析初步研究阶段,针对前述整理的对话文本做进一步病例属性标注,初步标注 个属性及个类标签。该决策树构建采用训练集数据 条,并从中随机抽取 条作为测试集,预问诊抽样的测试集结果准确率为 。此研究阶段构建的结果是一棵以“是否有乳腺肿瘤手术史”为根节点且拥有 个叶子节点、深度为 层的 决策树,见图。此阶段对医患对话文本仅标注 个属性,分别为前文表中前 个属性。实地调研发现月经史并不会影
14、响乳腺肿瘤诊断决策,因此在问诊病例文本标注时并未将“月经史”纳入属性。图 初步研究阶段决策模型可视化医学信息学杂志 年第 卷第 期 ,基于此模型计算的预问诊分类预测值与实际结果不一致的筛选结果(局部),见表 、表 ,可以看出初步阶段的分类模型预测“手术”“定期复查”“没事”“建议进一步检查”的准确率较高。术后复查患者的叶子节点归属是“定期复查”还是“建议进一步治疗”明显影响决策树准确率。进一步研究讨论得出,所设立的 个属性更多适用于术前患者问诊内容,由于术前与术后患者乳腺部位体征差异显著,而判断术后患者的分类结果是“进一步治疗”还是“定期复查”的分岔点属性并未在上述 个属性中体现出来。由此可推
15、断,标注属性须调整更新以优化决策树,提高模型分类准确率。表 研究初步阶段决策模型预测差异(局部)分类标签预测值 表 初步研究阶段 决策树分类模型准确率数据评估 分类标签训练集数据量(条)测试集准确率()手术 定期复查 没事 建议进一步检查 建议进一步治疗 其他情况数据总体情况 决策树模型优化与验证在原有属性基础上增加一项“术后化疗 放疗在院是否结束”来判断术后患者是“建议进一步治疗”还是“定期复查”,并用字母“”表示。将“乳腺肿瘤术后出院患者 (术后出院继续服用周期性其他药物 嘱咐在家服用周期药物期间需定期复查)”的患者属性值定义为 ;将“术后未出院 需进行后续化疗或放疗其他在院治疗”的患者属
16、性值定义为 ;肿块尚未切除的术前患者不涉及该项属性,用属性值 进行标注。再次读取训练集的数据构建 决策树,并同样随机抽取其中 条作为测试集。准确率提高 。调整属性后的分类模型可视化是一棵以“超”为根节点、深度 层、叶子节点数 的 决策树。对属性调整后的决策树模型,准确率虽有所上升,但考虑到来院患者类型复杂并不能单纯依靠“是否有乳腺肿瘤手术史”进行二分类。参考医院实地调研情况,将来院就诊患者类型细分为初诊和复诊,并将此项可能影响决策模型分类结果的因素补充为新属性,使用“”表示。将“从未去过任何一家医院就诊乳腺肿瘤相关疾病 体检发现乳腺异常”的患者类型定义为初诊,属性值为;复诊的患者类型则定义为“
17、之前来过本院 已在其他医院就诊过 术后来医院复查”的患者,属性值为 。考虑到之前抽取的测试集 类标签数据并不均匀,有可能造成准确率的偶然性,因此按照各类标签数量比例再次抽取共 条数据作此测试集,计算分类预测准确率。优化后的决策树模型,见图 。剪枝后得到的是一棵以“术后化疗 放疗在院是否结束”为根节点、深度为 的决策树,其叶子节点共 个。与乳腺肿瘤相关的类标签,见表。可以看出,针对此次抽取的测试集,预测问诊结果为“手术”“定期复查”“没事”“建议进一步检查”“建议进一步治疗“的分类标签更加契合实际结果,较好地模拟了专家问诊思路,总体准确率达到 。医学信息学杂志 年第 卷第 期 ,图 优化后决策模
18、型可视化表 决策树调整后分类模型准确率数据评估 分类标签训练集数据量(条)测试集准确率()手术 定期复查 没事 建议进一步检查 建议进一步治疗 其他情况数据总体情况 结语本研究所构建的面向乳腺肿瘤的诊前问答系统决策模型分类规则易于理解、分类准确率较高,具有一定疾病风险预测价值。此诊前决策模型有 个分类标签:“手术”“定期复查”“没事”“建议进一步检查”“建议进一步治疗”“其他情况”,其中前 者在医生当次问诊中不仅给出问诊处理结果还对患者情况了解完备,整个问诊形成闭环,即已作出判断。而问诊结果为“建议进一步检查”的流程则包含于前述闭环中,需要在获得检查结果后至少再次问诊,医生才可对患者的乳腺情况
19、作出最终判断。“建议进一步治疗”的患者,即乳腺肿瘤术后人群,原患病部位发病风险在手术后已大大降低,需继续使用药物或者进行放疗来防止复发。“其他情况”患者(如发生乳腺炎等疾病)不属于乳腺肿瘤风险范围。由此,笔者将此决策树模型的前 个分类标签分别定义为不同的乳腺肿瘤病发风险程度:“建议进一步检查”定义为“风险不明”;“没事”对应 级风险;“定期复查”对应 级风险;“手术”对应级风险。风险等级越高乳腺肿瘤的严重程度越高。在就诊前通过问答系统对可能患有的乳腺肿瘤疾病预先进行风险评估,使患者及时了解个人病情、抓住治疗时机。在减缓大城市医生问诊压力的同时,也能帮助关心乳腺健康的人群进行预防与筛查,实现早发
20、现早治疗。在构建决策树的过程中,门诊患者样本过少、录音环境嘈杂等因素导致转写的可用文本较少,故将所有数据用作训练集,并从中抽取 条数据用作测试集。测试集数据均出自训练集,分类预测结果难免会受部分影响;数据来自“同一个医院、同一个科室的同一名医生”既是目前研究的特点,也是后续扩大研究范围进一步提升预测模型的方向。有利于对决策过程中的变量进行有效控制,使研究本身能够有一定深度。因此,本研究成果提供了一(下转第 页)医学信息学杂志 年第 卷第 期 ,教育和健康意识培育,学生个人要提高健康信息获取主动性,各类网络媒介要根据自身媒介特性,扬长避短,深耕优势内容模块,为大学生提供契合需求的健康信息。参考文
21、献 朱庆华,杨梦晴,赵宇翔,等健康信息行为研究:溯源、范畴与展望 中国图书馆学报,():贾明霞,徐跃权,石尧国内外用户网络健康信息行为研究动态 医学信息学杂志,():,:,():,:,(),罗晓兰患者网络健康信息沟通意愿及行为调查 医学与哲学,():周培宇,梁昌勇,马一鸣 背景下基于 模型的中老年人在线健康信息搜寻行为影响机制研究 中国管理科学,():杨霞,王晓梅河南省大学生健康信息行为分析 医学与社会,():,沈默大学生网络健康信息搜寻行为及其影响因素研究 杭州:浙江大学,:,():,:,():(上接第 页)个基础模型(原型)。在后续研究中,将在此基础上引入强化学习,扩大采集数据的医生数量,
22、同时引入必要的检查结果数据,从而丰富模型,拓展模型应用的普遍性;使模型在就诊前为患者和医生提供辅助性建议,从而应用到相应智能问答系统中,为诊断结果提出初步建议,进而实现辅助决策。参考文献 段明月 决策树模型在预测乳腺癌 年生存状况研究中的应用 长春:吉林大学,刘绿 回归模型、神经网络模型和决策树模型在乳腺癌的彩超影像诊断中的比较研究 衡阳:南华大学,余秋燕,赵莹,孙继佳,等 典型机器学习算法在脂肪肝分类预测研究中的实现与比较 数理医药学杂志,():迟辉,高颖 基于决策树法探析高颖教授辨治失眠主方主症规律 世界中医药,():林文怡,宛小燕,刘元元 常见新近决策树算法及其在卫生领域中的应用 现代预防医学,():,江泽飞,许凤锐 肿瘤医生眼中的人工智能 精准医学杂志,():,():王守选,叶柏龙,李伟健,等 决策树、朴素贝叶斯和朴素贝叶斯树的比较 计算机系统应用,():郭星晨,王青青,王亚 决策树算法在医疗数据分类中的应用研究 安庆师范大学学报(自然科学版),():李萍悲观剪枝算法在学生成绩决策树中的应用 电脑开发与应用,():医学信息学杂志 年第 卷第 期 ,