基于深度学习与自然语言处理的手术室智慧化管理创新研究.pdf

资源描述

1、12 China Digital Medicine.2023,Vol.18,No.8基于深度学习与自然语言处理的手术室智慧化管理创新研究唐灵逸郑涛邵维君【摘要】在医院手术室日常管理中，医护人员需要根据手术过程和结果选择合适的国际疾病分类（ICD）编码，但具体操作时可能存在错选、乱选等问题。本研究基于自然语言处理与深度学习技术，构建 BERT 模型、长短期记忆网络模型等，自动纠正手术名称的 ICD 编码错误并进行 ICD 编码预测；在此基础上，使用围手术期相关医疗文本数据，基于深度神经网络模型预测手术过程中与术后可能的风险，并提供处理建议，实现手术室的精益化、智慧化运营管理。【关键词】国际疾

2、病分类编码；深度学习；自然语言处理；手术室管理Doi:10.3969/j.issn.1673-7571.2023.08.003【中图分类号】R197.3;R612 Research on intelligent management innovation of operating room based on deep learning and natural language processingTANG Lingyi,ZHENG Tao,SHAO Weijun.Information Center,Renji Hospital,Shanghai Jiaotong University Sch

3、ool of Medicine,Shanghai 200127,ChinaCorresponding author:SHAO Weijun,Email:【Abstract】In the daily management of hospital operating rooms,medical staff need to select the appropriate international classification of diseases(ICD)code in accordance with the surgical procedure and results.Howerer speci

4、fic operations may encounter problems such as incorrect or arbitrary selection of ICD codes.In this study,BERT model and LSTM(long short-term memory)network model were constructed to automatically correct the ICD coding of surgical names and to predict ICD codes based on natural language processing(

5、NLP)and deep learning(DL)technologies.On this basis,by employing preoperative and intraoperative related medical text data with deep neural network(DNN)models,this study predicts possible risks during and after surgery and provides treatment suggestions to achieve lean and intelligent operation mana

6、gement within the operating room.【Keywords】International classification of diseases code;Deep learning;Natural language processing;Operating room management作者单位：200127 上海，上海交通大学医学院附属仁济医院信息中心通信作者：邵维君，Email：随着医疗行业的发展，越来越多的医院引入人工智能技术以提高精益化管理效率。手术室作为医院的重要部门之一，其管理质量直接影响疾病的治疗效果、医院的服务水平和声誉。在手术报告编写过程中，医护人员需

7、要根据手术过程和结果选择合适的国际疾病分类（international classification of diseases，ICD）编码。然而，由于手术报告的复杂性和医护人员的工作强度、工作压力，在选择编码的过程中可能会有错选、乱选等问题。而编码的一位数字之差可能会导致疾病诊断、手术名称的巨大差别，专题策划人工智能在医药领域的应用Special Planning中国数字医学2023 第 18 卷第 8 期 13轻则浪费手术室资源，重则影响患者的治疗方案，甚至可能危及患者生命。为解决上述问题，本研究结合自然语言处理（natural language processing,NLP）与深度学习

8、（deep learning,DL）技术，对 ICD 编码进行纠错、预测，并在此基础上预警手术风险，进一步推动手术室的智慧化、精益化管理。1 NLP与DL在ICD编码领域的应用NLP 与 DL 技术结合在医疗领域产生了许多突破性的成果。例如，基于 DL 的 NLP 模型Transformers 模型（双向编码器表示 BERT、GPT-4 等）显著提升了各种医疗文本分析任务的性能；Rasmy 等1在包含 28 490 650 名患者的结构化电子健康档案（electronic health record,EHR）数据集上，基于 BERT 在超大语料库上预训练生成了预训练

9、的模型；Zeberga等2使用 Word2vec 和 BERT、Bi-LSTM 模型，分析并检测社交媒体中的抑郁症和焦虑症迹象。NLP 与 DL 技术可以有效处理英文医疗文本数据，越来越多地被应用在基于电子病历信息自动生成ICD编码等任务。Michalopoulos等3 基于 BigBird，结合图卷积网络（graph convolutional network，GCN）构建了 ICDBigBird 模型，提高了在ICD编码任务中的性能，可处理规模更大的文档。Dong 等4 使用 DL 与 NLP 技术分析处理临床文本，转化为标准的 ICD 编码。Chen 等 5构建了基于监督学习的深度神经

10、网络自动 ICD-10 编码和训练系统，利用 DL 模型从临床文本中自动提取相关信息，并将其转化为 ICD-10 编码。Falissard 等6引入了深度神经序列模型，通过与NLP 技术结合，实现从自然语言文本中自动识别和翻译 ICD-10 医学实体。Ching 等7探索了 DL 和NLP 技术在 ICD 编码和手术预警中的应用前景。张述睿等8基于 DL 构建图结构，优化 ICD 编码的庞大标签空间中的多标签分类情况。李强等9基于 NLP 及知识库构建技术设计诊断漏写检查系统，找出可能漏写的疾病，提高了住院病案首页的填写质量。本研究则创新性地引入NLP 和 DL 模型解决中文环境中手术数据

11、 ICD 编码的错选、乱选及ICD 编码预测问题，进而尝试预警并处理手术风险。2 手术室智慧管理的方案设计本研究引入 NLP 和 DL 模型，利用病历文本资料，对 ICD 编码进行纠错及预测。采用 NLP 技术对资料进行预处理，包括数据清洗、标注、分词、向量化等，将非结构化、半结构化的文本资料转化为结构化数据；然后使用 DL 模型对预处理后的数据进行训练。模型基于大量的历史数据学习疾病诊断、手术名称及其他相关字段与 ICD 编码之间的关系，然后根据这种关系对 ICD 编码进行纠错，并预测可能的 ICD 编码。在此基础上，对围手术期各阶段的数据进行循环分析，预测潜在的手术风险，使医护人员能够更好

12、地了解患者的情况和需求，提供更安全的手术环境和更优质的医疗服务，实现对手术室各项业务的精确分析与管理。手术室智慧管理系统功能模块见图 1。图 1 系统功能模块2.1 ICD编码纠错为解决 ICD 编码错选、乱选的问题，本研究首先使用 NLP 技术对历史病历中大量非结构化文本数据进行分析，利用 BERT（bidirectional encoder representation from transformers）模型10对病历文本进行词向量表示，将文本数据转换为数值型数据，并对医疗领域的语料库进行微调。数据结构见表 1。语料库来源于本院积累的结构化手术记录数据集，以及基于百度百科和维基百科的文本

13、数据。然后使用支持向量机（support vector machine,SVM）算法进行 ICD 编码的精确匹配。2.1.1 系统程序设计本研究选用scikit-learn 库的 SVC 函数，划分训练集和测试集，创建 SVM 模型，使用线性核函数，正则化参数 C 设为 1，激活概率估计，在训练集上专题策划人工智能在医药领域的应用Special Planning14 China Digital Medicine.2023,Vol.18,No.8训练 SVM 模型，在测试集上进行预测，输出分类报告，展示模型性能。程序流程见图 2。2.1.2 模型训练与评估首先，加载数据，并对 ICD

14、编码进行标签编码，以便能够输入到模型中；然后，使用 BERT 模型将病历文本转换为特征向量，通过并发处理加快速度；使用训练集的特征向量和对应的 ICD 编码训练 SVM 模型，并在测试集上进行预测；最后，输出分类报告，以评估模型的性能。分类报告中频数最高的 10 个 ICD 编码输出结果见表 2。表格中的每一行代表一个手术和 ICD 编码的匹配结果以及对应编码的性能指标。“手术名称”是手术的名称，“ICD-9-CM 编码”是与该手术名称匹配的 ICD-9-CM编码。精确度、召回率和 F1 值等是评估模型性能的指标11。精确度、召回率、F1 值均 0.8。说明模型较好地实现了手术名称和 ICD1

15、0编码的精确匹配，性能良好。本研究将 NLP 和 DL 技术应用于 ICD 编码的精确匹配，成功解决了历史数据中ICD编码错选、乱选问题，为手术室的精益化、智慧化运营管理奠定了坚实的基础。2.2 ICD编码预测手术数据是医疗数据的重要组成部分，其中 ICD 编码可以反映手术类型、手术并发症等信息，有助于监测手术安全、预警手术风险等。本研究采用 NLP 和 DL 技术对不同科室的手术数据自动进行ICD 编码预测，在医护人员选择ICD 编码时能自动推荐提醒该科室高频出现的 ICD 编码。2.2.1 系统程序设计本研究基于DL 和 NLP 技术对手术数据进行特征提取和分类，配合循环神经网络（R

16、NN）、长短期记忆网络（LSTM）和卷积神经网络(CNN）等模型12进行训练，并学习历史手术名称与 ICD 编码的关系，从而根据手术数据自动预测ICD 编码。流程见图 3。2.2.2 数据获取与预处理本研究采用外科手术数据作为实验数据，每条记录包括患者信息、科室信息、手术名称、手术日期、手术医生、诊断结果、检查检验结果等。每条记录还有一个或多个对应的 ICD编码，表示该手术的类型、指征、并发症等信息。第一步使用 Python的正则表达式库（re）对原始数据进行清洗；第二步数据预处理，首先对选取的数据进行人工标注并交叉验证，然后使用 CountVectorizer方法进行分词，最后使用

17、 Tokenizer方法进行数据向量化；第三步划分训练集和测试集，设置测试集的比例为 20%，随机种子为 42，以确保字段名称数据类型数据长度描述手术科室字符串30表示手术的科室名称手术时长整型3表示手术的时长，单位为分钟手术病种字符串30表示手术的病种类型疾病诊断字符串200表示患者的疾病诊断结果手术名称字符串100表示进行的手术名称手术风险等级字符串20表示手术的风险等级患者年龄整型3表示患者的年龄患者性别字符串2表示患者的性别患者身体状况字符串20表示患者的身体状况表 1 数据结构图 2 ICD 编码纠错流程加载病历文本数据专题策划人工智能在医药领域的应用Special Planning

18、中国数字医学2023 第 18 卷第 8 期 15每次运行代码时得到相同的结果。2.2.3 模型构建与训练本研究使用深度学习模型对数据进行训练，选择 LSTM 模型，构建包含嵌入层（Embedding 层）、LSTM 层和全连接层（Dense 层）的神经网络。首先，使用 Sequential 模型构建神经网络，其中 Embedding 层设置将每个单词的 ID 转换为密集向量，设置输入长度为 500，词嵌入维度为 100；LSTM 层使用 100 个 LSTM 神经元，设置 dropout 和recurrent_dropout 均为 0.2，可以在每次更新时随机丢弃 20%

19、的输入，以防止过拟合；Dense 层作为输出层，使用 sigmoid 激活函数，只有一个神经元，用于预测 ICD 编码；并使用二元交叉熵损失函数和Adam 优化器进行训练。训练过程中，另使用 EarlyStopping 防止过拟合，如果在 2 轮迭代中验证集上的损失没有下降，则停止训练。2.2.4 模型预测与评估使用训练好的模型进行预测，模型根据大量的历史手术信息学习科室信息、个人信息、病史、诊断结果、检验检查结果与手术名称、ICD 编码之间的关系，然后根据这种关系预测可能的 ICD 编码并自动输出。模型对不同手术类型编码的预测性能见表 3。本研究基于 LSTM 的手术数据自动 ICD 编码

20、预测系统的预测性能较高，准确度、精确度、召回率和 F1 值大部分高于 0.8。但从表 3 可以看出，对于不同手术类型其预测性能存在差异，其中，腹腔镜下胆囊切除术、腹腔镜下阑尾切除术和开胸心脏瓣膜置换术的预测性能较高，而颅内肿瘤切除术和人工全髋关节置换术等预测性能相对较低，可能与不同手术类型的样本数量有关。在手术室场景下，医护人员可以根据手术报告和本系统模型的ICD 编码预测结果，更快地选择ICD 编码，显著提高了编码的效率和准确性，同时可以减少编码错误，为手术风险预警与处理提供数据支撑。2.3 手术风险预警与处理临床手术过程复杂，情况瞬息万变，实时监测患者的生理信号和手术数据，并结合 ICD

21、编码的预测模型，可以实时发现并预警可能出现的风险。如模型预警患者在手术过程中可能出现心律失常，医生便能提前准备除颤器或提前配备药物，还可进一步预测风险等级，如预测一名患者存在中度出血风险，另一名患者存在高度心肌缺血风险，可以帮助医生优先处理高风险情况，对比不同风险，做出最优决策。2.3.1 系统程序设计本研究将术前数据和术中数据作为输入特征，结合 ICD 编码纠错和预测的模型，训练深度神经网络（DNN）模型来预测术中风险。流程见图 4。2.3.2 数据获取与预处理本研究使用了两类数据：术前数据和术中数据。表 2 ICD 编码匹配输出结果手术名称ICD-9-CM 编码精确度召回率F1 值宫

22、*术+*6*.*30.920.880.90腹腔*术5*.30.890.910.90腹腔*术5*.*30.910.880.89剖*术7*.*x0.870.920.89胃*术4*.*x0.850.930.89宫*+宫*6*.*2+6*.*90.880.900.89经*术8*.*60.900.870.88超*术5*.*9+5*.*10.860.910.88腰*+*+*术8*.*1+8*.*1+8*.*10.890.860.87剖*口7*.*x0.850.900.87图3 ICD编码预测程序流程收集病历数据专题策划人工智能在医药领域的应用Special Planning16 China Digital

23、 Medicine.2023,Vol.18,No.8术前数据包括患者的基本信息、病史、体格检查、实验室检查、影像学检查等，主要来源于医院电子病历系统，通过接口或文件方式获取。为保证数据质量，需要对数据进行清洗、规范化、缺失值填充等操作。术中数据包括患者的生理信号和手术数据，如心率、血压、血氧饱和度、出血量、手术时间等。本研究根据一定的关联或规则进行随机生成或模拟，例如，生理信号可以根据患者的年龄、性别、健康状况等因素进行模拟，手术数据可以根据患者的手术类型、手术时间、手术风险等因素进行模拟。2.3.3 模型构建与训练首先定义DNN 序贯模型：Sequential 模型是层的线性堆叠，包括一个

24、输入层、两个隐藏层和一个输出层。通过输入层的神经元数量由输入数据的特征数量决定，两个隐藏层的神经元数量可以根据问题的复杂性进行调整。设置第一个全连接层节点数为 128，激活函数为 ReLU，输入维度为指定的 input_dim；第二个全连接层节点数为 64，激活函数同上；输出层节点数为 1，激活函数为 sigmoid，因为本研究的目标是进行二分类任务；编译模型指定损失函数为二元交叉熵，优化器为Adam，性能评估指标为准确率。然后创建投票分类器，使用基于概率的软投票方法，通过集成多个模型的预测结果，选择得票最多的类别作为最终的预测结果。划分训练集和测试集。使用训练集数据训练 DNN 模型，构建补

25、充训练模型并训练集成模型。使用KerasClassifier 包装 DNN 模型，指定训练周期数为 100，批次大小为 10。然后构建并训练集成模型：SVC 模型已经在之前的实验中被训练过，此处补充训练随机森林模型，并进行集成综合。2.3.4 模型预测与评估本研究在测试集上进行预测，基于预测结果评估模型的性能。预测的结果用于风险预警和风险等级评估，为医护人员的决策提供参考。为保证模型的性能，在实际使用中数据收集、特征选择、模型训练和评估、模型优化等步骤需要反复进行。模型部分预测结果见表 4。可以看出，本研究设计的模型在大多数样本上都能够预测正确，但也有一些样本预测错误。例如，对于患者 2

26、002，模型预测不存在风险，但真实情况是存在风险的。分析其原因，可能是因为该患者的术中数据中没有明显的异常信号，导致模型无法捕捉到潜在的风险。提示模型还需要进一步提高敏感性和鲁棒性，以应对复杂多变的手术场景。3 总结与展望本研究基于 DL 和 NLP 技术理解医疗术语和手术名称的上下表 3 对不同手术类型 ICD 编码的预测性能手术类型样本数ICD 编码准确度精确度召回率F1 值腹腔镜下胆囊切除术1 67851.230.950.940.950.94腹腔镜下阑尾切除术1 53247.010.940.930.940.93开胸心脏瓣膜置换术1 42335.210.910.900.910.90.腹腔

27、镜下肾切除术78955.510.830.820.830.82颅内肿瘤切除术73201.590.790.780.790.78人工全髋关节置换术65481.510.770.760.770.76.图 4 手术风险预警与处理流程使用集成模型预测测试集结果专题策划人工智能在医药领域的应用Special Planning中国数字医学2023 第 18 卷第 8 期 17文，自动纠正医疗术语和手术名称的 ICD 编码错误；通过构建 LSTM模型，帮助医护人员选择正确的ICD 编码；创造性地将 DL 和 NLP应用于手术风险预测，构建 DNN模型识别手术中可能的风险，并提供风险预警和处理建议，有助于实现手术

28、室的精益化、智慧化管理。然而，该方法仍然面临一些挑战，在使用 DL 和 NLP 技术进行ICD 编码纠错和预测时，需要处理医疗术语的多义性，处理不完整或模糊的医疗记录以及大量的 ICD编码；进行手术风险预警时，需要处理存在的不确定性和复杂多变的手术风险。未来的研究可能会探索更复杂的模型和训练策略，使用更多的数据源，如医学影像和实验室结果，以提高预测的准确性和可靠性。另外，DL 和 NLP 模型往往需要处理多源和异构的数据，如手术记录、患者信息、医学图像、设备状态，有效融合这些数据可以提供更全面和准确的预测和决策建议，但获取这些数据并标注存在一定困难。开发更有效的训练和评估方法，如半监督学习和迁

29、移学习，可以减少对标注数据的依赖，加快模型的训练速度，提高模型的性能，有助于实时优化手术流程，预测手术结果，并识别手术中的风险，提高患者满意度。参考文献1 RASMY L,XIANG Y,XIE Z,et al.Med-BERT:pretrained contextualized embeddings on large-scale structured electronic health records for disease predictionJ.NPJ Digital Medicine,2021,4(1):1-13.2 ZEBERGA K,ATTIQUE M,SHAH B,et al.A

30、 novel text mining approach for mental health prediction using Bi-LSTM and BERT modelJ.Computational Intelligence and Neuroscience,2022.3 MICHALOPOULOS G,MALYSKA M,SAHAR N,et al.ICDBigBird:a contextual embedding model for icd code classification/Proceedings of the 21st Workshop on Biomedical L a n g

31、 u a g e P r o c e s s i n g C .Dublin,Ireland:Association for Computational Linguistics,2022:330-336.4 DONG H,FALIS M,WHITELEY W,et al.Automated clinical coding:what,why,and where we are?J.NPJ Digital Medicine,2022,5(1):1-8.5 CHEN P F,WANG S M,LIAO W C,et al.Automatic ICD-10 coding and training sys

32、tem:deep neural network based on supervised learningJ.JMIR Medical Informatics,2021,9(8):e23230.6 FALISSARD L,MORGAND C,GHOSN W,et al.Neural translation and automated recognition of ICD-10 medical entities from natural language:model development and performance assessmentJ.JMIR Medical Informatics,2

33、022,10(4):e26353.7 CHING T,HIMMELSTEIN D S,BEAULIEU-JONES B K,et al.Opportunities and obstacles for deep learning in biology and medicineJ.Journal of the Royal Society Interface,2018,15(141):1-47.8 张述睿,张伯政,张福鑫,等.面向ICD疾病分类的深度学习方法研究J.计算机工程与应用,2021,57(18):172-180.9 李强,周佳雯,崔好胜,等.基于人工智能的病案首页诊断漏写检查技术应用研究J

34、.中国数字医学,2022,17(6):56-61.10 王天罡,李晓亮,张晓滨,等.基于预训练表征模型的自动 ICD 编码J.中国数字医学,2020,15(7):53-56.11 王阳阳,郑西川.基于自注意力机制的CNN-LSTM模型在ICD智能编码系统中的应用研究J.中国数字医学,2020,15(11):20-24.12 刘建伟,王园方,罗雄麟.深度记忆网络研究进展J.计算机学报,2021,44(8):1549-1589.【收稿日期：2023-06-15】（责任编辑：刘慧铭）表 4 手术风险预警模型预测结果（部分）患者 ID 性别年龄/岁主要诊断手术编码预警类型真实标签预测标签2001女56C22.050.2低血压112002男65 I25.136.1心律失常102003女48C50.985.2出血过多11.专题策划人工智能在医药领域的应用Special Planning

展开阅读全文