资源描述
前前言言随着数字经济与健康中国战略的深度融合,数据要素已成为推动医疗健康行业高质量发展的核心引擎。医疗数据的汇聚、治理与应用,不仅深刻重塑着诊疗模式、服务流程与科研范式,也为提升全民健康水平、优化资源配置、促进产业创新提供了前所未有的机遇。然而,在数据要素释放巨大价值的同时,我们也面临着数据安全、隐私保护、标准不一、流通壁垒等多重挑战。如何构建安全可信、高效协同的数据应用生态,推动数据要素在合规轨道上释放潜能,成为行业共同关注的焦点。为凝聚共识、分享经验、推动实践,我们特征集和编纂2025 中国健康医疗数据要素应用案例集。本案例集汇集了来自全国多家医疗机构与科技企业的创新实践,展现了健康医疗数据要素在提升诊疗效率、赋能基层医疗、驱动产业升级、助力科研突破等方面的多元价值。我们期待通过这本案例集,为政策制定者、医疗机构、科研单位与企业提供可借鉴、可推广的实践样本,共同推动中国健康医疗数据要素化进程行稳致远,为构建以人为本、智慧融合的医疗健康服务体系贡献数据力量。为持续推动行业知识共享与进步,我们长期面向行业征集优秀的健康医疗数据要素应用案例,欢迎各界同仁积极参与并提供实践素材,共同促进行业交流与参考。目目 录录(排名不分先后)影像类检查项目预约规则数据集影像类检查项目预约规则数据集.1(广东省人民医院)眼科早产儿视网膜病变发病风险及严重程度预测数据集眼科早产儿视网膜病变发病风险及严重程度预测数据集.7(广东省人民医院)新生儿安全新生儿安全黄疸数智治理黄疸数智治理.12(广州医科大学附属妇女儿童医疗中心)血清标本质量检测模型数据产品血清标本质量检测模型数据产品.18(南方医科大学南方医院)阿尔茨海默病数据集阿尔茨海默病数据集.28(南方医科大学珠江医院)心脏疾病诊断心电图数据集心脏疾病诊断心电图数据集.31(广东省人民医院)物联网围术期专科数据资源库物联网围术期专科数据资源库.36(广东省人民医院)基于回顾性数据分析降低手术患者并发症发生风险基于回顾性数据分析降低手术患者并发症发生风险.43(中山市小榄人民医院)基于数据要素的疾病风险预测平台:赋能糖尿病肾病的早期筛查基于数据要素的疾病风险预测平台:赋能糖尿病肾病的早期筛查.47(南方医科大学珠江医院)脑血管疾病专病数据集脑血管疾病专病数据集.52(南方医科大学珠江医院)革兰氏染色涂片智能识别数据集革兰氏染色涂片智能识别数据集.57(杭州迪安医学检验中心有限公司)中山市区域卫生信息平台医防融合数据应用中山市区域卫生信息平台医防融合数据应用.61(创业慧康科技股份有限公司)用于高质量围术期大数据库建设的多模全息数据综合平台用于高质量围术期大数据库建设的多模全息数据综合平台.67(北京优理数智科技有限公司)数据要素新实践:跨域数据与样本库驱动精准医疗未来数据要素新实践:跨域数据与样本库驱动精准医疗未来.57(京卫智云(北京)科技有限公司)1影像类检查项目预约规则数据集影像类检查项目预约规则数据集(广东省人民医院)(广东省人民医院)一、案例一、案例背景背景“健康中国 2030”规划纲要指出健康服务供给总体不足与需求不断增长之间的矛盾依然突出,同时公立医院发展也亟待由规模扩张转向质效提升。医技检查作为患者就诊流程中的重要环节,统筹调度、质效提升是智慧医院建设以及数字化转型的核心内容。医技预约业务涉及临床科室、患者、预约中心、技诊科室等多业务环节,传统医技预约模式面临资源排班模式与检查科室实际工作场景不符合、缺乏多项目检查的有序指引与合理调度、缺乏对复杂医学要素依赖的规则支持等问题,从而造成检查无序、效率低下、患者检查等候时间长等问题。二、数据应用二、数据应用场景场景与方法与方法(一)思路目标数据资源:基于 DCMM 数据成熟度模型评价体系的标准规范,采集并汇聚形成标准化的医疗机构医技要素调度数据资源。数据资产:基于国家公立医院绩效考核要求,以改善患者就医感受、提升患者体验为目标,通过医技检查数据要素分析和建模,改变过去“基于号源数量扣减先来先得预约”模式为“基于患者检查个体化时长预测和复杂规则约束的全院检查资源统筹优化调度”模式,形成以机器学习和资源调度算法为核心的大数据应用,系统性地彻底解决患者候检体验改善、急症重症有序优先、大型设备使用效能提升、医技资源全院统筹利用、检查流程全面优化再造问题。2数据产品:通过将医院医技检查的先进管理理念和研究所的前沿大数据技术的“医工结合”机制创新,封装成可复制、可推广的大数据应用产品,完成医技要素资源一体化预约结果数据集数据知识产权登记,为医学数据资产估值、入表奠定基础,助力医技要素实现数据要素价值。(二)关键技术(数据要素价值实现路径)构建自学习的检查耗时预测模型,实现分钟级的精准预约。本案例开发了基于集成学习技术的医技检查耗时预测模型,采集已有的历史数据构建及训练模型,能够自动学习并准确预测各种检查的耗时,实现分钟级别的精准预约时间分配,极大地提升资源利用效率和患者满意度。31.数据采集及治理采集分析一年放射科 33 万条历史数据记录为基础,包含各种关键的患者就诊信息。经过精细的数据清洗和特征工程步骤,提取了用于训练模型的关键变量,如患者的年龄、性别、检查类型、预约时间以及历史候诊时间等。2.耗时预测模型构建LightGBM、XGBoost、LSTM 模型构建模型选用了 LightGBM 和 XGBoost 这两种高效的基于树的模型,结合 LSTM(长短期记忆网络)作为一种深度学习算法,特别适合于处理患者就诊流程中存在的时间序列问题,如候诊时间和检查流程等。通过 Stacking 集成多模型采用 Stacking 集成学习的策略,通过结合多个基模型预测结果形成最终预测。通过集成学习,弥补单一模型的不足,帮助医院优化资源分配,减少患者等待时间,并提高整体医疗运行效率。3.自学习训练4在模型部署后,采用在线学习的方式使模型持续更新,在遇到新的、之前未见过的数据时自动调整其学习策略,以更好地适应数据变化。4.基于深度学习的多项目调度模式,实现多项目预约科学调度研发基于深度强化学习的多项目检查端到端预约调度模型,能够在复杂的医疗环境中进行动态优化和智能调度,克服了传统调度算法难以应对的多项目、多约束的调度问题,确保了调度的科学性和高效性。在真实放射检查预约场景中,采用基于循环神经网络 RNN 的深度强化学习模型来求解不同规模和规则的医技检查调度问题。建立一个强大且统一的规则库。规则由数个建立在医技项目本身的基础数据组成,其中包括医学知识,如检查部位、检查用药、检查方法、条件检查、跨科冲突和跨科排斥等;系统集成以上多种预约规则,并结合合并规则、排斥规则、特殊规则等,采用智能算法为患者提供更合理的医技预约安排。构造一种创新的端到端深度强化学习调度框架,基于三维析取图分派,利用改进指针网络来编码待调度项目各项特征,显著提高调度效率,使得模型能够在不依赖于任何启发式规则的情况下,实时生成连续的检查任务序列。5.建立医技预约数字孪生平台,实现预约方案仿真预测与决策支持。可以模拟医院在高峰期间增加临时检查间的效果,或模拟重新分配医疗人员对患者服务时间影响。通过模拟,管理者可评估哪些策略会提升医院的运营效率,哪些可能会引起瓶颈或降低服务质量。此外,还能模拟突发公共卫生事件对医院运行影响,制定应对措施。三、应用三、应用成效成效与价值与价值5项目上线后,通过分钟级的精准预约,显著降低了患者侯检时长,有效提升医技科室秩序管理。根据医院第 83 期督导工作报告,CT 类项目候检平均时长由原来的 1 小时以上降至 11 分钟,MR 类项目侯检平均时长由原来的 2 小时以上降至 14 分钟,患者侯检时长得到显著降低,患者就医满意度得到提升。本案例基于在广东省人民医院的实施效果和效应,项目成果开始进入广州市番禺区中心医院转化落地,覆盖番禺区中心医院的放射科、超声、内镜等科室,同时优化医院检验、检查、治疗、手术等统筹调度等。2024 年将在上海相关医疗机构开展转化落地,目前上海市第一人民医院、上海交通大学附属新华医院、上海市中医药大学附属第七人民医院等已就本项目成果开展前期调研,成果转化意向。四、创新与示范意义四、创新与示范意义(一)理念创新将患者体验和医院绩效作为医院资源调度的目标函数,将各种规则作为系统优化的约束条件,建立医院医技检查要素资源的全局调度数学模型,实现资源利用的质效提升。(二)技术创新基于集成学习技术的医技检查耗时预测模型,提炼包括检查部位、检查方法、条件检查、跨科冲突、项目依赖等各种复杂规则的约束表达,建立基于深度强化学习的多项目检查端到端预约调度模型,实现医技检查要素资源在复杂环境下的动态、实时调度优化。(三)管理创新6转变传统“基于号源数量扣减先来先得预约”的预约模式为“基于患者检查个体化时长预测和复杂规则约束的全院检查资源统筹优化调度”的调度模式。通过大数据分析发掘患者检查流程的堵点问题、医技科室临时号源占比过高的结构化原因、以及大型检查设备质效提升的障碍所在,进而通过特征工程和调度优化数学模型,一体化解决这些管理问题。(四)机制创新跨机构医工结合,衔接成果转化,支撑医院先进管理经验的产品化,促进数字经济和医疗行业的深度融合。7眼科早产儿视网膜病变发病风险及严重程度预测数据集眼科早产儿视网膜病变发病风险及严重程度预测数据集(广东省人民医院)(广东省人民医院)一、案例一、案例背景背景早产儿视网膜病变(ROP)是我国儿童首位致盲性眼病,早期筛查和治疗可降低 90%以上的致盲率。然而,ROP 筛查面临普及率低、专业医生短缺、基层筛查能力不足等痛点,导致全国筛查覆盖率不足,部分基层医院甚至无法开展筛查。此外,现有 AI 辅助诊断系统依赖多次输入不同方位眼底图像,且缺乏可解释性报告,影响临床推广。本案例旨在构建高质量 ROP 数据集,结合 AI 技术实现多方位眼底图像自动拼接、特征量化分析、智能诊断及风险预测,并生成标准化图文报告,提升筛查效率与准确性。二、数据应用二、数据应用场景场景与方法与方法本案例构建的高质量 ROP 数据集包含来自多中心 10 万余张新生儿眼底彩照和 60 万文本数据,涵盖新生儿接受首次筛查至矫正胎龄 45 周之间的 ROP 诊断结果,为 ROP 的早期筛查、及时预警和临床诊疗提供了全面丰富的数据。基于本案例构建的高质量 ROP 数据集,我们利用深度残差网络、亚像素级眼底特征分割网络和视网膜图像融合配准网络等架构,创新性搭建了 ROP 智能诊断与自动图文报告系统。首先,该系统基于多时空多维度视网膜图像融合配准网络,将新生儿的多方位眼底彩照高效拼接成超广角视网膜全景图像,协助眼科医生全面评估 ROP病情、提升诊断准确率。其次,该系统充分结合了视网膜全景图像中亮度、颜色、纹理、形态、拓扑结构等细节信息,对 ROP 相关眼底特征进行分割量化,进而生成可解释性图文报告。最后,该系统能基于视网膜全景图像及眼底特征量化参数,8利用深度残差网络自动输出 ROP 智能诊断及早期预测的诊疗结果,协助眼科医生及早识别 ROP 患儿及高危新生儿、降低 ROP 致盲风险。此外,本案例开创性融合5G 互联网医院新系统,将 ROP 智能图文报告系统部署到远程诊疗中心,通过远程会诊端口为基层医疗机构提供实现患儿信息采集、报告即时生成和专家实时指导等全方位服务,有效推动了 ROP 筛查案例全面落地。在 ROP 智能诊断与图文报告系统的训练过程中,所有眼底照片均经过数据清洗、数据标记和标准化等步骤。通过 10 万张多中心多方位眼底照片完成模型训练,ROP 智能诊断与图文报告系统用于诊断 ROP 的 AUC 为 95%以及预测矫正胎龄45 周内 ROP 发病风险和严重程度的 AUC 分别为 94%和 88%。本案例率先研制了多方位眼底彩照自动拼接与特征分割量化技术工作流,解决了现有 ROP 智能诊疗产品需多次输入各方位眼底彩照、缺乏可解释性图文报告导致其难以普及的痛点;创新性构建 ROP 智能诊断与精准预测一体化体系,重点突破了当前 ROP 图文报告系统侧重智能诊断而缺乏早期预警功能的局限性,为 ROP 早防早诊提供精准全面的辅助工具。此外,本案例紧密契合国家卫生健康政策和临床需求,针对 ROP 筛查的痛点,创新性地研发了 ROP 智能图文报告系统。该系统结合了深度学习、图像处理和医9学知识,实现了 ROP 的智能诊断与精准预测,有效填补了市场空白。其次,本案例不仅注重技术的先进性,更加重视其实用性和可操作性。通过多方位眼底彩照的自动拼接和眼底特征分割量化的技术创新,以及可解释性图文报告的自动生成,极大简化了 ROP 筛查医生的操作流程,提高了筛查效率,使得该系统在实际应用中备受欢迎。再者,案例团队充分利用广东省人民医院的 5G 互联网医院新系统,将 ROP 智能图文报告系统部署到远程诊疗中心,打破了地域限制,让基层医疗机构也能享受到高质量的医疗服务,从而实现了医疗资源的优化配置和共享。最后,案例的成功还得益于强大的产学研合作和成果转化能力。通过与 AI 技术团队的紧密合作,不断优化模型算法,确保系统诊断的准确性和可靠性。同时,团队还积极开展科技成果转化工作,将研发成果快速推向市场,实现了科技与社会需求的有效对接。综上所述,该案例成果转化的成功经验在于紧跟政策导向、注重技术实用性与创新性、充分利用互联网技术实现资源共享及强大的产学研合作和成果转化能力。三、应用三、应用成效成效与价值与价值随着全国三孩政策的施行和新生儿救治技术的进步,ROP 继发视力障碍的风险亦不断提高,给家庭和社会经济带来了沉重负担。2022 年广东省约有 8000 名新生早产儿面临 ROP 致盲风险,造成的直接和间接的家庭、社会年损失达可高达96 亿元。早筛早诊对减少 ROP 致盲风险至关重要。为此,基于本数据我们团队创新性搭建了 ROP 智能诊断与自动图文报告系统,集成了深度残差网络、亚像素级眼底特征分割网络和视网膜图像融合配准网络等功能模块,提高了 ROP 筛查案例的普及率和诊疗模型的可解释性。此外,本案例开创性融合广东省人民医院的105G 互联网医院系统,将 ROP 智能图文报告系统部署到远程诊疗中心,并在全国26 家医院进行推广应用。本案例共获授权发明专利 3 项,发布 ROP 智能诊疗技术规范团体标准 1 项,登记软著 6 项,实现 3000 万元科技成果转化;发表 SCI论文 3 篇,其中中科院一区且 IF10 分文章 1 篇;案例组在致盲眼病 AI 诊疗方面的研究成果获国家卫健委主办的全国医学人工智能大赛一等奖、广东医院最强科室医学创新转化优秀团队奖。本案例有力推动了我国 ROP 筛查向精准化、高效化、智能化迈进,社会和经济效益显著。四、创新与示范意义四、创新与示范意义1.1.技术创新:多模态眼底影像智能分析技术技术创新:多模态眼底影像智能分析技术视网膜超分辨技术:率先提出基于风格引导的超分辨算法,显著提升图像清晰度与纹理细节(准确率 97.2%99.3%),解决基层医院图像质量参差不齐的问题。多方位图像融合配准:开发特征点检测与匹配算法,实现多角度眼底彩照自动拼接(均方根误差 1.37),突破传统单张图像评估的局限性。血管量化与分割技术:基于生成对抗网络(GAN)的动静脉分割模型(准确率 94.3%)和 300+维眼底特征量化系统,为 ROP 诊断提供亚像素级可解释性数据支撑。2.2.理念创新:诊断理念创新:诊断-预测一体化体系预测一体化体系智能诊断与风险预测融合:全球首次将 ROP 智能诊断模型(AUC=0.95)与精准预测模型(发病风险 AUC=0.94、严重程度 AUC=0.88)整合,实现从筛查到干预的全流程管理。11可解释性图文报告:通过自动分割量化病变特征(如出血点、血管迂曲度),生成含可视化证据的诊疗报告,提升临床医生对 AI 结果的信任度。3.3.模式创新:模式创新:5G+5G+远程诊疗生态远程诊疗生态跨区域协同筛查网络:融合 5G 互联网医院系统,构建“基层拍摄-云端分析-专家审核”的远程诊疗中心,覆盖 26 家医院,服务超 5 万人次,基层筛查效率提升 3 倍。产学研用闭环生态:联合依未科技等企业实现 3000 万元成果转化,发布国内首个ROP 智能诊疗团体标准,推动技术标准化与产业落地。12新生儿安全新生儿安全黄疸数智治理黄疸数智治理(广州医科大学附属妇女儿童医疗中心)(广州医科大学附属妇女儿童医疗中心)一、案例背景一、案例背景依托妇幼保健机构的儿童健康管理业务,本案例以新生儿黄疸为切入口,建设“新生儿黄疸随访智能管理与应用平台”。平台面向家庭、社区与各级医疗机构,提供健康宣教、居家监测、智能随访、风险预警与双向转诊等一体化服务,探索以数据要素驱动的新生儿期健康安全管理范式。在健康中国 2030等政策指引下,以新生儿黄疸为抓手,立足家庭场景与资源配置失衡,实践中凸显三类痛点:家端监测分散、依从性与风险识别不足,存在漏诊与干预延迟风险;院内外与部门间数据割裂,随访与转诊链条不连续、脱落率高;风险评估依赖经验,缺少基于时间序列的量化工具,诊疗与随访流程标准不一、同质化不足。以数据要素为核心,构建覆盖“采集治理建模应用评估”的闭环:标准化采集家庭端胆红素读数与症状上报,打通院内 LIS/EMR 与社区随访数据,完成清洗、标化与确权;基于日龄胆红素动态曲线与多源特征训练风险监测模型,实现分层预警与个性化随访计划推送;联动社区与上级医院,按风险等级触发双向转诊;以统一指引规范诊疗与随访流程,并沉淀可复用的沉淀“持续胆红素监测”数据库与指标看板,持续评估与优化服务质量,形成可推广的数字化管理范例。二、数据应用场景与方法二、数据应用场景与方法1.1.具体应用场景具体应用场景13本项目依托妇幼保健体系与随访平台,形成覆盖孕期宣教院内筛查出院评估出院后监测分级干预的闭环(见图 1)。孕期完成家长端账户预置与宣教;新生儿出生后院内按规范监测胆红素并完成高危初分;出院前医生在平台生成个体化随访计划。出院后,家长依据出院资料通过小程序按计划上报经皮胆红素(TCB)、体温、体重、喂养与皮肤黄染;社区与区级妇幼承接复测与随访,市级/三级医院收治中高危或疑似重症;医生端查看风险清单、到期随访与转诊状态并回填结果,保障“家庭基层专科”协同。配套流程(见图 2):家长端数据进入平台生成监测报告(曲线/图表),结合决策模型/知识库与三色分级推送至家长与医生端。数据以“采治判用”发挥作用:家长端 TCB 时序与症状自报形成“日龄胆红素”曲线;院内 LIS 的总胆红素(TSB)与 EMR 处置信息提供金标准与病程要素;社区/区级复测与就诊记录支撑闭环与质控。平台完成清洗、标准化与主索引对齐后,以指南阈值+规则引擎+机器学习进行风险分级并触发动作:家长端复测提醒与宣教包、基层就近复测排程;达光疗阈值建议转入二级,出现换血指征/重症可疑直转三级。处置结果沉淀为看板(随访到诊率、转诊时效、复测达标率)用于监测与优化。14图 1.新生儿黄疸闭环管理的数据流与业务协同示意图图 2 新生儿黄疸数据采集判读随访业务流程图2.2.数据来源与类型数据来源与类型来源:医院 HIS/EMR、门诊、住院、随访系统,围绕儿童健康档案形成跨时间、跨来源的聚合数据;其他医院出院资料可由随访系统录入,统一沉淀到儿童健康档案中。类型:A)个体健康数据:母亲高危因素,性别、出生时间、孕周/矫正胎龄,高危类别与因素;各时点胆红素(TCB、TSB)、体重/体温等随访要素及大便色卡记录。B)机构数据:医疗机构标识 ID、级别、地理位置及诊疗能力(是否具备光疗/换血),用于分级诊疗与就近就医匹配指引。153.3.数据处理与治理数据处理与治理平台接入政府卫生信息大平台,按国家信息安全规范设计。采用主从双节点组网降低单点故障风险;轻量化适配政务网;实施内网隔离防范外部攻击;对敏感字段密文存储,关键数据展示脱敏处理。4.4.核心技术核心技术/算法算法采用“分布式数据库+关联规则挖掘+数学建模/数据库决策”组合:分布式数据库整合多节点,保障协同与自治;用 Apriori 计算支持度/置信度,挖掘黄疸相关的频繁项集与规则;模型层整合性别、孕周(足/早产)、体重、TCB/TSB、高危状态及光疗/换血,结合 AAP 干预标准、出院随访参考及曲线规则,生成随访与分级处置。输入含历次/本次胆红素、孕周/性别/体重、大便色卡、治疗与检测部位,并考虑光疗/换血、是否首次、是否7 天、早产与否、两次差值与近期趋势;输出严重程度、随访建议、下次医疗级别与时间窗、推荐机构,实现“数据决策”闭环。三、应用成效与价值三、应用成效与价值1.1.业务成效业务成效依托市级妇幼网络,在 11 个行政区、711 家机构落地,构建“家庭社区医院”的分级协作与持续监测。平台形成家长/医生/管理端一体化服务,注册医生 1920 名、服务儿童 78,726 人;随访平台使用率由 2020 年 7.05%升至 2022年 11.59%。依据专家共识统一流程并完成全市培训,显著提升基层识别、复测与转诊的同质性与时效。2.2.社会效益与行业影响社会效益与行业影响16实施后,新生儿高胆红素发生率由 2018 年 19.91%降至 2022 年 10.78%,严重者由 0.57%降至 0.30%;随访覆盖与规范处置减少就诊延误导致的换血率与致残风险,减轻家庭与社会负担。以政府主导、医防协同和数据联动为特征的组织模式,打通“医疗机构社区家庭”数据闭环,推动分级诊疗可执行、可评估,并为区域推广提供可复制的实践范式。四、创新与示范意义四、创新与示范意义1.1.模式模式/机制创新机制创新以“数据驱动+医防融合”为主线,自 2019 年开展监测、随访、预警与处置,贯通“家庭社区医院”,将“出生后出院居家”全链条纳入分级诊疗协作网与规范流程,形成可执行、可评估闭环,降低不良结局。2.2.技术应用创新技术应用创新基于连续随访数据与算法建模,按共识与曲线规则生成分级处置与随访计划,联动家长端提示、医生端监测与双向转诊;数据在监测、访视、高危分级、危重救治环节回流,构成“采集分析预警处置评估”的智能闭环。3.3.示范意义示范意义政府主导、多部门共建,在广州市推广并辐射周边,2023 年落地中山市,打造“互联网+新生儿黄疸随访监测服务”样板;获国家卫健委优秀案例、“广州奖”全球 30 佳实践认可,具备可复制、可持续、可扩展的示范效应。1718血清标本质量检测模型数据产品血清标本质量检测模型数据产品(南方医科大学南方医院)(南方医科大学南方医院)一、案例背景一、案例背景南方医科大学南方医院是一所集医疗、教学、科研和预防保健为一体的大型综合性三级甲等医院。南方医院检验医学科(以下简称检验科)是国家首批临床重点专科、临床检验诊断学博士学位授权点、国家首批住院医师规范化培训基地、国家临床教学培训示范中心之一、广东省高水平临床重点专科,实验室通过了ISO 15189 医学实验室质量与能力认可。血清标本质量检测模型是检验医学科自主研发的基于深度学习的利用样本图像评估血清质量的系统,系统利用深度学习模型用于血清质量评估,可准确、高效和很少干扰地进行血清质量检查(包括溶血、黄疸和脂血的识别),有效解决临床实验室广泛采用血清质量目视检查时耗时、主观性强且容易出错的弊端。该模型已获得“一种基于深度学习的样本血清质量识别方法及识别设备”的发明专利证书。血清标本质量检测模型数据产品基于血清标本质量检测模型实现模型文件数据包装成数据产品,对模型涉及的数据、文件等进行安全审查,并在广州数据交易所进行数据产权登记,在安全合规的前提下将数据模型流通交易给医械企业或医疗机构,释放数据价值及模型的作用,大大提高血清质量评估的效率。血清质量是实验室分析前阶段的重要因素,临床实验室广泛采用血清质量目视检查(包括溶血、黄疸和脂血的识别),但耗时、主观性强且容易出错。19使用包含已知血清指数值(包括溶血指数、黄疸指数和脂血指数)以及人工复检的 16,427 张离心血液图像数据集对深度学习模型进行训练,并通过五折交叉验证评估其性能。开发了用于识别合格、不合格和图像干扰样品的模型,预测血清指数值,并最终组成一个基于深度学习的系统,用于自动评估血清质量。二、数据应用场景与方法二、数据应用场景与方法(一)(一)具体应用场景具体应用场景实验室活动实际上分为三个阶段:分析前阶段、分析阶段和分析后阶段。预分析阶段涵盖实验室检测前的所有准备工作,是导致实验室误差的主要原因。这类误差可能出现在体内或体外实验中。诊断样本中存在的溶血(体外实验同样存在)、黄疸和血脂异常等主要体内因素,可视为重要的预分析干扰源,这些因素可能对诊断检测产生生物学、分析学和物理层面的多重影响。血清质量的目视检查在临床实验室中被广泛使用,但由于环境和生理因素,导致检查耗时、主观性强且容易出错。利用血清质量判断模型代替人工的目视检查进行血清质量评估,具有准确、高效和少干扰的优势。(二)(二)数据来源与类型数据来源与类型数据来源为医院自行生产数据。急诊生化实验室接收到的血液血清样本,通过使用真空采血管,以 1917 g 离心 10 分钟分离血清。离心后的样本通过实验室信息系统进行保存并处理。离心后的样本送至实验室信息系统,通过内置摄像头拍摄白色背景板的样本图像以消除曝光影响。HIL 指数检测提前通过采用罗氏Cobas 702(C702)仪器,通过自动传输轨道连接实验室信息系统。根据实验室既定标准,HIL 指数的临界值分别为:溶血(H 指数,国际单位制 SI 值 29)、黄20疸(I 指数,国际单位制 SI 值 5)和脂血症(L 指数,无单位)的临界值为 18、86 和 40。实验室技术人员通过目视检查图像,最终判定样本是否受干扰。干扰类别定义为血清部分完全被旋转不良、标签或手写文字覆盖。基于此完成了模型训练的数据素材的准备,最后开发并评估了用于分类和回归任务的深度学习模型。(三)(三)数据处理与治理数据处理与治理1.数据总体处理流程说明本数据产品的数据内容分为两大部分:结构化数据和血清图像数据。结构化数据包含性别、年龄和检查科室,血清图像数据主要生化实验室接收到的 16427张图像样本。结构化数据主要来源于患者进行血液抽血时关联的就诊基础信息,如姓名、性别、年龄等,采集并记录在实验室信息系统上。血清图像产生于检验科室进行血液采集,采用高清摄像机拍摄,并将患者基本信息标注于图像上做关联,存储于实验室信息系统的库中。以上数据通过院内数据资产管理平台对接,实现匿名化/关联/加工处理,同时检验科室用于训练血清质量检测模型。模型的输出结果可基于数据资产管理平台进行 API 封装,在安全交付技术的支撑下,可交付输出结果给需求方。2.数据采集说明患者结构化基础信息采集过程说明:该数据由患者在院内进行血液检查过程中产生,关联挂号信息存储于实验室信息系统中;血清图像产生于检验科室进行血液采集,采用高清摄像机拍摄,并将患者基本信息标注于图像上做关联,存储于实验室信息系统的库中。3.数据加密同步21患者在医院进行抽血检查后,血液经过真空采集、高清拍摄后,血清图片按照单个病人维度分文件进行加密存储。血清图片通过库表对接的方式从实验室信息系统同步至数据资产管理平台;接口之间的对接通过 API Key(应用密钥)的方式,实验室信息系统会为数据资产管理平台分配一个唯一的 API Key,以标识和标识数据资产管理平台的身份,防止非法第三方数据同步和调用。4.模型训练加工阶段(1)数据选择模型训练过程中使用到的数据为南方医科大学南方医院急诊生化实验室结构到的血液血清样本。(2)数据接入、标准化治理和安全管理经过判定合格的训练数据通过数据资产管理平台接入,并经过初步的匿名化处理,具体内容包括:直接去除影响图片中的患者姓名标识符、将患者年龄进行泛化处理。1对患者间接标识符年龄进行泛化(将连续年龄划分为离散的区间段,每个区间段间隔为 5,如原始年龄为 71,泛化后变为年龄段(70-74);(说明:以 5 为区间对患者的年龄进行泛化处理,既保障在该区间内患者的数量足够多无法唯一定位到某个患者,同时保留在研究中,不同年龄段患者的影像特点等维度的不同点,分析对模型训练的影像。)2对血清图片数据中可能涉及到患者姓名等敏感信息进行识别和过滤,确保图片标签不包含个人姓名、年龄等隐私信息;通过关键字检测模型和语义识别技术,去除可能包含的患者个人信息。223数据治理清洗为保障数据质量、准确性和可靠性,对血清数据进行接入、清洗及相关治理工作,保障数据达到可加工使用的质量和安全要求。包括通过数据清洗处理缺失值和去除重复记录、按照院内统一的数据标准接入数据和存储数据、对数据的一致性进行验证并对异常值进行处理。4数据流通确权和上链利用区块链链式存储、不可篡改、特性,将数据在各个处理步骤形成不可修改的链条,每个对于数据处理操作都被记录在区块链中,并通过哈希值连接到前一个链条,形成了一个不断增长的数据链,链式存储确保了数据的完整性和可追溯性。5数据加密和签名通过采用了国密算法(SM2)对数据进行加密和签名。国密算法具备较高的安全性和可靠性,确保数据的机密性和完整性,同时提高数据的抗攻击能力。(四)四)核心技术核心技术/算法算法1.模型网络架构与训练选用 Inception-Resnet-V2 网络进行12任务训练。样本图像分辨率为 1205003 像素,训练集与验证集按 8:2 比例随机划分。模型在配备英特尔 9900 k处理器和英伟达 RTX 3090 显卡的工作站上进行训练,初始学习率设为 0.0001,并每 10 个训练周期调整为当前值的一半。模型训练至 120 个周期后,根据验证损失值保存表现最佳的权重参数。对每个深度学习模型均实施五折交叉验证,结果表明各模型性能表现相当。232.分类任务基于传统图像分割算法可将样本划分为六类。为评估其具体性能,训练一个六分类深度学习模型进行对比。作为前期准备,在数据集收集前,采集了 139 张溶血样本图像(H 指数 19)、51 张严重溶血样本图像(H 指数 44)、137 张黄疸样本图像(I 指数86)以及 117 张脂血样本图像(L 指数 40)用于 P612 图像分类校准。随后,收集了包含 4633 张连续图像的数据集作为测试集,用以评估训练完成的六分类深度学习模型。3.回归任务为评估深度学习模型的定量预测能力,训练模型完成回归任务(预测 H 指数、I 指数和 L 指数),并选择均方误差(MAE)作为损失函数。在 HIL 指数预测取得良好效果后,进一步开展 TBIL 和 TG 的预测研究。首先,从总数据集中获取了使用 C702 设备检测 TBIL 和 TG 的样本。随后收集并分析了包括年龄、性别、TBIL和 TG 在内的研究参与者元数据。最终开发并评估了用于 TBIL 预测的深度学习模型。24三、应用成效与价值三、应用成效与价值(一)一)业务成效业务成效1.质量提升本模型在识别合格、不合格及图像干扰样本时,受试者工作特征曲线下面积(AUC)分别为 0.987、0.983 和 0.999。针对溶血、黄疸和脂血的亚分类预测,AUC值分别为 0.989、0.996 和 0.993。相较传统的图像分割算法,整体准确率从 30.19%大幅提升至 95.85%。注:AUC 指 ROC 曲线下面积,是衡量二分类模型预测准确性的核心指标,取值范围在 0.5 到 1 之间,越接近 1 准确性越高。2.效率提升:常规检测血清指数每份样本耗时约 10 分钟,提升至几秒内完成。(二)二)社会效益与行业影响社会效益与行业影响1.公共卫生层面:通过提升血清质量检测准确性,有效减少因样本质量问题导致的误诊、漏诊及重复检测,降低公共卫生资源浪费。在突发公共卫生事件中,可快速完成大批量血清样本质量筛查,为传染病诊断、病情监测等提供高效数据支撑,助力公共卫生应急响应效率提升。2.患者获得感层面:将血清质量判断评估时间从 10 分钟缩短至几秒,总体可减少患者等待时间,尤其在急诊场景下,为危急重症患者救治争取宝贵时间。同时,精准的检测结果降低因样本误差导致的实验室误差,减少患者身体负担与就医成本,提升患者就医体验。253.产业发展层面:模型数据产品在广州数据交易所完成产权登记并合规流通,为医械企业提供高质量数据模型支撑,助力其研发更精准的血清检测相关设备;向医疗机构输出标准化检测方案,推动医疗设备与服务升级,促进医疗健康产业向“数据驱动创新”转型。4.行业标准建设层面:基于 ISO 15189 医学实验室质量标准构建模型,结合区块链确权、国密算法加密等技术,形成“数据采集-治理-流通”全流程安全合规范式,为医疗数据要素市场化应用提供可参考的标准模板,推动行业数据安全与价值释放平衡发展。四、创新与示范意义四、创新与示范意义(一)一)模式模式/机制创新机制创新1.数据协同机制突破:打通医院实验室信息系统与数据资产管理平台,通过API Key 身份认证、库表加密同步等技术,实现结构化数据与血清图像数据的高效协同,解决医疗数据“孤岛”问题,为跨科室、跨机构数据协作提供可行路径。2.利益分配与产权保护机制创新:在广州数据交易所完成数据产权登记,明确模型数据产品的产权归属,同时通过区块链记录数据处理全流程,确保数据溯源与权责清晰,为医疗数据要素市场化交易中的利益分配提供机制保障,激发医疗机构数据创新积极性。3.管理模式优化:建立“数据匿名化治理-模型训练-安全交付”闭环管理模式,既通过年龄泛化、敏感信息过滤保障患者隐私,又通过 API 封装实现模型结果安全输出,平衡数据安全与应用效率,优化医疗数据管理流程。(二)二)技术应用创新技术应用创新261.算法模型独创性:基于 Inception-Resnet-V2 网络的血清质量检测模型,同时实现“分类任务(合格/不合格/干扰样本识别)+回归任务(HIL 指数、TBIL、TG 预测)”双重功能,相较传统图像分割算法准确率从 30.19%提升至 95.85%,在血清质量智能检测领域具备技术领先性。2.数据安全技术融合创新:融合国密算法(SM2)与区块链技术,前者保障数据传输与存储的机密性、完整性,后者实现数据处理全流程可追溯、不可篡改,解决医疗数据流通中的隐私泄露与产权纠纷痛点,为高敏感医疗数据的安全应用提供技术范本。(三)三)示范意义示范意义1.对同类医疗机构的借鉴价值:案例中“16427 张标注数据集构建-五折交叉验证模型训练-院内数据资产管理平台对接”的流程,可直接复用于其他三级医院或专科医院的检验科室,帮助其快速搭建血清质量智能检测系统,减少重复研发成本。2.对相似场景的推广价值:模型的技术逻辑与管理模式可迁移至尿液、脑脊液等其他体液样本的质量检测场景,甚至延伸至病理切片分析、医学影像诊断等领域,为医疗检验“自动化、智能化”转型提供通用解决方案。3.对行业的整体带动价值:作为“数据要素 X 医疗服务管理”的典型实践,案例验证了医疗数据从“资源”到“资产”的转化路径,为行业提供“合规确权-安全流通-价值变现”的完整范例,推动医疗健康领域数据要素市场化配置改革,助力行业向数字化、智能化高质量发展。2728阿尔茨海默病数据集阿尔茨海默病数据集(南方医科大学珠江医院)(南方医科大学珠江医院)一、案例背景一、案例背景南方医科大学珠江医院依托多学科优势,构建阿尔茨海默病多模态标准化数据集,覆盖“早筛-诊断-治疗-随访-科研”全流程,支撑阿尔茨海默病早诊早治、药物研发与机制研究。阿尔茨海默病是老年期常见痴呆类型,我国发病率呈年轻化趋势。临床存在早诊难、缺乏普适筛查方法,科研面临队列数据不足、发病机制不明,药物研发缺乏大规模验证数据等问题。整合医院、社区、家庭多场景数据,构建多模态阿尔茨海默病数据集,通过数据标准化与智能分析,破解早筛、诊断、科研中的数据瓶颈,为阿尔茨海默病防治提供数据要素支撑。二、数据应用场景与方法二、数据应用场景与方法1.1.具体应用场景具体应用场景面向各级医疗机构提供阿尔茨海默病早筛体检工具与社区筛查支持;为药企靶向药物研发提供大规模队列数据;支撑科研机构探究阿尔茨海默病分子机制;助力 AI 企业开发无创快速早诊与随访工具。2.2
展开阅读全文