1、 10 0 引言近年来,大语言模型取得了长足的进步,在自然语言处理领域展现出强大的语言理解和生成能力。大语言模型通过在大规模文本语料上进行预训练,学习语言的内在规律,并可以迁移到下游的自然语言处理任务中。随着模型规模的不断扩大,大语言模型在阅读理解、对话、文本生成等任务上的表现不断提升。医疗健康领域的数据量庞大,这为开发医学领域的大语言模型提供了基础。目前,已经出现了一些面向医疗健康的大语言模型和应用,用于辅助医生决策、提供健康管理建议等。为了解医学大语言模型的发展现状,对后续研究提供参考,本文对医学大语言模型的研究及应用进行综述分析。首先,介绍大语言模型的发展历程和代表性模型架构。其次,具体
2、介绍医学大语言模型的应用实例,并总结了当前医学大语言模型的数据基础和模型评估指标及方法。最后,讨论医学大语言模型的应用前景及面临挑战,并给出应对建议。大语言模型在医学领域的研究与应用发展文/胡振生1,杨瑞1,朱嘉豪2,廖芝美1,方立1,周毅1*(1.中山大学中山医学院 医学信息学教研室,广州 510080;2.中山大学 计算机学院,广州 510006)摘要:本文对大语言模型技术在医学领域的研究与应用发展进行了全面综述分析。首先,文章阐明了大语言模型的基本概念、发展脉络和典型模型,概述了它们在自然语言处理任务中的应用范式。其次,文章阐述了目前国内外开源的典型医学大语言模型实例,对当前医学大语言模
3、型的数据集基础和模型评估方法进行了深入总结。最后,文章讨论了医学大语言模型的未来应用前景及面临的可解释性、隐私保护、伦理道德等挑战,给出了应对建议。本文通过全面综述大语言模型在医学领域的研究与应用,为该领域后续工作提供有价值的参考。关键词:大语言模型;自然语言处理;Transformer;医学应用挑战中图分类号:R319;TP18 文献标志码:A 文章编号:2096-5036(2023)04-0010-10DOI:10.16453/j.2096-5036.2023.04.002基金项目:国家重点研发计划(2022YFC3601600,2021YFC2009400);广东省科技创新战略专项(20
4、2011020004);广州市科技计划项目(202206010028);中山大学中央高校基本科研业务费专项资金资助(23ptpy119)专题:AIGCAI-VIEW2023 年第 4 期 11 大语言模型在医学领域的研究与应用发展1 大语言模型的基本概念和发展沿革语言模型(Language Model,LM)旨在对词序列生成概率进行建模,主要目标是估计给定上下文的下一个词或字符的概率分布。语言模型可以衡量一个句子在语言上的合理性,并应用于各种自然语言处理(Nature Language processing,NLP)任务中。语言模型最早可以追溯到 20 世纪 80 年代末的统计语言模型1-4(
5、Statistical Language Model,SLM),这些 SLM 模型的主要思想是使用 n-gram 统计方法预测一个给定文本中下一个词的可能性,被用来提高信息检索5等任务的性能。随着深度学习的兴起,神经网络被引入语言建模领域,出现了诸如循环神经网络6和长短期记忆网络7的神经网络语言模型(Neural Network Language Model,NLM),这一类神经网络语言模型可以很好地利用分布式词向量建模语言中的上下文关系8。此外,word2vec 模型9,10通过构建浅层的神经网络学习分布式单词表示方法,应用于各种自然语言处理任务中,这对语言模型的发展产生了非常重要的影响。近
6、十年来,随着 GPU等硬件设备的发展和数据的爆炸式增长,预训练语言模型(Pretrained Language Model,PLM)成为了当前主流的研究方向。其中基于自注意力机制的 Transformer架构11和 BERT12语言模型,通过在大规模文本数据上进行预训练,可以在各种自然语言处理任务中对这些模型进行微调,将其表示为通用语意特征,这在自然语言处理任务中非常有效。随着训练语料的不断增多,模型堆叠层数不断加深,模型的参数量规模也变得非常庞大。通常,大语言模型(Large Language Model,LLM)指包含百亿参数以上的语言模型,现有的大语言模型主要采用Transformer1
7、1架构进行建模,这些模型在问答、机器翻译和文本生成领域都展现了卓越的性能。这些大语言模型在大量的语料上训练13,相比于预训练语言模型在参数量上扩张了若干级,并且在各个任务上的性能随着模型大小的增加得到了显著的提高。在模型参数规模达到一定水平后,其性能得到了显著的提高,远远超过了随机水平,这也是大语言模型与 BERT12、RoBERTA14和T515等 PLM 模型相比拥有的不同能力,即涌现能力,这种涌现能力是区分大语言模型和之前的 PLM 最主要的特征之一16。目 前,大 多 数 的 大 语 言 模 型 是 基 于 Transformer 架 构 训 练 的11,根 据Transformer
8、的编码器(encoder)和解码器(decoder)架构,大语言模型主要可以分为 基于编码器的大语言模型;基于编码器-解码器的大语言模型;基于解码器的大语言模型。1.1 基于编码器的大语言模型基于编码器的大语言模型主要是一种在自然语言处理领域广泛应用的模型。它的主要目标是对输入序列进行编码,以捕捉上下文信息,生成一个固定维度的上下文向量或上下文表示。这种模型的核心思想是通过预测句子中被遮掩的词或字符,从而学习到语言的内部结构和语义表示。在下游任务中,通过对大语言模型进行微调,可以获得与任 12 专题:AIGCAI-VIEW2023 年第 4 期务相匹配的输出。早期的 BERT12模型通过预训练
9、和微调的方式,在多个自然语言处理任务中取得了显著的成果。接着,RoBERTa14模型进一步改进了 BERT 的预训练策略,该模型在预训练阶段引入了更大规模的数据集和更长的训练时间,从而取得了更好的性能。另外,ERNIE17模型也是基于编码器的大语言模型的一个重要代表,该模型在预训练过程中引入了知识增强的策略,结合了自监督学习和有监督学习的方法,从而进一步提升了模型在各类自然语言处理任务中的表现。这类基于编码器结构的模型的参数量并不大,但是通过在各类自然语言处理任务中微调后能得到比较好的结果。1.2 基于编码器-解码器的大语言模型基于编码器-解码器的大语言模型结合了编码和解码的功能,能够在语言理
10、解和生成之间进行平衡。它们使用编码器对输入序列进行编码,然后使用解码器生成输出序列。早期主要以 BART(140M)18这类模型为代表。随着模型参数量的增加,国内的研究团队开发了 GLM 系列大模型,主要由清华大学和智谱 AI 共同研制19,这一系列模型包括 GLM-6B、GLM-10B 和 GLM-130B。其中,GLM-130B 不需要后期训练,且几乎没有性能损失的情况下即可达到 INT4 量化,成功地实现了模型的高效部署和使用。该模型在多项自然语言处理任务中表现出色,充分展示了基于编码器-解码器的大语言模型在语言理解和生成任务中的潜力。1.3 基于解码器的大语言模型目前,主流的大语言模型
11、主要是基于解码器架构居多,基于解码器的大语言模型主要关注输出序列的生成和解码。它们通过对输入上下文的编码和解码,生成一个逐步预测下一个词或字符的生成模型。OpenAI 的 GPT(Generative Pretrained Transformer)系列是基于解码器的代表性大语言模型。其中,ChatGPT20是在 GPT-3.5 基础上进行微调得到的,微调时使用了从人类反馈中进行强化学习21的方法,而GPT-421是 OpenAI 继 ChatGPT 之后发布的一个大规模的多模态模型。之前的 GPT系列模型都是只支持纯文本输入输出的语言模型,而 GPT-4 可以接受图像和文本作为输入,并产生文本
12、输出,GPT-4 仍然是基于 Transformer 的自回归结构的预训练模型。ChatGPT 和 GPT-4 在各项自然语言处理任务中展现了强大的性能,但是这些模型目前并没有开源。此外,基于解码器的大语言模型还包括谷歌的 PaLM22模型(540B)和Facebook 的 LLaMa23模型,LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B四种参数规模的基础语言模型集合,其中 LLaMA-13B 仅以十分之一规模的参数在多数的评测任务上性能优于 GPT-3(175B)。大语言模型在自然语言处理领域取得了巨大的突破,并在许多任务上展现了强大的语言理解和生成能力。对于
13、医学领域而言,如何利用大语言模型提高诊断准确率、优化治疗方案、提升患者体验等,成为了亟待解决的问题。诸如 ChatGPT 这类大模型的成功应用也引起了医学领域对于医学大语言模型的探索与研究。然而,医学大语言模型也面临着一些挑战和机遇。医学领域的语言数据复杂多样,需要模型具备强大的领域知识 13 和迁移学习能力。同时,医学数据的隐私和安全问题也需要得到充分考虑。因此,针对医学领域的研究人员与开发者需要探索并开发专门的医学大语言模型,以满足医疗保健领域的需求,并确保其在隐私和安全方面的合规性。目前,也有一些关于大语言模型相关的综述文章24-26,这些文章大多讨论大语言模型某些特定方面。与它们相比,
14、我们更注重医学领域大语言模型的研究及应用。2 大语言模型在医学领域的研究和应用目前,大语言模型在医学领域的研究与应用方兴未艾,国内外均涌现出具有代表性且取得出色成绩的医疗专用大语言模型,这里我们将具体阐述国内外相关典型医学大语言模型的研究成果及其特点。2.1 Med-PaLM 系列模型 Med-PaLM 系列医学大语言模型是 Google Research 联合 DeepMind 研发的基于 PaLM 基座的专家级医疗问答大语言模型,第一代模型在 2022 年发布,第二代模型在 2023 年发布27。其中,Med PaLM 是第一个超过美国医师执照考试(USMLE)样例问题“合格”分数的模型,
15、在 MedQA 数据集上得分 67.2%。这个模型不仅准确地回答了多项选择题和开放式问题,而且还提供了理由并评估了自己的回答。但是,这项工作和其他类似的工作表明,与临床医生的答案相比,模型的答案仍有很大的提高空间。其下一个迭代版本Med-PaLM 2,利用一系列大语言模型改进(PaLM 2)、医学领域微调和提示策略(包括一种新的集成精炼方法)以弥补这些差距。在医学考试问题上持续表现出“专家”医生水平,得分达到 85%,比前一代的表现提高了 19%,远远超过了同类人工智能模型,其性能接近或超过 MedMCQA、PubMedQA 和 MMLU 临床话题数据集的最新效果。2.2 本草 BenTsao
16、:基于中文医学知识的 LLaMA 微调模型本草(BenTsao,原名:华驼,HuaTuo)是为生物医学领域量身定制的一款关注中文的医学大语言模型,其基座模型为 LLaMA-7B。开发者使用 CMeKG 的中文医学知识图谱,并从知识图谱中抽样知识实例,生成了基于特定知识的问答实例,最终收集了 8000 多个指令数据,将结构化和非结构化医学知识整合起来,使用基于知识的指令数据进行微调。在模型评测中,作者构建了一个中文对话场景的潜在问题测试集,并将模型生成的回复与其他三个基准模型进行了比较。同时,由五名具有医学背景的专家使用三级评分对模型的回复在安全性、可用性和流畅性(SUS)的每个维度进行了评估。
17、结果显示,尽管LLaMA获得了最高的安全性分数,但其回复通常缺乏信息,并对问题进行了重新表述,导致可用性得分较低。而 HuaTuo 模型在保证安全性的同时,显著提高了知识的可用性。除了上述两例典型的应用模型之外,还有国内相关企业发布的MedGPT,具有问诊、大语言模型在医学领域的研究与应用发展 14 https:/ https:/ https:/ https:/huggingface.co/datasets/michaelwzhu/ChatMed_Consult_Dataset http:/www.mk- https:/ 年第 4 期疾病预防、治疗、康复等各个流程的智能化诊疗能力;浙江大学研发
18、的启真医学大模型,在收集整理的真实医患知识问答数据以及在启真医学知识库的药品文本知识基础上,通过对半结构化数据设置特定的问题模板构造的指令数据进行微调得到。3 医学大语言模型的指令数据基础及评估3.1 公开数据集研究者可根据公开或自建数据集对预训练大语言模型进行微调,以适用不同领域任务。截至目前,已开源的典型中文医学大语言模型有三个,它们分别是 ChatMed,QizhenGPT和BenTsao。这三个模型各自公开了训练所使用的部分微调指令数据集。3.1.1 ChatMed 指令数据集 ChatMeds该项目包含两个子项目:ChatMed-Consult 和 ShenNong-TCM-大语言模
19、型。前者是针对医学咨询任务的大语言模型,使用了 50 多万的中文医疗在线问诊数据,ChatMed_Consult_Dataset和 ChatGPT 所提供的回复作为训练数据集。后者则致力于赋能中医药传承,以开源的中医药知识图谱 TCM-neo4j27为基础,采用实体为中心自指令方法,并调用 ChatGPT 获取 11 万多的中医药指令数据集。3.1.2 QiZhenGPT 指令数据集该医学大语言模型所使用的数据涵盖开源医学知识库、药品知识数据,以及疾病知识数据。其中,医学知识库采用启真医学知识库收录的真实医患知识问答数据,该知识库采集了 56 万条指令数据,内容涵盖疾病、药品、检查检验、手术、
20、预后、食物等。在启真医学知识库中的药品和疾病文本知识的基础上,通过对半结构化数据设置特定的问题模板,构造了 18 万条药品相关指令数据集和 29.8 万疾病相关指令数据集。3.1.3 BenTsao 指令数据集该医学大语言模型参考开源医学知识图谱项目 CMeKG28,利用开源或自建的医学知识库来构造微调指令数据集。所用知识库围绕疾病、药物、检查指标等关键词构建,字段包括并发症、高危因素、组织学检查、临床症状、药物治疗、辅助治疗等。随后,使用 GPT-3.5 接口围绕该医学知识库构建问答数据,并设置了多种 Prompt 形式以充分利用知识。此外,该项目团队又收集了 2023 年关于肝癌疾病的中文
21、医学文献,并利用GPT-3.5 接口生成多轮问答数据。3.2 模型评估3.2.1 中文医学大语言模型能力评估大语言模型的核心评测内容是对其展现的能力进行评估。LI C 等29将通用大语言模型的能力分为基础能力和高级能力,其中基础能力又分为语言生成能力、知识运用能 15 力,以及复杂推理能力。高级能力则更关注于模型的人类价值观对齐能力、外部环境交互能力以及工具使用能力。中文医学大语言模型作为通用大语言模型在医学专业领域的应用,其能力评估标准也应与通用大模型的评估标准相似。3.2.2 中文医学大语言模型的评估基准目前,开源项目 PromptCBLUE已经提供了一个较为完善的中文医学大语言模型的评测
22、基准。该基准 V0.2 提供了 94 种 prompt 模版,68,900 条指令用于训练,10,360 条指令用于验证。此外,提供了 A、B 两种测试集,其中每种包含 10,320 条指令。该基准涵盖多种评测任务,具体的任务描述与相关评测指标由表 1 给出。3.2.3 中文医学大语言模型的评估基准模型由于目前已开源的中文医学大语言模型大多是基于通用大语言模型 LLaMA 系列30并通过指令微调生成,因此,基准模型可以采用 LLaMA 相关模型。此外,PromptCBLUE 也提供了基于 ChatGLM-6B 微调的三种基准模型,分别是基于P-Tuning 参数微调31、Lora 参数微调32
23、,以及 AdaLora 参数微调33。4 大语言模型在医学领域应用前景和问题挑战4.1 大语言模型在医学领域应用前景大语言模型在医学领域的应用前景十分广阔,它强大的自然语言处理和学习能力为医学研究、临床决策和医学教育等各个方面带来了许多机遇和潜在的改进。4.1.1 医学研究大语言模型在处理海量医学文献、病历、病理报告等数据方面表现出色。它能够高大语言模型在医学领域的研究与应用发展 https:/ 1PromptCBLUE 评测任务与相关指标评测任务任务描述评测指标CMeEE-V2中文医学命名实体识别micro-F1CMeIE中文医学文本实体关系抽取micro-F1CHIP-CDN临床术语标准化
24、micro-F1CHIP-CDEE临床发现事件抽取micro-F1CHIP-STS医学句子语义匹配micro-F1CHIP-CTC医学文本分类micro-F1CHIP-MDCFNPC医疗对话临床发现阴阳性判别micro-F1KUAKE-IR医学目的分类micro-F1KUAKE-QIC医学文本分类micro-F1KUAKE-QQR典型的“检索词-检索词”相关度匹配问题micro-F1KUAKE-QTR典型的“检索词-页面标题”相关度匹配micro-F1IMCS-V2-DAC智能诊疗对话意图识别micro-F1IMCS-V2-NER智能诊疗对话命名体识别micro-F1IMCS-V2-SR诊疗对
25、话症状识别micro-F1IMCS-V2-MRG智能诊疗对话医学报告生成Rouge-LMedDG蕴含实体的中文医疗对话生成Rouge-L 16 专题:AIGCAI-VIEW2023 年第 4 期效实现文本摘要、实体识别和关系抽取,帮助医学研究人员从大量文本中快速提取有价值的信息。这样的自动化文本处理手段加速了医学知识的积累和交流。同时,大语言模型在知识图谱构建和医学知识库更新方面具有潜在优势。通过处理多源医学数据,大语言模型能够帮助构建更全面、更准确的知识图谱和知识库,促进医学研究的深入和精进。4.1.2 临床决策医学数据的复杂多样性需要针对不同患者提供个性化的诊断和治疗方案。大语言模型的强大
26、预测能力和分类能力,结合患者的个体化信息和丰富医学数据,为医生提供定制化的临床决策支持,提高临床效果和预后。大语言模型在临床决策中的应用还体现在辅助诊断和早期筛查方面。其高效处理和分析医学数据的能力,帮助医生更快速、准确地判断患者的病情,促进疾病的早期发现和治疗。4.1.3 医学教育医学教育需要覆盖广泛的知识领域,而大语言模型的应用能够帮助学生快速获取和理解复杂的医学知识。通过自然语言处理技术,大语言模型可生成教学材料、智能答疑,并提供个性化学习建议,实现医学教育的个性化和高效。同时,大语言模型的辅助应用也有助于医学教师进行教学评估和知识点把握。通过分析学生的学习情况和知识水平,教师可以更好地
27、指导学生,提高医学教学的质量。4.2 大语言模型在医学领域的问题挑战4.2.1 模型的可解释性医学大语言模型通常是黑盒模型,其内部决策过程难以解释。这在医学领域是一个重要的挑战,因为医生和患者需要了解模型的决策依据和推理过程,以便理解和接受模型的建议或决策结果。解决该挑战的对策包括开展可解释性研究,探索如何将大语言模型的决策过程可视化或解释给医生和患者;发展适用于医学领域的解释性技术和方法,使模型的决策过程更加透明、可理解和可接受;提供决策解释的训练和教育,使医生和患者能够理解并正确使用模型的建议。4.2.2 数据质量和标注困难医疗数据的质量和标注困难是医学大语言模型面临的挑战之一。医疗数据往
28、往存在噪声、缺失或不一致性,这可能导致模型的性能下降或决策的不准确性。此外,医疗数据的标注也需要专业的医学知识和专家的参与,标注过程复杂且耗时。解决该问题的对策包括建立标准化的数据清洗和预处理流程,以去除噪声和纠正数据错误;采用半监督学习和主动学习等方法,减少标注数据的需求;建立多学科的合作团队,整合医学专家的知识和专业判断,提高数据的标注质量和准确性;利用自动化的方法进行数据标注,减少人工标注的工作量和时间。4.2.3 隐私和数据安全医学大语言模型应用中的隐私和数据安全问题包括数据泄露、未经授权的数据访问,以及数据滥用等。医疗数据涉及患者的敏感信息,如病历、基因组数据和个人身份信息,因此必须
29、采取有效的措施以确保数据的安全。解决该问题的对策包括采用数据加 17 密技术保护数据的传输和存储;建立严格的数据访问和权限控制机制,确保只有授权人员可以访问敏感数据;制定合适的数据共享政策和合同,明确数据使用的目的和限制,并与相关法律法规保持一致;加强对数据安全的监控和审计,及时发现并应对安全漏洞和威胁。4.2.4 伦理和道德问题医学大语言模型在决策过程中涉及伦理和道德问题,例如决策的公平性、偏见和责任分配等。由于大语言模型的训练数据可能存在偏见或不完整性,模型的输出可能受到这些因素的影响,导致不公平或有偏见的结果。解决该问题的对策包括建立伦理委员会或专家团队,对模型的训练数据和算法进行审查,
30、确保模型的决策过程和结果不受偏见的影响;制定可追溯、可解释的模型设计和决策规则,使决策过程透明化、可解释化;提供机制供用户申诉和监督,以确保模型的公平性和可信度。5 结束语 未来,医学大语言模型将成为医疗保健领域的重要工具和资源,为医生和患者提供更准确、个性化的医疗决策支持和健康管理服务。同时,医学大语言模型的发展还将促进医学教育和专业培训的创新,培养更多高素质的医学人才。然而,我们也应当持续关注并解决与医学大语言模型应用相关的伦理、法律和社会问题,确保其应用始终符合道德准则和法规要求。通过持续的研究应用和实践,大模型潜力将不断被发掘,取得进一步突破和创新,为医学领域带来更多的益处和进步,从而
31、造福全球的患者和医疗社区,实现更加人性化、智能化的精准医疗服务和健康管理。参考文献1 JELINEK F.Statistical methods for speech recognitionM.MIT press,1998.2 GAO J,LIN C Y.Introduction to the special issue on statistical language modelingJ.ACM Transactions on Asian Language Information Processing(TALIP),2004,3(2):87-93.3 ROSENFELD R.Two decad
32、es of statistical language modeling:where do we go from here?J.Proceedings of the IEEE,2000,88(8):1270-1278.4 STOLCKE A.SRILM-an extensible language modeling toolkitC/Seventh International Conference on Spoken Language Processing.SRI International,2002.5 LIU X,CROFT W B.Statistical language modeling
33、 for information retrievalJ.Annual Review of Information Science and Technology,2005,39(1):1-31.6 ZAREMBA W,SUTSKEVER I,VINYALS O.Recurrent neural network regularizationJ.arXiv preprint arXiv:1409.2329,2014.7 GRAVES A.Long short-term memoryM/Supervised Sequence Labelling with Recurrent Neural Networ
34、ks.Berlin:Springer,2012:37-45.8 BENGIO Y,DUCHARME R,VINCENT P.A neural probabilistic language modelJ.The Journal of Machine Learning Research,2003,3:1137-1155.9 MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionalityC/Proceedings of the 26th Int
35、ernational Conference on Neural Information Processing Systems.Red Hook:Curran Associates,2013.10 MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector spaceJ.arXiv preprint arXiv:1301.3781,2013.11 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you needC/Procee
36、dings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates,2017:6000-6010.12 DEVLIN J,CHANG M,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language 大语言模型在医学领域的研究与应用发展 18 专题:AIGCAI-VIEW2023 年第 4 期understandingC/Proceedings of
37、 the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1(Long and Short Papers).NAACL,2019:41714186.13 SHANAHAN M.Talking about large language modelsJ.arXiv preprint arXiv:2212.03551,2022.14 LIU Y,OTT M,GOYAL N,et al.RoB
38、ERTa:a robustly optimized BERT pretraining approachJ.arXiv preprint arXiv:1907.11692,2019.15 RAFFEL C,SHAZEER N,ROBERTS A,et al.Exploring the limits of transfer learning with a unified text-to-text transformerJ.The Journal of Machine Learning Research,2020,21(1):5485-5551.16 WEI J,TAY Y,BOMMASANI R,
39、et al.Emergent abilities of large language modelsJ.arXiv preprint arXiv:2206.07682,2022.17 SUN Y,WANG S,FENG S,et al.ERNIE 3.0:Large-scale knowledge enhanced pre-training for language understanding and generationJ.arXiv preprint arXiv:2107.02137,2021.18 LEWIS M,LIU Y,GOYAL N,et al.BART:denoising seq
40、uence-to-sequence pre-training for natural language generation,translation,and comprehensionC/Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.ACCL,2020:7871-7880.19 ZENG A,LIU X,DU Z,et al.GLM-130B:an open bilingual pre-trained modelJ.arXiv preprint arXiv:2210
41、.02414,2022.20 OUYANG L,WU J,JIANG X,et al.Training language models to follow instructions with human feedbackJ.Advances in Neural Information Processing Systems,2022,35:27730-27744.21 满坚平,黄国立,赖聪等.智能体在医疗健康领域的研究与应用J.医学信息学杂志,2022,43(4):20-26.22 OpenAI.GPT-4 technical reportR.OpenAI,2023.23 CHOWDHERY A
42、,NARANG S,DEVLIN J,et al.PaLM:scaling language modeling with pathwaysJ.arXiv preprint arXiv:2204.02311,2022.24 TOUVRON H,LAVRIL T,IZACARD G,et al.LLaMA:open and efficient foundation language modelsEB/OL.(2023-02-27)2023-07-10.https:/arxiv.org/abs/2302.13971.25 LIU P,YUAN W,FU J,et al.Pre-train,promp
43、t,and predict:a systematic survey of prompting methods in natural language processingJ.ACM Computing Surveys,2023,55(9):1-35.26 HAN X,ZHANG Z,DING N,et al.Pre-trained models:past,present and futureJ.AI Open,2021,2:225-250.27 SINGHAL K,et al.Large language models encode clinical knowledgeJ.Nature,202
44、3.DOI:10.1038/s41586-023-06291-2.28 QIU X,SUN T,XU Y,et al.Pre-trained models for natural language processing:a surveyJ.Science China Technological Sciences,2020,63(10):1872-1897.29 LI C,LIN F,XIE D.Construction of knowledge graph of spleen and stomach diseases in traditional chinese medicine based
45、on Neo4jC/Proceedings of the 3rd International Symposium on Artificial Intelligence for Medicine Sciences.New York:Association for Computing Machinery,2022:294-301.30 奥德玛,杨云飞,穗志方,等.中文医学知识图谱CMeKG构建初探J.中文信息学报,2019,33(10):1-7.31 ZHAO W X,ZHOU K,LI J,et al.A survey of large language modelsJ.arXiv prepri
46、nt arXiv:2303.18223,2023.32 TOUVRON H,LAVRIL T,IZACARD G,et al.LLaMA:open and efficient foundation language modelsJ.arXiv preprint arXiv:2302.13971,2023.33 LIU X,JI K,FU Y,et al.P-tuning:prompt tuning can be comparable to fine-tuning across scales and tasksC/Proceedings of the 60th Annual Meeting of
47、 the Association for Computational Linguistics(Volume 2:Short Papers).ACL,2022:61-68.34 HU E J,SHEN Y,WALLIS P,et al.LoRA:low-rank adaptation of large language modelsJ.arXiv preprint arXiv:2106.09685,2021.35 ZHANG Q,CHEN M,BUKHARIN A,et al.Adaptive budget allocation for parameter-efficient fine-tuni
48、ngJ.arXiv preprint arXiv:2303.10512,2023.中山大学中山医学院博士在读。主要研究方向为医学自然语言处理、多模态健康医疗数据挖掘和分析。胡振生中山大学中山医学院博士在读。主要研究方向为医学知识图谱的构建和应用、医学辅助决策。杨 瑞 19 医学硕士。主要研究方向为肥胖相关疾病的发病机制及药物治疗研究、生物医学数据挖掘及分析。廖芝美中山大学中山医学院副教授。主要研究方向为基因组学和生物信息学、生物医学自然语言处理。方 立中山大学计算机学院博士在读。主要研究方向为图形学、信息隐藏,以及医学人工智能。朱嘉豪中山大学中山医学院教授。主要研究方向为健康医疗信息化与大数据分析、医学人工智能研究等。*通信作者 email:周 毅大语言模型在医学领域的研究与应用发展