2024年大模型在金融领域的应用技术与安全白皮书.pdf

资源描述

0 1 2 3 4 1.11.1 大语言模型技术发展概述大语言模型技术发展概述语言建模（Language Model）可分为四个发展阶段，分别为统计语言模型、神经语言模型、预训练语言模型、大模型语言模型。其中最早的统计语言模型基于统计学习来预测单词，而后演进成为神经语言模型基于神经网络方法预测单词。在神经网络语言模型中，通过使用神经网络，将单词映射为向量作为网络模型的输入来估计单词序列的概率。随着注意力机制被引入，注意力层（Attention Layers）在文本中建立了词之间的相关性，使得模型在生成下一个单词时，考虑到整体语句的意思，从而建立了 Transformer 架构，提升了模型理解和生成语言的能力。但随着参数的增加，需要大量人力来标注数据，因此 OpenAI 提出了预训练语言模型（Generative Pre-Trained Transformer），通过无监督学习在大规模无标签语料库上进行预训练任务，在预训练中模型学会了基于前一个单词预测后一个单词。除此之外，模型还可以针对特定的任务基于更小的数据集进行微调，提升在特定领域的性能。基于此，通过不断叠加数据增加模型参数规模以及优化模型的提示工程，不仅可以解决更复杂的任务，同时也拥有了更强大的文本涌现能力1，从而演进成为大模型语言模型（以下简称“大模型”）。大模型浪潮爆发后，国内各企业纷纷推出自研大模型，大模型应用迎来了蓬勃发展的阶段。据测算，我国 2030 年基于大模型的生成式人工智能市场规模有望突破千亿元人民币。与此同时，国内垂直行业领域的大模型也成为各个行业头部企业未来的发展趋势之一，其中前沿的垂类大模型涉及领域包括媒体影视、电商、广告营销、游戏、医疗、教育 1 Zhao et al,A Survey of Large Language Models 5 及金融行业。比如在金融领域，大型科技企业如华为推出了盘古金融大模型，而蚂蚁集团则在外滩大会发布了金融大模型“AntFinGLM”并应用于蚂蚁集团内部产品“支小宝”和“支小助”。金融行业大模型在所有行业垂直大模型中落地速度相对较快。金融领域拥有天然的大量数据积淀，从而为大模型应用提供了良好的数据基础。同时金融领域大模型的应用场景较多，基于这些不同的场景，大模型有助于从不同角度提升原有从业人员及机构的工作效率。比如大模型情绪分析的功能可帮助从业者基于投资者情绪状态预测股票的价格；大模型精确度的提升可帮助从业者预测市场走势，大模型可基于过去大量的金融数据学习预测未来市场趋势帮助投资者和金融机构做出更合理的决策；而复杂任务的处理可协助从业者将大模型用于交易策略上，通过分析大量交易信息，大模型或可识别交易中的风险参数并给出风险防控策略。1.21.2 大模型引领中国金融领域科技的国际化发展大模型引领中国金融领域科技的国际化发展因此，通过提升金融服务的效率和质量，大模型可提升我国金融机构的核心竞争力。首先大模型的自然语言理解与内容生成能力可以与用户进行多轮问答对话，提升金融客服的服务效率。其次，通过大模型进行智能数据挖掘处理，金融机构能够更快速准确地获取市场趋势的洞察，做出更明智的决策。同时，大模型可以迅速了解各国的法律、监管规定和市场动态，为金融机构提供国际化的业务洞察和决策支持，帮助中国从业者更好地理解和适应国际市场的业务需求和规则。海外金融科技公司已经在积极探索和持续深化大模型在金融服务领域的应用。Bloomberg 已推出 BloombergGPT，一个基于 500 亿参数训练的应用于金融领域自然语言处理的大模型。据研究，当前此大模型在金融任务包括金融资讯分类任务（FPB），预测特定领域的金融新闻及话题（FiQA SA），股指推理（ConFinQA）等特定任务上的表现大幅领先于现有的近似规模的开放模型2。BloombergGPT 的推出说明海外在大模型金融科技应用方面已经取得了一定的成果。除此之外，一些传统金融机构也通过基 2 Wu et al,Bloomberg GPT：A Large Language Model for Finance 6 础大模型的应用提升业务竞争力，大型国际投行 Morgan Stanley 已将 GPT-4 应用在财富管理领域打造内部智能助手从而辅助其财富管理顾问快速搜索所需资讯，高效地为客户提供服务。与此同时头部对冲基金 Citadel 也拟在全公司各条业务线中应用ChatGPT，提升业务运作效率。而我国大模型和数字金融已有较好的产业发展基础，宜抓住此轮大模型科技变革机遇，进一步提升我国数字金融国际竞争力。2023 年中央金融工作会议提出将数字金融上升到国家战略部署的新高度，而大模型等新技术将进一步扩展金融科技的发展空间。根据金融科技发展规划（2022-2025 年），目前应要抓住全球人工智能发展新机遇，深化人工智能技术在金融领域的应用。因此，我们应把握大模型技术浪潮，提升金融科技全球竞争力。7 2 2.1.1 大模型大模型在金融领域的应用挑战在金融领域的应用挑战由于金融行业的专业性、严谨性、合规性等特点，在把大模型技术应用到金融领域时，需要解决下述挑战，如图 2-1 所示。图 2-1 大模型应用到金融领域时需解决的挑战面对上述挑战，金融机构在应用大模型到金融业务场景的过程中，一般需要经过两个主要步骤：一是从通用大模型进一步训练调优出专业的大模型；二是以大模型为核心，结合金融专业知识库、金融专业工具库、智能体、安全合规组件等构成一个可满足金通用大模型的金融专业性不足金融领域具有高度的专业性，涵盖了复杂的金融理论、模型和实践，有着独特的术语内涵和表达方式。这些内容在常规的大数据训练集中往往表现不足，使得通用大模型在理解复杂的金融概念和操作上显得力不从心。通用大模型的金融情境理解能力不足通用大模型难以完成较复杂的金融指令通用大模型难以满足金融场景的定制化需求通用大模型难以满足金融领域应用的合规要求金融领域具有高度的多样性，不同的机构和场景可能有着截然不同的需求。例如，投研场景会关注实时热点分析，投顾场景需关注投资者安抚等。通用大模型无法满足这些多样化和定制化的需求，从实践来看在落地过程中还涉及到具体的定制化调优。金融市场受到严格的法规制约，包括反洗钱（AML）、客户了解程序（KYC）、数据保护法规、适当性义务等。这些法规要求金融机构在处理客户数据和执行交易时必须遵循特定的规则和程序。通用大模型可能在设计时没有充分考虑这些合规性问题，因而在应用时可能无法确保机构的业务操作符合监管要求。金融领域在交易过程中存在大量较复杂的工具指令，如限价单、止损单等，都需要精确的表达和执行。这些指令往往与特定的金融逻辑紧密相关，通用大模型如果不能准确执行这些复杂的金融指令，就很难在金融领域中得到有效应用。金融市场高度情境敏感，同一事件在不同的情境下可能释放出不同的信号。例如，某一公司发布的财务报告如果不符合市场预期，对于该公司而言可能是负面的，但对于寻求低估值入市的投资者而言却可能是一个机会。通用大模型很难精准把握这种情境下的语义差异和心理预期，这就要求模型能够更加敏感地对待金融语境和事件，需要对这些模型进行金融情境的深度训练和优化。8 融领域安全应用要求的应用系统，来支撑在金融应用各场景中的应用，如下图所示。图 2-2 大模型在金融领域落地应用路线图示意 2 2.2.2 金金融领域的行业大模型开发技术融领域的行业大模型开发技术 2 2.2.1.2.1 开发技术框架开发技术框架一个完整的大模型构建和应用流程如下图所示，包括：从数据收集和处理开始，通过领域适配训练使模型理解金融语境，然后通过性能优化确保模型的实用性和高效性，接着处理幻觉问题以提高事实性，最终实现复杂推理的能力。图 2-3 大模型开发技术框架行业行业大模型大模型应用框架应用框架（金融）（金融）基础大模型行业大模型（金融）金融专业知识注入推理、规划能力提升通识知识金融工具使用金融知识增强金融安全合规协作、多智能体等行业大模型应用框架（金融）模型部署层 XoT 2.2.6.1 智能体 2.2.6.2 内存管理 2.2.4.1 请求批处理 2.2.4.2 模型量化 2.2.4.3 数据层模型训练层参数微调低资源领域适配 2.2.3.1 与人对齐 2.2.3.2 幻觉降低实时性幻觉 2.2.5.1 忠实性幻觉 2.2.5.2 行业大模型部署与推理优化金融行业领域适配训练（2.2.3）金融行业数据收集与梳理金融数据收集 2.2.2.1 金融指令收集 2.2.2.2 金融指令增强 2.2.2.3 模型部署层大模型复杂推理 9 框架中各层主要关注的问题如下：数据层数据层：构建大模型的第一步是数据收集和处理，这涉及搜集金融领域的大量数据集，包括公司公告、金融新闻、投资研报等。此外，为了使大模型具备处理下游各类金融任务的能力，还需要收集多样的、高质量的金融指令数据。模型训练模型训练：此处主要关注大模型领域适配训练，通常包括有监督的参数微调和对齐技术，以调整模型对金融术语、概念和上下文的理解，使其更好地适应金融行业需求，并符合人类价值观。此外，还需要考虑到低资源条件下领域适配技术，以满足实际应用中成本和条件的要求。模型部署模型部署：金融应用中模型的快速响应至关重要。需要考虑在特定的硬件资源下，如何提高模型的推理效率，从而改善用户体验和决策支持的实时性。复杂推理复杂推理：金融场景的复杂推理能力是大模型的高级功能，允许模型进行多步推理和决策支持，这通常涉及到构建复杂的推理链、使用情景模拟和智能体决策技术等。幻觉降低幻觉降低：金融领域的高准确率和事实性要求，需要大模型能够有效处理幻觉问题以降低误导性决策风险，这包括开发和应用技术来识别和纠正模型在生成预测或解释时可能产生的忠实性幻觉和事实性幻觉等。2 2.2.2.2 2 金融数据收集与梳理金融数据收集与梳理 2.2.2.1 2.2.2.1 金融数据集收集金融数据集收集金融数据集的构建是一项综合性工程，涉及预训练数据、指令数据和安全数据这三种主要类别（如表 2-1 所示），每一类别的数据都对大型金融语言模型的训练起到不可或缺的作用。10 数据类别描述主要数据来源具体描述预训练数据负责为模型输送必要的语境认知、语言结构理解以及广泛的知识背景。在金融领域的大型模型预训练过程中，引入专业金融数据是至关重要的，它确保了模型能够准确把握金融行业特有的知识和表达风格，与通用大模型不同，金融语料往往存在获取困难，数据非结构化等特点企业财务报告包括但不限于财务报表、盈利预测和负债情况等。这些数据主要来源于公司的年度和季度报告，可通过上市公司的公告、证券交易平台以及金融数据服务供应商获得。使用这些数据需对表格、图表等进行转换，以便模型能够解析和理解其结构化的数据格式金融领域学术论文与书籍这些文献深入探讨金融理论的基础知识，包含专业教材、投资指南、个人理财策略、经济学原理等内容。这些资源可以通过学术数据库或图书馆访问行业分析报告及市场研究这类报告提供关于特定行业或市场的深入分析和洞见。源自金融咨询公司和市场研究机构的报告往往需要通过商业采购来获取金融产品说明诸如基金投资策略、保险条款等介绍性资料，这些信息多由券商、基金公司以及保险产品供应商提供指令数据构建金融指令集的目的是使人工智能模型适应金融领域的专业性和复杂性，增强对金融术语、计算、规范的理解与应用能力。这为用户提供精准、合规的专业建议和决策支持，同时满足特定金融角色的需求，推动金融多样化服务金融知识指令覆盖金融、投资、经济、会计等基础理论，和针对保险、基金、证券等具体金融产品和服务的行业应用知识，金融知识指令有助于提高模型在处理专业金融问题时的准确性和专业表达金融计算指令包括财务分析和复杂计算公式的操作，金融计算指令不仅要求大模型具有数值计算能力，并且需要有将金融问题转化为计算问题的理解能力，相关指令可以使模型具备执行精确计算的能力，帮助用户做出更好的财务决策 11 金融遵循指令金融行业受到严格的监管和合规要求，具有高度专业与严谨的特性。金融遵循指令确保输出内容符合金融行业规范和写作标准金融角色指令大模型的应用受众包含专业的投资研究员以及非金融专业用户，通过构建不同的金融角色，如投资顾问、分析师，基金经理等，在构建具体应用时可以使模型更好地服务于特定的用户群体。安全数据大模型在提升知识与表达能力的同时，需要具备安全底线，不能表达不符合金融、人道价值观的问题，也不能出现频繁拒答的情况，从而误导用户，这一部分的数据构建往往需要具备专业金融知识的专家协助拒答数据集此数据集确保在大模型遇到敏感议题、潜在的隐私泄露风险、法律合规约束，以及可能导致误解的金融咨询请求时，能够恰当地选择不予回答。构建此数据集的挑战在于准确定义拒答的边界，确保模型在遵循合规性的同时，依然能够提供有价值的信息。该数据集需定期更新，以确保其内容与最新的监管政策和行业规范同步金融价值观该数据集涵盖了与金融行业伦理标准和法律规定相契合的案例、规章及导则，旨在训练大模型在提供咨询服务时，确保输出内容符合行业的合规性标准例如，模型在未持牌的情况下，应避免提供具体的投资建议、预测市场走势或对板块、市场、股指未来点位进行预判，同时不得对国内市场进行不当描述表 2-1 金融数据集类别 2 2.2.2.2.2.2.2 金融指令数据集构建与增强金融指令数据集构建与增强高质量金融指令数据集的构建对大模型在金融领域的应用高质量金融指令数据集的构建对大模型在金融领域的应用效果提升效果提升非常重要非常重要。大模型在特定场景中应用时，其核心能力之一是对人类指令的准确响应，以提供与人类意12 图和价值观一致的反馈。这一能力依赖于有监督微调，即使用成对的（指令，响应）数据对模型进行进一步训练。这种训练方法以“遵循用户指令”为目标，约束模型输出，以确保其在处理请求和查询时的行为符合预期。在金融领域，准确和专业的数据对于风险评估和决策至关重要，当前金融数据非标准化和碎片化问题如数据类型和格式的混杂、知识来源的分散，制约了大模型的应用效果。金融指令数据集构建主要金融指令数据集构建主要面对数据质量不一和高质量数据稀缺的挑战面对数据质量不一和高质量数据稀缺的挑战。指令微调数据集的发展历程如图 2-4 所示。当前技术解决方案主要在两个方向寻求突破：一是指令生成技术的创新，通过设计预期形式和自动化方法（如自动化的指令生成器）来批量生成高质量数据；二是指令处理技术的改进，旨在优化数据筛选和构建过程，确保即便在低质量数据的情况下也能有效微调。通过上述策略，大模型能够更准确、有效地处理复杂金融场景中的指令，提升其在实际金融应用中的可靠性和专业性。图 2-4 指令微调数据集的发展历程发展初期提出数据集构建原则指令形式创新围绕构建高质量指令微调数据集，产生了多项工作。例如，LIMA（Less Is More for Alignment）提出了一种对齐原则，侧重于提供对人类指令有帮助的、能充分传达相关事实、知识和信息的高质量指令数据。基于这种原则，LIMA 构建了一个小型但高质量的数据集，其回答受到人类更大的偏好。Dromedary则采取了另一种基于原则的指令微调方法，强调生成详实可靠、符合道德标准的回答。随着指令微调数据集的研究深入，新的指令形式被提出。Orca项目引入了“足迹解释”和“逐步思维过程”等信号，通过精心筛选构建的指令数据集，更深入地学习大语言模型的推理过程。“Textbooks Are All You Need”则提出了一种新颖的指令集收集方式，重点关注于代码领域，通过构建一个小型的、教科书式由易到难得高质量数据集来达到超越大型模型的性能。Tulu探索了混合不同质量数据源的模型表现，发现提高指令多样性能有效提升指令微调效果。指令微调技术的发展始于2021 年 4 月发布的“Super Natural Instructions V1”数据集。这一数据集首次提出了包含 76 种不同类型的1616 个自然语言处理任务的指令数据集。其任务实例格式基于成对的（输入、输出），其中输入代表人类指令，输出代表模型的期望回答。在此数据集上进行微调的模型不仅能理解定义特定任务的人类指令，还能泛化到训练中未见过的其他任务的人类指令。随后，基于该思路，还出现了如 FLAN等数据集，这些数据集进一步扩大了任务种类和数量，以提高模型的表现。13 自动化指令生成技术正成为当前解决数据分布不平衡和质量参差不齐等问题的关键自动化指令生成技术正成为当前解决数据分布不平衡和质量参差不齐等问题的关键。如图 2-5 所示，主要包括自指令方法、进化指令和指令适应等技术。这些发展展示了自动化金融指令数据生成技术在提高模型在复杂任务中表现、降低人工成本、以及提升数据生成多样性和质量方面的重要作用。随着这些技术的不断进步，可以预见大模型可以更好解决在金融应用中的数据稀缺挑战。图 2-5 自动化指令生成技术进展 2.2.3 2.2.3 金融领域适配与参数微调金融领域适配与参数微调在大模型的适配应用中，微调技术扮演重要角色。通过微调，大模型不仅保留了模型在预训练期间获得的广泛知识，还能够细致地适应金融领域的具体需求。金融领域对模型的能力要求尤其严格，不仅要求模型理解复杂的金融术语和原则，还要求在日益复杂的监管环境中做出合规的决策。通过微调，大模型在学习了通用数据的基础上，进一步吸收了特定金融任务的细节。这种精确调整模型参数的技术确保模型的输出不仅精确，而且符合金融行业的高标准和法规要求，这对增强金融机构的信任度、降低运营风险以及提高决策效率至关重要。本节主要关注高效参数微调和与人对齐的微调技术。这些微调技术的应用，确保了大自指令方法进化指令的发展指令适应的创新进化指令（Evol-Instruct）使用规则生成复杂指令的方法。通过深度进化和广度进化的策略，它要求大语言模型生成更为复杂且多样的指令。实验证明，Evol-Instruct 生成的指令数据集比 Self-Instruct 的更加多样和复杂，适用于更复杂的下游任务。基于 Evol-Instruct 的WizardLM 等项目尝试应用于特定领域，如编程和数学，展示了在金融等垂直领域应用的潜力。指令适应（Ada-Instruct）针对Self-Instruct和Evol-Instruct 在领域下游任务分布对齐方面的不足提出了改进。它通过少量下游任务数据微调预训练大模型，生成更适合特定下游任务的指令。这种方法不仅保持了高质量和多样性，还实现了与下游任务分布的高度对齐，为推动大模型在金融领域的应用落地提供了可能性。自指令方法（Self-Instruct）通过prompting，利用少量高质量种子指令数据集作为点，自动地从模型本身生成新的指令信号。通过迭代，逐步丰富指令池，并确保指令池的多样性。这种方法大幅降低了人工参与成本。基于 Self-Instruct技术的 Stanford Alpaca和 Code Alpaca 等工作关注于领域内的指令生成，成为大模型应用的重要技术。14 模型在在有限的算力资源下，专业性、精确性、伦理性和实用性方面都能达到更高的标准，为金融行业的发展提供强有力的技术支持。2 2.2.3.1.2.3.1 高效参数高效参数微调微调在金融行业中，尤其是在资源有限或对计算成本敏感的环境下，高效参数微调（Parameter-efficient fine-tuning，PEFT）技术允许即使是小型机构也能利用先进的大型预训练模型来强化其数据分析和决策过程。通过优化计算资源的使用，高效参数微调降低了大模型进入门槛，使得大模型能够在不牺牲性能的前提下快速适应金融特定任务。这使得缺乏大规模计算能力的用户也能从大模型中受益。PEFT 技术中三种常见方法如下图的简要介绍。图 2-6 PEFT 常见方法未来，PEFT 技术的发展可能集中在提升重参数化方法的泛化能力和表达能力，以及探索基于多层 Transformer 的自适应微调方法，以进一步提高模型在特定领域如金融的准确性和效率。2 2.2.3.2.2.3.2 与人对齐与人对齐技术技术增量微调部分微调即选择性地微调一部分参数，例如仅微调神经网络的顶层或特定层。BitFit方法是一个例子，只微调极少部分模型参数，例如仅 0.05%，就可以取得良好效果。部分微调的优势在于其低成本和减少推理时负担，但在大规模模型上，其效果可能与完全微调仍有一定差距。重参数化通过数学上的低秩近似将大规模权重矩阵分解为更小的矩阵，将原模型参数冻结而微调新的矩阵，从而减少所需训练参数的数量。LoRa 是此方法的一个典型例子，它将权重矩阵分解成两个低秩矩阵的乘积。这种方法在保持模型性能的同时，显著降低了计算资源需求，尤其适用于处理拥有数十亿甚至更多参数的大模型。增量微调通过在原模型中添加少量额外参数来实现微调，这些参数提供新的模型表达能力，而不干扰已有知识结构。Adapter 方法是一种常见的增量微调技术，它通过在模型的attention 和 FFN 层之后添加全连接网络来实现。Soft prompt 技术则将提示（prompt）视为可训练参数，转化为在连续空间的优化问题。然而增量微调方法的可学习参数空间较小，因此影响了模型的效果。部分微调重参数化 15 与人对齐的微调则专注于提升模型的道德和社会意识，确保其输出不仅在技术上先进，而且在伦理和价值观上与人类社会的期望保持一致。在金融领域，这意味着模型生成的预测或决策不仅要准确、可靠，还要公正、透明，并且符合行业规范。随着人工智能决策在经济和社会层面的影响日益增大，确保模型行为符合人类价值观变得更为重要。与人对齐的微调可以减少偏见、提高模型的普遍接受度，建立金融服务中更强的信任和可靠性。通过对齐，大模型能更好地服务于人类，提高决策质量，降低风险，增强客户信任。基于强化学习和人类反馈训练的对齐技术：基于强化学习和人类反馈训练的对齐技术：RLHF(Reinforcement Learning from Human Feedback)是一种结合了监督学习和强化学习的技术，目的是根据人类反馈优化模型的行为。该技术被 OpenAI 用于 ChatGPT 的与人对齐，是最广为人知的对齐技术之一。这一过程涉及结合监督微调和强化学习来训练模型。监督微调使用人类注释的数据来教导模型期望的行为。然后，强化学习根据人类反馈细化这些行为，鼓励模型生成更符合人类偏好和指令的响应。RLHF 使用了 PPO（Proximal Policy Optimization）作为强化学习算法，用于将奖励模型的分数作为反馈来调整模型的行为。RLHF 的关键在于它将人类的直观判断和反馈直接融入模型的训练过程中，使模型能够更好地理解并遵循人类的价值观和意图。对强化学习的化简：对强化学习的化简：基于 PPO 的 RLHF 存在代价高、训练困难等问题。因此，后续的方法关注如何改进 PPO 策略，以获得代价更低、更稳定的结果。RAFT(Reward Aligned Fine Tuning)通过使用奖励函数排名的样本来替代 PPO，这种方法计算效率更高，避免了标准强化学习算法所需的繁重梯度计算。RAFT 在平衡奖励与生成质量方面表现出色。DPO（Direct Preference Optimization）同样简化了复杂且不稳定的 PPO 过程，直接使用基于人类偏好的二元交叉熵目标来优化语言模型策略。这种方法消除了对显式奖励建模和强化学习的需求，使其更稳定、性能更好且计算效率更高。CoH(Chain of Hindsight)简化了奖励函数和强化学习，将所有反馈转化为句子并对模型进行微调来学习。这种方法让模型能从正面和负面的反馈中学习，提高了模型识别和纠正错误的能力。16 总体来说，这些方法都旨在通过不同方式确保大模型在决策支持、风险评估和预测等方面能够反映人类的价值观和伦理原则，从而提高模型的社会接受度和信任度。2 2.2.4.2.4 大模型推理大模型推理大模型推理是指使用训练好的模型对新输入数据进行理解、总结、生成及预测的过程。由于金融领域的行业特殊性，大模型推理往往对速度及吞吐量有较高的要求。首先，金融行业具有时效性和实时决策性。金融市场的动态变化迅速，股票价格的波动、市场新闻的发布、政策变动等都可能影响最终决策，而传统人工需要花费大量精力做到实时响应，但大模型则能够快速地进行推理，以便在关键时刻提供准确的结论。其次，优质的用户体验是金融服务成功的关键因素。广义上的用户不仅包含使用金融终端应用的普通用户，也包括研究员、基金经理等广大从业人员。大量高频的请求也使得大模型推理服务需要具备较大的吞吐量，从而处理尽可能多的数据来提升用户体验。本节主要从内存管理、请求批处理、模型量化这三个角度阐述推理优化技术。2 2.2.4.1.2.4.1 内存管理内存管理在大型语言模型，特别是基于 Transformer 架构的模型中，内存管理技术能有效提高推理效率和降低资源消耗。Transformer 的 Attention 机制虽然能精确捕捉上下文关系，却在推理过程中消耗大量的时间和空间资源。因此，内存管理技术主要解决在如何高效管理 GPU 内存空间的问题，特别是 Attention 操作的内存需求。内存优化基本思路。内存优化基本思路。内存管理的基本策略是利用现代 GPU 的内存层次结构，包括 SRAM和 HBM，来优化大模型的推理服务。不同类型的内存有其特定的优缺点，例如 SRAM 虽内存小但速度快，而 HBM 则内存大但速度较慢。有效的内存管理策略旨在平衡这些内存类型的特性，优化数据存取效率。17 图 2-7 内存优化方法 2 2.2.4.2.2.4.2 请求批处理请求批处理传统批处理采用静态批处理（Static batching）方式，批大小在推理完成之前保持不变。因此在之前的请求没有处理完毕时，当前的请求必须一直等待。这种处理方式的吞吐量较低。为了解决这一问题，动态批处理和和连续批处理技术被提出。图 2-8 动态批处理和连续批处理方法 2 2.2.4.3.2.4.3 模型量化模型量化模型量化是一种高效的网络参数压缩方法，它通过将神经网络的参数和状态从 32 位或 16 位浮点数转换为更低的精度（例如 8 位或 4 位），来提升推理速度并减少显存占用。量化降低了单位数据的位数，从而减少了计算过程中的 IO 通信量，使得通过增FlashAttention 是一种典型的基于SRAM 的优化技术。SRAM 作为片上内存，虽内存容量有限（如 A40 的 20 MB），但运算速度极快（可以达到 19 TB/s）。FlashAttention 通过将 Attention 操作的计算从 HBM 转移到 SRAM，实现分块计算和算子融合。这样不仅减少了对HBM 的 IO 读写需求，还有效克服了内存交换带来的计算瓶颈，节省内存的同时提高了推理速度。PagedAttention 是一种典型的基于 HBM 的优化技术。HBM 作为传统显存，容量较大（如 40 GB）但运算速度较慢（如 1.5 TB/s）。在大模型推理过程中，KV cache 保存当前上下文以预测下一个单词，但其大小高度可变且不可预测。PagedAttention 通过在非连续内存空间中存储连续的 key 和 value，解决了由于内存分配不当（如碎片化）导致的 HBM 内存浪费问题。这使得相同的 HBM 空间可以支持更大的批处理大小，极大提高了系统的吞吐量。基于 HBM 的内存优化动态批处理与静态批处理相比，动态批处理（Dynamic batching）会在新的请求到来时将模型的输入填充到相同的长度并加入到批次中，以提高 GPU 的利用率。然而，批请求的输入中填充长度影响了内存利用率。连续批处理（Continuous batching）通过细粒度的调度和内存优化技术有效地解决了静态批处理和动态批处理中存在的问题。这类技术方案允许请求根据需要加入或离开批次，从而消除了对请求的输入进行填充的需求。vLLM 实现了连续批处理。在 vLLM 中，新到来的请求会抢占现有请求的生成过程以进行提示词处理（prompt processing）。DeepSpeed-FastGen 同样实现了连续批处理，不同的是 DeepSpeed-FastGen 会将长的提示词分成小块，并在多个前向传播中进行调度，在最后的前向传播时执行生成过程。连续批处理基于 SRAM 的内存优化 18 加批大小的方式进一步提高模型推理的吞吐量。量化方法根据实施时机的不同，可分为训练中量化和训练后量化。图图 2-9 模型量化技术 2 2.2.5.2.5 幻觉问题与缓解策略幻觉问题与缓解策略在金融领域应用中，大型语言模型面临的一个重要挑战是幻觉问题，尤其是内容的非忠实性（Faithfulness）和非事实性（Factualness）。这些幻觉影响模型输出的可靠性，对基于这些输出的决策产生负面影响。因此，有效缓解幻觉对于确保金融领域的精准实施与严谨推理至关重要。幻觉的定义：幻觉的定义：一般可分为事实性幻觉和忠实性幻觉两类：事实性幻觉事实性幻觉：指生成内容与可验证的现实世界事实之间存在差异，如事实不一致或捏造。忠实性幻觉忠实性幻觉：指生成回答与用户意图不一致，如指令不一致和上下文不一致。幻觉的产生源自大模型开发的多个流程，如下图所示。训练中量化训练中量化（Quantization-Aware Training），也被称为在线量化，需要在量化的同时结合反向传播对模型权重进行调整。这种方法利用额外的训练数据以保留预训练数据的分布特征。例如，LLM-QAT 是一种用于大模型压缩的先进技术，它通过利用预训练语言模型本身生成的数据，更好地保存了数据的分布特征。与基于 RTN（round-to-nearest）的方法相比，LLM-QAT 在多个指标上显示了显著的优势。训练后训练（Post-Training Quantization），也称为离线量化，是在已训练的模型上进行的，通常使用少量或不使用额外数据进行模型量化过程的校准。GPTQ 是 PTQ 中的一项著名技术方案，它基于早期的 OBD（Optimal Brain Damage）方法开发。OBD 是一种剪枝方法，通过去除影响目标最小的参数来减少模型参数。GPTQ 在此基础上应用了懒批次更新和乔列斯基分解，克服了通信带宽的瓶颈并减少了计算量。这使得GPTQ 能够在短时间内将大模型高效、精确地压缩到低精度。训练后量化智能体将根据问题的性质和需求，设计出一个解决问题的框架或计划。这个框架或计划可以来自于专家的经验，也可以通过搜索类似问题的解决方法来生成。预训练阶段 19 图 2-10 幻觉的产生原因 2 2.2.5.1.2.5.1 事实性幻觉的缓解策略事实性幻觉的缓解策略针对大型语言模型在金融领域应用中遇到的事实性幻觉问题，以下是一些有效的缓解策略：高质量数据集的使用高质量数据集的使用：通过使用高质量、专业领域的数据集，如维基百科和textbook-like数据源，可以提高模型在事实方面的准确度。还可以向上采样事实性强的数据，提升数据集中准确信息的比例，以增强大模型的事实性。诚实导向的微调（诚实导向的微调（HonestyHonesty-oriented SFToriented SFT）：在训练数据中加入模型无法回答问题的实例（如“Sorry,I dont know”），培养模型自我边界认知能力。旨在减少模型在不确定情况下的过度自信，但需注意避免过度拒识的风险。强化学习（强化学习（RLHFRLHF）：通过设计针对幻觉的奖励分数，在 RLHF 阶段优化模型。能有效减轻幻觉，但也可能使模型过于保守，削减其能力。对比解码（对比解码（Contrastive Decoding,CDContrastive Decoding,CD）：利用更强大模型和较弱大模型在单词预测概率上的差异作为关键决策依据。优先选择预测概率差异较大的单词，生成流畅、词汇丰富且内容连贯的文本。指令微调训练阶段智能体将根据问题的性质和需求，设计出一个解决问题的框架或划。这个框架或计划可以来自于专家的经验，也可以通过搜索类似问题的解决方法来生成。对齐训练阶段推理阶段智能体将根据执行阶段的答案或解决方案，生成一份完整的报告或解读。这个过程可能涉及到信息的整合、思想的澄清和语言的优化等。智能体将对表达阶段的报告或解读进行评价，检查其准确性、合理性和完整性，并提出修改意见。20 对比层解码（对比层解码（DoLaDoLa）：通过对比不同变换器层的输出来提高语言模型的事实性。该方法利用了一个观点：事实知识在语言模型的较高层中更为突出。通过比较高层和低层的输出，并强调高层的知识，DoLa 减少了幻觉，提高了生成内容的真实性。这些策略涵盖了从数据质量改进到微调方法创新，以及解码策略优化等多个方面，旨在全面提升大模型的事实性。特别是在数据集选择、训练策略设计以及推理过程优化方面，这些方法可以有效减少幻觉，增强模型输出的可靠性和准确性。2 2.2.5.2.2.5.2 忠实性幻觉的缓解策略忠实性幻觉的缓解策略忠实性幻觉影响着模型的可靠性和准确性。以下是几种有效的缓解策略：思维链（思维链（ChainChain-ofof-Thought,CoTThought,CoT）：）：通过引导大型语言模型展开详细的推理过程，思维链技术提高了模型在复杂问题上的逻辑性和连贯性。这种方法特别适用于大规模模型，能有效提升推理的准确性。上下文预训练和检索增强：上下文预训练和检索增强：上下文预训练通过优化训练数据的组织方式，增强了模型对上下文的理解能力。检索增强（RAG）则通过结合外部知识源，增强了模型的信息检索和整合能力，从而提升了其在复杂任务中的表现。这些策略从不同方面缓解了忠实性幻觉问题，提高模型输出的忠实度和可靠性，进而增强在金融领域等专业应用中的实用性。2 2.2.6.2.6 金融领域复杂推理金融领域复杂推理 2 2.2.6.1.2.6.1 思维链增强方法思维链增强方法思维链被认为是一种开创性且最具影响力的提示工程技术，它指引大模型提供中间多步推理过程来获得最终结果。但是，这种常规的线性链式结构一定程度限制了对金融领域的复杂任务上的推理能力，于是需要进一步采用思维链增强方法来提高大模型在21 金融领域的推理能力。方法类别具体描述思维链结构变体方法常规的线性链式结构一定程度限制了对金融领域的复杂任务上的推理能力，于是可采用程序语言或算法（Algorithm-of-Thought）代替自然语言，利用程序算法作为推理链条；为进一步拓展思维链探索广度，构造思维树结构（Tree-of-Thought），使用树搜索算法对不同推理路径进行探索；对于更复杂的金融任务，引入图拓扑结构（Graph-of-Thought），进行信息聚合和多路径推理，以获得更通用、更全局的推理视角。思维链推理结果验证方法一方面，对思维链每一个金融分析和推理步骤进行细粒度校验，通过演绎推理检验前后推理的一致性，即前向推理验证。另一方面，根据金融问题和模型的预测结果来反向推理其发生条件，通过比较推测出的条件与真实条件的一致性来判断推理的正确性，即反向推理验证。Google 提出的 Self-Consistency 方法生成多个答案候选，并在其中寻找一致性，最终选择最一致的答案，可有效提高大模型在金融知识问答和文本补全等任务上的性能。思维链推理过程验证方法与推理结果验证方法相对，该方法专注于推理链中每一个单独的推理步骤的效验。例如，Self-Check 方法通过对推理过程的每一步进行验证来确保逻辑的严密性；GRACE 方法则进一步优化这种验证，通过引入额外的校验机制提高推理的可信度。思维链问题分解方法对于复杂金融推理任务，可采用自顶向下的问题分解策略，将一个复杂问题分解成若干个子问题，然后逐一解决从而得到最终答案。另一种常用方法是采用一种迭代分解策略，每次迭代分解

展开阅读全文