大模型在金融行业的落地探索.pdf

资源描述

1、-大模型在金融行业的落地探索大模型在金融行业的落地探索祝世虎CONTENTS目录目录数字化转型助力大模型数字化转型助力大模型0 05 55 5金融机构眼中的大模型技术金融机构眼中的大模型技术0 04 4大合作、大创新、大共存大合作、大创新、大共存0202大数据、大模型、大风控大数据、大模型、大风控0101关注问题：后发劣势、可解释性、社会智能等关注问题：后发劣势、可解释性、社会智能等0303数据信托助理大模型数据信托助理大模型0606大模型治理大模型治理0707CONTENTS0101大数据、大模型、大风控大数据、大模型、大风控数据概念辨析数据概念辨析0101数据数据标签标签特征特征信息信息

2、数据加工数据加工用途加工用途加工人脑人脑1.概念辨析：数据、标签、特征、信息2.信息的贡献度：数据模型3.数据与大数据的辨析：直接数据与间接数据3.1 3.1 大数据、大模型、大风控大数据、大模型、大风控0101大模型定义大模型定义自然-机器智能将大模型定义为网络参数规模达到亿级以上的“预训练深度学习算法”大模型通过海量数据的训练学习，具备了强大的语言理解和表达、思维链推理等能力，在文本图像理解、内容生成等AI任务表现出显著优势和巨大潜力大模型的大模型的“智能类型智能类型”大模型通过文本语言等训练的模型，是一种感知智能，不是决策智能，更不是计算智能感知智能：基于Bayes公式决策智能

3、：基于先验概率计算智能：基于计算公式大模型是一种生产力的提升大模型是一种生产力的提升“电力电力智力智力”我们必须跟随时代潮流，逆潮流必然被淘汰敌对的人：不屑坚决限制迷茫友好的人：好奇尝试学习使用大模型与传统模型的未来趋势：由共存到超越大模型与传统模型的未来趋势：由共存到超越先共存：受制于计算复杂度高、可解释性差等问题，大模型会与传统模型会共存；共存方式：大模型为中控，可解释性可解释性模型为外围后超越：随着大模型复杂度降低、可解释性增强，大模型将逐步替代传统模型3.1 3.1 大数据、大模型、大风控大数据、大模型、大风控01011要点2要点3要点智能风控：能够精准计量风控风险、利润、客

4、户的最优化管理是一个体系，是为银行战略战略服务客户主标尺风险主标尺智能风控智能风控大风控大风控不是传统的不是传统的“全面风险管理全面风险管理”不仅仅是体系化：不仅仅是体系化：风险传播体系风险传播体系数据模型体系数据模型体系技术实现（下一代）：传播的刻画技术实现（下一代）：传播的刻画I传统风控传统风控传统风控认为风险就是不确定性用流程管控风险用资本抵补来管理风险模型、压力测试等均为工具“场景之外场景之外”风险风险“场景本身场景本身”风险风险“场景之内场景之内”风险风险客户本身风险客户本身风险客户信用风险客户欺诈风险场景级别风险场景级别风险场景经营风险场景欺诈风险场景交易风险场景客群偏

5、差风险场景特定风险宏观级别风险宏观级别风险场景集中度风险场景“逆周期”风险场景“灰犀牛”风险场景“战略违约”风险传导机制：还款意愿小小尺尺度度风风险险大大尺尺度度风风险险系统性：系统性：大尺度和小尺度之间存在关系复杂性：复杂性：由小尺度数据特征的动态非线性和随机关联可解释性可解释性：传播因子（阻碍因子）、传播路径SCIembAI跨尺度系统智能介尺度的多模态建模方法CONTENTS0202大合作、大创新、大共存大合作、大创新、大共存大合作大合作0202金融业的金融业的AI公司公司银行与银行与AI公司合作开发公司合作开发适合自己的大模型适合自己的大模型头部头部AI公司公司基础大模型基础大

6、模型金融业金融业/银行业银行业大模型大模型任务任务大模型大模型大数据整合：银行内部大数据的整合银行外部大数据的补充大算力合作：非核心竞争力的专业能力一定要外包云上大模型实现垂直领域的精调模型迁移大模型能力结合行内大数据与知识库以银行的小规模算力打造轻量级推理模型（精调模型）大大合合作作大创新大创新0202智能风控、反欺诈、反洗钱智能风控、反欺诈、反洗钱智能OA智能写文稿智能运营其他垂直领域的金融应用其他垂直领域的金融应用弱化人类情感投资分析与预测投资分析与预测责任客服 VS 非责任客户保险公司的产品推荐

7、提升客户粘性智能客服机器人智能客服机器人标注样本写代码写算法环境感知大共存大共存0202大大共共存存由共存到超越共存：大模型随通用能力增强，将逐步超越传统模型的能力，但受制于计算复杂度高、可解释性差等问题，短期内，大模型和传统模型会共存。共存方式：大模型可作为中控，将传统模型作为技能进行调用。超越：随着若大模型计算复杂度降低、可解释性增强，综合性价比来看，大模型将逐步替代传统模型CONTENTS0303关注问题：关注问题：1.1.后发劣势后发劣势2.2.可解释性可解释性3.3.社会智能社会智能4.4.“类征信类征信”避免避免“后发劣势陷阱后发劣势陷阱”0303

8、数据基础数据基础要“俯首甘为孺子牛”，做大量的、耗时间的的数据工作，以实现对模型的效能的提升要“横眉冷对千夫指”，要做革命性的、基础性的科技改造来实现业务全流程的互联互通，进而实现对业务的敏捷支持科技整合科技整合要“甘做无名英雄”，逐步建立算法研究能力，进而“随风潜入夜，润物细无声”的实现智能风控对业务完美支持算法研究算法研究“后发劣势陷阱后发劣势陷阱”缺乏业务的实践经验缺乏业务的实践经验对智能风控体系建设的要点理解并不充分对智能风控体系建设的要点理解并不充分选择性模仿表面、容易实现和出成果的部分选择性模仿表面、容易实现和出成果的部分其余问题其余问题0303类征信类征信持牌？平均智能平

9、均智能中小银行备受挑战可解释性可解释性弱化可解释性白盒套黑盒CONTENTS0404金融机构眼中的大模型技术金融机构眼中的大模型技术金融机构眼中的金融机构眼中的AIAI技术技术0404机器学习算法机器学习算法深度学习、强化学习、自然语言处理自然语言处理自然语言处理词嵌入、句子嵌入、编码-解码、注意力模型知识图谱知识图谱对贷款信息、行业信息建立关系挖掘模型，通过机器学习进行模型训练计算机视觉计算机视觉人脸识别、票据识别、场景识别智能语音智能语音问答、咨询、理财、查询；身份识别、智能客

10、服、智能理赔等生物特征识别生物特征识别客户身份验证、远程开户、刷脸支付等场景金融机构眼中的大模型能力金融机构眼中的大模型能力0404人机交互能力人机交互能力覆盖审计、财务、客服、营销、承保理赔等多个保险领域业场景一岗多能一岗多能贯穿远程银行全条线业务工作内容，覆盖事前运营、事中辅助和事后质检等环节生成式能力生成式能力代码生成内容生成金融机构眼中的大模型技术金融机构眼中的大模型技术发展历程发展历程0404基于Transformer的预训练语言模型(无标签数据预训练模型)使用编码器-解码器架构，并通过大规模平行语料库进行训练基于Tra

11、nsformer的预训练语型基于规则和统计模型的方法来处理语言翻译通过学习语言中的概率分布来预测下一个单词或字符Transformer模型语言建模与序列到序列学习神经机器翻译(NMT)统计机器翻译(SMT)基于自注意力机制的神经网络模型GPTGPTBERT金融机构眼中的大模型缺陷金融机构眼中的大模型缺陷0404智能缺陷：智能缺陷：感知智能而非决策智能感知智能而非决策智能技术缺陷：技术缺陷：人工智能算法固有缺陷人工智能算法固有缺陷数据安全缺陷：数据安全缺陷：多个环节存在合规问题多个环节存在合规问题通过文本语言等训练的模型，其智能类型是受限的，可见ChatGPT只不过是一种感知智一种感知

12、智能，不是决策智能，更不是计能，不是决策智能，更不是计算智能。算智能。感知智能：基于感知智能：基于BayesBayes公式公式决策智能：基于先验概率决策智能：基于先验概率计算智能：基于计算公式计算智能：基于计算公式智能缺陷就是ChatGPT的使用边界。例如，在金融机构中，ChatGPT不是决策智能，用于风险决策受限；ChatGPT不是计算智能，用于资本计量受限；ChatGPT是语言领域的感知智能，可以以文字助手的身份嵌入大部分和文本相关的工作。九九博士博士：量化：量化、风控试错、风控试错一是，算法黑箱。由于算法模型的黑箱运作机制，其运行规律和因果逻辑并不会显而易见的摆在研发

13、者面前。二是，算法鲁棒性。算法运行容易受到数据、模型、训练方法等因素干扰，出现非鲁棒特征。可能会有针对性的病毒可能会有针对性的病毒产生产生。三是，算法歧视。算法以数据为原料，如果初始使用的是有偏见的数据，无形中会导致生成的内容存在偏见或歧视，引发用户对于算法的公平性争议。歧视主要来自资本绑架歧视主要来自资本绑架，体现为训练样本数量。体现为训练样本数量。1.在个人信息收集阶段，当用户在使用ChatGPT时，会输入自己的个人数据，依据个人信息保护法强调单独授权。2.在个人数据的加工使用阶段，ChatGPT使用了RLHF的训练方法，用户使用过程中的输入和交互信息可能会用于其持续迭代训练，进一步被用于

14、为其他用户提供服务，可能构成数据共享，这时已与用户初最初使用目的相悖，根据个人信息保护法需要重新授权。3.训练数据的获取。ChatGPT通过抓取互联网上的信息，可能存在合规问题。4.数据泄漏。用户在使用过程中输入个信息，以及企业用户输入的各类工作相关信息，可能导致公司敏感信息泄露。5.算法缺陷导致数据主体行权困难。如更改权、删除权、访问权等行权困难。网络安全风险技术同质性风险学习局限性性风险系统安全与稳定性CONTENTS0505数字化转型助力大模型数字化转型助力大模型生产关系适应生产力的发展生产关系适应生产力的发展0505生产力与生产关系生产力与生产关系生产力决定生产关系生产关系要适应生产力

15、的发展生产关系会反作用于生产力经济基础决定上层建筑金融领域转型的三要素体现为：金融领域转型的三要素体现为：金融机构的生产资料：【1】掌握先进生产力的人【2】数据金融机构的生产力：【1】新业务【2】新科技金融机构的生产关系：【1】部门边界【2】资源分配2021年国务院关于构建更加完善的要素市场化配置体制机制的意见，首次将数据要素与土地、劳动力、资本、技术等市场要素相并列。技术的转型、金融科技转型、银行的三次转型技术的转型、金融科技转型、银行的三次转型 05052 2金融科技转型金融科技转型人民银行科技司司长李伟：金融科技，始于数据，兴于技术，稳于制度，成于价值观始于数据，兴于技术，稳于制度，成

16、于价值观技术转型技术转型1 1电子银行3 3银银行行转转型型“流程银行流程银行”转型消失匿迹：转型消失匿迹：起于“效率效能效率效能”，止于“部门边界部门边界”“数字化银行数字化银行”转型应运而生：转型应运而生：内外因结合，科技与业务并举，划清部门边界内外因结合，科技与业务并举，划清部门边界Kevin KELLY：技术的冲突掌握技术的人群的冲突掌握技术的人群的冲突资源和利益的冲突资源和利益的冲突生产关系的更迭外外因因新技术革命新技术革命互金的跨界冲击互金的跨界冲击客户的觉醒客户的觉醒疫情疫情内内因因效率效能效率效能从规模导向到价从规模导向到价值导向、精细化值导向、精细化导向导向科技科技范畴

17、范畴数据数据技术技术业务业务范畴范畴新市场：新市场：新客户：新客户：新业务：创新产品服务新业务：创新产品服务部门边界部门边界数据、人员分配数据、人员分配边界合理、清晰边界合理、清晰电子银行部的成功与失败？电子银行部的成功与失败？理论上，没有任何一个业务属于电子银行部；实践上：好像什么都能做，但没有什么自己能说的算明确边界：渠道平台生态事业部的成功与失败？事业部的成功与失败？生产力充实了生产关系的事业部成功了CONTENTS0606数据信托助力大模型数据信托助力大模型数据驱动业务的发展的逻辑数据驱动业务的发展的逻辑 0606 商圈的数据与金融圈的数据各自相对独立发展商圈的数据孤岛金融圈的数据

18、孤岛支付产生了“跨界”效应支付使得商圈有了金融圈的数据就形成了互联网金融业务一浪：互联网平台主导“标准码”规范支付入口“断直连+征信持牌”规范数据使用二浪：持牌金融机构主导第一阶段第二阶段第三阶段数据驱动模型与算法发展的逻辑数据驱动模型与算法发展的逻辑智能风控领域模型算法的发展：智能风控领域模型算法的发展：专家评分卡专家评分卡逻辑回归逻辑回归集成学习、深度学习集成学习、深度学习0606第一阶段第一阶段规则驱动规则驱动第二阶段第二阶段规则规则+数据驱动数据驱动第三阶段第三阶段大数据驱动大数据驱动依赖专家经验依赖专家经验优点：可解释性强经验与数据驱动经验与数据驱动优点：准确性高客户体

19、验好大数据驱动大数据驱动优点：复杂风险模型快速识别评分规则模型评分规则模型逻辑回归模型逻辑回归模型高维回归模型高维回归模型集成学习模型集成学习模型深度学习模型深度学习模型缺点：x维护成本高x对专业性要求高缺点：x无法判断未知风险缺点：x对系统稳定性与速度要求高三个阶段三个阶段规则驱动规则驱动多采用专家打分卡模型规则规则+数据驱动数据驱动多采用逻辑回归与高维逻辑回归算法大数据驱动大数据驱动多采用集成学习与深度学习模型数据要素化的发展逻辑数据要素化的发展逻辑0606数据与生俱来的是：数据与生俱来的是：具备三重属性：资源属性、技术属性、金融属性。数据与众不同的是：数据与众不同的是：价值的特殊性

20、：数据价值不在于数据本身，数据价值来源于数据的技术加工，体现于数据的权益支配。数据与日俱增的是：数据与日俱增的是：数据要素的外部性对促进数据价值交换的数据要素市场化的客观需求。发展逻辑数据的与生俱来、与众不同、与日俱增，共同决定了数据形态变化必将遵循：1.由数据记录到数据资源、2.由数据资源到数据资产、3.由数据资产到数据要素、4.由数据要素到要素市场化理解数据资产理解数据资产06061 13 32 2数据资产必须有价值数据资产价值必须可以衡量由特定主体合法拥有或者控制市场价值市场价值不确定不确定应用场景应用场景价值多元价值多元价值价值二次培养二次培养团队效应团队效应1+12人人市场价值市场价

21、值不确定不确定应用场景应用场景价值多元价值多元可复制性可复制性可以售卖可以售卖相关性相关性正外部性正外部性1+12数据数据激励激励数据分级数据分级数据确权数据确权资产的会计计量方法总结资产的会计计量方法总结0606 历史成本法历史成本法：获取资产时实际付出的成本公允价值法：公允价值法：交易双方自愿交易的价格现金流折现法：现金流折现法：资产未来产生的现金流量按照一定方法折成当前价值重置成本法：重置成本法：按照资产当前情况，重新获取同样资产所付出的代价可变现净值法：可变现净值法：预计售卖后得到的净值数据交易所数据交易所数据银行数据银行数据信托数据信托政府主导的数据交易所模式涌现第三方专

22、业技术和政府资质完成监管、加密等合规支持个人数据资产采用银行模式进行管理和运营实现个人数据的增值和有序流通个人大数据资产的管理与运营综合服务系统信托财产“双重所有权”与数据资产所有权和控制权分离的特质具有契合性信托业务创新可以为数据资产创设更广阔的应用场景数据的正外部性与相关性，更多数量和维度数据的汇集会产生更有价值数据资产的商业模式探讨数据资产的商业模式探讨0606数据信托介绍数据信托介绍0606 信托(Trust)是指委托人基于对受托人的信任，将其财产权利委托给受托人，并由受托人针对受益人的利益或特定目的，按照委托人的意愿，对信托财产进行独立的管理、处分和风险隔离，以自己的名

23、义管理和处分信托财产的行为。当上述“财产权利”变为“数据”时，就形成了数据信托。目前对于数据信托定义的内涵和外延还在不断变化，但基本形成如下共识：数据信托是一种关于数据要素的、市场化的、制度化的、功能化的、结构化的、形成共识的数据生态框架。在数据要素市场化阶段，信托的成熟框架，叠加数据商品的金融属性增强，有助于市场化地促进数据要素的合理配置，发挥数据要素对经济社会发展的乘数效应。数据信托助力数据大市场数据信托助力数据大市场06061.1.数据要素化过程中的信托双层所有权架构优势数据要素化过程中的信托双层所有权架构优势2.2.数据确权中的数据信托制度优势数据确权中的数据信托制度优势3.3.数据流

24、通中的数据流通中的数据信托风险隔离与信任制衡优势数据信托风险隔离与信任制衡优势5.5.数据要素治理中的数据信托服务优势数据要素治理中的数据信托服务优势5.5.数据要素收益分配中的数据要素收益分配中的数据信托的权益优势数据信托的权益优势6.6.数据跨境流动中的信托制度的国际通用性优势数据跨境流动中的信托制度的国际通用性优势CONTENTS0707大模型治理大模型治理从技术角度：万物皆模型从技术角度：万物皆模型0707人类画家的不同主要是风格风格即模型调整模型参数，可以得到这个画家一系列作品基于大模型的原始能力基础上二次开发从哲学角度：从哲学角度：AIAI模糊了主体与客体的概念模糊了主体与客体的概

25、念0707从哲学角度：从哲学角度：AIAI时代中，时代中，主体与客体的关系在潜移默化主体与客体的关系在潜移默化1 1、潜移默化、潜移默化搜索引擎搜索引擎主动推荐主动推荐2 2、潜移默化、潜移默化我在利用我在利用AI扩展我的智能扩展我的智能AI在利用我展示他的智能在利用我展示他的智能大模型的治理大模型的治理0707新技术形成新生产力01 生产力生产力新生产力产生新生产关系02 生产关系生产关系一项技术如果因为担心不良后果而过早实施控制，那么技术很可能就难以爆发，反之如果控制过晚，技术已经成为经济和社会结构的一部分，就可能走向失控，再来解决问题就会变得更加昂贵、更加困难03 科林格里奇困境Col

26、lingridges Dilemma算法缺陷算法缺陷A I 伦理伦理版权版权信息安全信息安全机器宣传机器宣传搜索引擎主动推荐潜移默化潜移默化我在利用AI扩展我的智能AI在利用我展示他的智能01010202数据合规数据合规从治理角度：人工智能的治理从治理角度：人工智能的治理0707相关法规：技术与内容并重相关法规：技术与内容并重我国已经形成由网络信息内容生我国已经形成由网络信息内容生态治理规定网络数据安全管理态治理规定网络数据安全管理条例（征求意见稿）互联网信条例（征求意见稿）互联网信息服务算法推荐管理规定互联息服务算法推荐管理规定互联网信息服

27、务深度合成管理规定（征网信息服务深度合成管理规定（征求意见稿）等政策法规形成的法求意见稿）等政策法规形成的法律体系，对律体系，对 ChatGPT ChatGPT从技术角度和从技术角度和内容角度进行了约束内容角度进行了约束。0101国家新一代人工智能治理专业委员会国家新一代人工智能治理专业委员会亦在亦在20212021年发布了新一代人工智能年发布了新一代人工智能伦理规范，提出将伦理道德融入人伦理规范，提出将伦理道德融入人工智能研发和应用的全生命周期。工智能研发和应用的全生命周期。中国关于加强人工智能伦理治理的中国关于加强人工智能伦理治理的立场文件中明确写到，人工智能治立场文件中明确写到，人工智能

28、治理应坚持伦理先行，通过制度建设、理应坚持伦理先行，通过制度建设、风险管控、协同共治等推进人工智能风险管控、协同共治等推进人工智能伦理监管；应加强自我约束，提高人伦理监管；应加强自我约束，提高人工智能在研发过程中的算法安全与数工智能在研发过程中的算法安全与数据质量，减少偏见歧视；应提倡负责据质量，减少偏见歧视；应提倡负责任使用人工智能，避免误用、滥用及任使用人工智能，避免误用、滥用及恶用，加强公众宣传教育。恶用，加强公众宣传教育。0202行业自律：伦理先行行业自律：伦理先行企业治理：主体责任与社会责任企业治理：主体责任与社会责任关于加强互联网信息服务算法综关于加强互联网信息服务算法综合治理的指导意见明确提出强化合治理的指导意见明确提出强化企业主体责任。所以，企业主体责任。所以，ChatGPTChatGPT的的供应商应构建完善的算法与模型的供应商应构建完善的算法与模型的管理能力，切实防范发展过程中的管理能力，切实防范发展过程中的各项风险。各项风险。0303助力社会更美好！

展开阅读全文