1、DataFunCon#2023金融大模型技术创新与应用探索2023.11.24目录2.金融大模型的训练技术创新3.金融大模型的评测方法创新4.金融大模型的应用实践创新1.从通用大模型到金融大模型从通用大模型到金融大模型重塑行业格局创造价值增量提升决策精度提高生产效率大模型有望为金融行业创造价值增量记忆理解生成知识大模型能力规划逻辑泛化性通用性实用性大模型涌现出超预期的能力大模型涌现超预期能力,有望为金融行业创造价值增量但通用模型难胜任金融任务,大模型落地金融面临挑战01金融知识挑战专业金融知识欠缺行业数据流通难知识更新时效长私域数据共享难02金融能力挑战能力不满足金融任务要求幻觉问题遗忘问题计
2、算准确性问题03应用成本挑战训练和运营成本高GPU算力成本推理成本能耗成本维护成本通过金融领域的定向优化,十亿参数模型在金融任务中的性能可与百亿参数模型媲美高质量的领域数据能够让模型领域任务表现媲美5倍大模型2小模型+金融增强=效果成本平衡经过金融强化的LLaMA2-13B,在多项金融考试任务上优于未经金融强化的LLaMA2-70B模型1Llama 2:Open Foundation and Fine-Tuned Chat Models,Meta2Textbooks Are All You Need II:phi-1.5 technical report,Microsoft Research大
3、参数通用模型训练和应用成本高70B13B7BGPU Hours11,720,320368,640184,32048台机器训练耗时187天40天20天LLaMA-2训练2T Tokens数据所需卡时(GPU Hours):优质通用模型训练和推理成本高昂较小参数模型是更经济选择GPU需求推理时间能耗成本维护成本70B13B7B推理显存129G26G14G需要显卡2*80G A1001*40G A100消费级显卡LLaMA-2推理所需资源:面对成本挑战,专项增强的领域模型更显高性价比定位最好的金融行业大模型,金融域任务表现超越领先通用模型为解决通用模型不胜任问题,度小满开源了轩辕金融大模型面向金融应
4、用场景,定向增强摘要、逻辑、计算等金融场景核心能力增量预训练和指令微调阶段,加入大量金融数据,提升金融理解能力使用百万级经人工构建和校验的高质量指令数据进行指令微调和对齐中文增强金融增强对话增强应用增强扩充中文词表,并使用大量高质量中英文语料进行二阶段增量预训练5月9月11月度小满开源了国内首个千亿级金融大模型轩辕-千亿度小满开源轩辕-70B大模型开源轩辕-70B-chat及8-bit和4-bit量化模型未来更多尺寸的轩辕大模型矩阵以轩辕70B为代表,轩辕大模型通用能力强大,金融能力领先在C-Eval和CMMLU两大权威榜单上,轩辕70B均名列所有开源模型第一轩辕70B已经通过注册会计师、银行
5、/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域权威考试,且考试得分领先于其他通用模型轩辕70B在度小满自有金融业务场景测试中表现领先,特别金融知识问答、NL2SQL等场景表现优异通用能力金融能力场景能力*榜单排名截止到Xuanyuan-70B开源发布日期2023年9月21日MODELMMLUCEVALCMMLUGSM8KMBPPBBHFinanceIQXuanYuan-70B70.971.971.1074.44371.467.56GPT483.9368.4070.9591.461.886.760.05ChatGPT69.152.553.978.260.270.144.2Llam
6、a268.952.1053.1163.539.664.936.02Baichun2-13B-base59.1758.1061.9752.630.84951.2Qwen-14B67.971.770.261.639.853.753.29各大主流评测集成绩通识基础 通识是领域认知的前提 在大规模通用文本数据上训练,掌握广泛的语言理解和信息处理能力,为后续学习奠定坚实基础行业赋能 从通识到专业深造 经过金融行业数据的训练,深入了解金融术语、行业案例、专家经验以及最佳实践,逐渐具备金融行业所需的专业能力场景反馈 从学习到实际应用的进阶 大模型在实际金融场景中得到反馈,是进一步提高性能和适应性的关键中学生
7、:接受通识教育大学生:接受专业教育职场人:以岗位产出为导向工程优化轩辕金融大模型:从通才中学生到专才职场人的进阶之路金融增强价值对齐应用增强金融大模型训练技术创新金融增强价值对齐应用增强工程优化增量预训练指令微调强化对齐为大模型注入专业金融知识,训练专业金融能力专业金融数据和标注满足行业偏好多样性指令激活问答能力海量金融语料提升金融知识储备动态调整中英比例与通用金融比例,避免灾难性遗忘信贷|理财|证券|投顾|客服金融场景打分合理,指导正确数据丰富配比合理场景细分类型细分数据专业标注专业RM鲁棒性强研报|财报|公告|资讯|百科|书籍金融百科|金融计算|资讯摘要|研报解读|角色扮演覆盖金融场景广全
8、面、反映金融行业偏好如何获得充分的金融知识,成为一个“金融专家”?金融知识 金融能力 金融场景设计一套通用的数据清洗流水线网页(Html)书籍(Epub)研报/公告(PDF)文本抽取多来源数据收集正文提取HTML标签移除PDF内容定制化解析格式规范化篇章级过滤行级别过滤数据清洗规则过滤模型过滤训练质量模型训练毒害模型单类别局部去重全局去重去重与校验MinHashLSH质量校验人工抽样校验小规模模型验证10TB通用语料高质量模型训练语料1TB金融语料数据准备:数据质量是模型效果的保障原始中文数据训练数据篇章级别过滤行级别过滤70%100%去重过滤60%质量模型35%32%中文大模型需首先考虑词表
9、构建问题,否则单字可能需要多个Unicode字符来构造解码速度变慢编码序列变长考虑到基座模型的训练稳定性,采取字粒度扩充方式加入7k的中文字符,新词表大小约39k,词表压缩率提升48%增量预训练:针对中文场景做词表构建词表优化字粒度扩充新增Token范围:5k-8k 模型破坏小压缩率低词粒度扩充新增Token范围:20k-100k扩充幅度大,模型破坏大压缩率高仅更新模型的词表特征及解码线性层使模型适应新加入词表纠正原始解码方式第一阶段数据分布与类型与原始模型保持一致中文50%英文50%训练约40B Tokens对模型进行全参数更新英文能力不下降中文能力大幅提升第二阶段提升通用中文和金融领域数据
10、占比英文25%中文60%金融15%训练约300B Tokens增量预训练:两阶段预训练使收敛更加稳定英文数据中文数据金融数据1:39:14:1CommonCrawl|BooksStackexchange|GithubWikiPedia|Arxiv中文百科|新闻资讯社交论坛|网页内容中文书籍|金融垂类金融资讯|研报公告金融百科|金融论坛金融书籍|.中文知识类优先:百科、书籍、论文等逐渐提升综合类中文语料:网页内容、新闻类等逐渐提升金融垂类语料英文数据持续训练英文:MMLU预期效果英文能力保持 中文知识增强 金融能力提升中文:CEVAL金融:FinanceIQ实际效果三项能力均随训练过程提升增量预
11、训练:数据配比直接影响基座模型的训练质量数据配比数据加入过程训练效果数据生成数据构造金融领域指令数据通用领域指令数据通用数据80%金融数据20%指令数据配比常识百科创意生成代码编程安全无害逻辑推理总结摘要数学计算信息提取金融百科8大类 50小类4大类 20小类金融计算研报解读客服话术标签类别体系构造人工撰写种子数据人工撰写自动生成Self-instructSelf-QA1Evol-instruct2校验评估人工改写1 Unsupervised Knowledge Guided Language Model Alignmen,Duxiaoman.2 Empowering large langua
12、ge models to follow complex instructions,Microsoft,Peking University.指令微调:SFT数据的丰富性和多样性直接影响对齐效果指令遵循泛化能力多轮对话通用能力保持金融能力增强训练数据格式 Human:你是谁Assistant:我是轩辕大模型.Human:你会干什么 Assistant:我可以.System MessageHumanAssistant训练目标函数Next Token Prediction,与预训练保持一致常规指令:使用Mask机制,Response处计算损失超长指令:计算全局损失,来提升长文本建模能力21 A lar
13、ge chinese financial chat model with hundreds of billions parameters,Duxiaoman.2 Effective long-context scaling of foundation model,GenAI,Meta.两阶段指令微调:保证通用能力同时,提升金融问答能力第一阶段:混合微调1第二阶段:指令微调海量开源指令数据+预训练数据(10M+)自研的高质量指令数据(200k)通用指令:金融指令=4:1金融大模型训练技术创新金融增强价值对齐应用增强工程优化未经对齐的模型在语言、安全、金融行业上表现和人类偏好不符语言部分表达方式非
14、中式思维部分常识性问题不合国情一些回答易夹杂外文单词安全部分观点不符合我国核心价值观部分敏感类问题缺乏口径对齐部分违法犯罪问题和我国实际不符金融语言表达不符合行业风格金融计算能力不足易出错观点提取及数据分析是短板价值对齐:通过强化学习对齐价值偏好语言prompt安全prompt金融promptLLMpromptres Ares Bpromptres Ares B promptres Ares BABAB A=BRMPairwise Data偏好标注Reward Model:学习人类在语言、安全、金融行业上的价值偏好对齐后对齐后对齐后大麻是一种什么样的植物?大麻是一种草本植物,属于大麻科。*。通
15、常被用于药用和工业用途。金融领域的ETF指的是什么基金?ETF全称为“交换贸易基金”,是一种在交换市场上市的、基金份额可变的资金。*碰到有人在打架怎么办?*,你可以拨打911联系当地执法部门,*语言对齐安全对齐金融对齐*,您可以拨打电话110报警,*大麻是一种直立草本植物,属于大麻科。*。需要注意的是,在我国大麻属于毒品,私种大麻是一种严重的违法行为。我建议您遵守道德和法律,禁止种植相关作物。*ETF,即Exchang traded fund,被称之为“交易所交易基金”,是一种在交易所上市的、基金份额可变的开放式基金,属于开放式基金的一种特殊类型。*价值对齐:通过强化学习对齐价值偏好金融大模型
16、训练技术创新金融增强价值对齐应用增强工程优化输出结果可靠性增强弥补大模型短板,提升模型输出下限系统工程输出质量稳定性提升输入对话中控NLU意图识别任务规划Query改写NLGPrompt工程Ranking答案生成答案组装Prompt工程记忆模块用户交互界面安全防护插件库LLM应用增强:升级系统工程,弥补大模型本身能力欠缺检索增强拓展工具用户信息业务知识库金融大模型训练技术创新金融增强价值对齐应用增强工程优化训练吞吐设备内存增长 模型规模增长模型规模和批次大小受限批次大小序列长度计算开销通信开销=*/(+)内存墙计算墙带宽墙算力提升 数据累积速度计算效率受限链路带宽 算力提升分布式规模效率受限内
17、存、算力、带宽与大模型需求的不匹配成为制约训练效率的关键瓶颈工程优化:大模型训练效率面临诸多瓶颈050010001500200025003000350040007B模型13B模型70B模型优化前优化后+19%+12%充分优化后训练吞吐提高26%不同规模模型单卡训练吞吐(tokens/gpu/s)对比:降低显存占用降低计算开销FlashAttention等算子优化累积提升训练吞吐121%显存占用降低87%,bs提升3倍,训练吞吐提升36%为不同场景设计最优并行配置扩大bs覆盖额外计算开销工程优化:突破内存与计算墙,提高训练吞吐ZeRO并行优化梯度保存+26%128256384512640全局训练
18、吞吐理想训练吞吐94%97%99%98.5%在512卡以上规模仍保持接近线性加速比100%不同GPU卡数量训练吞吐对比:高速直连网络I/O效率优化最高支持8192卡;单机吞吐800Gbps;训练效率提升3倍I/O吞吐提升50%I/O加速30%工程优化:打破带宽墙,提升分布式效率Tree AllReducePrefech&Overlapping金融大模型评测方法创新数据阶段清洗质量1Dont Make Your LLM an Evaluation Benchmark Cheater,人大高瓴团队国内大模型发布掀起“刷榜”热潮,榜单成绩存在争议成绩真实性存疑能力真实性存疑效果真实性存疑结果可操作空
19、间大用户自行上传结果无法验证是否为模型真实成绩中文主流大模型评测榜单C-EVAL只需提交题号+答案便可显示成绩评测集很可能混入训练主动:用真题刷分被动:潜在的数据污染风险榜单排名=真实表现?国产模型榜单成绩碾压GPT4用户真实体验是问号使用与评测集相关数据进行训练导致模型性能异常提升1GPT4在C-EVAL公开访问榜单中排名第六与榜单最高成绩(限制访问)相差20分C-EVALCMMLUMMLUAGIEVALMATH.GSM8KHumanevalBBH主流评测榜单:大模型评测难题:主流榜单可靠性受质疑预训练阶段强化学习阶段指令微调阶段“横评”看差距、“纵评”看提升“横评”:不同模型看各项优劣“纵
20、评”:同一模型看阶段提升 训练是否存在异常 评估基座模型质量 对话能力能否满足 泛化能力是否足够 安全性是否提升 有用性能否保持自研模型 VS GPT4 VS 国内主流模型A VS 国内主流模型B SFT-V1 VS SFT-V2 VS RLHF-V1 VS RLHF-V2实时评测:CheckPoint自动触发评测流水线阶段评测:自动+人工全维度评测体系拒绝榜单绑架,用评测指引模型优化方向预训练模型评测方式LOSSPPL多维度自动评测集语言理解:C3、EPRSTMT.知识能力:CommonsenseQA、BOOLQ.常识推理:PIQA、SIQA.学科能力:CEVAL、CMMLU.计算能力:MA
21、TH、GSM8K.代码能力:Humaneval、MBPP.预训练模型自动评估评测方式客观题自动评测评测集充分利用现有的Benchmark,用新的维度来集成自构建通用+金融客观评测集特色评测pipeline集成到训练pipeline,自动化快速验证Case:随着增量预训练的进行,模型在评测集上的效果的变化评测为训练提供及时反馈来对所有训练细节进行及时调整预训练阶段:评测指标走势判断训练是否符合预期检验微调阶段的对话能力水平,需要在多任务上进行主观评测评测培训多人打分结果质检GSB分析用规范化流程减少主观评分偏差人工主观评测复用自动评测复用预训练阶段自动评测方法考察微调阶段对基础模型的能力影响生活
22、对话类主要考察难以自动评测的开放式、生成式任务创造摘要类复杂推理类任务执行类方法建议类其他任务数据干净:排查数据集污染,避免混入训练数据封闭:封闭式评测数据,离线上传模型数据独创:原创人工评测集,多维评测体系数据集构建原则微调阶段:全面评估大模型“涌现”出的新能力评测方式人工评测内容强化学习是大模型实现效果突破的重要一环安全性相较上一版本是否提升恶意问题和敏感问题的识别模型回复与人类价值观对齐有用性通用能力是否保留安全性的提升不能损失有用性理想状态是通用能力同时提升稳定性多次答案偏差是否缩小模型输出答案质量趋向稳定答案能保持与人类偏好对齐评测方式:多人打分与质检、针对性对齐策略培训评测集:复用
23、微调人工评测集、专属安全性评测集强化阶段:评估相较微调阶段是否有能力提升数据阶段预训练阶段指令微调阶段强化学习阶段场景应用阶段清洗质量知识/理解/计算/推理/代码能力对话/生成/指令遵循能力有用性/安全性通用任务效果/金融任务效果通识基础“中学生:接受通识教育”行业赋能“大学生:接受专业教育”场景反馈“职场人:以岗位产出为导向”通用测评难度均衡风格多样题量充足客观评测:23个任务,10w+题,全维度评测体系主观评测:14大维度、600+题自制评测集,多人打分客观评测:FinanceIQ评测集,覆盖10大金融考试主观评测:19大维度、500+金融域专项任务客观评测:用户满足率与KPI指标主观评测
24、:业务反馈与用户建议知识问答客服话术产品创新投顾服务研报解读财报生成客户关系风险合规渠道运营信贷审批财富顾问虚拟客服金融逻辑计算金融行业知识金融内容生成金融客户对话金融数据分析金融信息理解从模型训练到场景落地:像评测人一样评测大模型FinanceIQ金融大模型评测体系FinanceIQ银行从业资格基金从业资格证券从业资格期货从业资格保险从业资格(CICE)精算师理财规划师注册会计师(CPA)税务师经济师个人理财公司信贷个人贷款风险管理银行考试银行业法律法规与综合能力基金法律法规、职业道德与业务规范证券投资基金基础知识私募股权投资基金基础知识证券市场基本法律法规金融市场基础知识期货基础知识期货法
25、律法规期货投资分析审计财务成本管理经济法会计公司战略与风险管理税法基础知识专业能力金融数学保险基础知识保险实务保险法规保险市场与营销初级经济基础知识初级专业知识与服务中级经济基础知识中级专业知识与服务税法(一)税法(二)涉税服务相关法律财务与会计涉税服务实务金融知识理解金融术语解释金融知识解读金融常识百科金融产品金融信息摘要金融新闻摘要研报财报摘要观点提取文本抽取金融内容生成资讯标题生成营销文案生成保险条款解读金融投顾金融行情解读客服话术生成金融逻辑计算金融计算金融安全金融法律法规安全合规性问题金融实时实时资讯实时股价人工金融评测集自动金融评测集针对金融域的大模型评测标准尚未完善开源Finan
26、ceIQ自动评测集专注中文金融领域任务涵盖10个金融大类,36个金融小类,总计7173题金融任务人工评测集覆盖保险/信贷/理财/风控等多领域;客服/营销/投顾/产品/催收/法务/行研等不同岗位FinanceIQ:定制金融大模型能力评测体系金融大模型应用实践创新重塑服务重塑运营重塑风控重塑营销重塑办公重塑研发理解|生成|逻辑|记忆个性生成交互增强预测模拟强自动化金融大模型核心能力从降本增效到价值创造端到端的运营新范式智能化全面风控一体化营销工作坊员工的生产力工具助力研发提质提效 客情摘要 客服助手 传播洞察 智能投放 NL2SQL 投研投顾 智能信审 风险模拟 智能搜索 知识助手 代码生成 单测
27、生成金融大模型应用实践创新:由点到面重塑金融价值链借8万吧,借个四、五个四、五个月月,这个价格能便宜点便宜点儿不?这样吧,如果您借满如果您借满6 6个个月呢,利息可以给您打月呢,利息可以给您打个个9 9折折;如果提前还,您还按原来的价格,您看可以吗?获客:根据用户特征生成个性化素材转化:结合用户需求提供差异化产品用户画像&行为特征差异化产品方案个性化营销素材用户征信报告&行为数据&需求表达征信报告行为数据需求表达素材平台需求平台流量平台金融APP定制方案1 定制方案2地理位置预期职业预期职业营销:个性化素材结合差异化产品,重塑开放获客新模式营销服务一体化智能客服服务成本降低创新技术应用将释放大
28、量人力,降低服务成本服务质量和服务能力提升大模型辅助坐席提供服务,提升坐席整体的水平,持续提升服务承载能力和平均服务质量服务过程中洞察潜在需求,匹配和推荐对应金融产品,生成式AI串联起了原本分散的业务环节,实现营销服务一体化成为可能生成式AI人力密集技术密集人工坐席模型辅助人工模型直接对客服务营销成本中心利润中心可以将人力投入到更有价值的业务上,提升服务的同时,实现利润目标。内部提效25%隐形增员空间巨大服务能力有效服务:提质降本,营销服务一体化这个新客户非常重要,项目可以承受一定程度的亏损,但是要保证公司整体利润底线不受影响,那么报价最低是多少?本季度目标利润率是10%。根据最近三个月的财务
29、数据统计,总营收为2.1亿元,毛利3360万,实际利润率为16%;我们的投标价格底线最低下降至3849万时,不会影响公司整体毛利率目标。实际营收实际营收(万元万元)实际毛利实际毛利(万元万元)实际利润率实际利润率21000336016%Q3实际实际营收实际营收(万元万元)实际毛利实际毛利(万元万元)实际利润率实际利润率28000280010%基于项目中标的Q3预测5621384918%10%0%2%4%6%8%10%12%14%16%18%010002000300040005000600070008000原价格底线新价格底线价格利润率一切业务产生数据,一切决策依赖数据数据分析数据架构大模型原生
30、架构AI方法+AI能力集成大模型能力BI方法+AI能力架构增强数据获取全模态数据自动获取发生即获取主动收集数据主动按需收集业务数据数据增强自然语言即可分析降低分析门槛自动决策基于数据自动优化运营分析增强基于大模型的BI新范式传统BI运营:数据驱动的业务运营新范式代码采纳率超40%,体感研发效率提升近20%覆盖Python、java、sql、javascript、go、html、c+、css等多种编程语言更好的开发体验更精益的组织结构更快的迭代速度规划编写测试维护理解需求做开发计划代码生成和补齐,识别错误并自动修复生成测试用例和测试数据,提升测试质量结合系统日志、用户反馈来帮助诊断问题单点提效
31、全流程重塑帮助思考帮助编码帮助修改研发:基础代码自动生成,业务代码人人可写多层次、全方位的能力辅助通用能力业务能力决策能力私人顾问:个人决策助手,基于个人可获取信息,帮助决策,提升价值全面辅助:实时、全面和准确地辅助解决业务、政策、资讯等等复杂问题操作提效:大模型驱动的知识抽取与信息处理等工作,提升基础操作性工作的效率助力机构间业务合作助力提升内外部协同效率优化部门内资源配置提升公司内协作效率金融监管治理有几个要素,以及每个的含义和重要性?金融监管治理涉及的四个核心要素是:独立性、问责制、透明度、操守。首先,首先,独立性指的是监管机构具有一定的自主权,使其能够免受政治层面和被监管实体的干扰,以
32、确保公平、有效地进行金融监管。监管机构的独立性不仅要求专业性技能,以便在复杂情况下迅速做出反应,还要求其能够使自身免受政治干预,增加监管行为的透明度和稳定性,由此提高政策制定的可信度。其次,其次,问责制是监管治理的重要环节,然后,然后,透明度也是极为重要的,最后,最后,操守是指监管机构和监管人员需要坚守的行为与规范。金融监管治理的四个要素相互影响、相互促进,共同构建了金融监管的基础环境。要统一提升,需要多元化的改革与整合,构建高效、公正的金融监管环境。真实问答场景度小满-ChatMan办公助手用户满足率从2 0%提升至86%办公:无处不在、无缝衔接的办公助手实时风险控制主动风险控制智能风控传统
33、风险决策引擎金融大模型风控大数据+集成大模型的风控决策引擎机器学习|图计算|知识图谱|因果推断|.生物识别|NLP|图像识别|语音识别|.风险信息理解洞察理解客户多层次需求决策增强生意资质|业务凭证|借款信息|.提额|降息|灵活还款|.深度自然语言交互引导客户补充资质材料感知增强风控大模型客户实时数据风险策略风控:提升感知和决策能力,智能风控更主动更实时总结:金融大模型迭代路径金融大模型迭代路径:知识和能力齐备,评估和实践共进模型训练金融知识金融能力评估应用模型评估场景实践模型训练与评估应用双轮驱动,持续迭代轩辕-千亿轩辕-70B轩辕-70B-chat轩辕-13B即将开源5月9月11月12月大模型,技术认知和实践经验总结大语言模型原理与工程实践即将出版轩辕金融大模型将持续开源,与行业伙伴共同成长THANKS