机器学习算法的业务应用实践分享.pdf

资源描述

The better the question.The better the answer.The better the world works.机器学习算法的业务应用实践一数字化应用实践概述二机器学习应用实践技术与应用方法三应用实践案例-营销四应用实践案例-风险管理目录主标题第2页日期数字化时代背景-数字化及信息化的差异主标题第3页日期“数字化”是什么？和“信息化”有什么不同？信息化时代信息化时代数字化时代数字化时代以物理世界为主，少量的行为借助信息化手段进行改进和提升大部分活动及交互在数字化世界中进行，少量决策指挥信息回到物理世界与设备机器协作数字化时代背景-企业数字化转型的动力主标题第4页日期数字化飞速发展的环境下，多方面动力促进企业实施数字化转型提升收入提升收入提高效率提高效率优化支持功能和流程优化支持功能和流程控制合规风险控制合规风险注意：这些说明性数据已经获得，并与私人洞察报告、研究报告以及之前的安永数据和分析项目进行了对比5%收入增加收入增加监控和评估销售业绩优化定价、销售和市场战略10%市场渗透率提高市场渗透率提高20%流失率降低流失率降低实时集中风险管理系统，用于识别和监控关键风险指标确保遵守法律法规4%不合规金额减少不合规金额减少根据客户、渠道等制定不同的沟通策略持续的市场数据监控，以了解客户的需求和行为收集社交媒体和客户反馈数据，以了解客户满意度的关键驱动因素改善客户细分35%人力资源投入减少人力资源投入减少通过机器人和机器学习，实现绝大多数后台流程的操作化和自动化10%-25%生产力增长生产力增长检查员工绩效以衡量员工是否符合标准简化、整合、更新、外包任务，以节省时间或开支开拓新的收入来源开拓新的收入来源提高客户体验和忠诚度提高客户体验和忠诚度数据的业务应用价值-利用新兴技术释放数字的价值主标题第5页日期几乎所有行业都开始高度粘合数字化科技，向智能化产业发展，成为撬动经济增长的新趋势。医疗业医疗业零售业零售业制造业制造业金融业金融业1全球行业数据量年复合增长率，数据来自IDC报告数据2025人工智能人工智能区块链区块链云计算云计算新兴技术发展颠覆行业逻辑新兴技术发展颠覆行业逻辑颠覆业务模式颠覆业务模式催生价值共赢催生价值共赢以消费者为中心的数字化医疗模式带来颠覆式的治疗模式。如分析智能手表心率、日常作息数据，指导医药医疗技术研发生产流程智能，动态适应个性化产品生产需求，实现大规划、多品种的定制生产由产品驱动向体验驱动转变，线上线下的融合发展丰富零售业市场竞争手段金融科技驱动商业模式创新，涌现无现金支付、创新金融产品、智能风控、客户行为预测等医院和医疗机构、生命科技公司、技术创新公司、支付方、投资方相连接消费端与供给端的互联互通，实现产业链融合重构金融科技连接客户、产品与数据，从传统单一的通道业务模式向全业务链条财富管理转型搭建资源整合平台，串联供应链，客户链、资本链，融合产业生态链量子计算量子计算数据的业务应用价值-行业领先实践分享主标题第6页日期各家公司在组织团队、流程机制、标签体系等多个维度各有所长，优势项目与其业务特点密切相关。拥有多个主题线的内容运营团队，触达与孵化各主题线达人内容创作者分层运营与孵化机制通过APP收集用户身份和行为数据利用第三方社交平台扩充数据为用户创建Unique ID，结合账户、设备型号、行为习惯之间的关系进行判别业内最先进的标签生命周期管理和上瘾算法针对创作者的Dou+针对商家的信息流广告用户管理系统流量分发系统按不同主题线的评估系统内容产品团队针对用户的评价运营团队与针对商户的星级评价部各业务线梳理画像应用场景需求，动态分析优化内容和留存策略收集每个用户的自我评论数据生成每个用户个性化特征同时通过问卷填写补充用户个性化标签内容用手机号作为用户的唯一标识进行ID mapping基于会员、商户、内容的标签体系知识图谱模型应对复杂场景推广通商家通外卖专属频道，如必吃榜、黑珍珠、网红榜某团某评会员系统某团大脑某团推广通数字化团队，支撑产品创新研发、市场运营、门店经营，致力于为消费者提供极致的产品和服务基于会员体系、千人千面、千店千面的精准化营销链路根据洞察为某茶衍生热点新产品用户数据舆情数据产品评论数据外部观测数据用手机号作为用户的唯一标识进行ID mapping人群特征画像供应链快速上新数字化营销平台数字化供应链平台IT管理平台视觉设计团队600人+自运营团队200人+数据与技术团队数字化选品与推新，迅速组合迭代覆盖用户全生命周期的运营管理舆情数据和竞品数据销售订单数据用户行为数据利用数据中台统一商品和用户服务数据的采集、存储与调用针对微信社群中的用户微信号打标签，区分流量类型数字化选品和出新私域流量运营用户全生命周期管理搭建数据中台和业务中台，打通多端数据利用微信SCRM完善多渠道DTC模式A1.组织团队组织团队A2.流程机制流程机制B1.数据聚集数据聚集B2.数据拉通融合数据拉通融合B3.标签体系标签体系B4.应用场景应用场景C1.系统工具系统工具某音某音/某条某条某团某评某团某评某茶某茶某领先互某领先互联网美妆联网美妆品牌品牌一数据应用实践概述二机器学习应用实践技术与应用方法三应用实践案例-营销四应用实践案例-风险管理目录主标题第7页日期技术与应用方法-模型主标题第8页日期理论模型理论模型数据模型数据模型VS数据模型建立在统计框架之上，通过一类数据样本的训练，可以对该类特点数据进行推理并从中进行学习。训练后的模型可以对之前未见过的数据进行推理及预测。基于理论基础和复杂的逻辑推导得出目的是归纳出变量支建的关系能反映过程机理，可解释的应用场景有限通过数据训练得到目的是预测某类数据结果不能反映过程机理，不可解释应用场景比较广泛理论模型在数学、物理学、化学、生物学等自然科学中用数学符号表示几个量之间关系的式子。具有普遍性，适合于同类关系的所有问题技术与应用方法-从数据中学习知识主标题第9页日期目的初步分析特征工程选择模型设置超参训练预测（应用）数据标签源数据训练后模型重新选择模型或重新调参训练数据集切分测试数据集测试技术与应用方法-机器学习主标题第10页日期机器学习结合统计技术来执行任务。机器学习是人工智能的子集，使用算法从数据集中学习。机器学习是大多数人工智能用例的基础。人工智能人工智能设计和运行日益自治的系统数据科学数据科学从数据中提取可行的观点，以推动业务和用户决策数据可视化数据可视化描述性统计描述性统计多代理系统多代理系统知识工程知识工程问题解决问题解决机器学习机器学习人工智能人工智能机器学习机器学习深度学习深度学习深度学习：深度学习：是实现机器学习的一种方法，是目前机器学习中最重要也是最成功的分支。机器学习机器学习：是一种实现人工智能的方法机器学习最基本的做法，是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。当前AI的进步主要取决于机器学习的发展。深度学习算法深度学习算法受到生物神经网络功能的启发具有多层单元，可学习具有多个抽象级别的数据展示已成为适用于广泛领域的最新技术需要大数据量和强大的计算能力需要大量的AI专业知识来进行适当调参技术与应用方法-基于机器学习的技术主标题第11页日期机器学习的发展趋势主标题第12页日期能力、通用性更强的机器学习模型机器学习持续的效率提升机器学习变得更个性化，对社区也更有益机器学习对科学、健康和可持续发展的影响越来越大机器学习的研究更深入、理解更广泛机器学习在未来的5大发展趋势机器学习的前沿应用主标题第13页日期 OpenAI 开发的游戏人工智能软件可以在 Dota II 等游戏中击败人类。其旗下的人工智能图像生成器DALL-ELL不仅可以从头开始生成图像，而且还可以重新生成现有图像的任何矩形区域，与文本提示内容基本一致。其旗下的文字生成(text generation)人工智能GPT-3可以完成包括翻译、问答和文本填空任务，内容可以以假乱真且能够掌握几乎所有的文体和内容格式微软微软OpenAI PyTorch 是一款开源的机器学习框架，能够加快从研究原型到产品部署的过程，由 Facebook AI 研究人员于 2016 年与一些 AI 研究人员共同创建。最PyTorch帮助Ins团队不断改进和完善推荐引擎，让Instagram成为探索用户感兴趣的内容并与家人和朋友分享的最佳平台之一 AR和VR正逐渐成为Facebook的重要组成部分。PyTorch 在AR和VR的新兴应用领域起到了增强技术和服务的作用，FacebookPyTorch DeepMind将机器学习和系统神经科学的最先进技术结合起来，建立强大的通用学习算法 DeepMind 最出名的应用是AlphaGo，它在围棋游戏中挑战并击败了世界上最好的人类棋手 2019年，DeepMind人工智能AlphaStar在星际争霸II战胜人类职业玩家。在有“蛋白质奥林匹克竞赛”称呼的国际蛋白质结构预测竞赛（CASP）上，AlphaFold 击败了其余的参会选手，能够精确地基于氨基酸序列，预测蛋白质的3D结构。谷歌谷歌DeepMind 国内机器学习、AI智能做的比较出色的平台包括：百度AIG（自动驾驶）阿里达摩院（城市大脑腾讯优图（医疗影像）科大讯飞（智能语音）商汤（智能视觉）海康威视（视频感知）旷视（图像感知）国内新一代国内新一代AI开放创新平台开放创新平台机器学习的案例:Google colab平台的AI绘画主标题第14页日期Disco Diffusion 是发布于 Google Colab 平台的一款利用人工智能深度学习进行数字艺术创作的工具，它可以根据描述场景的关键词渲染出对应的图像:关键词：湖、黎明、森林关键词：亡羊补牢机器学习的案例:GPT-3智能写作主标题第15页日期GPT-3 在许多 NLP 数据集上均具有出色的性能，包括翻译、问答和文本填空任务，这还包括一些需要即时推理或领域适应的任务，例如给一句话中的单词替换成同义词，或执行 3 位数的数学运算。GPT-3生成的新闻，人们很难将机器写的新闻和人类写的新闻区分机器学习的案例:图像生成模型主标题第16页日期基于给定类生成全新图像的cascade 扩散模型示意图。图像生成模型在过去几年取得了显著进步。现有的模型有能力在仅给出一个类别的情况下创建真实图像，可以填充一个低分辨率图像以创建看起来自然的高分辨率对应物，甚至还可以创建任意长度的空中自然景观。机器学习的案例:自动创建文档布局主标题第17页日期VTN 模型的可视化。它能够提取布局元素（段落、表格、图像等）之间的有意义的联系，以生成逼真的合成文档（例如，具有更好的对齐和边距）。应用程序可以基于 Transformer 的变分自动编码器学习创建美观且有用的文档布局，并且可以扩展相同的方法来探索可能的空间布局。机器学习的案例:谷歌对话应用语言模型 LaMDA主标题第18页日期与谷歌对话应用语言模型 LaMDA 模拟威德尔氏海豹（weddell seal）时的对话。机器学习的案例:基于深度学习的天气预测主标题第19页日期基于深度学习的天气预报方法使用卫星和雷达图像作为输入，并结合其他大气数据，在长达 12 小时的预测时间内产生比传统的基于物理的模型更准确的天气和降水预测。与传统方法相比，它们还可以更快地生成更新的预测，这在极端天气出现时非常重要。数据建模-具体流程主标题第20页日期1.问题识别识别阶段：识别阶段：识别问题和相应的分析框架特征工程阶段：特征工程阶段：理解业务梳理业务流程，将数据处理为模型能使用的结构3.变量处理4.变量选择2.数据获取7.结果分析6.验证与测试建模阶段：建模阶段：根据历史数据，选择适当的模型描述特征来解释和预测事件5.模型开发迭代迭代10%60%30%时间分配数据建模-问题识别(1/2)主标题第21页日期14 November 2022Presentation titlePage 21识别问题的性质和相关信息具有三个主要目的：识别问题的性质和相关信息具有三个主要目的：识别相关信息阐明重要和持久的原因，以解决问题阐明与现有信息有关的不确定性开放式问题通常具有以下特征：开放式问题通常具有以下特征：无法完全描述有多个解决方案选项即使在专家中也引起争议信息不完整，需要多种解释有各种结果未知的解决方案问题结构问题结构例子例子封闭式封闭式/结构化：结构化：问题只有一个“正确”的答案研究新兴产业，例如：在线广告执行定价基准和竞争对手评估开放式：开放式：范围广泛且充满不确定性的问题推荐策略，为客户提供合适的报价德意志银行后台的离岸业务1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-问题识别(2/2)主标题第22页日期14 November 2022Presentation titlePage 22抽象级别抽象级别相关性相关性可解决性可解决性必须在适当的抽象级别上提出问题。必须在适当的抽象级别上提出问题。例如：“应该采取什么措施来降低成本？”可能范围太广，而“如何降低营销成本？”可能太狭窄。必须从必须从“客户客户”的角度提出问题。的角度提出问题。例如：“互联网将如何发展？”可能很有趣，但与“X公司可以通过什么方式利用互联网作为新的营销渠道？”却没有什么关系。问题应以明确答案的方式陈述。问题应以明确答案的方式陈述。例如：“股市在2018年的表现如何？”只能通过回顾回答，而“市场上升对我的投资组合有何影响？”可以通过分析回答。问题构建最佳实践问题构建最佳实践问题构建过程问题构建过程偏好，不确定性和假设全面评估问题的范围回顾与解读从多个角度全面评估问题并确定一组解释信息的标准（例如，外部数据获取）提出假设考虑到现有信息和上面所做的分析，提出一套（合理的）假设1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-问题识别-什么是分类问题主标题第23页日期14 November 2022Presentation titlePage 23什么是分类什么是分类统计定义统计定义:分类是基于包含已知成员类别已知的观察值（或实例）的训练数据集来确定新观察值属于哪一组类别（子群体）的问题简单的定义简单的定义:把东西分成2类或多类电子邮件营销公司想知道您是否会在收到电子邮件后将其打开银行想知道申请是否为欺诈交易在线零售商想知道您是否会在购买手机壳后购买屏幕保护膜实际应用中的复杂性实际应用中的复杂性VS学术问题学术问题确定目标、预测不考虑时间、数据集完整行业应用行业应用数据源不明、目标待确定（定义清晰、容易理解的目标）、时间窗口非常重要、数据噪音多1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-数据获取主标题第24页日期14 November 2022Presentation titlePage 24初始数据请求严重影响项目进度分为关键数据和非关键数据考虑指定或限制数据请求的每个维度,例如:时间范围阶段(每日/每时/每周)业务线区域市场或产品组在客户组织中找到正确的对接人和数据来源在大型组织中，很容易浪费大量时间来查找正确的数据源与数据所有者会面或致电，并首先讨论您的需求，以便于通过避免误解节省大量时间及早检查所有数据的可用性简洁明了地发送请求使其非常简单如果要求不高，请考虑在excel中放置一个虚拟表，以确保完全清晰。2.1 识别数据需求识别数据需求:2.2 例子例子:#Data CategoryFile NameFile SpecsOwnerRequest DateReceived DatePriority(H/M/L)StatusValidated(Y/N)Data Dictionary Received(Y/N)Comment1Account InformationAccount.txtTeam Member 11/20/20192/1/2019HCompleteYYN/A2Asset InformationAsset.datTeam Member 21/20/20192/5/2019MValidation In ProgressNYMissing asset type3Mortgage InformationMortgage tableTeam Member 31/20/20192/10/2019LRe-RequestNNN/A4Margin Call InformationMargin.xlsxTeam Member 11/20/20192/10/2019MNot ReceivedNNN/A5Account Balance InformationAcct_bal.csvTeam Member 21/20/20192/5/2019HNot ReceivedNNN/A1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-变量处理主标题第25页日期14 November 2022Presentation titlePage 251.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析检测自变量检测自变量3.1 基础检测基础检测:3.1.1 实体关系模型/关系图3.1.2 合并率3.1.3 探索性数据分析(EDA)3.2 数据分析数据分析:3.2.1 频率分析3.2.2 分布分析3.2.3 离群分析3.2.4 相关分析3.3 特征工程特征工程(可选的可选的)3.3.1 基本转换3.3.2 业务逻辑数据建模-变量处理主标题第26页日期14 November 2022Presentation titlePage 263.1 基础检测基础检测:3.1.1 实体关系模型/关系图为什么要检测合并率为什么要检测合并率?验证不同数据集之间的关系验证不同数据集之间的关系确保数据质量确保数据质量主数据集补充数据集1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析3.2 数据分析数据分析:3.2.1 频率分析表格是分析数据的有效工具，理由如下：可以扩展以显示多个维度上的多个数据集可以轻松地基于特定列对值进行排序易于与其他可视化集成以提供详细的定量信息如果存在层次关系，列的顺序可以反映出这一点对于分类变量，可以将数据转化成合理的分段统计量数据建模-变量处理主标题第27页日期14 November 2022Presentation titlePage 27NAME_INCOME_TYPERow CountRow Count%Target CountTarget Count%Target RateBusinessman100000Commercial associate7161723.29536021.590.074843Maternity leave5020.010.4Pensioner5536218298212.010.053864State servant217037.0612495.030.05755Student180.01000Unemployed220.0180.030.363636Working15877451.631522461.330.095885频率分析1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析3.2 数据分析数据分析:3.2.2 分布分析-直方图直方图可以使分析师确定正态性并了解哪种类型的分析技术合适大多数统计分析都假设正态分布；因此，如果数据不是正态分布的，则可能需要进行数据处理数据建模-变量处理主标题第28页日期14 November 2022Presentation titlePage 28分布分析1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-变量处理主标题第29页日期14 November 2022Presentation titlePage 293.2 数据分析数据分析:3.2.3 离群值处理上限上限/下限：下限：根据业务定义，某些值可能极高或极低（例如，信用利用率=500）。在这种情况下，请根据变量的有效范围设置上限/下限。当有效范围不清楚时，该值可以限制在第99个百分点。转换和合并值：转换和合并值：变量处理还可以消除异常值。值的自然对数可减少由极值引起的变化。分箱也是变量转换的一种形式。插补：插补：与缺失值的插补一样，我们也可以使用均值，中位数，众数插补方法插补离群值。还可以利用统计模型来预测异常值并用预测值来估算。单独处理：单独处理：如果存在大量异常值，则应在统计模型中对其进行单独处理。所有异常值都应分组在一起并分别建模。然后合并两个模型的输出。1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-变量处理主标题第30页日期14 November 2022Presentation titlePage 303.2 数据分析数据分析:3.2.4 相关分析-散点图散点图可用于识别变量之间的关系更多的“线性”散点图意味着高水平的线性相关在进行回归分析和其他更复杂的统计分析时，请确定预测变量之间是否存在多重共线性。1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-变量选择主标题第31页日期14 November 2022Presentation titlePage 311.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析变量选择在机器学习中扮演着重要的角色，无论是对于构建一个可解释的模型，还是提升模型的预测能力。数据建模-模型开发主标题第32页日期14 November 2022Presentation titlePage 32模型类型模型类型例子例子是否支持是否支持线性线性是否强大是否强大是否容易是否容易解释解释是否需要是否需要标准化标准化Linear ModelsLinear Regression,Logistic Regression是否是是Basic ModelsNB,DT,KNN可能否是可能EnsembleRF,GBM,Adaboost否是否是SVMSVM可能是否否考虑业务需求简单性与复杂性优点缺点为算法选择最佳参数以优化其性能的过程；为找到使所有验证数据集的平均误差最小的参数。选择适用的模型选择适用的模型参数调整（交叉验证）参数调整（交叉验证）精度期望生产实施模型风险容忍度1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-模型开发主标题第33页日期14 November 2022Presentation titlePage 33模型效果模型效果权衡偏差与方差权衡偏差与方差偏差来自错误假设的错误。高偏差可能导致算法错过特征与目标输出之间的相关关系（拟合不足）；方差从灵敏度到训练集中的小波动的误差。高方差可能导致算法对训练数据中的随机噪声进行建模，而不是对预期的输出进行建模（过度拟合）；通常不可能同时最小化两者，目标是找到平衡。过拟合与欠拟合过拟合与欠拟合当模型或算法无法充分拟合数据时，就会发生拟合不足。它通常是由于模型过于简单（高偏差）导致的；当函数过于适合有限的一组数据点时，就会发生过度拟合。它通常是由于模型过于复杂（高方差）导致的。欠拟合欠拟合/高偏差高偏差适当拟合适当拟合过拟合过拟合/高方差高方差1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-验证与测试主标题第34页日期14 November 2022Presentation titlePage 34模型模型Na ve BayesDecision TreeSVMRandom ForestLogisticXGBoostAUC10.6490.6500.6580.6880.7000.713GINI20.2980.3010.3160.3760.3990.426KS30.2340.2270.2530.2770.2970.312混淆矩阵ROC 曲线Gain 图模型验证模型验证可以通过多种方式评估机器学习模型：它们需要多少训练数据，训练需要多长时间，进行预测需要多长时间，它们有多准确等等。通过定义，可以使模型选择更加容易一个优化指标和一个或多个满意指标。AUC混淆矩阵准确率误判率K-SPac-BoundGini coefficientROCAUC,GINI,KS模型测试模型测试当在模型训练与验证确定了合适的模型类型以及最优的超参数后，需要使用全部可利用的数据(包括前面对模型进行验证的验证集)对模型进行训练，训练出的模型便是最终的模型，即上线生产的模型；模型的训练、验证与测试应该使用不同的数据集，如果验证数据集、测试数据集与训练数据集有重叠部分，那么会导致模型的泛化能力差；1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-结果分析主标题第35页日期14 November 2022Presentation titlePage 35变量重要性分析变量重要性分析条形图展示了所有变量的相对重要性；条越长，重要性越高；该图表仅在基于树的算法中可用重要结果分析重要结果分析DAYS_REGISTRATIONLATE_PAYMENTORGANIZATION_TYPEbureau_AMT_CREDIT_MAX_OVERDUE_Mbureau_AMT_CREDIT_SUM_DEBTDAYS_LAST_PHONE_CHANGEDAYS_BIRTHimportance预测权重解释预测权重解释该表说明了给定记录的每个变量对最终预测概率的贡献；值越高，贡献越大1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析目录主标题第36页日期一数据应用实践概述二机器学习实践技术与应用方法三应用实践案例-营销四应用实践案例-风险管理国内最大连锁快餐集团-案例背景主标题第37页日期集团当前在业内数字化信息化领域处于领先地位，随着消费者行为变迁与行业线上属性不断增强，为巩固与强化领先地位，须以终为始，扩大优势、补齐短板，以数据驱动能力推进提升会员ROI。数据管理层面数据管理层面通过组织、流程、规则、工具组织、流程、规则、工具的优化制定，形成数据采、汇、通、用闭环体系化采、汇、通、用闭环体系化地实现数据运营优化数据质量溯源数据质量溯源、识别数据架构模型优化数据架构模型优化空间数据合规价值挖掘层面数据合规价值挖掘层面合规框架合规框架指引下，全域用户数据全域用户数据进一步拉通拉通与利用进一步提升业务思维的转化效率业务思维的转化效率，标签的场景应用价值应用价值数据资产工具层面数据资产工具层面对标领先企业优秀实践，关注：标签体系优化标签体系优化与生命周期管理生命周期管理运营效果评估分析运营效果评估分析优化交互优化交互与使用的运营看板顾客Databank 1Databank 2Databank 3线上品牌A线下品牌A线下品牌B线下品牌X线上品牌B线上品牌X效果分析标签360度用户画像精准营销沉淀标签运营看板AS-ISTO-BEOneID*CDP：客户数据平台标签整体框架与设计思路-当前标签现状与痛点主标题第38页日期决策树-数据建模具体流程主标题第39页日期建立全链路的浏览行为标签，以人为视角串联用户旅途。1.问题识别识别阶段：识别阶段：识别问题和相应的分析框架特征工程阶段：特征工程阶段：理解业务梳理业务流程，将数据处理为模型能使用的结构3.变量处理4.变量选择2.数据获取7.结果分析6.验证与测试建模阶段：建模阶段：根据历史数据，选择适当的模型描述特征来解释和预测事件5.模型开发迭代迭代10%60%30%时间分配速赢场景-用户沉睡预测主标题第40页日期速赢场景-场景识别与关键要素归集主标题第41页日期以品牌1为例，在合适的时间节点、通过合适的方式和内容触达并激活沉睡用户。决策树-XGBoost模型主标题第42页日期XGBoost 是最先进的模型之一，是一个优化的分布式梯度增强库，用于构建回归模型，旨在实现高效，灵活和便携。集成多个弱监督模型生成最终结果，通常优于一般回归模型；正则化有助于避免输入数据中过拟合和线性相关的副作用；变量通过指数分布的和来加权；模型的效率应受益于各种优化算法。正则化项正则化项防止过拟合防止过拟合1 XGBoost在目标函数中加上了正则化项，降低了模型的variance，使学习出来的模型更加简单，正则化项防止过拟合。损耗函数更精确损耗函数更精确2XGBoost不仅使用到了一阶导数，还使用二阶导数，损失更精确，还可以自定义损失。XGBoost的并行优化的并行优化3 XGBoost的并行优化，XGBoost的并行是在特征粒度上的。XGBoost列抽样列抽样5 借鉴随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算。算法效率提升算法效率提升考虑训练数据为稀疏值的情况，可以为缺失值或指定的值指定分支的默认方向，大大提升算法的效率。4价值带动标签应用场景-活动总结主标题第43页日期一数据应用实践概述二机器学习应用实践技术与应用方法三应用实践案例-营销四应用实践案例-风险管理目录主标题第44页日期A股上市公司-智慧风控平台体系建设项目主标题第45页日期项目背景：近几年随着收入的业务模式变化，风险也随着发生蔓延和扩散，主要依靠人工清查，反应慢，周期长，成本高，急需数字化变革，自18年上线蓝盾智慧平台之后开始对业务进行实时监控。日期主要收入风险风险金额2016虚假整车*2017虚假整车、跨境、偏线、仓储*2018预估虚假收入，套用编码（零担、快递）*公司历史收入、风险回顾公司历史收入、风险回顾项目开展历程：项目开展历程：成立数字化财务内控项目，进行业务模型咨询及蓝盾智慧风险平台搭建风险管控方式及痛点风险管控方式及痛点：依靠人工清查，反应慢、周期长、成本高，对业务震慑有限清查不聚焦效率低成本高风险控制事后缺乏风险预知清查不连续一线震慑弱痛点痛点2018.32018.72018.122019年及以后阶段阶段关键关键事件事件业务咨询项目数字化财务内控管理项目一期数字化可行性方案实现交易风险每日监控方案通过平台打造落地数字化财务内控管理项目二期风险场景扩充，风险拦截支撑风险落地，产生效益*201620172018年收入（单位：亿）*201620172018年风险金额（单位：亿）A股上市公司-智慧风控平台体系建设项目主标题第46页日期应用层数据仓库应用层数据仓库MySQLHadoopmongo风控数据湖风控数据湖Kafka大数据消息订阅大数据消息订阅Spark 批处理批处理脚本编辑运行监测定时任务指标分析指标分析风险决策结果风险决策结果风险报告风险报告ERP数据数据FIN数据数据非结构化存储关系网画像外部权威数据源数据存储过程数据清洗规则引擎平台规则引擎平台规则编辑规则部署规则管理Flink 流计算流计算脚本编辑风险拦截运行监测Neo4J图计算图计算关系网络人物画像图数据库规则部署规则部署规则编辑规则编辑规则管理规则管理风险反馈风险反馈风险结果风险结果审计工作流审计工作流自评配置自评配置结果分析结果分析风险自评风险自评关系网络关系网络画像画像用户画像用户画像智能风控平台智能风控平台周边系统周边系统接口移动移动办公办公集成实时实时风险风险拦截拦截Spark批计算日均处理500万以上订单风险。Flink流计算秒级拦截支付、发票等风险。Neo4J图计算识别实体业务关系，区分异常业务风险。CRM数据数据BI数据数据A股上市公司-实时风险拦截-业务场景主标题第47页日期示例图示例图:流程级别辅助审核流程级别辅助审核场景示例：虚假发票场景示例：虚假发票背景：背景：快递行业虚开发票问题严重特征：特征：中实时性风险警示要求：要求：准确率中：95%计算速度快：400ms单笔风险直接损失小系统弹框风险信息实时风控引擎历史开票信息风险值图数据库黑白名单手机绑定关系用户点击取消用户点击继续！触碰规则高风险，请求取消低风险，请求通过1.多个客户编码对应一个发票抬头2.销售订单拆解开票3.一张发票对应多个客户编码4.开票与运单时间间隔超过60天四条规覆盖发票虚假核心逻辑业务发票风控警示风控警示+相关信息相关信息A股上市公司-实时风险拦截-信息流梳理主标题第48页日期外部税局外部税局发票发票客户结算中心客户结算中心发票系统发票系统进项进项销项销项资金中心资金中心外部外部微信微信支付宝支付宝银行系统银行系统报账平台报账平台业务系统业务系统主数据主数据销售管理销售管理采购管理采购管理质量管理质量管理仓储管理仓储管理人力管理人力管理客户管理客户管理官网官网开票信息开票信息认证结果开票申请开票申请进项发票应付单据报销单费用支付财务组织等入帐单据基础资料财务系统财务系统财务组织等收付款单据基础资料业务信息收款付款第三方、银行收款风控中心风控中心业业务务接接入入资资金金结结算算管管理理支支撑撑234562信息采集信息采集3456拦截点拦截点1流程发起流程发起1A股上市公司-案例项目关键技能与角色主标题第49页日期数据采集和治理角色数据采集和治理角色Kettle/Sqoop/Airflow/Hive/Kafka/DataX/SQL职责：职责：工作台：工作台：技能：技能：A股上市公司-案例项目关键技能与角色主标题第50页日期数据开发和建模角色数据开发和建模角色SQL/Spark/Flink/Pandas/Numpy/Scipy职责：职责：工作台：工作台：技能：技能：A股上市公司-案例项目关键技能与角色主标题第51页日期机器学习角色机器学习角色负责特征工程、监督学习、聚类预测，回归预测等SQL/SK-learn/Tensorflow/Spark-MLlib/Jupyter工作台：工作台：职责：职责：技能：技能：A股上市公司-案例项目关键技能与角色主标题第52页日期数据可视化角色数据可视化角色负责业务目标与数据指标定义，可视化平台的设计和开发PowerBI/Tablau/Echarts/DataV/Qilk/SQL职责：职责：技能：技能：工作台：工作台：A股上市公司-案例项目关键技能与角色主标题第53页日期产品设计角色产品设计角色负责应用平台的产品设计，研发管理，应用推动等Axure/慕客/Bootstrap/J2EE/VUE工作台：工作台：职责：职责：技能：技能：A股上市公司-大数据应用场景产品化主标题第54页日期数字化风险控制系统数字化风险控制系统智能模型智能模型数据特征模型训练模型验证模型优化模型表现监控模模型型决决策策决策引擎决策引擎实时决策引擎每日批量引擎工作流引擎报表引擎风险驾驶舱风险驾驶舱洞洞察察全局风险地图BU/子公司风险报告宏观风险地图工作流任务报表数数据据内部业务系统内部业务系统开放数据接口开放数据接口行业共享数据行业共享数据内部数据大数据湖大数据湖外部数据行业风险数据A股上市公司-大数据应用场景产品化-高管看板主标题第55页日期风险预警和处理视角风险预警和处理视角首页首页-可视化呈现规则风险、风险验证和处理情况可视化呈现规则风险、风险验证和处理情况、健康度等、健康度等工作流风险视角工作流风险视角风险分析报表风险分析报表-展现风险上报趋势、对比核实情况、展现风险上报趋势、对比核实情况、风险事件明细风险事件明细工作流效率视角工作流效率视角工作流报表工作流报表-全面监控工作流全生命周期的状态、进全面监控工作流全生命周期的状态、进展、效率展、效率规则管理视角规则管理视角规则管理报表规则管理报表-分析各场景和规则的处理、命中、验分析各场景和规则的处理、命中、验证、核实情况证、核实情况分享结束，感谢各位的聆听！分享结束，感谢各位的聆听！

展开阅读全文