1、2017 BACOE_2 解决方案交流会议金融大数据技术解决方案之我谈演讲者 张天长大数据背后的技术金融金融大数据与传统数仓议题构建金融大数据解决方案构建金融大数据解决方案大数据解决方案分析解决方案分析实实践践大数据平台数据仓库案例大数据背后的技术大数据技术起源4Google 三大论文 MapReduce/GFS/BigTableApache Lucene 开源的高性能全文检索工具包Apache Nutch 开源的 Web 搜索引擎大数据技术起源5GoogleHadoopGFSHDFSMapReduceMapReduceBigTableHBase大数据技术的发展62004年 -Doug Cut
2、ting基于Google论文实现(HDFS/MapReduce)。2005年12月 -Nutch移植到新的框架,Hadoop在20个节点上稳定运行。2006年01月 -Doug Cutting加入雅虎。2006年02月 -Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2008年04月 -赢得世界最快1 TB数据排序在900个节点上用时209秒。2008年10月 -研究集群每天装载10 TB的数据。2009年03月 -17个集群总共24 000台机器。2009年04月 -59秒内排序500 GB(1400个节点)和173分钟内排序100 TB数据(3400个
3、节点)。大数据平台集成商7Cloudera Hortonworks FusionInsight (华为)Transwarp (星环)大数据平台核心组件8HADOOP(分布式文件系(分布式文件系统统HDFS,并行,并行计计算框架算框架MapReduce)YARN(Hadoop 资资源管理器:源管理器:计计算、内存、算、内存、带宽带宽等)等)HIVE(分布式数据(分布式数据仓库仓库,HiveQL 语语言,不适合低延言,不适合低延迟计迟计算)算)HBASE(宽宽表、大表的非表、大表的非结结构化数据构化数据库库)SPARK(具有(具有MapReduce有点,中有点,中间结间结果在内存,果在内存,语语言
4、言JAVA、SCALA)ZOOKEEPER(分布式(分布式应应用程序用程序协调协调服服务务)MANAGER(集群管理)(集群管理)Mahout(可可扩扩展的机器学展的机器学习习和数据挖掘和数据挖掘库库)金融大数据与传统仓库金融传统数据仓库10报表平台绩效系统支付系统客户360个人结算账户回单打印银企对账存贷标准化监管报送系统内审系统关联交易成本分摊风险监控外管报送系统风险预警平台EAST数据报送总部一体化后督AML反洗钱。客户风险大数据部分应用场景11网络金融征信P2P网络贷款市场规模急剧增长个人征信业务需求不断上升通过大数据实时分析客户信用记录提升企业价值小微贷款管理需要大数据分析提供业务支
5、撑利用实时数据处理信息管理、交叉营销、信贷模型分析以及业务风险控制的需求不断提升财富管理评估利用大数据分析给予用户有价值的财富管理产品组合使用业态广:银行/财富管理机构/券商/保险反欺诈预警渗漏与欺诈风险增加,控制力度和手段不足缺乏先进的分析能力“实时高效”的甄别可疑理赔行为客户识别、流失预警分析识别潜在客户群体、维护老客户、降低客户开发成本成为主要需求理赔审查评估骗保识别成为保险业最大问题难点分析、评估理赔数据有效降低风险并为保险赔付制定提供依据高频交易分析量化投资增长迅速,对结构化/非结构化数据利用力度不断加大实时、准确的数据模型提供有价值的交易推荐,提升客户满意度保险精算利用大数据对险种
6、、赔付率建立模型进行细分维度下的精准预测提升企业盈利水平保险业核心业务需求实时分析客户信用记录提供贷款依据大数据提供交叉营销、信贷模型分析大数据实时分析渗漏欺诈风险利用外部内部大数据有效管理客户关系实时建立赔付率模型、并根据客户分析制定险种划分内外部大数据分析有价值的财富投资组合数据量化投资组合、建立高效数据模型理赔数据审查、数据评估,有效降低异常赔付和骗保大数据在金融领域的热点应用12应用价值周期应用热度012345012345678910用户画像风险管理资产产品定价运营优化区块链智能投顾风险定价量化交易精准营销金融搜索引擎金融领域大数据应用热点图横轴代表该应用领域价值周期,表明该应用价值速
7、度的快慢纵轴代表该应用领域的炒作周期阶段圆圈代表应用领域的规模,表示该应用领域当前参与方的多少与应用数量大数据解决方案分析实践大数据部分应用分析-某互联网金融产品14互联网金融行业在解决什么问题?面临怎样的风险?用什么样的技术手段来应对?传统金融 V.S.互联网金融 信用风险 V.S.欺诈风险 传统风控 V.S.数据科学技术风控互联网金融行业中的风险15风险风险遇到的遇到的问问题题业业界通常的方法界通常的方法业业界的方法界的方法为为什么无效什么无效信用风险还款能力收集收入水平、消费水平、负债情况等对用户进行风险评分无权威数据、数据收集难度大、传统评分卡有效特征挖掘难度大欺诈风险伪冒申请和欺诈交
8、易人工审查、信用黑名单、基于规则 人工效率低、无权威黑名单、无法自动发现异常、欺诈手段更新快互联网金融风险分析实践16借款用户通信社交网网络与欺诈风风险结论1:与坏用户有大量关联的借款用户的坏账率是未关联用户的2.9倍结论结论2:高分段用户的坏账率是低分段用户的3.3倍风控建模中的数据科学17数据获取与清洗特征提取高级特征提取建模风险控制金融数据消费数据行为数据社交数据其他统计学习数据分析社交网络分析.消费能力评级用户风险评级社交关联评级用户属性评级其他GBDT梯度提升决策树SVM支持向量机RF随机森林.大数据构建数据仓库案例2016年成都银行历史数据平台一期19调度监控ODBCJDBC专用接
9、口数据加载数据压缩数据安全数据处理数据查询数据导出共享存储统一调度统一监控历史数据存储应用功能信贷系统核心系统个贷系统微贷系统CRM网银系统 信用卡手机银行二代支付其他海量数据并行处理数据存储历史明细数据获取测试明细数据获取相关应用系统测试环境接口服务数据查询应用司法查询、历史指标查询客户历史数据查询历史数据查询界面柜面终端非现场审计审计界面查询服务源系统2017年长沙华融湘江银行大数据平台20构建金融大数据解决方案逻辑架构22技术架构23未来大数据应用发展趋势24机器学习两级分化数据治理物联数据风险管理分布存储终端整合跨界应用机器学习和数据科学将加速发展,机器学习和数据科学将加速发展,带动风
10、控和反欺诈领域的应用带动风控和反欺诈领域的应用行业领导者与后来者的差距将会行业领导者与后来者的差距将会变大,传统金融机构逐渐跟上趋变大,传统金融机构逐渐跟上趋势势数据治理将成为大数据平台的重数据治理将成为大数据平台的重点,金融业注重合规和数据质量点,金融业注重合规和数据质量问题问题金融服务将重视物联网大数据的金融服务将重视物联网大数据的应用如应用如ATMATM和和移动银行业务移动银行业务风险管理仍然是大数据平台的重点,风险管理仍然是大数据平台的重点,形成以数据驱动的风控、预警行为形成以数据驱动的风控、预警行为分布式云存储将逐渐替代昂贵、扩分布式云存储将逐渐替代昂贵、扩展性差的传统数据仓库作为整体解展性差的传统数据仓库作为整体解决方案决方案前端到后端的整合能力将逐渐成为前端到后端的整合能力将逐渐成为检验软件解决方案的基础能力检验软件解决方案的基础能力大数据将指领金融业与其他领域的大数据将指领金融业与其他领域的跨界整合,如快消品、医疗、零售跨界整合,如快消品、医疗、零售和制造和制造Thank You!
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100