收藏 分销(赏)

机器学习和大数据技术在信贷风控场景中的应用.docx

上传人:二*** 文档编号:4742756 上传时间:2024-10-11 格式:DOCX 页数:22 大小:1.34MB 下载积分:5 金币
下载 相关 举报
机器学习和大数据技术在信贷风控场景中的应用.docx_第1页
第1页 / 共22页
本文档共22页,全文阅读请下载到手机保存,查看更方便
资源描述
机器学习和大数据技术在信贷风控场景 中的应用似乎一夜之间,所有的互联网公司在对外的宣传稿中都会提及自 己使用机器学习和大数据技术,一时间成为了近几年来最炙手可 热的名词,不谈机器学习、大数据似乎都不好意思说自己是做高 新技术的了。 b 百度搜索指数:机器学习 128 c 128 features Feature Extraction Network 二 ► CMap 三张不同角度的撒贝宁照片经过神经网络提取出128维的特征 后,变成了 3个在128维空间中的点(红色),刘德华的特征 点为绿色。 不过在实际应用中在光照较差、遮挡、形变(大笑)、侧脸等诸 多条件下,神经网络很难提取出与“标准脸”相似的特征。另外, 在金融风控领域还需要解决伪造人脸的情况,面对这些问题,通 常采取四种应对措施: 1 .工程角度:研发质量模型,对检测到人脸质量进行评价,质 量较差那么不识别/检验。 2 .应用角度:施加场景限制,比方刷脸解锁、人脸闸机、会场 签到时,都要求用户在良好的光照条件下正对摄像头,以防止采 集到质量差的图片。 3 .算法角度:提升人脸识别模型性能,在训练数据里添加更多 复杂场景和质量的照片,以增强模型的抗干扰能力。 4 .精准活体识别:通过3D建模软件可以使用用户已有的照片模 拟一张真实的头像,以此来骗过人脸识别算法,所以如何验证这 个头像是来自一个真实的人同样也是一个机器学习的过程。 脸攻击”例如 脸攻击”例如 鲸鱼科技-灵犀联合实验室“模拟人 .基于知识图谱技术的复杂网络 在影视节目当中,我们经常看到警察办案时会把嫌疑人、证人、 受害人及他们之间的关联关系等信息画在墙上,用以分析案情, 这就是典型的关系图谱应用。墙上的画便是图,图中有用的信息 便是知识,将其进一步扩展到其他事物;人为实体,在图中我们 称之为点,人之间代表着关联关系的连线,在图中我们称之为边, 就这样点与边共同组成了我们的关系图谱。 反赌风暴涉案人员关系图(网络图片) 构建关系图谱的底层还是大数据的技术:基于庞大的用户数据, 从不同的数据源抽取出来存入到图数据库里,所以数据是构建关 系图谱的基础。一种是以关系型数据库存储的结构化数据,例如: IP地址,经纬度,设备指纹等,另一种是爬虫采集的非机构化 数据,例如行为记录、网上的浏览记录。实践应用中我们利用机 器学习、自然语言处理技术把这些数据变成结构化的数据也存入 到图谱里。 从用户大数据和基于大数据的关系图谱体系我们可以实现以下 目的: 1 . 1资料伪造识别校验用户信息可以用来判断借款人是否可能存在欺诈风险,使用 关系图谱做交叉校验,虽然不能保证百分之百的准确性,但是它 在人工审核时便是一个有力的参考依据。欺诈用户填写的个人信 息通常都是虚假的。例如:比方借款人张三和借款人李四填写的 是同一个公司 ,但张三填写的公司和李四填写的公司完全不 一样,这就成了一个风险点。我们将关系图谱数据可视化,可以 很直观的发现两者的矛盾,我们便可以判断他们二人至少有一人 存在欺诈风险。 2 . 2团伙欺诈分析在信贷场景中,团伙欺诈造成的损失更加严重,不过从繁复的数 据中发现团伙的难度也很大。基于知识图谱我们通常直观分析多 层级的数据,一度关联、二度关联、三度关联,甚至是更多维度 关联。团伙虽然使用虚假信息进行授信、支用,但通常都有共有 的信息,例如同一个WIFI,同一片区域。LOUVAIN> LPA、SLPA 等社区发现算法、标签传播算法可以有效快速的发现团伙。 .3失联客户管理 对于贷后管理来说,用户本人及紧急联系人失联是催收失败最大 的原因,这时可以利用关系图谱去发现失联用户的潜在联系人, 提高催收成功率。例如张三是失联用户,李四和赵六是张三的联 系人也都失联了,这时我们可以试图通过李四的联系人王五,或 者与张三使用相同设备的用户老王来到达失联客户管理的目的。 3.征信数据与信用评分卡 3.1 征信与大数据与国外相比,中国最大的差异在于征信体系的不完善。我们的人 行征信系统覆盖了 8亿人,但是可能只有4亿左右是有信贷记录 的,剩下的无任何信贷记录的,我们称之为白户。所以国内银行 对于大局部非中高端用户实际上是不愿意也没有能力提供金融 服务的。没有征信数据,那套国外搬过来的基于征信数据的方式 方法就不管用了。 不过,我们很快发现,利用互联网技术可以解决征信数据缺失的 白户问题,而这些看似与信贷记录不相关的数据在一定程度上却 能够评估是否能够给该用户借款: (1) All data is credit data:互联网可以提供每个信贷申请 用户庞大的、碎片化的、种类繁多的信息。这里面包括用户提交 的电子化信息(如身份证、营业执照、房产证、学历证、工资单、 社保,银行流水等),第三方权威机构的查询信息(如公民身份 证查询中心、教育部学历中心、法院诉讼信息查询中心等可查询 信息),还包括了海量的互联网碎片数据,如用户的电商交易信 息、微博等社交网络数据,百度搜索引擎数据等。(2)互联网 的高效性和便捷性使我们能以较低的本钱、较短的时间,积累大 量的用户数据,为分析建模提供足够的样本量。 在信贷的业务实践中,常用的行业大数据包括: 央行征信报告:一般持牌金融机构有央行征信介入权 限,包括个人的执业资格记录、行政奖励和处分记录、法院 诉讼和强制执行记录、欠税记录等。 司法信息:最高法以及省市各级法院的最新公布名单, 包括执行法院、立案时间、执行案号、执行标的、案件状态、 执行依据、执行机构、生效法律文书确定的义务、被执行人 的履行情况、失信被执行人的行为等信息。 公安信息、:覆盖公安系统涉案、在逃和有案底人员信息、, 包括案发时间、案件详情如诈骗案/生产、销售假药案等信息。 信用卡信息:银行储蓄卡/信用卡支出、收入、逾期等信 息。 航旅信息:包含过去一年中,每个季度的飞行城市、飞 行次数、座位层次等数据。 社交信息:包含社交账号匹配类型、社交账号性别、社 交账号粉丝数等。 运营商信息:核查运营商账户在网时长、在网状态、消费档次、通话习惯等信息。 网贷黑名单:根据个人姓名和身份证号码验证是否有网 贷逾期、黑名单信息。 驾驶证状态,租车黑名单,电商消费记录等也是可以考 量的因素正是因为大数据技术的开展才形成了带着强烈中国特色的官方+ 民间结合的征信体系,支撑互联网信贷脱离蛮荒可以实现高速发 展,信贷从业者可以在合规的前提下获取对提升效率有用的用户 信息完善风控策略。 3.2 机器学习与评分卡评分卡我们应该是最为熟悉的,芝麻信用分就是一个典型的信用 评分,支付宝官方利用自身积累及外部征信渠道获取的各种数据 从五个维度对一个用户进行评分,而这个评分对于每个用户来说 是透明的,这也非常好帮助用户理解和改善自身的信用状况。从 和信贷业内的小伙伴沟通来看,芝麻的信用评分还是比拟有区分 度的,这与阿里的大数据积累息息相关,阿里体系内积累了大量 用户特有数据可以对用户形象进行更好的刻画。 芝麻分是根据以下五个维度综 身份特质行为偏好 730亮 人脉关系 百度搜索指数:大数据 上图来自最近7年来这两个词的百度搜索指数,可以看到从2013 年开始一直在稳步攀升,在2017年的时候迎来了爆发式的增长, 这些都与我们的感知类同。 机器学习与人脑思维的区别 机器学习和大数据应用是相辅相成的,目的是想用机器去模拟人这套评分卡的背后其实是一套依赖在大数据基础上的机器学习 算法,因此在本身拥有大量数据的基础上如何挖掘出一套有效的 客户评分这就是机器学习需要做的事情。 机器学习中目前应用最广泛的就是有监督学习:这类模型最复杂 的地方在于模型的训练过程,算法人员根据这些历史用户的表现 打上标签(逾期/不逾期),基于这些用户大量数据,使用不同 的算法(一般来说都会使用逻辑回归算法)来对这些用户进行评 分,得到一个在各维度评价指标来看都能过关的模型,并用这个 模型来预测未来的数据表现。 (x1,y1),(x2ry2)...(xn,yn)预测系统 预测系统 数据目前银行信用卡体系、网贷体系基本都是使用类似的方法构建评 分卡,当然不同的场景、不同的行业所用的评分卡也不尽相同。 基于这套评分卡我们基本上可以在用户申请环节实现量化风险 的目的。基于大数据的机器学习并不是完全改变传统风控,实际 是丰富传统风控的数据纬度和量化风险的方式。 结语本文简单介绍了大数据和机器学习在信贷风控领域的应用场景。 机器学习听起来很高大上,在实际工作中也经常会遇到一味炒作 概念的人,过分夸大机器学习所能起到的作用,或者盲目的追求 高深复杂的算法。不过无论是机器学习还是大数据其本质还是为 了服务业务,提高业务的效率降低本钱是其最根本的目的。 随着信贷行业的不断开展,机器学习和大数据技术的越来越成 熟,二者结合的应用场景相信也会愈加丰富,相信在这块未来会 有更多新颖的应用场景。 类的思考过程,人类通过自身经历经过思考可以形成经验,并用 来解决新的问题,而机器学习是需要利用大量的历史数据去训练 一个模型去解决一个特定的问题:比方识别两张脸是否一致、该 用户是不是精准客户等。 虽然这两个词这两年才火起来,但是这些概念早在半个多世纪前 就有理论的提出,尤其机器学习的算法已经在几十年前就非常成 熟了,但是受制于计算效率、存储等硬件的限制,大数据和机器 学习在实际业务上的应用场景十分受限,很难有大规模的场景应 用。最近十年来随着存储、芯片等层面的突破让大数据和机器学 习的计算应用本钱大大降低,这也支撑了基于这两项技术的应用 场景呈现爆发式增长。 除了机器学习之外,我们也发现互联网信贷成为了这几年最火的 行业方向,互联网信贷的工作重心在风控。于是天作佳成,正如 目前我们看到的,信贷风控成为当前机器学习和大数据技术最适 合也是最成熟的应用场景之一: 1 .金融业务自身需要大量的数据且也会产生更多的数据,这天然 的让信贷风控成为最适合大数据和机器学习的场景;.风控涉及的数据量大、数据面广、关联复杂,也急需利用大数 据和机器学习技术解决风控过程中效率低、缺乏公平准那么、风险 难以量化的问题; 所以正是因为这样的相互依赖,信贷风控成为当前大数据和机器 学习技术应用最成熟的领域之一。 信贷风控中的主要问题信贷风控最关键的目标就是从全量申请用户样本中找到会逾期 的客户,所以风控的核心目的是评估用户的还款意愿和还款能 力。从过去的业务实践经验来看,风控当中需要重点关注的问题 包括: 非本人申请:申请人利用虚假身份申请信贷,这一问题在信贷业 务高速增长的蛮荒阶段,银行或者互金机构缺乏对黑产全面的认 知,在局部业务环节被黑产用虚假/残缺或者非本人身份证欺诈, 包括一些知名的持牌消金机构也遇到过大量类似的欺诈案例。 伪造资料:申请人为了更容易获得贷款或者贷后恶意逾期防止催 收,伪造收入证明、联系人、工作地址等资料。 中介团伙:中介在网络上大量招徒需要信贷申请的用户,使用不 同的攻略“教”客户如何有机会以较高概率通过银行/信贷机构 的审核。 历史信用记录:用户历史如果存在大量失信行为,或者存在赌/ 毒等不良社会行为,那么其逾期失联的概率也很高。 还款能力缺乏:申请人负债收入比拟高,外部有大量债务且自身 收入不稳定,这些都有可能导致用户愿意还款但是却没有能力还 款。 基于大数据和机器学习技术的风控解决方案为了解决上述的这些问题,目前业内已经形成了一套基于大数据 和机器学习技术的较为完整的解决方案。 非本人申请:人脸识别技术目前人脸识别技术已经应用在生活中的方方面面,如刷脸支付、 高铁进站甚至公安的天网系统;而在金融业务中,信用卡办理、 网贷申请也都普遍使用人脸识别:将申请人照片与在公安系统中 身份证存照进行比对,判断两张照片的相似度,可有效防止非本 人申请的问题。 与人类识别面部类似,当我们人类对一个人比拟熟悉的时候,我 们很容易根据他的面部特征与我们在脑海里过去存储的特征进 行比对,就能判断这个人是否是这个人(虽然也会有误判的时 候),同样的,人脸识别技术的背后也是一套深度学习的算法, 把我们思考的过程转化为模型算法,目前市面上有多家提供人脸 识别服务的商业化应用公司,不过其算法的本质基本是类同的, 人脸识别的核心思想在于:不同人脸由不同特征组成。理解这个 思想,首先需要引入的的是“特征”的概念。先看下面这个例子: 特征01特征1 .眼皮单眼皮 双眼皮 特征2 .鼻子 特征3.眼球 特征4 .肤色 塌鼻梁 挺鼻梁 蓝色 灰色 黄色 白色 特征5发色棕黄 黑色 最简单的人脸特征假设这5个特征足够形容一张人脸,那每张人脸都可表示为这 5个特征的组合: (特征1,特征2,特征3,特征4,特征5)一位双眼皮,挺鼻梁,蓝眼睛,白皮肤,瓜子脸的小姐姐即可用 特征表示为(见表格加粗项):(1,1,0, 1,0)那么遍历上面这张特征表格一共可以代表32张不同的脸。32张 脸可远远不够覆盖70多亿的人口。为了让不同特征组成的人脸 能覆盖足够多人脸,我们需要扩充上面那张特征表。扩张特征表 可以从行、列两个角度展开。 列的角度很简单,只需要增加特征数量:(特征6.脸型,特征7. 两眼之间距离,特征8.嘴唇厚薄…)实际应用中通常应用128, 256,512或者1024个不同特征。从行的角度扩充也很好理 解,比方“特征3”,除了值0代表蓝色,值1代表灰色,是 不是可以增加一个值2代表黑色,值3代表没有头发呢?此 外,除了这些离散的整数,我们也可以取连续的小数,比方特征 3的值0.1,代表“蓝中略微带黑”,值0.9代表“灰中带 蓝”…… 28, 143 (0-100)73.440 (0-100) 微笑 光顺蚂蛋.飞后10.514 钱理至镜赳a:卷利型铅制机㈠ 角F后 脸跄 年颜表性脸眼人人人 MAT 百度开源平台:面部特征识别经过这样的扩充,特征空间便会变得无限大。扩充后特征空间里 的一张脸可能表示为: 128 Measurements Generated from ImageInput Image Input Image 0 097496064868906 。1252M24674129 0 030609439718723 0.03M506990M403 O 0974MM3401871 4 0066401711665094 O 14131&25158M? ) 0045223236063W4 0 0W30Q179177216 AOI 961477253139 0 0665M23B8658» 012262a2897»3 00367M309 侬加 笫 & 04>14eB3M9eS73S1 335X853878 0 211B0317335491 -0 035577941605915 0 g69012214 597M -0.070026844739914 <0 069621491730213 0 078333757817745 0 132273^3M74M <1413^21397636 X).134O749859eO99 X) 039491076022387 0.071W795M4I475 0.052281 M733777 。⑷ 一张脸提取出128维特征变量用于表示人脸的大量特征从哪来?这便是深度学习(深度神经网 络)发挥作用的地方。它通过在千万甚至亿级别的人脸数据库上 学习训练后,会自动总结出最适合于计算机理解和区分的人脸特 征。 说明了不同人脸由不同特征组成后,我们便有了足够的知识来分 析人脸,算法工程师通常需要一定的可视化手段才能知道机器到 底学习到了哪些利于区分不同人的特征:同一人的不同照片提取 出的特征,在特征空间里距离很近,不同人在特征空间里相距较 远。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服