收藏 分销(赏)

基于分布式数据库ClickHouse的大数据平台在执法检查中的应用实践.pdf

上传人:自信****多点 文档编号:2261074 上传时间:2024-05-24 格式:PDF 页数:4 大小:1.61MB
下载 相关 举报
基于分布式数据库ClickHouse的大数据平台在执法检查中的应用实践.pdf_第1页
第1页 / 共4页
基于分布式数据库ClickHouse的大数据平台在执法检查中的应用实践.pdf_第2页
第2页 / 共4页
基于分布式数据库ClickHouse的大数据平台在执法检查中的应用实践.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、栏目编辑:梁丽雯 E-mail:liven_2024年第2期7474Research|技术应用一、背景近年来,中国人民银行及其派出机构根据中华人民共和国中国人民银行法 金融违法行为处罚办法 商业银行、信用社代理国库业务管理办法和征信业管理条例等相关法律法规规定,对金融业机构反洗钱、征信、国库、外汇等业务进行监管。2021年,人民银行江苏省分行(以下简称“人行江苏省分行”)受总行委托,对中国农业银行开展综合执法检查。现场检查期间,业务人员发现原有手工检查方式已经无法应对中国农业银行总行级的海量数据检查,主要表现在以下方面。一是数据规模大。无论是文本编辑软件还是基于传统数据库的管理系统,当数据量达

2、到千万级甚至亿级时,会出现技术处理捉襟见肘的情况,无法了解数据的整体情况和详细内容。二是数据格式内容不规范。被检查单位提供的数据格式五花八门,多种格式并存,处理起来时间长、效率低。同时,其所提供的数据内容复杂多变,多数数据出现缺少重要数据项、数据项内容不合理、数据项格式不正确等问题,部分数据甚至需要被检查单位从库里提取数次,这无疑增加了数据处理时间。三是数据分析比对效率低。传统的数据分析效率低、准确度不高、时效性滞后,部分业务涉及对数据分析结果的二次分析,分析的结果可读性差。基于分布式数据库ClickHouse的大数据平台在执法检查中的应用实践 中国人民银行江苏省分行吴莹 中国人民银行连云港市

3、分行倪立显摘要:为解决现场检查中人工比对效率低、检查数据处理困难等问题,人民银行江苏省分行总结近年来对接入机构执法检查的经验,探索研发了基于分布式数据库的现场综合执法检查平台。该平台实现了亿级业务检查数据的入库、查询、分析和筛查等各项功能,能够较好地满足现场检查的实务需求,有效提升执法检查工作的质效。关键词:金融科技;分布式数据库;ClickHouse;执法检查作者简介:吴莹(1983-),女,江苏南京人,工学硕士,工程师,研究方向:系统建设、数据分析;倪立显(1988-),男,江苏连云港人,工学硕士,工程师,研究方向:机器学习、深度学习。收稿日期:2023-12-08栏目编辑:梁丽雯 E-m

4、ail:liven_2024年第2期7575Research|技术应用以上问题已经成为业务现场检查的难点和堵点,影响了执法检查的效率和效果。二、开展情况针对上述问题,人行江苏省分行科技部门会同业务部门总结近年来对接入机构执法检查的经验,探索研发了现场综合执法检查平台。该平台采用基于列式存储的分布式数据库系统,具有高数据压缩比和完备的数据管理能力,实现了亿级业务检查数据的入库、查询、分析和筛查等功能,还实现了数据格式和内容的规范和统一,能够满足现场检查的实务需求,有效提升执法检查工作的质效。(一)平台架构1.应用架构平台应用架构如图1所示,执法检查平台的数据来源包括人民银行属地数据、人民银行征信

5、中心数据和被检查单位的数据;基础应用层承担应用程序基础的管理功能;业务应用层方面,针对征信业务、国库业务设计了包括数据查询和数据筛查内的服务;平台的业务目标是满足人民银行对金融机构进行综合执法检查和专项检查的需求。随着平台在多次执法检查中的应用实践,其功能也愈发完善。2.技术架构执法检查平台由前端应用程序、ClickHouse分布式数据库、辅助管理数据库和报表平台构成。平台技术架构如图2所示。图1平台应用架构图2平台技术架构(1)前端应用程序。其由人行江苏省分行自主研发,图2中的App节点为平台提供统一的用户管理、部门管理、角色管理和数据源管理等功能。前端应用程序通过JDBC方式连接核心业务数

6、据库(分布式数据库)和辅助管理数据库,实现双数据源切换。(2)ClickHouse分布式数据库。ClickHouse开源分布式数据库是一款高性能的OLAP数据库,是实现平台高性能、高可用、可伸缩扩展的核心关键点。(3)辅助管理数据库。本地MySQL数据库主要包括元数据和辅助管理的数据,例如分布式数据的部分统计数据也存储在MySQL数据库中。(4)报表平台。其主要是为征信和国库业务的所有查询和线索筛查提供统一的展示结果。(二)主要功能项目的主要功能包括数据采集、数据查询、数据筛查和系统管理(如图3所示)。数据采集是数据源管理,用来实现对执法检查的数据入库和出库等一系列的操作。数据查询模块方便执法

7、人员深入了解和查看检查数据的分布情况,其中,国库业务提供了账号信息查询、交易明细信息查询等功能,征信业务提供了用户清单查询、查询记录查询等功能。数据筛查模块帮助执法人员尽可能地筛查出更多的问题,是平台的业务栏目编辑:梁丽雯 E-mail:liven_2024年第2期7676Research|技术应用表查询接入机构个人查询记录2.8亿条汇总数据秒级返回结果,多表查询数分钟内返回结果)、用户使用方便(集成报表平台,用户交互友好)、通用性好(通过配置XML文件自动创建表和数据导入)等优点,减少了被检查单位提供资源的数量,提高了业务人员执法检查的效率和质量。2023年,已经在辖内江南农村商业银行、海安

8、农商行、盐城农商行、东方农商行和资金农商行等机构中应用了现场综合执法检查平台,极大地提升了执法检查人员的工作质效。(四)特点及优势平台采用的ClickHouse分布式数据库是目前业界公认较快的数据查询引擎,在阿里云、腾讯音乐、bilibili、京东、苏宁易购、头条、快手、唯品会等互联网公司中均有广泛应用。平台优势主要体现在强大的数据处理能力、安全的数据环境、便捷的部署操作等方面。具体如下。1.检查资源占用少、利用率高在此次对建设银行的执法检查中,部署人员只向被检查单位申请了1台服务器,所需的资源很少,且利用率高。数据处理能力远优于当前反洗钱和支付条线使用的基于Hadoop技术的数据检查平台,当

9、前执法检查平台以45G的存储空间入库了约318G的数据(压缩率14%),极大地降低了被检查单位提供的服务器数量和存储容量,减轻了被检查单位的资源申请和使用压力。2.数据入库时间短、查询效率高执法检查平台实现了被检查单位提供的2.8亿条个人征信查询记录30分钟入库,千万级数据秒级入库。平台中单表查询2.8亿条数据、汇总查询均是秒级反馈结果,多表交叉查询做到数分钟反馈结果。3.用户界面友好、操作简便执法检查平台前端利用Java语言开发了一套通用管理平台,通过配置XML方式支持业务表创建、删除和导入全量及增量数据,后端集成FineReport报表平图3平台主要功能核心模块。其中,国库业务提供了经收业

10、务数据筛选、集中支付业务数据筛选等功能,征信业务提供了用户管理类筛查、查询记录类筛查等功能。系统管理主要是一些辅助功能模块,包括用户管理、角色管理、部门管理、菜单管理、参数管理、字典管理和日志管理等。(三)应用情况2022年人行江苏省分行再次受总行委托,对建设银行征信和国库业务进行检查,并将该平台投入实战。此次检查,被检查单位仅提供一台PC服务器(服务器配置为128核、512G内存、1.2T硬盘)。服务器中预装VMwareESXI6.7,直接导入人行江苏省分行已配置好的4台虚拟机。其中,前端Java应用程序和FineReport报表共用1台虚拟机,ClickHouse分布式数据库占用3台虚拟机

11、。每台虚拟机配置为32核CPU、128G内存和300G硬盘。得益于ClickHouse分布式数据库的超高数据压缩率,300G硬盘可以存储TB级别的数据。此次检查已在执法检查平台创建了涉及征信业务、国库业务方面的业务表36张(可以通过XML配置灵活增加和调整),入库数据13.2亿条,处理数据量达318G,设计报表81张,平台查询24967次,入库158次,其中前三大数据量业务表是征信接入机构个人查询记录2.8亿条、征信接入机构个人授信清单(信用卡)1.79亿条和不良信息告知记录1.34亿条数据。这次检查执法检查平台具有入库时间短(2.8亿条数据30分钟入库,百万级数据秒入)、查询效率高(单栏目编

12、辑:梁丽雯 E-mail:liven_2024年第2期7777Research|技术应用台,实现数据比对和筛查规则与系统代码完全分离,规则创建和变更操作方便,界面友好美观。4.检查数据安全性高、保密义务少系统服务器直接部署在被检查单位,可以有效避免大量被检查数据在传输过程中被篡改或泄露的风险,确保数据的可用性和安全性。检查结束后,数据清理简单,并且数据安全问题由被检查单位负责,需要检查组承担的义务较少。5.系统设置灵活、可推广性较强系统具有较好的可拓展性,各类报表设置可以依据检查实务灵活创建和变更。系统部署简单灵活,通过使用VMware虚拟机的方式导出虚拟机模板,由被检查单位提供虚拟机环境即可

13、直接导入,只需变更网络IP地址、分配适当大小的硬盘即可,不需要每次检查前重新安装部署平台环境。三、主要成效重要作用:促推执法检查更加科学化,通过分布式数据库高效能的查询和处理性能,有效解决了大量数据处理困难、手工核查效率低的问题;促推执法检查更加智慧化,通过建立检查业务逻辑、多表交叉比对等方式,实现对多项违规线索的定位和筛查;促推执法检查更加规范化,通过明确展示各类查询数据和各个线索筛查要点,进一步规范和固化了检查内容,统一了检查标准,有效提高检查人员的执法检查能力和水平。经济效益:降低硬件资源成本,减少被检查单位提供服务器、存储等硬件资源的数量;降低人力成本,大幅降低检查人员的数量和检查时间

14、;规范和固化检查内容,统一检查标准,有效提高执法检查能力和水平。社会效益:避免数据在传输过程中被篡改或泄密,保护被检查单位的商业机密和个人隐私;平台采用先进的分布式数据库技术,符合金融科技发展规划(2022-2025年)的要求,有助于推动人民银行数字转型;发现日常金融活动中的不合规操作,便于金融机构对其问题进行整改,防范化解金融风险,维护金融市场秩序。四、下一步工作鉴于执法检查平台开发时间较为紧迫,平台功能还需在检查实务中进一步优化。下一步,人行江苏省分行将在实践检查“大考”的基础上,开展以下工作。一是优化线索筛查规则和系统功能,规范被检查单位提数标准,完善平台使用管理办法。二是配合征信和国库

15、业务条线平台的推广工作,目前正在开展执法检查的辖内机构有江南农村商业银行、海安农商行、东方农商行等,积极做好平台的安装部署和人员培训等工作。三是整合原有反洗钱和支付结算等条线基于传统Hadoop技术的数据检查平台,拓宽平台应用领域范围,争取在人民银行各个业务条线执法检查中发挥更大的作用。四是增强平台的兼容性和可扩展性,在保障平台性能和稳定性的前提下,积极与高校开展国产分布式数据“产学研”合作,推动平台与各类基础运行环境适配,进一步增强平台的兼容性。FTT参考文献:1朱凯.ClickHouse原理解析与应用实践M.北京:机械工业出版社,2020.2杨旭.基于ClickHouse和Flink的实时数仓构建与应用J.软件导刊,2021(3):128-129.3王军,黄经国,余丹,等.分析数据库ClickHouse在国家地球物理台网中心的应用J.地震研究,2023(2):308-314.4ClickHouse.ClickHouseDocsEB/OL.https:/

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服