收藏 分销(赏)

基于HIVE配置化自助稽核工具研究.pdf

上传人:自信****多点 文档编号:633150 上传时间:2024-01-19 格式:PDF 页数:3 大小:3.72MB
下载 相关 举报
基于HIVE配置化自助稽核工具研究.pdf_第1页
第1页 / 共3页
基于HIVE配置化自助稽核工具研究.pdf_第2页
第2页 / 共3页
基于HIVE配置化自助稽核工具研究.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、C o m m u n i c a t i o n&I n f o r m a t i o n T e c h n o l o g y N o.4.2 0 2 3通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)基于H I V E 配置化自助稽核工具研究肖逸枫,董晓勇,杨名,杜敏,杨莉中国移动通信集团四川有限公司,四川成都6 1 0 0 8 4摘 要:提出一种基于J a v a 后台的自助自动化工具,该工具提供的可配置字段模型更多、更丰富,配置轻量化,模型结果更加准确,计算速度也得到提升。在新上线营销活动或存量营销活动重点稽核时,通过可视化操作界面,支持业务编码、受理时间、受理范围

2、等条件,配置基础数据字段和个性化扩展字段构建成专属的个性化数据模型,具有操作便捷,灵活应对市场变化的特点,解决了高峰期人员不够,稽核处理不到位的痛点,从而有效提升营销活动专项稽核提数效率。关键词:H I V E 配置化自助;A I 工业革命;字段数据采集;H D F S 采集中图分类号:T N 9 1文献标识码:B文章编号:1 6 7 2-0 1 6 4(2 0 2 3)0 4-0 0 9 6-0 31 引言在运营商自动化智能化的不断探索中,大数据技术被广泛应用,大数据时代数据成为一种资产,目前大数据研究领域主要在大数据隐私保护和大数据访问控制、大数据自动处理分析等方面叫。大数据面临的挑战主要

3、体现在大数据中的用户隐私保护、大数据的可信性、如何实现大数据自动化收集、自动化分析、访问控制几个方面 2 。在各公司营销案活动内控管理过程中,利用大数据分析技术为运营商进行专线业务稽核成为迫切需求。但目前各分公司面临着专项稽核未实现自动化,稽核及时性低,数据稳定性不好,消耗的人工较多等问题。通过该成果,在稽核过程中,面对海量数据,不同维度数据信息,复杂数据表结构,进行颗粒化扩展字段模型封装,由系统输出逻辑结果。降低了对稽核人员的要求,避免了稽核人员对后台数据库、存储格式、分区分表、关联关系不了解导致的人为误差导致工单错误。从而有效提升稽核效率,减少数据结构分析过程中带来人为误差的可能性。该成果

4、在专项稽核过程中,稽核数据提取环节,运用了配置化自助取数的解决方案,配合H I V E 等方面的相关技术进行实现。同时综合运用了颗粒化扩展字段分析模型、O r a c l e 数据到H D F S 数据采集组件和H S Q L 执行组件等手段进行配合使用。在后台多线程数据分析模型中,一方面提高了业务数据采集分析过程中的稳定性;另一方面提高了业务数据采集的完整性、一致性,减少人为误差,提高了专项稽核工作的整体效率和准确性。2 配置化自助稽核流程在新上线营销活动或存量营销活动重点稽核时,可通过可视化操作界面,支持业务编码、受理时间、受理范围等条件,配置基础数据字段和个性化扩展字段构建成专属的个性化

5、数据模型。具有操作便捷,灵活应对市场变化的特点。解决了每到春旺促销、校园迎新等活动高峰期人员不够,稽核处理不到位的痛点。从而有效提升营销活动专项稽核提数效率,减少手工提数带来人为错误的可能性。前台操作后台周用时间范国确定取操作人员提数范数的区通过前地市区县要求微兴作四围确定本条件页面白行填写活动编码地产针子理客户I D确定基操作人员其础字础数据通过页面容户号码条数进行勾选段客户入网时间体量目工和扩四字段是否指走主资费是否对应目标春户群是否绑定2 0 9账户确定每通过封装条用户的和化数据的扩展字段细节进行勾选、观则指定组装生成冀表政第图1 配置化自助稽核流程图在提取符合稽核人员配置的数据过程中,

6、依据运营商海量的数据信息,对数据进行采集,通过得到海量数据,对基础字段与扩展字段数据提取模型进行开发,对数据分析模型收稿日期:2 0 2 3 年4 月1 3 日;修回日期:2 0 2 3 年6 月1 4 日9 6人工智能基于H I V E 配置化自助稽核工具研究进行开发,得到基础字段与扩展字段数据提取模型及数据分析模型,为后续业务提供算法模型。在营销案活动专项稽核过程中,如图1 所示,首先对数据提取的范围进行配置并校验,通过系统提供的已发布的基础和扩展字段模型进行选择,并对相关元素进行设置,可选配置各字段筛选条件;保存后未发布之前,可对已配置的自助提数任务进行调整,确定自助提数任务信息配置无误

7、后,对自助提数任务进行发布,发布后系统后台即刻进行基础数据采集模型调用、基础字段数据提取模型调用、扩展字段数据提取模型调用、数据分析模型调用,最终系统对数据进行组装生成宽表数据;在系统后台执行模型的过程中,稽核人员可查询自助提数后台日志,观察执行进度;模型执行完成后将生成数据文件,提供稽核人员下载数据结果。3 配置化自助稽核采用的技术手段3.1 基于H I V E 脚本扩展字段数据提取研究方法,实现扩展字段数据采集的模型H I V E 脚本数据仓库可以管理数据量巨大的结构化、半结构化数据3 ,该技术实现过程主主要包括第三方数据采集并进行预处理、数据分析模型构建、数据分析模型参数调优三个步骤。通

8、过分析扩展字段处理结果,例如正确率及完整率,判断数据分析模型是否收敛,正确率是否提高,从而得到扩展字段数据提取模型。模型训练过程中,如图2 所示,首先,对底层生产库数据进行加载或采集生成O D S 层数据。然后,对O D S 层数据进行清洗加工,使数据结构化、标准化。其次,构建D W D 底层模型,实现对业务逻辑的简单加工。再次,对H I V E 各项参数根据实际情况进行调优,根据业务需求,组装h q I 对D W D 底层模型进行更深层次的业务关联,合成D W 中间层模型。最后,根据D W 中间层模型的正确率及损失值,判断业务关联是否正确,底层数据是否完整,最终调整业务规则,获得A P P

9、展示层模型。3.2 o r a c l e 数据到H D F S 采集组件方法,实现采集o r a c l e数据到H D F S该技术实现过程主要包括前台页面模块开发(增加表数量)、支持替换批量表名(主要针对1 0 0 张表的情况)、多线A P P数据产品层H i v e、S p a r kM RD W数据仓库层H i v e、p a r k、M RS p a r k S t r e a m i n g、S t o m、F l i n kO D S数据运营层S q o o p、F l u m e、S p a r k、S t o r m业务库理点其它据来源展图2 H I V E 架构图程s q

10、 l 执行功能开发、结果数据写成临时文件、临时文件上传H D F S 功能等关键步骤。同时通过数据写入时间删除临时文件s h e l l 脚本编写,数据执行直接到H D F S 功能,H D F S 最终得到采集的o r a c l e 数据。首先,对源数据表结构构建分析模型。然后,对源数据表创建对应数据采集任务。其次,构建表整合模型,实现对批量、分库等表进行汇总,生成后台数据输入、输出脚本。再次,对数据一致性、完整性进行自动检测,训练自检模型。最后,根据数据补全方法的保障正确率及损失值,判断缺失数据查漏补缺,获得数据对账模型。3.3 基于J a v a 的H I V E S q l 执行组件

11、方法通过前台页面配置化自助稽核执行管理模块触发,执行S Q L 时间校验,如达到当晚7-1 0 点,则新建定时延后执行之后流程,操作人员权限控制(稽核员只能查询当前地市),H I V E s q l 解析功能(加载参数、解析参数成完整可执行s q l),H I V E s q l 执行流程功能,结果数据生成e x c l e 文件,并支持下载。基于J a v a 的H I V E S q l 执行组件方法,首先获取配置参数元素,采用解析参数元素生成完整可执行H s q l 方法,计算各项配置参数元素值。设置对应扩展字段筛选条件,判断动态业务逻辑走向,如果存在依赖数据的等待前置数据执行完成后,再

12、执行,如果不存在依赖数据的,则并发执行,从而提高执行效率。4 配置化自助稽核技术架构在业务稽核中,如图3 所示,首先由后台工程师进行H I V E 脚本维护,前台可视化操作界面进行发起取数任务,实时采集业务数据,根据采集到的业务数据进行预处理。然后,将预处理之后的数据输入到已经维护好的扩展字段数据分析模型中,实时业务数据是否稽核规则,如果有二级筛选条件则调用二级数据筛选模型,过滤不满足二级筛选条件的数据,否则,继续实时执行其他扩展字段数据分析模型。其次,通过执行过程监控模块,可实时查询任务执行进度。再次,对提取得到的结果数据经过数据安全监控进行脱敏处理,脱敏处理后的数据进入结果宽表,生成独立结

13、果报表文件。最后,支持导出,且已配置的任务模板永久可用。可视化操作界面自助取数魔方可维护后台H I V E 脚本独立报表号出模板永久可用机行过程监控稽核规则配查图3 配置化自助工具模型及调用框架流程示意图9 7通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)5 配置化自助稽核工具主要功能前台取数任务配置;基础字段与扩展字段后台管理;执行日志管理;结果数据下载;基础数据采集;扩展字段模型;任务流程管理。6 结语数据信息,复杂数据表结构,进行了颗粒化扩展字段模型封装,由系统输出逻辑结果,降低了对稽核人员的要求,避免了对后台数据库、存储格式、分区分表、关联关系不了解,难以在线上稽核点上

14、兼顾人为误差导致工单错误,从而有效提升稽核效率,减少数据结构分析过程中带来人为误差的可能性。面对海量数据,人工提数数据工作量巨大,后续稽核数据处理、结果整理也是巨大的工作量,且可能出现结果不够规范统一的情况。营销线上稽核点只能从通用维度进行稽核,使得很多个性化营销案难以适配,造成误判的同时使得数据量异常庞大,稽核人员的压力巨大。大工作量,大压力面前,人工处理难免会出现错误。营销案的特点是具有个性化、数据量大、市场变化快。旧的稽核方式面对大量数据,动辄需要2、3 天甚至是一周才能完成。但营销案的本质要求必须要快速完成才能跟得上市场的变化,一周时间将错过几乎所有热点方向,难以跟上市场节奏同时难以发

15、现问题。一般来说,及时的稽核反应时间要求是半天处理完相关内容。基于工作便利性考虑,应该是在2 小时内处理完大量任务。本成果已经可以将原有4-7 天跑完的结果压缩至2 小时内完成,自动快速处理完稽核任务。采用该成果后可自动提数、自动生成结果。该成果是一种基于J a v a 后台的自助自动化工具,后台提供的可配置的字段模型更多、更丰富,配置轻量化,模型结果更加准确,计算速度也得到了进一步提升。同时该成果以O r a c l e 数据同步至H D F S 的方法,更加效率且自动化采集业务系统数据。本成果自动处理可避免人工偶发错误。在营销案专项稽核过程中,面对海量数据,不同维度参考文献 1 冯勤群.大

16、数据背景下数据库安全保障体系研究 J .软件导刊,2 0 1 3,1 2(1):1 5 6-1 5 8.2 冯登国,张敏,李昊.大数据安全与隐私保护 J .计算机学报,2 0 1 4,3 7(1):2 4 6-2 5 8.3 C A P R I O L O E,W A M P L E R D,R U T B E R G L E N.H I V E 编程指南 M .曹坤,译.北京:人民邮电出版社,2 0 1 3:1 1 2-1 2 1.作者简介肖逸枫(1 9 9 3-),男,硕士,工程师,主要研究方向:通信系统运营维护、系统需求开发及支撑、大数据分析和研究。董晓勇(1 9 7 6-),男,学士,

17、工程师,主要研究方向:业务支撑系统运营维护、系统需求开发及支撑。杨名(1 9 8 2-),男,硕士,工程师,主要研究方向:云计算平台运营维护、系统分析及业务优化、大数据分析和研究。杜敏(1 9 7 7-),女,硕士,工程师,主要研究方向:系统需求开发及支撑、大数据分析和研究、运营管理。杨莉(1 9 7 7-),女,本科,主要研究方向:通信系统运营维护、系统需求开发及支撑、大数据分析和研究。R e s e a r c h o n s e l f-a u d i t t o o l b a s e d o n H I V E c o n f i g u r a t i o nX I A O Y i

18、 f e n g,D O N G X i a o y o n g,Y A N G M i n g,D U M i n,Y A N G L iC h i n a M o b i l e C o m m u n i c a t i o n s G r o u p S i c h u a n C o.,L t d.,C h e n g d u 6 1 0 0 1 5,C h i n aA b s t r a c t:A s e l f-s e r v i c e a u t o m a t i o n t o o l b a s e d o n J a v a b a c k g r o u n d

19、 i s p r o p o s e d,w h i c h p r o v i d e s m o r e a n d r i c h e r c o n f i g u r a b l ef i e l d m o d e l s,l i g h t w e i g h t c o n f i g u r a t i o n,m o r e a c c u r a t e m o d e l r e s u l t s,a n d i m p r o v e d c a l c u l a t i o n s p e e d.D u r i n g k e y a u d i t s o

20、f n e w l yl a u n c h e d m a r k e t i n g a c t i v i t i e s o r e x i s t i n g m a r k e t i n g a c t i v i t i e s,t h e v i s u a l o p e r a t i o n i n t e r f a c e s u p p o r t s c o n d i t i o n s s u c h a s b u s i n e s sc o d e,a c c e p t a n c e t i m e,a c c e p t a n c e s c

21、o p e,e t c.,c o n f i g u r e s b a s i c d a t a f i e l d s a n d p e r s o n a l i z e d e x t e n s i o n f i e l d s t o b u i l d a n e x c l u s i v ep e r s o n a l i z e d d a t a m o d e l,a n d h a s o p e r a t i o n I t i s c o n v e n i e n t a n d f l e x i b l e t o r e s p o n d t

22、o m a r k e t c h a n g e s,a n d s o l v e s t h e p a i n p o i n t s o fi n s u f f i c i e n t p e r s o n n e l a n d i n a d e q u a t e a u d i t p r o c e s s i n g d u r i n g p e a k p e r i o d s,t h e r e b y e f f e c t i v e l y i m p r o v i n g t h e e f f i c i e n c y o f s p e c i a la u d i t s f o r m a r k e t i n g a c t i v i t i e s.K e y w o r d s:H I V E c o n f i g u r a b l e s e l f-H e l p,A l i n d u s t r i a l r e v o l u t i o n,F i e l d d a t a c o l l e c t i o n,H D F S a c q u i s i t i o n9 8

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服