收藏 分销(赏)

邦道信息SSP-V3技术白皮书New.docx

上传人:a199****6536 文档编号:9569717 上传时间:2025-03-31 格式:DOCX 页数:76 大小:5.51MB 下载积分:16 金币
下载 相关 举报
邦道信息SSP-V3技术白皮书New.docx_第1页
第1页 / 共76页
邦道信息SSP-V3技术白皮书New.docx_第2页
第2页 / 共76页


点击查看更多>>
资源描述
邦道信息技术有限责任公司 SpiritData Service PlatformV3.0.0 技术白皮书 邦道信息技术有限责任公司 2016-01 免责与著作权声明 本文档仅用于向用户提供相关产品信息,邦道信息技术有限公司对本文档中的信息不做任何明示或暗示的承诺。 对于文档涉及的可能或已经由邦道信息技术有限公司所享有的知识产权(包括但不限于专利权、专利申请权、商标权、著作权),本文档中任何表述均不构成邦道信息技术有限公司对用户的许可和授权。在未得到邦道信息技术有限公司另行书面许可的情况下,用户不得出于任何目的、以任何形式或手段(包括但不限于电子的、机械的、影印、录制等)复制、发行、传播、许可他人使用本文档的任何内容。 本文档中作为范例而向用户阐述的公司、组织、产品、域名、e-mail 地址、徽标、人员、地点和事件均为虚构,不与任何真实的公司、组织、产品、域名、e-mail 地址、徽标、人员、地点和事件产生直接或间接的联系。 目 录 目 录 3 产品背景 9 SSP综述 9 SSP产品三层架构 10 产品主要功能 12 SSP@Portal 12 SSP@DP 14 大数据采集流程 15 元数据管理模块 16 数据构造模块 23 数据质量模块 26 数据共享模块 43 SSP@Report 49 SSP@GIS 50 SSP@Dsight 51 SSP@DP-Stream 54 整体架构 55 主要应用的场景 56 产品特性 56 SSP@Gandalf 59 建设目标 59 价值分析 59 功能介绍 61 部署方式 63 SSP@AOS 64 概述 64 适用接口 65 SSP@TS 66 主要特点 66 核心技术及特性 68 清晰的分层处理架构 68 智慧的大数据处理技术 68 全程元数据驱动、架构松耦、调整灵活 69 高效的海量数据实时查询与分析能力 69 NLP算法及相关技术 70 人际关系网分析 70 用户重大事件挖掘 72 物品协同推荐 72 基于云架构的分布式网络爬虫 73 基于决策森林的文本分类 74 数据挖掘技术 75 热部署技术 76 混合云 76 负载均衡技术 77 运行环境 78 软件环境 78 硬件环境 78 联系我们 80 Technical White Paper 产品背景 上个世纪信息科技的迅猛发展导致了人类生产生活模式的电子化和数字化,而在大数据时代,关注的重点逐渐转移到数据本身,人类寄希望于从海量的各种数据中萃取具有真正价值的信息和知识,并形成对未来发展的准确的预测。大数据的出现,引发了全球范围内深刻的技术与商业变革,已经成为全球发展的趋势,国家和企业间的竞争焦点正从资本、土地、人口、能源转向数据资源。 大数据引发巨大社会和经济变革的潜力,得到了各国政府、全球学术界和工业界的高度关注和重视。美国、日本以及欧洲一些发达国家政府都从国家战略层面提出了一系列的大数据发展计划,以推动全社会对大数据技术和应用的探索和研究。对于中国而言,在经历了30多年的高速发展之后,各种严峻问题也伴随而生,包括产业升级、社会稳定、环境保护、医疗健康和食品安全等方面的挑战。因此,亟需将大数据的发展提升到战略高度,以此为契机,通过各种创新和探索,推动产业升级和创新、经济转型和民生建设。 邦道信息技术有限公司在大数据环境下孕育并快速成长的高新技术企业,是一家政府、企业、教育、医疗、房地产、通信大数据服务整体方案提供商,从事大数据时代行业软件的研发与服务,以挖掘和盘活数据资产为目标。公司产品SSP(SpiritDataServicePlatform)打造了一套完成的大数据环境生态圈,涵盖信息采集、转换、挖掘、可视、开放五个方面,为客户实现大数据的价值转化提供端到端服务,其整体架构、功能特性及性能在业界处于领先水平。 SSP综述 邦道信息技术有限公司SSP(SpiritDataServicePlatform)是一种具有独特创新功能的大数据处理、分析、开放平台。SSP包括SSP@Portal、SSP@DP、SSP@Report、SSP@GIS、SSP@Dsight、SSP@NMS六个子产品。 SSP产品三层架构 附图1. SSP产品划三层架构-采集域、数据服务域、数据可视域 ü SSP@Portal 是一款快速门户集成的Portal产品,以综合信息呈现和灵活页面布局为特点,能够适应多种场景,不仅实现根据不同的生产或职能部门呈现不同的Portal,还可以通过配置皮肤、布局、组件等实现个性化关注Portal页面 ü SSP@GIS 基于多种地图引擎的二次开发,提供企业级的定制化分析功能,以兼容各开发平台、提供统一的对外开发模式、提供多行业服务为目标的高智能云端地图产品。 ü SSP@Report 能够提供多元化的快速报表服务能力,适配现阶段市面上各种主流数据库,通过简便快捷的配置操作,能够在最短时间内达成用户对中国式报表的需求。 ü SSP@Dsight 具备模型管理、数据可视和数据挖掘于一体的下一代云端数据分析产品,具备灵活、直观、快速的可视化能力,抛弃以往苍白的数据呈现形式,使数据呈现更加生动精炼。 ü SSP@DP 元数据驱动的一体化数据服务平台,基于“元数据管理、数据质量管理、数据构造管理、数据开放管理、资源能力开放”能力,运行在Hadoop、MPP平台之上,具备系统自运维能力的综合性大数据开放平台。 平台支持流数据的实时处理,支持不断更新持续查询的结果,可在移动的数据流中监测洞察。 ü SSP@DP-Stream 作为一个流计算平台,不仅实现了系统的高可靠性,高可扩展性,负载均衡等设计目标,而且提供了完整的解决方案,包括一个运行时环境和编程模型来简化需要对大批量连续流数据进行提取、过滤、分析以及关联的应用程序的开发,能够广泛应用于制造、零售、交通运输、金融证券以及监管各行各业的解决方案之中,使得实时快速做出决策的理念得以实现。 ü SSP@TS 邦道图述是一款专业的大数据可视化分析平台, 所见即所得,便捷分享,零编程玩转图表,彰显大数据魅力。 ü SSP@Gandalf 甘道夫提供一个面向电信领域的深度DPI工具,为数据变现提供基础能力,透析信令数据DPI信息。解析用户电商、餐饮、阅读、视频、资讯、社交、音乐等互联网行为行为,为精准营销、舆情管控和行为分析提供准确的参考数据。 产品主要功能 SSP@Portal SSP@Portal产品以信息呈现及集成作为主要目标,支持自定义布局、多终端(PC、手机、PAD)呈现、丰富的图表控件(线图、柱图、饼图、雷达图、仪表盘、温度计、地图、散点图等)、丰富的自定义控件(查询面板、磁贴、列表、表格、选项卡、外部链接、三方呈现容器等)、数据联动、下钻参数传递等。通过页面模块化,使各模块间可自由组合,模块内可自由选择,极大地丰富了页面的呈现方式和呈现内容,使用户的Poral脱离了旧式的固定风格和堆积的呈现方式,同时突出关键业务数据,使用户从其他零散数据中脱离出来,准确的抓住业务关注点所在,提高工作效率。 下图为SSP@Portal的功能架构: 附图2. SSP@Portal功能架构 以下产品功能示例: 附图3. SSP@Portal成果1 附图4. SSP@Portal成果2 附图5. SSP@Portal成果3 附图6. SSP@Portal成果4 SSP@DP 元数据驱动的一体化数据服务平台,基于“元数据管理、数据质量管理、数据构造管理、数据开放管理、资源能力开放”能力,运行在Hadoop、MPP平台之上,具备系统自运维能力的综合性大数据开放平台。包括大数据采集、数据构造、数据共享、元数据管理、数据质量、流式处理几大功能。 大数据采集流程 附图7. SSP@DP大数据采集流程 SSP@DP支持源文件通过文件、DB、WS等方式探测,将源文件下载至本地后通过SPARK处理节点完成数据的预处理,然后合并输出目标文件,最终采集加载到HADOOP、DB或DW。 常用采集协议 SSP@DP支持以下常用采集协议: ◆ 文件接口 文件接口支持采用HTTP、FTP等标准的传输协议。支持csv/txt/xml等多种文件格式,采集频率满足月、周、日、小时、分钟等多种周期粒度的数据。 ◆ 数据库接口 数据库接口支持通过JDBC/ODBC的方式从数据源系系统的数据库表或视图进行数据的抽取,进行抽取时,可根据数据量大小、网络情况、系统负荷等情况,采用全量方式或者增量方式进行抽取。 ◆ 消息接口 消息接口支持WebService技术、MQ标准的消息队列技术、socket技术等。 ◆ 实时数据传输接口 采用SDTP实时数据通信协议,为实时数据采集共享传输协议。该协议传输特点是数据传输量大,实时性要求高,过程简单,不需要握手鉴权过程。 元数据管理模块 元数据定义 元数据是描述数据的数据(dataaboutdata),主要是描述数据属性(property)信息,用来支持如指示数据来源、数据类型、数据有效期和有效性等属性的管理和应用等功能。 元数据的描述范畴包括领域概念(DomainConcepts)、领域关系(DomainRoles)、领域规则(DomainRules)的、领域语义(Semantics)和知识(Knowledge)。 元数据管理模块目标 数据分析体系规划中通过元数据管理来实现数据的透明化、可管理,同时贯穿DP数据服务平台,为平台各模块提供支持。SSP@DP元数据管理模块分两部分:元数据管理、元数据分析。 SSP@DP元数据管理的具体目标包括: 1) 实现元数据的全程统一管理 把分散在不同系统、不同工具、不同人员中的元数据信息进行统一管理,基于业务建立元数据模型,弱化元模型,实现数据从业务层至技术层的全面贯通;通过数据的统一,使标准增加一致性,并对数据统一生命周期管理。 2) 实现数据透明管理要求 通过对数据源定义、目标定义、转换规则等相关的关键信息的管理,达到数据透明的管理目标,具体包括的数据结构透明、数据含义透明、数据转换规则透明等; 3) 为其他模块提供支持 以元数据管理为基础,从数据采集入库到数据建模、数据汇聚、数据对外支持,其他模块通过元数据驱动对数据建立较为统一、系统的管理机制。 4) 为数据分析体系提供基础信息支撑,提升系统的可用性、易用性 通过对系统元数据的有效维护管理,以及全面的服务接口的提供,达到信息共享,消除信息孤岛,使数据分析产品体系的应用范围能到扩展。随着不断完善和扩充元数据对外服务接口内容,使数据分析产品有能力实现向外部模块或子系统提供元数据内容和元数据分析服务。 元数据管理范畴 SSP@DP元数据管理的最终目标是实现对目标业务应用支撑体系涉及的所有元数据的管理,实现整个目标业务应用支撑体系融入式的元数据管理。系统采用分步策略实现向最终目标的演进。 现阶段元数据具体管理的内容包括数据仓库元数据元数据、ETL过程、OLAP模型和系统指标、报表元数据等。 SSP@DP元数据分类可以划分为三类元数据:技术元数据、业务元数据、操作元数据。这三种元数据的具体描述如下: l 技术元数据:技术元数据是描述源和目标系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖源和目标系统数据源接口、数据仓库存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节; 对于技术元数据,需要包括以下信息: (1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义; (2)业务系统、数据仓库的体系结构和模式; (3)汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告; (4)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则。 l 业务元数据:业务元数据从业务角度描述了系统业务相关及系统使用的业务语言中的数据,它提供了介于使用者和实际系统之间的语义层,使得业务使用人员不需要了解技术实现原理,也能够明白目标系统中的数据脉络和数据定义。 业务元数据需要包括以下信息: (1)使用者的业务术语所表达的数据模型、对象名和属性名; (2)访问数据的原则和数据的来源; (3)系统所提供的分析方法以及公式和报表的信息。 l 操作元数据:应用程序运行信息:它们的频率、记录数以及各个组件的分析和其他同级信息。 元数据管理内容 附图8. SSP@DP元数据管理 SSP@DP元数据管理包括: ü ETL元数据; ü 数据仓库元数据; ü OLAP元数据; ü 相关业务元数据。 ETL元数据 ETL过程中的元数据,主要偏向于技术元数据,应纳入元数据管理的范畴。管理的ETL产品应包括“第三方ETL产品”和“自主开发ETL产品”。“第三方ETL产品”是指非目标系统应用软件开发商或集成商自己开发的,以软件产品形式在市场上销售的且占有较大市场份额的通用ETL产品。例如:ODI、SSIS、DataStage等。“自主开发ETL产品”,是指由目标系统应用软件开发商或集成商自己开发的具有ETL功能的软件。 在SSP@DP中,ETL元数据来源于ETL工具和ETL处理过程,包括: ü ETL映射规则; ü ETL单元:ETL作业名称、存储过程名称、输入数据集、输出数据集; ü ETL流程:开始ETL单元、下一单元、结束单元; ü ETL装载记录:ETL流程开始时间、ETL单元开始时间、流程结束时间,单元结束时间。 数据仓库元数据 ODS元数据和DW元数据均属于数据仓库元数据,是数据仓库系统的核心元数据。数据仓库系统RDBMS进行数据的存储和管理,设计模型采用星型模式、雪花模式等,遵循数据仓库的设计准则,实现主题、维、度量等多维模仿概念模型。 ü 数据仓库逻辑模型:实体名称、属性名称和类型、关系; ü 数据仓库物理模型:数据库名称、模式名称、表、字段、主键、外键、索引、分区。 OLAP元数据 ü 维度:维名称、维元素、钻取路径、级别 ü 度量:度量名称、格式、计算公式 ü Cube:维度、度量、数据量 ü 星型模式:事实表、维表、汇总表 相关业务元数据 业务元数据包括业务术语、业务描述、业务指标以及业务规则等相关信息,系统中涉及到的指标、报表、业务字典、维度数据以及编码都属于业务元数据的范围。业务元数据可以根据具体的业务发展进行持续定义和维护管理。 业务元数据和技术元数据之间的映射关系也属于元数据的管理范围,在目标系统中,体现在语义层的数据业务含义与逻辑层、物理层的技术数据实体之间的关联关系。例如一个KPI指标在数据仓库中所对应的库表、字段以及相应的转换过程。 元数据管理模块主要功能 元数据管理模块主要功能包括元数据管理及元数据分析两大块功能。 元数据管理 元数据管理支持逻辑模型设计、物理模型设计、数据流模型设计、业务模型设计。支持表格、图形化展现数据仓库中的事实维数据结构,支持多种数据呈现模式。 附图9. SSP@DP业务模型设计界面 附图10. SSP@DP系统字典界面 同时支持对元数据的配置操作管理。 u 元数据增加:支持界面增加新的元数据; u 元数据删除:支持现有元数据删除; u 元数据修改:修改现有元数据; u 元数据查询:根据不同条件查询元数据库中包含的元数据; u 元数据导出:支持导出成csv/xml文档。 元数据分析 元数据分析支持血统分析、影响分析、映射分析、指标溯源等。 u 血统分析:血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到数据共享平台的数据源采集层,并且能够以图形的方式展现所有实体和处理过程; u 影响分析:影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围,并且能够以图形的方式展现所有实体和关联关系; u 映射分析:用户能够查看数据处理程序内部的映射关系,了解数据加工过程的细节。以图形展现数据的处理过程。 附图11. 血统分析示意图 附图12. 影响分析示意图 附图13. 映射分析示意图 数据构造模块 附图14. SSP@DP数据构造架构 SSP@DP数据构造模块含四步,数据探测、数据预处理、数据采集、数据ETL,为SSP@DP数据服务平台提供数据获取的基础工作。通过可视化图形操作界面,基于元数据的配置,来实现每一个作业的处理逻辑。支持处理逻辑配置,和处理流程设置与管理,使数据处理过程达到可查看、可监督、可调控的全程透明化。 数据探测 通过元数据驱动,依据数据提供方式,SSP@DP对数据源进行探测,核实数据是否已按要求提供。 附图15. SSP@DP数据探测 数据预处理 SSP@DP采用SPARK集群计算架构,通过快速的、高效的数据分析,对数据进行库外数据清理、数据集成、数据变换等预处理操作,在数据入库之前提高数据的质量,提升数据入库后的数据建模、数据挖掘等数据相关分析效率,避免ETL后库内操作时因脏数据导致的分析时间过长。 数据预处理任务查看配置界面: 附图16. SSP@DP数据预处理配置 数据采集 数据采集是处理和装载预处理后的数据文件的过程,当数据经过预处理过程之后转与装载目标(DB/MPP/HDFS等)相同的实体结构,可以通过传统JDBC或API方式入库以外,还支持客户端LOAD工具装载,最大限度保证了数据LOAD过程的稳定性以及并发性。 SSP@DP数据采集过程与传统适配器的采集的主要区别是: Ø SSP@DP数据采集只是装载过程,不对数据进行过滤、合并和筛选,这些功能都放到预处理模块库外并行计算,提高数据处理效率。 Ø 增加对目标库客户端的支持,内置支持多种数据库和MPP的插件,无需单独配置。 Ø 对于大数据量入库可以对数据分开到多台采集机并发入库(需要考虑数据库IO限制) Ø 数据采集模块可以独立使用,对源文件直接入库无须进行预处理过程可以直接使用数据采集模块进行装载入库 Ø 数据采集过程会监控每步的数据质量情况。 ETL 当源数据通过数据预处理以及数据采集装载到系统数据仓库中以后,后面所有的数据转换、处理都是通过ETL模块功能进行数据处理 ETL根据通过配置系统物理模型,可以选取系统的数据实体以及属性,设置数据的来源,抽取过程以及装载目标,来完成ETL的数据处理过程,记录这一过程的数据称为ETL元数据。 ETL元数据与物理模型、业务模型相关依赖,ETL元数据把物理模型作为数据的来源与目标,把业务模型作为ETL度量(指标)数据按维度转换的依据,自动创建ETL过程的脚本(SQL或是伪代码),SSP@DP系统会根据调度上下文关系来依据规则来调用相关的任务。 ETL任务之前也存在依赖关系,SSP@DP每个过程之间都存在驱动消息,一个消息会触发一个或多个任务,当条件适当的时候(如定时、数据探测、任务完成)就是触发消息,调度器会根据配置唤起适当执行的后续任务。 SSP@DP系统主要是处理数据服务平台内部数据处理的过程,属于库内处理,针对数据源与目标为第三方的数据,先通过预处理和采集过程加载到数据服务平台,然后再进行ETL处理。 任务调度管理 数据构造模块将系统中所需的数据按照数据仓库建立的方法从各数据源进行采集,并根据各自的需求进行数据调整,数据迁移过程中奖原始数据进行抽取、筛选、合并和装载,并在此过程中保证数据的完备性和数据的一致性。 任务调度管理同时应支持系统自动调度及人工调度两种方式,并可通过设置调度任务的优先级来保证重要数据计算所需的资源,以及通过可视化界面,对任务进行灵活管理和配置。 ◆ 定时调度 定时调度是启动流程的定时任务,针对数据时间片设置流程的调用周期,可根据时间片类型(如15分钟指标、小时指标等)的不同,启动不同的汇聚计算流程。每个流程生成各自的预统计信息,对应到各自不同的数据文件。 ◆ 补采调度 补采调度是由后补文件触发并启动处理文件补采的流程,是定时调度的一个不从,使数据能够更加完整的加载到数据仓库,使分析数据更加准确。 ◆ 人工调度 任务调度管理不仅支持系统自动调度,同时支持人工调度,并可通过可视化界面查看人工调度任务的执行状态和结果。 ◆ 优先级设置 可通过设置任务的优先等级,设置每个任务的不同运行顺序,具有高优先级的任务将获得更多的系统资源。 数据质量模块 数据的质量决定了系统的价值,尤其对于数据来源广、格式复杂、量大的系统,只有对数据质量管理起来,保证数据质量的稳定可靠,才能使系统的应用具有现实意义,体现系统的价值。借助于IT技术手段,方便的管理和优化数据质量,并及时定位和解决系统各环节的数据质量问题,这就是数据质量模块的意义。 基于综合分析系统的数据质量应该是相对独立但又和综合分析数据层高度耦合的一个通用模块,即依据综合分析系统的数据情况开发一个通用的数据质量管理系统。 建设目标 在数据质量管理系统中,数据质量评估和监控是主要功能。对数据处理过程的各个质量监控点上的质量信息,执行数据质量监控流程,进行数据核查诊断,然后直观展现检查结果。数据质量管理人员可根据告警信息,采取相应的质量控制行动,也可以根据质量评估报告,对系统数据处理过程进行优化。 在数据质量管理过程中,当前面临的两个主要挑战是业务的复杂性和数据信息不断变化。根据以往专业网管系统建设经验,数据质量管理工作占用大量维护工作时间。建立一个高效的数据质量管理系统,帮助运维人员快速定位并解决数据问题,提升运维效率,提高应用系统的数据质量水平,是DQM要达到的重点目标。具体来说,数据质量管理的建设目标有: u 建立数据的标准,明确数据的定义。为了保证系统的正常运行,用户必须在数据的标准和数据的定义上达成一致。不过,这些标准和定义大多数时候与其他系统中的数据标准和定义并不一致。因此,需要从全业务的角度出发,建立统一的元数据定义,同时,用户必须就元数据标准和元数据定义达成共识。 u 在应用系统数据处理的主要环节合理设置数据质量监控点。首先在监控点设置相应的数据质量定量元素(DQE),并对所有的DQE进行收集、分类,计算出数据质量指标(DQI)、数据质量关键品质(CTQ)与体验质量(QOE)。在各数据监控点上,实现多视角、多方式、可配置的约束规则,提供常见问题的处理方法,实现数据质量完整性、及时性、一致性、有效性和准确性的量化呈现。 u 完善数据质量监控模块,建立数据质量循环监控机制,提供全面及时的数据质量报告,控制和预防错误范围的扩大。建立一套从信息收集->实时监控->告警处理->质量评价->优化规则->信息收集的闭环监控流程,持续不断地排除错误、优化流程,实现对数据质量问题的快速定位、数据质量监控流程的不断优化,最后达到流程的自动化,从而降低数据质量保证计划的总体开销。 数据质量闭环监控流程 u 加强数据质量监控技术与管理手段的配合,着重关注应用系统数据来源和数据输出的数据质量,明确相关责任,从管理上落实数据质量工作。 数据质量规则定义 1)数据质量度量标准 在数据质量核查中,我们以CTQ(Critical-To-Quality:数据质量关键品质)作为度量维度,来标示检测对象的数据质量情况。而衡量数据质量的常用度量特性如:及时性、完整性、一致性、有效性、准确性。 其含义解释如下: 及时性:数据获取是否及时,主要指数据提取、传送、处理、装载、展现的及时性。在数据处理的各个环节,都会涉及到及时性,但最关键的两个环节是采集和汇总。采集及时性考察数据是否能及时获取到检查点的检查数据;汇总及时性考察数据是否及时由原始数据产生了汇总数据,也在一定程度上影响到一致性。 完整性:是指数据是否完整,描述的数据要素、要素属性及要素关系存在或不存在,主要包括实体缺失、属性缺失、记录缺失等。 一致性:主要包括各数据表之间的数据是否一致,描述的数据结构、要素属性和它们间的相互关系是否一致等。一致性分为两个层面,其一是指原始数据(入库即有)与汇总数据(派生产生)之间的不一致;其二是指分析系统与其他系统之间同一指标但数据值不一致。系统内数据的一致性通过汇总环节验证实现;系统间的数据一致性通过数据共享调用方式实现。数据共享模式参考《中国移动综合分析系统技术规范-总册》中的共享模式章节。在本阶段首先实现系统内的数据一致性。 有效性:描述数据取值是否在界定的值域范围内,主要包括格式、类型、值域和业务规则的有效性。有效性的规则可以在元数据管理模块中进行设置。 准确性:主要是指指标算法、数据处理过程的准确性。这个准确性主要是通过元数据管理中定义的指标的算法、数据处理顺序和人工检查相结合的方式来保证。 2)定义核查规则 定义核查规则,即针对核查对象定义DQI(DataQualityIndicators)即数据质量指标。及时性、完整性、一致性、有效性、准确性这样的核查度量我们定义为CTQ(Critical-To-Quality:数据质量关键品质),每个CTQ下面可以有多个DQI,DQI只归属于一个特定的CTQ(可调),DQI在系统中可以定义,并可配置不同的算法公式,当使用该质量规则时,需要定义数据质量定量元素即DQE(DataQualityElement)的采集映射,用来带入规则算法得到DQI结果,用公式方式表示为:DQIxxxx=公式(fx(DQE))。 数据质量应获取的基础的DQE指标,通过DQE指标按照一定核查算法,来得到核查规则结果,例如:完整性核查时,完整性=性能条数/资源条数,则性能条数、资源条数即DQE,得到的完整性率值极为该规则DQI的结果。 根据数据质量CTQ情况,结合综合分析系统,我们可以考虑下面这些DQI规则: ◆ 及时性 处理过程执行及时性:根据处理进程开始时间和结束时间得到处理时长,根据公式:及时性=(时长-时长下限)/(时长上限-时长下限),若时长小于时长下限,则及时性为1。其中,开始时间和结束时间作为DQE指标保留在数据质量模块中,时长上限和时长下限可作为阈值常量存储。 输出数据及时性:根据输出数据生成时间和标量时间得到延时时长,根据公式:及时性=(延时时长-时长下限)/(时长上限-时长下限),若延时时长小于时长下限,则及时性为1。其中,数据生成时间和标量时间作为DQE指标保留在数据质量模块中,时长上限和时长下限可作为阈值常量存储。 源文件输出及时性:在接口规范中规定的传送时间窗口内文件(库表)接口及时准备数据的接口数量占总接口个数的百分比。其中,及时准备数据的接口数量、总接口个数作为DQE指标保留在数据质量模块中,规定的传送时间可作为阈值常量存储。 ◆ 完整性: 参照资源完整性:此算法仅针对性能数据处理过程,完整性=|(性能条数/资源条数数)-1|,当取值大于1时取1。其中,性能条数和资源条数数作为DQE指标保留在数据质量模块中。 参照历史完整性:根据历史数据条数,来分析当前完整性,可以参考:完整性=当前行数/历史均值,当取值大于1时取1。其中,当前行数和历史均值作为DQE指标保留在数据质量模块中。 文件个数完整性:对于源数据为多个文件接口的,可以参考:完整性=在接口规范中规定的传送时间窗口内文件个数/应有文件数,其中,实有文件个数和应有文件个数作为DQE指标保留在数据质量模块中。 ◆ 有效性 列数有效性:接口文件(库表)中的列数和规定列数是否一样,保障源数据是有效可用的。一样即为有效,其中,实有列数和应有列数作为DQE指标保留在数据质量模块中。 值域有效性:统计单列数据取值是否在界定的值域范围内,算法公式:当指标数值在定义的上下限内,则视为有效,有效性=有效个数/总个数。其中,有效个数和总个数作为DQE指标保留在数据质量模块中,上下限可以作为阈值常量存储。当核查列为多个时,可取算数平均值来得到整体有效性。 ◆ 一致性 中位数一致性:分别获取数据处理源端和目的端的中位数,比较二者差异度。一致性=|(目的端中位数/源端中位数)-1|,当取值大于1时取1。其中,目的中位数和源端中位数作为DQE指标保留在数据质量模块中。当核查列为多个时,可取算数平均值来得到整体一致性。 截断均值一致性:分别获取数据处理源端和目的端的截断均值,比较二者差异度。一致性=|(目的端截断均值/源端截断均值)-1|,当取值大于1时取1。其中,目的截断均值和源端截断均值作为DQE指标保留在数据质量模块中。当核查列为多个时,可取算数平均值来得到整体一致性。 ◆ 准确性 精度准确性:统计单列数据计算是否准确,算法公式:定义一种异于当前汇总逻辑的算法,比对两种算法计算结果是否一致,精度差异在一定范围内,则准确性=准确个数/总个数。其中,准确个数和总个数作为DQE指标保留在数据质量模块中,精度差异上下限可以作为阈值常量存储。当核查列为多个时,可取算数平均值来得到整体准确性。 3)关键指标检查 关键指标检查,有利于在数据流的最末端发现数据质量问题。综合分析系统关键指标种类很多(如话务量类指标和网络质量指标等),需要根据指标检查规则,在指标数据生成后自动对指标进行检查。 指标数据检查可以采用简单的或复杂的统计与计算方法,简单的方法如数值检查、波动率检查等,复杂的方法如方差/标准差计算、正态分布计算和线性回归计算等。在检查过程中可能需要使用一定的样本量(如n个周期的指标值、指标波动率等),样本量的取值采用Epps-Pully检验样本量(8≤n)(国际ISO5479标准),同时也为中国国家标准。 关键指标检查分为指标基础检查和指标加权波动检查两类。 ◆ 指标基础检查 指标基础检查包括指标数值检查、波动检查、关联检查和平衡检查等,具体描述如下: 数值检查 定义:主要是通过检查单个指标的数值来发现指标的异常和突变等情况。 检查原理:通过对指标数值与阈值上下限的比较来进行检查,波动阈值的上下限可以使用经验值或采用n个周期内指标的最大最小值作为阈值的上下限。阈值上下限是一个数值区间,需要注意周末和节假日对指标的影响等。 适用范围:主要适用变化趋势平稳的业务关键指标。 波动检查 定义:波动检查包括同比波动检查和环比波动检查等。环比波动检查指当前周期与上一周期的波动率检查,如本年7月与8月的指标波动检查;同比波动检查指不同大周期、相同小周期的波动率检查,如今年7月与去年7月、本月15日与上月15日的指标波动检查。 检查原理:先计算指标的同比或环比波动率,然后与预定的波动率上下限(阈值)进行比较,阈值可以是经验值或取前n个周期的波动率的上下限值。指标波动检查的阈值是一个数值区间,需要注意周末和节假日对指标的影响等。 波动率计算公式:,其中c代表指标的当前值,r代表参考值,可以取上一周期指标值或前n个周期的指标平均值等,f是波动率。 适用范围:如业务发展类指标、用户数类指标等。 关联检查 定义:通过对两个存在关联关系的指标(如同增、同减正关联关系),按某几个维度展开后的增减幅度来发现数据的波动、变化情况。该检查的两个指标分别命名为左指标和右指标,即第一个选择的为左指标,后选的为右指标。 检查原理:通过对左右指标不同维度切面的增减趋势是否一致,变化幅度比例是否在一定阈值范围之内进行检查。 适用范围:需要进行维度细分检查的指标,如检查某项业务在省内各地市发展的一致性,相关用户数和业务量是否同增同减等。 平衡检查 定义:通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。在这个简单四则运算中,可以代入常量运算,支持括号。 检查原理:指标A=fx(指标B,指标C,指标D,….),fx代表函数,表示多个指标间存在函数关系。 适用范围:需要进行相关性检查的指标,如日指标汇总与月指标的平衡检查、单一指标在数据处理各环节的平衡检查等。 ◆ 加权波动检查 定义:通过对单个指标的基础检查结果和影响因素的加权计算分析,综合检查指标的波动和变化情况。 检查原理:根据单个指标的基础检查结果和影响因素,按预定的加权算法计算得出指标加权波动值,然后把加权波动值与预先设定的阈值进行比较,得出检查结果。 可以采用的指标基础检查结果包括:指标数值检查结果、同比波动检查结果和环比波动检查结果等。指标的影响因素包括:周期性影响、节假日影响、业务变更影响和市场竞争影响等。 适用范围:需从多个角度进行综合检查的指标或易受多种因素影响和干扰的指标。 关键指标的检查,跟采集作业耦合度比较低,可以在系统预先开发一些特定算法,通过在关键指标核查规则订制时,简单的映射到关键指标,系统即可生成相应的核查作业。 采集任务的可配置 数据质量信息依赖于采集作业,通过上面内容,我们可以了解数据质量是以DQE(数据质量定量元素)为数据质量基础指标来获得的。那么数据质量采集就是采集在规则中定义的DQE。在数据规则中定义了相关规则后,系统根据内置算法组件生成针对该规则对象的信息采集作业,在数据处理步骤之后即时运行。 在综合分析系统中,我们可以从探测、预处理、采集、ETL等处理步骤中获取DQE信息。如下图所示: 附图17. SSP@DP数据质量管理 数据质量监控以被监控对象为中心,从数据采集、监控检查到监控报告每个过程都需要进行规则配置,这些配置包括: 1)采集代理配置 数据质量监控采集代理可以是独立的常驻进程,也可以是基于调度的任务(如执行脚本)。对于常驻进程形式的采集代理需要配置代理部署的IP,服务端接收数据的方式,服务器IP、服务端认证信息等;另外,还需要配置执行采集任务的执行脚本或程序、启停参数、采集任务执行的时间、执行周期等。 2)采集规则配置 采集规则主要配置被采集对象和算法,包括采集规则名称、被采集对象所在的IP、端口、数据库及用户模式、采集对象及属性、维度和采集算法及算法参数等。 3)检查规则配置 检查规则主要配置检查规则名称、检查规则类型、被检查对象、检查的算法、参数项、常量(如阈值)和对应的告警规则等。 4)告警规则配置 告警规则主要配置告警规则名称、告警升级间隔时间、告警内容格式(内容生成模板)、最低告警等级和是否自动生成数据质量监控问题等。 拓扑监控 拓扑呈现,是为了方便查看对象之间的层次关系,以及在经过各种抽取、清洗、转换和加载过程后,数据对象的质量现状,,通过对象层次关系图,可以清晰地显示数据对象在哪里开始发生质量问题。并支持更详细的去查看DQI数据质量,在发现具体的数据对象时,可以通过元数据信息找到核查对象依赖的ETL过程,从而对相关ETL过程进行干预,最终达到提高数据质量的目的。 1)拓扑呈现与元数据的关系 数据质量管理系统拓扑呈现所展现的各种对象,来自数据质量系统本身定义的数据对象,该数据对象是元数据管理模块中对象的子集,各对象之间关系通过元数据管理中信息来获取,且通过元数据来获取数据对象相关的ETL作业。数据质量拓扑呈现与元数据管理模块间可以通过以下方式进行交互: ◆ 接口交互 数据质量监控界面通过元数据管理模块的访问接口,请求特定的元数据对象资源;元数据管理模块根据请求,以规范的形式返回元数据对象资源的描述信息;数据质量监控系统基于返回的元数据资源描述信息,在
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服