ImageVerifierCode 换一换
格式:DOC , 页数:10 ,大小:47.54KB ,
资源ID:4061186      下载积分:8 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4061186.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(数据整合方案.doc)为本站上传会员【a199****6536】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数据整合方案.doc

1、1. 信息资源标准化 数据标准化主要实现了数据格式、内容和语义的映射、转换,实现编码一致化、面向主题集成、数据聚合等功能。 通过数据交换、采集,形成的基础业务数据,通过数据整合进一步的数据ETL(数据抽取、转换、加载),按照定制的标准信息规范进行匹配映射(Match)、数据格式转换(Transform),并对重复数据进行数据清洗(Cleanse)、过滤(Filtrate)、聚合(Aggregate),最后多维加载(Load)后形成标准化数据. 采用数据同步工具和ETL工具完成数据抽取、同步等整合工作,并通过任务调度管理实现对整合工具的集中管理和执行. 数据采集时可以按信息资源平台的要求

2、将数据标准化。在采集抽取数据时没有按信息资源平台转换为标准数据的数据,需要按信息资源平台的要求转换成标准的数据如字典的统一。 2. 数据加工管理 2.1. 数据抽取 数据抽取是利用抽取工具,建立抽取模型,将多个数据源数据汇总到一个数据库的过程。 2.2. 数据清洗 由于数据来自多个业务系统,而且包含历史数据,需要按照一定的规划把数据进行清洗,整个数据清洗的对象应包括不完整的数据、错误的数据、重复的数据等三大类. 2.3. 数据转换 数据转换主要实现数据标准化的过程,信息资源平台的数据,来自多个业务系统,有些数据源没有按照统一的标准规范设计,因此会造成数据难以与其他数据共享。数据转

3、换应实现按照统一的数据标准和既定的格式转换规则,对数据的整理和格式统一. 2.4. 数据装载 数据装载操作效率是数据资源平台需要考虑的重要环节。投标人应详细描述针对本项目的不同数据资源所应采用的数据装载策略. 2.5. 数据标识 数据标识主要为了突出数据的关键性信息,便于实时的统计和更有效的比对,进而获取符合用户业务办理相关的结果. 3. 数据整合处理系统 3.1. 数据处理流程 数据中心的构建,基础和核心的工作是需要对来自各方的数据进行充分的整合和处理,对获取的各类源数据,需要进行大量的数据梳理、分析,并作相关的数据整理工作,通过数据梳理和转换工作,把不同来源的数据基于数据标准

4、转换成标准化数据后,再进行入库,从而保证进入数据中心的数据质量,不产生垃圾数据,从而为数据中心的全局应用奠定基础. 数据处理的流程如下图所示: 数据的处理流程主要如下: 1、获取源数据 通过数据共享交换对接和实施,获取各单位的原始数据,并暂存在数据缓冲库中,这部分的数据结构和原始数据的数据结构相同。 2、数据整合处理 对缓冲库中存储的数据,基于数据标准,对原始的数据进行整合处理,包括企业关键码标准化处理、企业基础数据整合处理 、企业许可数据整合处理、企业监管数据整合处理、其他政府部门数据整合处理、电子统计报表数据导入处理、历史数据整合处理等。 通过整合处理,把非标准化的原始数据

5、转换成标准化的数据。 3、数据中心数据入库 对整合处理后的数据按照数据的性质,分别进入到基础数据库和业务数据库中. 3.2. 食品安全监管数据整合处理分析 3.2.1. 企业关键码标准化处理 目前,有关企业的各类信息都分散在XX省XX监管平台、网上办事大厅XX分厅以及相关部门的行政审批系统,不同的系统对企业的唯一编码各不相同,目前存在三种方式: ² 企业组织机构代码 ² 企业工商登记注册号 ² 统一社会信用代码 ² 企业XX行业相关许可证号 由于不同的业务系统是由不同的开发商开发的,在企业编码的标识上各不统一的,为了实现基于企业为主线,首先需要以企业关键码为关联,对各方汇

6、聚的有关企业的各类信息进行关联整合,形成企业综合资源,为后续的企业综合分析提供数据支撑。 因此 ,需要基于企业编码标准,对采集的原始企业业务数据的企业编码进行标准化处理。 企业关键码标准化处理涉及的工作包括 : 1、基础数据获取 通过共享交换对接、文件导入等多种方式,获取有关企业的基础数据等. 2、企业关键码梳理分析 根据调研情况,针对XX市企业基础数据的实际情况和国家推行三码合一的政策,采用依次以信用代码、组织机构代码、工商登记注册号、许可证号对从各方获取的企业信息进行梳理分析,和企业关键码进行比对,制定企业关键码标准化的处理规则。 3、企业关键码数据标准化 对各方汇聚的企业

7、关键码数据按照标准化处理规则进行转换、补充等处理。 3.2.2. 企业基础信息整合处理 在不同的业务系统中,对企业基础信息描述有有差异、包括企业字段和相关的数据结构的设计等,因此,需要对各方汇聚的企业基础信息按照统一的企业基础数据标准,进行整合处理,构建企业基础数据库. 3.2.3. 企业许可数据整合处理 目前,XX市相关企业许可数据主要分布在两个渠道:网上办事大厅XX分厅 XX省XX监管平台等。 1、网上办事大厅XX分厅许可数据整合处理 通过网上办事大厅XX分厅进行受理和审批,则通过和网上办事大厅XX分厅进行对接,获取相关的企业许可数据。 对获取的企业许可数据按照统一的数据标

8、准进行整合处理,经过规则转换后形成标准的企业许可数据导入到数据中心. 2、XX省XX监管平台企业许可数据导入 若属于XX省监督管理局办理的许可事项,则对接XX省监督管理局的数据中心,获取XX市XX相关企业的许可信息,按照企业的许可标准导入到市局数据中心。 3.2.4. 企业监管数据整合处理 以企业为主线,对分散在不同渠道的企业监管数据进行梳理,按照数据标准要求,对和企业相关的监管数据进行整合处理并入库. 需要进行整合处理的监管数据大类包括: ² 四品一械企业日常监管数据 ² 四品一械 企业行政执法数据 ² 四品一械企业抽样检验数据 ² 四品一械企业信用数据 ² 食品追溯数据

9、 ² 广告监管系统的抓取视频、抓拍图片和抓取音频等广告监测数据 ² 其他 3.2.5. 电子统计报表数据导入处理 对XX市XX监督管理局上报省局的统计报表数据(以电子表格方式),对这部分数据也需要导入到数据中心,提供全局应用的数据支撑。 3.3. 数据整合处理功能 3.3.1. 数据抽取 在融合数据库中,必须从不同的操作型数据库系统以及其它形式外部数据源中有选择地抽取数据,而不应该将所有源数据全部塞入融合数据库。在具体的抽取过程中,还必须根据是增量装载工作还是初始完全装载等不同情况的变化规划抽取任务. 有效的数据抽取对于数据仓库的成功很关键,需要合理细致地制订数据抽取策略.数据

10、抽取的要点主要有: u 数据源确认:确认数据的源系统(或文件)和结构; 列出对事实表的每一个数据项和事实 对于每个目标数据项,找出源数据项 一个数据元素有多个来源,选择最好的来源 确认一个目标字段的多个源字段,建立合并规则 确认一个目标字段的多个源字段,建立分离规则 确定默认值 检查缺失值的源数据 u 抽取方法:针对每个数据源,定义抽取过程是人工抽取还是基于工具抽取; u 抽取频率:对于每个数据源,确定数据抽取的频率,每天、每星期、每季度,基础数据装载等等; u 时间窗口:对于每个数据源,表示出抽取过程进行的时间窗口; u 工作顺序:决定抽取任务中某项工作是否必须等到前

11、面的工作成功完成,才能开始; u 异常处理:决定如何处理无法抽取的输入记录。 3.3.2. 数据转换 抽取得到的数据是没有经过加工的数据,不能直接应用于融合数据中心。首先,所有抽取的数据必须按照标准数据集转换为融合数据库可以使用的数据.拥有可以用来后续建立数据仓库进行战略决策的信息,并且提供对外数据共享与服务,而操作型系统的数据不能满足这个要求;其次,抽取得到的数据其质量可能还达不到融合数据中心的要求,所以必须在进入融合数据库之前提高数据的质量。在将抽取的数据载入库之前,不可避免地要执行各种类型的数据转换.必须保证在所有的数据整合到一起之后,数据的组合不能违反任何商业规则.这期间需要考虑

12、融合数据库中需要的数据结构和数据元素,结合源数据格式、数据取值和质量要求可以知道如何综合采用多种类型的转换工作来符合融合数据库的要求。 数据转换的基本任务包括: u 数据或记录的选择 u 对所选择的数据或记录进行分离或合并处理 u 转化:包括多种对数据记录的单独字段的基本转化,以对不同源系统数据进行标准化,并使这些字段对用户来说可用和可理解 u 丰富:对单个字段数据进行重新分配和简化 其中主要的转换类型有格式修正、字段的解码、计算值和导出值、单个字段的分离、信息的合并、特征集合转化、度量单位的转化、日期/时间转化、汇总、键的重构等等。 实施数据转换的过程中,要结合使用转换工具和手

13、工技术。使用自动的工具可以提高效率和准确性,更重要的是,自动转换工具可以记录元数据,确定的转换参数和规则都会作为元数据被工具存储起来,成为数据仓库整个元数据组成的一部分,可以被其他部分共享,当由于商业规则或者数据定义发生变化而带来转换功能变化时,可以将这些变化输入工具,转换的元数据会由工具自动进行调整. 使用转换工具的理想目标当然是彻底排除手工的方法,但在实际中却是不可能实现的。即使是使用最精良的转换工作组合,也会存在必须使用手工开发内部程序的需要,需要进行复杂的手工编码和人工测试工作.采用手工技术,不但成本和错误率攀升,也会在数据库环境中产生一些相互独立的程序,手工方法最大的缺点是所带来的

14、元数据的记录、管理、维护问题。 清洗的过程中可以检查错误的拼写,检查多个数据源之间编码,或者补充数据的错误值,也可以排除从多个数据源系统中取同一个数值时出现的重复问题。对数据元素的标准化也是数据转换过程的一个很重要的组成部分.要对数据类型进行标准化,并且对不同数据源的相同数值的长度进行补充。语义的标准化也是一个重要的任务。你要解决同义和同音异义的问题.当相同的字段名在不同的数据源系统中代表不同的意义的时候,需要解决这个同音异义的问题。 数据转换过程解决了从不同数据源提取数据的解决方法。你要组合一个源记录中提取的数据,或者对很多源记录中提取的数据进行组合。另一方面,数据转换还包括了清洗没有用

15、的源数据,并将它们进行新的组合.在数据准备阶段,对数据的分类和聚类是很重要的部分。 l 基本功能 种类 解释 选择: 从源系统中选择整个记录或者部分记录. 分离/合并: 对源系统中的数据进行分离操作或者合并操作。 转化: 对源系统进行标准化和可理解化。 汇总: 将最低粒度数据进行汇总。 清晰: 对单个字段数据进行重新分配和简化 l 转换类型 (1)格式修正 (2)字段的解码 (3)计算值和导出值 (4)单个字段的分离 (5)信息的合并 (6)特征集合转化 (7)度量单位的转化 (8)关键字重新构造 (9)汇总 (10)日期/时间转化 l

16、 数据整合和合并 数据整合和合并是将相关的源数据组合成一致的数据结构,装入整合层数据库. (1)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录 (2)多数据源相同属性不同值的问题 不同系统中得到的值存在一些差别 ,需要给出合理的值 3.3.3. 数据装载 向融合数据库中转移数据的过程中存在多种情况,一般存在三种类型的数据装载: u 初始装载:第一次对所有的数据库表进行迁移; u 增量装载:根据需要定期装载应用运行过程中发生的变化; u 完全刷新:完全刷新是指完全刷新一个或多个表的内容,并重新装载新的数据。 在装载过程

17、中,一般会用到四种方式: u 装载:如果要装载的目标表已经存在,而且也有数据存在于表中,装载过程就会抹去已有的数据,应用输入文件中新的数据.如果装载的目标是个空表,就直接应用来自输入文件的数据。 u 追加:若表中已经存在数据,追加过程会无条件地增加输入数据,并在目标表中保存已有的数据.当存在记录重复情况时,需要定义如何处理重复的输入数据的记录副本(可以作为副本增加进去,也可以将其丢弃)。 u 破坏性合并:如果输入数据记录的主键与已有记录互相匹配,就对匹配的目标记录进行更新,如果没有匹配的目标记录,就将输入记录添加入目标表。 u 建设性合并:如果数据记录的主键与已有记录匹配,就保留已有记录,加入输入的记录,并将增加的记录标记为旧记录的替代.

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服