收藏 分销(赏)

《数据清洗》课件 第1章 概论.pdf

上传人:曲**** 文档编号:231454 上传时间:2023-03-21 格式:PDF 页数:22 大小:781.95KB 下载积分:15 金币
下载 相关 举报
《数据清洗》课件 第1章 概论.pdf_第1页
第1页 / 共22页
《数据清洗》课件 第1章 概论.pdf_第2页
第2页 / 共22页


点击查看更多>>
资源描述
数据清洗大数据应用人才培养系列教材第一章概论1.1 数据清洗概述1.2 数据标准化1.3 数据仓库 习题1.1数据清洗概述 1.1.1数据科学过程 数据科学则是一门新兴的以数据为研究中心的学科。作为一门学科,数 据科学以数据的广泛性和多样性为基础,探寻数据研究的共性。数据科学是一门关于数据的工程,它需要同时具备理论基础和工程经验,需要掌握各种工具的用法。数据科学主要包括两个方面:用数据的方法来 研究科学和用科学的方法来研究数据。数据清洗是数据科学家完成数据分析和处理任务过程中必须面对的重要 一环。具体来说,数据科学的一般处理过程包括如下几个步骤:问题陈述,明确需要解决的问题和任务。数据收集与存储,通过多种手段采集和存放来自众多数据源的数据。数据清洗,对数据进行针对性地整理和规范以便于后面的分析和处理。数据分析和挖掘,运用特定模型和算法来寻求数据中隐含的知识和规律。数据呈现和可视化,以恰当的方式程序数据分析和挖掘的结果。科学决策:根据数据分析和处理结果来决定问题的解决方案。1.1数据清洗概述 1.1.2数据清洗定义来自多样化数据源的数据内容并不完美,存在着许多脏数据,即数 据不完整有缺失、存在错误和重复的数据,数据的不一致和冲突等缺陷。数据清洗(Data Cleaning/Cleansing)对数据进行审查和校验,发现不准 确、不完整或不合理数据,进而删除重复信息、纠正存在的错误,并保持 数据的一致性、精确性、完整性和有效性以提高数据的质量。数据清洗并没有统一的定义,其定义依赖于具体的应用领域。从广义 上讲,数据清洗是将原始数据进行精简以去除冗余和消除不一致,并使剩 余的数据转换成可接收的标准格式的过程;而狭义上的数据清洗特指在构 建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完 整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言,凡是 有助于提高信息系统数据质量的处理过程,都可认为是数据清洗。1.1数据清洗概述 1.13数据清洗任务 数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重 复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有 效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满 足数据质量或应用要求的数据。数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业3。数据清洗主要有三个应用领域:数据仓库(Data Warehouse,DW)、数据库中知识的发现(Knowledge Discovery in Database,KDD)和数据质量管理(Data Quality Management,DQM)O 数据清洗对随后的数据分析非常重要,因为它能提高数据分析的准确 性。但是数据清洗依赖复杂的关系模型,会带来额外的计算和延迟开销,必须在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。1.1数据清洗概述 1.1.4数据清洗流程数据清洗通过分析脏数据的产生原因和存在形式,利用数据溯源的 思想,从脏数据产生的源头开始分析数据,对数据流经环节进行考察,提取数据清洗的规则和策略,对原始数据集应用数据清洗规则和策略来发 现脏数据并通过特定的清洗算法来清洗脏数据,从而得到满足预 期要求的数据。具体而言,数据清洗流程包含以下基本步骤:1.分析数据并定义清洗规则2.搜寻并标识错误实例3.纠正发现的错误4.干净数据回流5.数据清洗的评判数据清洗是一项十分繁重的工作,数据清洗在提高数据质量的同时要付出一定的代 价,包括投入的时间、人力和物力成本。通常情况下,大数据集的数据清洗是一个系统性的工作,需要多方配合以及大量人员的参与,需要多种资源的支持。1.1数据清洗概述 1.1.5数据清洗环境数据清洗环境是指为进行数据清洗所提供的基本硬件设备和软件系统,特别是已得到广泛应用的开源软件和工具。终端窗口和命令行界面,比如Mac OS X上的Terminal程序或Linux上的bash程序。适合程序员使用的编辑器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime编辑器等。Python客户端程序,如Enthought Canopy。另外,还需要足够的权限来安装一些程序包文件。电子表格程序,如Microsoft Excel和Google Spreadsheetso数据呈现和可视化,以恰当的方式程序数据分析和挖掘的结果。数据库软件,如MySQL数据库和Microsoft Access。1.1数据清洗概述 1.1.6数据清洗实例说明以网站文件下载为例,假定一组记录文件下载时间长度的原始数据集如 表1-1所示。直接计算网站文件平均下载时长,计算结果约为23000秒,约6小时,与实际情况严重不符,说明这一数据集受到了显著的噪声的影 响而导致部分数据值出现严重偏差。为此,必须对原始数据集做异常值识 别并尽可能剔除错误数据。表l-i各个文件的下载时间序号下载时长12345673014761034159446240124022403956449384420655531.1数据清洗概述 1.1.6数据清洗实例说明具体来说,可以基于数据的分布特征利用分箱法或聚类法来识别上例数 据集中的噪声数据。对于表1中的数据,清洗数据时首先将数据集等分为 2403个区间,找到数据的集中域0,3266O然后,利用分箱法对取值在0,3266之间的数据作进一步分析,对新数据组剔除离群值,得到清洗后的 离群数据组。最后,统计计算清洗后的目标数据源的平均下载时长为 192.93秒,约3.22分钟,符合网站文件下载的实际情况。从这个简单的例 子可看出,基于数据的分布特征,数据清洗可以采用分箱法或聚类方法较 为快捷地识别和剔除数据集中的噪声数据,从而获得良好的清洗效果。大数据应用人才培养系列教材1.3 数据仓库J习题1.2数据标准化 1.2.1数据标准化概念 数据标准化/规范化(Data Standardization/Normalization)是机构 或组织对数据的定义、组织、分类、记录、编码、监督和保护进行标准化 的过程,有利于数据的共享和管理,可以节省费用,提高数据使用效率和 可用性。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不 能正确反映不同作用力的综合结果,必须先考虑改变逆指标数据性质,使 所有指标对测评方案的作用力同趋化,然后再加总才能得出正确结果。数据无量纲化处理主要用于消除变量间的量纲关系,解决数据评价分 析中数据的可比性。例如,多指标综合评价方法需要把描述评价对象不同 方面的多个信息综合起来得到一个综合指标,由此对评价对象做整体评判,并进行横向或纵向比较。1.2数据标准化 1.2.1数据标准化常用方法Dmax-min标准化对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x 通过max-min标准化映射成在区间0,1中的值x,其公式为:x=(x-minA)/(maxA-minA)z-score标准化基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化,将A的原 始值x标准化到x,其公式为:x=(x-mean)/standard deviationoDecimal scaling标准化通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对 值。将属性A的原始值x到M的计算方法公式为:xx/Q0八j)。其中,j是满足条件的最小整数。0其他标准化方法还有一些标准化方法的做法是将原始数据除以某一值,如将原始数据除以行或列的和,称总和标 准化;如果原始数据除以每行或每列中的最大值,叫做最大值标准化;如果原始数据除以行或列 的和的平方根,则称为模标准化(norm standardization),大数据应用人才培养系列教材第一章概论1.1 数据清洗概述1.2 数据标准化1.3 数据仓库习题13数据仓库简介 13.1数据仓库定义 数据仓库(Data Warehouse,DW)是基于信息系统业务发展需要,基于传统数据库系统技术发展形成能够并逐步独立出来的一系列新的应用 技术,目标是通过提供全面、大量的数据存储来有效支持高层决策分析。/卜.1。门在书中对数据仓库的定义是:数据仓库是决策支持系统和 联机分析应用数据源的结构化数据环境,是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反 映历史变化(Time Variant)的数据集合,用于支持经营管理中的决策制 定过程。数据库是面向事务的设计,而数据仓库是面向主题设计的。数据库设 计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是 有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。数据库一般存储在线交易数据,数据仓库 一般存储的是历史数据。13数据仓库简介 13.2数据仓库组成要素数据仓库不是一种提供战略信息的软件或硬件产品,而是一个便于用户 找到战略信息和做出更好决策的计算环境,是一个以用户为中心的环境。数据仓库需要提供数据抽取、数据转换、数据装载和数据存储功能,并为 用户提供交互接口。典型数据仓库的基本组成要素包括:1.源数据单元2.数据准备单元3.数据存储单元4.信息传递单元5,元数据单元6.管理控制单元13数据仓库简介 13.3数据仓库分类传统数据仓库企业把数据分成内部数据和外部数据,内部数据包括OLTP交易系统和OLAP分析系统的 数据。企业首先需要将这些数据集中起来,经过转换放到这类数据库中,然后在数据 库上对数据进行加工,建立各种主题模型,再提供报表分析业务。数据集市数据集市一般是用于某一类功能需求的数据仓库的简单模式,往往是由一些业务部门构 建,也可以构建在企业数据仓库上。一般来说数据集市的数据源较少,但往往对数据 分析的延时有很高的要求,并需要和各种报表工具有很好的对接。13数据仓库简介 13.3数据仓库分类关联发现数据仓库在一些场景下,企业可能不知道数据的内联规则,而是需要通过数据挖掘的方式找出数 据之间的关联关系,隐藏的联系和模式等,从而挖掘出数据的价值。很多行业的新业 务都有这方面的需求,如金融行业的风险控制,反欺诈等业务。上下文无关联的数据 仓库一般需要在架构设计上支持数据挖掘能力,并提供通用的算法接口来操作数据。实时处理数据仓库随着业务的发展,企业客户需要对实时的数据做一些商业分析,譬如零售行业需要根据 实时的销售数据来调整库存和生产计划。这类行业用户对数据的实时性要求很高,传 统的离线批处理的方式不能满足需求,因此需要构建实时处理的数据仓库。数据可以 通过各种方式完成采集,然后数据仓库可以在指定的时间限期内对数据进行处理和统 计分析等,再将数据存入数据仓库以满足一些其他业务的需求。13数据仓库简介 13.4数据仓库相关技术23Q数据清洗数据仓库需要从种类各异的多个数据源中导入大量数据,数据仓库的一个重要任务就通过数据清 洗保证数据的一致性与正确性。数据粒度数据仓库中存储的数据粒度将直接影响到数据仓库中数据的存储量及查询质量,并进一步影响数 据仓库能否满足最终用户的分析需求。设计数据仓库时要合理确定数据粒度。索引优化不论是数据库还是数据仓库,索引查找是优化查询响应时间的重要方法,索引建立的好坏直接影 响数据访问效率。物化视图选择和维护数据仓库中以物化视图(Materialized View)的形式存储大量来自多个异质数据源中的数据,数据仓 库中采用物化视图进行快速查询和分析,能有效提高查询速度和响应时间。数据仓库的管理维护为了减少数据更新量,数据仓库一般采用增量式更新策略。止的卜,数据仓库必须建立有效的安全策 略和授权访问控制机制。最后,数据仓库必须提供稳定可靠的数据备份和恢复策略。13数据仓库简介 13.5常用工具简介 数据仓库不是一门纯粹的技术,更是一种架构和理念,核心在于对数据的整合集成,把企业原始数据进行集成、归类、分析,从而提供了企业决策分析需要的目标数据。SQL Server.Sybase.DB2和Oracle都是传统的关系数据库,但是只要经过合理的 数据模型设计或参数设置也可将其转变为很好的数据仓库实体。目前,OLAP已逐渐融合到数据仓库中,例如微软的Ana lysis Service和DB2的OLAP Server,通过自身提供的专用接口可以加快多维数据的转换处理。当然,也有如 Essbase这样纯粹的OLAP产品,实际上许多大型OLAP都采用Essbase。对于ETL而言,广泛使用的ETL工具主要包括Informatica PowerCenters IBM的 Datastages SQLServer搭配的SSIS、Oracle的OWB和ODI以及开源的Kettle等。数据仓库可用的报表工具很多,专业性的报表工具有Hyperion、BO、Congos和 Brio,这些产品价格相对昂贵。便宜的报表工具可选用微软的Reportservice。大数据应用人才培养系列教材第一章概论1.1 数据清洗概述J1.2 数据标准化1.3 数据仓库习题习题:1.什么是数据科学,请简要阐述数据清洗在数据科学过程中扮演什么角色?2.数据清洗的目的何在,你是如何理解数据清洗这一概念的?3.数据清洗的主要任务有哪些,当前有哪些主要的应用领域?4.结合一个实例说明数据清洗的流程包括哪些步骤,并简要说明数据清洗的主要评价 标准。5.什么是数据标准化,其作用主要有体现在哪些方面?6,请简单介绍一下max-min数据标准化和z-score数据标准化方法。7.数据仓库的典型特点是什么,并比较数据仓库和传统数据库的区别和联系。8.请举例说明数据仓库包括那些组成要素,并简要阐述不同要素的作用。9.请介绍几种常见的数据仓库工具,并说明其作用。感谢聆听
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 应用文书 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服