ImageVerifierCode 换一换
格式:PPTX , 页数:44 ,大小:429.84KB ,
资源ID:10712015      下载积分:12 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10712015.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(韩家炜-数据挖掘:概念与技术-第2章ppt教学提纲.pptx)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

韩家炜-数据挖掘:概念与技术-第2章ppt教学提纲.pptx

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/10/29,#,第二章 了解你的数据,2014.10,目录,2.1,数据对象和属性类型,2.2,数据的基本统计描述,2.3,数据可视化,2.4,衡量数据相似性和相异性,2.5,总结,2.1 Data Objects and Attribute Types,2.1.1 What is an Attribute?,2.1.2 Nominal Attributes,2.1.3 Binary Attributes,2.1.4 Ordinal Attributes,2.1.5 Numeric Attribute

2、s,2.1.6 Discrete versus Continuous Attributes,2.2 Basic Statistical Desciptions of Data,2.3 Data Visualization,2.4 Measuring Data Similarity and Dissimilarity,2.5 Summary,2.1,数据对象和属性类型,数据集是由,数据对象,构成的。一个数据对象表示一个实体,在销售数据库中,对象可以是顾客、商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和课程。,数据对象用,属性,来描述。,数据对象可

3、以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是数据元组。即数据库中行对应数据对象,列对应于属性。,2.1.1,什么是属性?,一个,属性,是一个域,表示一个,数据对象的一个特征,。,“属性”、“维度”、“特征”和“变量”这些词在语义上是可交换的。“维度”通常被用在数据仓库中,机器学习中倾向于使用“特征”;统计学倾向使用“变量”,数据挖掘和数据库经常使用“属性”。,属性描述一个顾客对象,如:顾客,ID,姓名,地址。,对给定的属性的可观察值被称为,观察,。刻画一个给定对象的属性集合被称为,属性向量,(或,特征向量,)。,包含,单个属性的数据分布被称为单变量的分布;包含,

4、2,个属性的被称为二变量的分布。,属性的类型是有属性可取的值决定的,有名词、二进制型、顺序值或者数值类型。,2.1.2,名词属性,名词属性的值是,事物的标号或者名称,。每一个值表示类别、编码或者状态。因此名词属性被称为是,分类,。值没有次序信息。在计算机领域,也可以称为枚举型。,举例如:发色和婚姻状态。发色可以是黑色,棕色,红色,灰色,白色。婚姻状态可以是单身、已婚、离异或者丧偶。这些都是名词属性。,尽管名词属性是标号或者名称,但,也可以是数值的表示形式,。比如,发色,可以用,0,表示黑色,,1,表示棕色等。顾客,ID,可以是数字。,但是,在这种情况,,数字并不被当成数值来使用,。,因为名词属

5、性不包含任何顺序信息也非数值型,所以不用终止或者平均数去衡量这类属性。可以使用属性最多出现的值,“众数”来做中心性测量。,2.1.2,二进制属性,二进制属性,是只有两个类别或状态:,0,和,1.0,一般表示属性缺失,,1,表示存在。二进制属性也即,bool,型,两个状态表示真和假。,举例。如,病人对象的吸烟属性,,1,表示吸烟,,0,表示不吸烟。再比如,病人的某个医学检查结果有两种情况。,1,表示结果为阳性,,0,表示为阴性。,如果二进制属性的两个状态是同等有价值的具有相同的权重,则为,对称,的。,2,个属性被标为,1,或者,0,都可以,比如性别属性的两个值男和女。,如果两个状态不是同等重要的

6、则为,非对称,的。比如,HIV,检查的结果呈阴性和阳性。通常,用,1,表示更重要的通常是更稀少的结果,其他的用,0,表示。,2.1.4,次序属性,次序属性具有次序或者级别的意义。但是相邻值的级别未知。,举例:例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值有顺序的意义,但是不能分辨中杯比大杯大多少。再比如,成绩等级,A+,A,A-,B+,职称:助理,副教授,教授,次序属性被用来衡量无法客观衡量的属性,用主观的评估定质量。在调查中常用来排序。比如,参与者作为顾客,他们的满意度可以是:,0,:非常不满意,,1,有点不满意,,2,中立,3,满意,4,很满意,把数值数据离散化,把它们按照值的范围

7、分类,也可以得到次序属性的数据。,次序属性的中心性可以用众数和中值来衡量,但是不能计算平均数。,名词属性、二进制属性和次序属性都是定性的。它们在描述一个对象的特征时不给出具体的尺寸和数量。值通常是一个词表示类别,即使以整数的方式表现,也不是表示数量。,2.1.5,数值型属性,数值型属性是定量的,是可测量的数值,为整数或实数。分为间隔尺度和比例尺度。,间隔尺度属性,间隔尺度使用同等大小的单元来衡量。间隔尺度属性有大小,可以是正,,0,或者负值。除了能对属性值排序,还可以比较和衡量不同值的差值大小。,举例:温度属性是间隔尺度。,20,摄氏度高于,15,摄氏度。日历也是间隔尺度,以及年份。,Cels

8、ius,和,Fahrenhet,是两个温度,没有绝对,0,点,并且我们能计算温度的差值,但是不能说一个值是另一个值的多少倍,例如,10,摄氏度比,5,摄氏度温暖,2,倍。,间隔尺度是数值型的,可以计算平均值,中值和众数。,比例尺度,比例尺度属性是数值型的,有固定的,0,值。,如果一个测量是比例尺度,则可以以比率来衡量两个值,也可以计算值的差值,以及中值,均数和众数。,例如:,Kelvin,温度有一个真正的,0,点。另外,计数属性,经验年数,单词个数,体重,身高,速度,货币都是比例尺度。,2.1.6,离散和连续属性,离散属性有,有限的或者可数的值集合,,可能不能表示为整数。例如发色,是否吸烟,医

9、学检查结果,饮料尺寸,都有有限的值,因此是离散的。,离散值可能是数值型的,比如二进制的,0,和,1,,年龄的,0,到,110.,一个属性是,可数无限的,如果可能的值集合是无限的但是值和自然数有一一对应的关系。比如,顾客,ID,是可数无限的。邮政编码也是。,如果值不是离散的,则是,连续,的。数值属性或者连续属性是含义上是一样的。,2.2,数据的基本统计描述,为了更好的做数据预处理,对数据有整体的了解很关键。基本的统计描述能鉴别数据,分辨出噪声和离群点。,2.2.1,中心性度量:平均数,中位数,众数,假定我们有一些属性,X,,例如薪资,有一系列数据对象的记录。令,x1,x2,.xN,是属性,X,的

10、N,个观察到的值。如果我们画出薪资的点图,绝大部分的值会落在哪里呢?这就是数据的中心性问题。,衡量中心性的测量有均值、中值、众数和中列数。,平均数:,最常用和最有效的测量是数据的(算术)平均数。计算公式是:,有时候,每一个,xi,有一个关联的权重,wi,权值表示相应值的重要性、显著性或者发生频率。这时候,平均值的计算公式为:,称为加权算术平均值或者加权平均。,平均值对极端值比较敏感。比如一个公司的员工平均薪水可能被少数高新的经理提高很多。同样,班级的平均分也可能被少数的低分拉低很多。,为了处理这种由少数极端值带来的效果,可以使用削减均值,即去掉极端大和极端小的值之后的平均值。比如,把薪水排序

11、然后去掉,2%,的最大值和最小值。应该避免削减太多(比如,20%,),这会导致数据信息的丢失。,对于偏斜(不对称)的数据,使用,中值(中位数),是更好的中心性测量。中值是一系列排序好的数据的中点的值。该值把数据集分成,2,个部分,一半值大的,一半值小的。,在概率统计中,中值一般用在数值型数据上。这里,中值可以扩展到次序属性上。将数据集的,N,个值按升序排列。如果,N,为奇数,中值即是排序集合的中点的值;如果,N,为偶数,中值可以是中点的,2,个值中的任意值。如果,X,是数值型数据,传统上中值取两个中点数的均值。,众数,众数是另一个衡量中心性的测量。众数是一系列数据中出现频率最高的值。,众数可

12、以是定性的也可以是定量的属性。有可能好几个不同的值都出现大量的频率,导致众数不止一个。众数有,1,个、,2,个、,3,个的分别称为,unimodal,(单峰值),bimodal,(二峰值),trimodal,(三峰值),.,一,个极端的例子,如果每隔数据值都仅出现一次,则没有众数。,举例:例子,2.6,中有,2,个众数:,52,和,70.,对于,单峰值,的数值型数据来说,数据是适度偏斜的(不对称),有一下的经验性关系:,这表明,如果平均数和中值已知,适度倾斜的单峰频率曲线的众数可以近似得到。,中列数,中列数是数据集中最大值和最小值的平均值。可以用来评估数值型数据的中心性趋势。,利用,sql,语

13、言的聚集函数,max(),和,min(),很容易计算。,举例:例,2.6,中,中列数是:,30+110/2=70.,数据的对称和偏斜,在对称的单峰频率曲线数据分布中,平均数,中值和众数都在,同样的中点值,上。,实际应用中,绝大部分都不是对称的。如果众数的值小于中值,称为,正偏斜,;如果众数的值大于中值,称为,负偏斜,。,见图,2.1.,2.2.2,数据分散性的度量:,极差,、四分位数、方差、标准差、四分位差,1,、,极差,、四分位数、四分位差,令,x1,x2,xN,是某个数值属性,X,的一系列观察,数据集的,极差,表示的是最大值和最小值的差。,假设数据按照属性,X,以升序排列。想象我们可以挑选

14、特定的数据点,这样可以把数据分割成大小相等的连续数据集,如图,2-2.,数据,点称为,分位点,。分位点是数据分布上有规律率的间隔的数据点,将其分成相等大小的连续的数据集。,给定数据分布的第,K,个,q-,分位点,x,是至多,k/q,的数据值小于,x,,至多,q-k/q,的数据值大于,x,,,k,是大于,0,小于,q,的整数。共有,q-1,个,q-,分位点。,2-,分位点是把数据分布分割成较小值和较大值,两,半的数据点。即,中位数,。,4-,分位点是把数据分布分成,4,个等量大小的,3,个数据点,每一个部分表示数据分布的,1/4.,它们被称为四分位数。,100-,分位数更通常被称为百分位数,它们

15、将数据集分成,100,个大小相等的连续集合。,中位数,,,四分位数,和,百分位数,是使用最广泛的分位数。,分位数反应了分布的中心,散布以及形状。,第,1,个四分位数,表示为,Q1,是第,25,个百分位点。它把数据值最低的,25%,切断。第,3,个四分位数,表示为,Q3,,是第,75,个百分位数。它切断了数据值低的,75%,。,Q1,和,Q3,的距离,简单反应了数据中心的一半数据的范围。这个距离被称为,四分位差,。被定义为:,五数概括、箱子图、离群点,单个的数值分散测量在描述偏斜的分布时都不够有效。在对称的分布中,中值把数据分成大小相等的,2,部分。但对偏斜的数据来说并非如此。因此,使用,Q1,

16、Q3,和中值一起会更加有信息量。一个通用的鉴别可疑的,离群点,的规则是挑选出落在,Q3,以上,或者,Q1,以下,1.5,*,IQR,以上的数据值。,Five-number summary,是包含了中值,,Q1,,,Q3,,最小值和最大值的分布,按次序表示为:,Minimum,Q1,Median,Q3,Maximum.,箱线,图是常用的描述数据分布的方法。,箱线图中:,箱子的长度是四分位差,中,值是箱子中间的线,箱子外面的两根须是观察的最小值和最小值。,当处理相当数量的观察时,单个的绘出潜在的离群点是值得的。,箱线图,中为了处理这个,须被扩展到最大值和最小值仅当这些值小于,1.5*IQR,时

17、否则的话,须的末端是,1.5,*,IQR,处。,箱线,图的计算时间复杂度是,o(nlogn).,方差和标准差,方差和标准差是测量数据分散度的。比较低的标准差表示数据观察倾向于靠近均值。高标准差表示数据值分布在一个比较大的范围区间。,N,个观察,x1,x2,xN,的方差:,其中,,是均值。是标准差。,Ps:,方差的公式有问题?,标准差的基本属性:,1,、标准差测量的是数据偏离均值的发散程度,因此只有在,均值接近数据中心,的时候才考虑。,2,、标准差为,0,只有在所有数据值都相等时才发生。,根据,Chebyshevs,不等式,至少(,1-1/k,2,)*100%,的数据不会远离均值的,K,个标准

18、差的范围。所以,标准差是一个很好的衡量数据分散度的指标。,2.2.3,数据基本统计特征的图形化描述,分位数点图,直方图,散点图和数据相关性,分位数图,2.3,数据可视化,2.3.1,面向像素的可视化技术,2.3.2,几何投影可视化技术,2.3.3,基于图标的可视化技术,2.3.4,分层可视化技术,2.3.5,复杂数据和关系的可视化,2.4,衡量数据相似性和相异性,2.4.1,数据相异性矩阵,2.4.2,名词属性的相邻性度量,2.4.3,二进制属性的相邻性度量,2.4.4,数值型数据的相异性:,Minkowski,距离,2.4.5,次序属性的相邻性度量,2.4.6,混合类型的相异性,2.4.7,余弦相似性,2.5,总结,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服