数据挖掘第二章认识数据.ppt-资源下载-咨信网-让知识获取变得高效

数据挖掘第二章认识数据.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第二章：认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性,1,数据对象,Data Objects,数据集由数据对象组成。,一个数据对象代表一个,实体,(entity),。,销售数据库,:,顾客,商品,销售,医疗数据库,:,患者,大学数据库,:,学生、教授、课程,数据对象又称为,样本,、,实例,、,数据点,、或,对象。,数据对象用,属性,(attribute),描述。,数据行对应数据对象,;,列对应属性。,2,属性,Attributes,属性,(attribute)

2、是一个数据字段，表示数据对象的一个特征。,如：,customer _ID,name,address,类型,:,标称属性,(nominal),二元属性,(binary),序数属性,(ordinal),数值属性,(numeric),区间标度属性,(interval-scaled),比率标度属性,(ratio-scaled),3,属性类型,Attribute Types,标称属性,(nominal attribute),其值是一些符号或者事物的名称。,头发颜色,=,黑色，棕色，灰色，白色,二,元属性,(binary attribute),是一种标称属性，只有两个状态：,0,或,1,。,对称的,(s

3、ymmetric):,两种状态具有同等价值，携带相同权重。,如：性别,非对称的,(asymmetric):,其状态的结果不是同样重要。,如：艾滋病毒的阳性和阴性结果。,对重要的结果用,1,编码，另一个用,0,编码。,4,属性类型,Attribute Types,序数属性,(ordinal attribute),其可能的值之间具有有意义的序或者秩评定,(ranking),，但是相继值之间的差是未知的。,成绩,=,优，良，中，差,其中心趋势可以用它的众数和中位数表示，但不能定义均值。,注意,标称、二元和序数属性都是定性的，即只描述对象的特征，不给出实际的大小。,5,属性类型,Attribute T

4、ypes,数值属性,(numeric attribute),区间标度,(interval-scaled),属性,使用相等的单位尺度度量。,值有序，可以评估值之间的差，不能评估倍数。,没有绝对的零点。,如,:,摄氏温度，华氏温度,比率标度,(ratio-scaled),属性,具有,固定零点,的数值属性。,值有序，可以评估值之间的差，也可以说一个值是另一个的倍数。,如：开式温温标,(K),，重量，高度，速度,6,属性类型,Attribute Types,离散属性,(discrete Attribute),具有有限或者无限可数个值。,如：,邮编、省份数目具有有限个值，,customer_Id,是无限

5、可数的。,可以用或者不用整数表示。,连续属性,(Continuous Attribute),属性值为实数。,一般用浮点变量表示。,7,第二章：认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性,小结,8,数据的基本统计描述,目的,更好地识别数据的性质，把握数据全貌,:,中心趋势度量，数据散布,中心趋势度量,(measures of central tendency),均值、中位数、众数、中列数,数据的散布,(dispersion of the data),极差、四分位数极差、五数概括、盒图,数据可视化,(graphic displays of basic s

6、tatistical descriptions),分位数图、分位数,-,分位数图、直方图、散点图,9,中心趋势度量,均值,(mean),加权算术平均：每,i,个,xi,与一个权重,wi,相关联,截尾均值,:,丢弃高低端极值,中位数,(median),有序数值的中间值,数据集的中位数可以通过插值,(interpolation),估算,L1:,中位数区间下界,N,:,数据集中值的个数,所有区间频率和,中位数区间的频率,width,：中位数区间的宽度,10,习题,2.3,设给定的数据集已经分组到区间，这些区间和对应频率如图。计算该数据的近似中位数,确定中位数所在组,因此中位数在,2150,组,计算中

7、位数,11,中心趋势度量,众数,(mode),数据集中出现频率最高的值,最高频率对应多个峰值，分为单峰的,(unimodal),双峰的,(bimodal),三峰的,(trimodal),经验公式,:,中列数,(midrange),最大数和最小数的平均值,12,对称数据和非对称数据,对称、正倾斜、负倾斜数据的中位数、均值和众数,13,数据统计常识,Quartiles,outliers and boxplots,四分位数,Quartiles,:Q,1,(25,th,percentile),Q,3,(75,th,percentile),四位分数极差,Inter-quartile range,:IQR

8、Q,3,Q,1,五数概括,Five number summary,:min,Q,1,median,Q,3,max,盒图,Boxplot,:,分布直观表示，体现五数概括,离群点,Outlier,:,第三个四分位数之上或者第一个四分位数之下至少,1.5 x IQR,的值,Variance and standard deviation(,sample:,s,population:,),方差,Variance,:,标准差,Standard deviation,方差的平方根,14,盒图,五数概括,Minimum,Q1,Median,Q3,Maximum,盒图,盒的端点在四分位数上，使得盒长度为四分位数

9、极差,IQR,中位数用盒内线标记,盒外线延伸到最小和最大的观测值,15,3-D,盒图,16,基本统计图,盒图,Boxplot,:,五数概括,直方图,Histogram,:x-axis,数值大小,y-axis,频率,分位数图,Quantile plot,:,观测单变量数据分布，,x,1,最小,x,n,最大,分位数,-,分位数图,Quantile-quantile(q-q)plot,:,两个观测集，观察一个分布到另一个分布是否漂移,散点图,Scatter plot,:,每个值视作一个坐标对，作为一个点画在平面上,17,分位数图,显示给定属性所有数据,绘制分位数信息,增序排列，每个观测值,x,i,与

10、一个百分数,f,i,配对，百分比,0.5,对应中位数，,0.75,对应,Q3,18,分位数,-,分位数图,对着另一个对应的分位数，绘制一个单变量分布的分位数,使得用户可以观测从一个分布到另一个分布,X,，,Y,轴分别代表不同的观测集，存在两个观测集的值的个数不一致时，不是所有的值都被表示,19,散点图,确定两个数值变量之间看上去是否存在联系,观察双变量数据的有用的方法,20,第二章：认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性小结,21,数据可视化,数据可视化意义,通过将数据映射在图元（,graphical primitives,）上来表示数据，便于深

11、刻理解数据信息,便于对大型数据集进行定性描述（,qualitative overview,）,便于搜索数据间的模式（,patterns,）,，倾向（,patterns,）,，结构,（,structure,）,，不规则性,（,structure,）,与联系性,（,relationships,）,为进一步的定量分析找到合适的区间与变量,数据可视化的技术,:,基于像素,几何投影,基于图符,层次可视化,可视化复杂对象与关系,22,23,基于像素可视化技术,对于一个,m,维的数据集，在屏幕上创建,m,个窗口，每个窗口代表一个维度,记录的,m,个维值映射到这些窗口对应位置上的,m,个像素,像素的颜色反映相

12、对应的值（,corresponding values,）,Income,(b)Credit Limit,(c)transaction volume,(d)age,23,24,圆弓分割技术,圆弓分割是一种节约空间且简明扼要展示多维间关系的方法,在圆弓内表示一个数据记录,(b),在圆弓内安排像素,24,几何投影可视化,基于像素：对理解多维空间数据分布帮助不大,将数据几何化，帮助用户发现多维数据在高维空间上的投影,技术,直接投影,散点图或散点图矩阵,平行坐标,25,直接投影,Ribbons with Twists Based on Vorticity,26,散点图矩阵,Matrix,of scatt

13、erplots(x-y-diagrams)of the k-dim.data total of(k2/2-k)scatterplots,Used by,ermission of M.Ward,Worcester Polytechnic,Institute,27,平行坐标,绘制,n,个等距离，相互平行的轴，每个代表一个维,数据记录用折线表示，与每个轴在对应相应维值的点上相交,28,平行坐标,29,基于图符可视化技术,将数据值可视化为有不同特征的图符,代表技术,切尔诺夫脸,人物线条画,30,切尔诺夫图,用二维的脸表示,18,维的多维数据（赫尔曼,切尔诺夫）,切尔诺夫脸利用脸的眼耳口鼻等要素的不同形

14、状，大小，位置和方向代表维的值。利用人的思维能力，识别面部特征的微小差异来理解许多面部特征，有助于数据的规律性和不规律性的可视化。,31,人物线条画,X,和,Y,轴映射两个维,used by permission of G.Grinstein,University of Massachusettes at Lowell,用五段人物线条画表示其他维,32,层次可视化技术,把所有维划分成子集（子空间），子空间按层次可视化,Methods,世界中的世界,树图,33,Worlds-within-Worlds,世界中的世界,(n-version),对六维数据集（,F,X,1,X,5,）可视化,把,X,3

15、X,4,X,5,作为选定值，例如（,c3,c4,c5,），对另外三维可视化，内世界的点位于外世界（,c3,c4,c5,）处，外世界是另一个三维图,34,Tree-Map,把层次数据显示成嵌套矩形的集合,SchneidermanUMD:Tree-Map of a File System,SchneidermanUMD:Tree-Map to support large data sets of a million items,35,可视化复杂对象和关系,非数值数据的可视化,:,文本与社交网络,标签云：用户产生标签的统计量可视化,除了文本数据，还有用于可视化社交网络关系的技术,Newsmap:G

16、oogle News Stories in 2005,36,第二章：认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性,37,度量数据的相似性和相异性,相似性,(Similarity),两个对象相似程度的数量表示,数值越高表明相似性越大,通常取值范围为,0,1,相异性,(Dissimilarity)(,例如距离,),两个对象不相似程度的数量表示,数值越低表明相似性越大,相异性的最小值通常为,0,相异性的最大值（上限）是不同的,邻近性,(Proximity),:,相似性和相异性都称为邻近性,38,数据矩阵与相异性矩阵,数据矩阵,-,对象,-,属性结构,行,-,

17、对象：,n,个对象,列,-,属性：,p,个属性,二模矩阵,(Two modes),相异性矩阵,(Dissimilarity matrix),n,个对象两两之间的邻近度,对称矩阵,单模,(Single mode),其中,d(i,j),表示对象,i,与对象,j,之间,的相异性,39,标称属性的邻近性度量,标称属性,(Nominal Attributes):,可以取两个或多个状态,例如：颜色属性，可以取值为：红、黄、蓝、绿,两个对象,i,和,j,之间的相异性使用不匹配率来表示,m,:,对象匹配数目,p,:,对象的属性总数,40,表,2.2,包含混合类型属性的样本数据表,只对标称属性,test1,计算

18、相异性，因此,p=1,，当对象,i,和,j,匹配时，,d(i,j)=0,，当对象不同时,d(i,j)=1,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,41,二元属性的邻近性度量,对象,i,和对象,j,的频数表,对称的二元相异性,非对称的二元相异性,(t,被认为不重要，例如：病理化验呈阴性,),Object,i,Object,j,42,二元属性的邻近性度量,Jaccard,系数,(,非对称的二元相似性,):,Note:Jaccard,系数与,“,一致性,”,计算

19、相同,:,43,二元属性的相异性（例子）,Name(,姓名,),和,Gender(,性别,),是对称属性,其他属性是非对称二元属性，假设只针对非对称二元属性进行相异性计算,值,Y,和,P,是,1,值,N,是,0,44,数值属性的相异性,:,闵可夫斯基距离,闵可夫斯基距离,(Minkowski Distance):,计算距离的通用的公式：,i,=(,x,i1,x,i2,x,ip,),和,j,=(,x,j1,x,j2,x,jp,),是,p,维数据对象,距离需要满足的性质：,非负性：,d(i,j),0 if i,j,and,d(i,i),=0,对称性：,d(i,j),=,d(j,i),三角不等式：,

20、d(i,j),d(i,k),+,d(k,j),满足上述条件的测度称为度量,(metric),45,闵可夫斯基距离的特殊表现形式,h,=1:,曼哈顿距离,(,或城市块距离,Manhattan distance,),h,=2:,欧几里德距离,(,用的最多的,),h,:,上确界距离,找出两个对象的属性中最大的距离,46,例：闵可夫斯基距离,相异性矩阵,Manhattan(L,1,),Euclidean(L,2,),Supremum,47,序数属性的邻近性度量,序数属性：值之间是有意义的序或者排位,假设,f,为,n,个对象的一组序数属性之一，第,i,个对象的,f,值为,x,if,，属性,f,有个有序

21、状态，表示排位,用下面公式实现数据规格化,相异性计算可以用数值属性的距离度量来计算,48,=3,，把,test2,的每个值替换为它的排位，则,4,个对象将分别被赋值为,3,、,1,、,2,、,3,实现规格化：将,1,映射为,0.0,，,2,映射为,0.5,，,3,映射为,1.0,使用欧几里德距离求相异性矩阵,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,3,1,2,3,1.0,0.0,0.5,1.0,表,2.2,49,混合类型属性的相异性,数据库中可能包含各种属

22、性类型,标称的、对称二元的、非对称二元的、数值的或序数的,分别对每类数据进行数据挖掘分析，可能产生的结果不兼容,所有类型一起处理，公式为：,如果,x,if,或者,x,jf,缺失，即对象,i,或者对象,j,没有属性,f,的度量值，或者,x,if,=x,jf,=0,，并且,f,是非对称的二元属性，则,=0,其他情况指示符,=1,50,混合类型属性的相异性,若,f,是标称或二元的：,如果,x,if,=x,jf,则,d,ij,(f),=0,否则,d,ij,(f),=1,若,f,是数值的：,其中,h,遍取属性,f,的所有非缺失对象,若,f,是序数的：,计算,r,if,和,z,if,，并将,z,if,作为

23、数值属性对待。,51,对于数值属性,Test3,，,计算相异性并规格化：,max=64,，,min=22,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,表,2.2,52,Test1,Test2,Test3,对象,1,和对象,4,的最相似，对象,1,和对象,2,最不相似。,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,53,余弦相似

24、性,对文档中的关键词或短语的频度表：,词频向量通常很长，稀疏的，使用余弦相似性作为度量：,sim(x,y)=(x,y)/|x|y|,其中：,表示向量积，,|x|:,向量,d,的长度,54,例,:,余弦相似性,sim(,d,1,d,2,)=(,d,1,d,2,)/|,d,1,|,d,2,|,例,:,求文档,1,与文档,2,的相似性,d,1,=,(5,0,3,0,2,0,0,2,0,0),d,2,=,(3,0,2,0,1,1,0,1,0,1),d,1,d,2,=5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1=25,|,d,1,|=(5*5+0*0+3*3+0*0+2

25、2+0*0+0*0+2*2+0*0+0*0),0.5,=(42),0.5,=6.481,|,d,2,|=(3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1),0.5,=4.12,sim(d1,d2)=0.94,55,习题,2.6,给定两个被元组,(22,1,42,10),和,(20,0,36,8),表示的对象。,(a),计算这两个对象之间的欧几里得距离。,(b),计算这两个对象之间的曼哈顿距离。,56,习题,2.6,给定两个被元组,(22,1,42,10),和,(20,0,36,8),表示的对象。,(c),使用,q=3,，计算这两个对象之间的闵可夫斯基距离。,(d),计算这两个对象之间的上确界距离,57,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？