1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第二章:认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性,1,数据对象,Data Objects,数据集由数据对象组成。,一个数据对象代表一个,实体,(entity),。,销售数据库,:,顾客,商品,销售,医疗数据库,:,患者,大学数据库,:,学生、教授、课程,数据对象又称为,样本,、,实例,、,数据点,、或,对象。,数据对象用,属性,(attribute),描述。,数据行对应数据对象,;,列对应属性。,2,属性,Attributes,属性,(attribute)
2、是一个数据字段,表示数据对象的一个特征。,如:,customer _ID,name,address,类型,:,标称属性,(nominal),二元属性,(binary),序数属性,(ordinal),数值属性,(numeric),区间标度属性,(interval-scaled),比率标度属性,(ratio-scaled),3,属性类型,Attribute Types,标称属性,(nominal attribute),其值是一些符号或者事物的名称。,头发颜色,=,黑色,棕色,灰色,白色,二,元属性,(binary attribute),是一种标称属性,只有两个状态:,0,或,1,。,对称的,(s
3、ymmetric):,两种状态具有同等价值,携带相同权重。,如:性别,非对称的,(asymmetric):,其状态的结果不是同样重要。,如:艾滋病毒的阳性和阴性结果。,对重要的结果用,1,编码,另一个用,0,编码。,4,属性类型,Attribute Types,序数属性,(ordinal attribute),其可能的值之间具有有意义的序或者秩评定,(ranking),,但是相继值之间的差是未知的。,成绩,=,优,良,中,差,其中心趋势可以用它的众数和中位数表示,但不能定义均值。,注意,标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。,5,属性类型,Attribute T
4、ypes,数值属性,(numeric attribute),区间标度,(interval-scaled),属性,使用相等的单位尺度度量。,值有序,可以评估值之间的差,不能评估倍数。,没有绝对的零点。,如,:,摄氏温度,华氏温度,比率标度,(ratio-scaled),属性,具有,固定零点,的数值属性。,值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。,如:开式温温标,(K),,重量,高度,速度,6,属性类型,Attribute Types,离散属性,(discrete Attribute),具有有限或者无限可数个值。,如:,邮编、省份数目具有有限个值,,customer_Id,是无限
5、可数的。,可以用或者不用整数表示。,连续属性,(Continuous Attribute),属性值为实数。,一般用浮点变量表示。,7,第二章:认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性,小结,8,数据的基本统计描述,目的,更好地识别数据的性质,把握数据全貌,:,中心趋势度量,数据散布,中心趋势度量,(measures of central tendency),均值、中位数、众数、中列数,数据的散布,(dispersion of the data),极差、四分位数极差、五数概括、盒图,数据可视化,(graphic displays of basic s
6、tatistical descriptions),分位数图、分位数,-,分位数图、直方图、散点图,9,中心趋势度量,均值,(mean),加权算术平均:每,i,个,xi,与一个权重,wi,相关联,截尾均值,:,丢弃高低端极值,中位数,(median),有序数值的中间值,数据集的中位数可以通过插值,(interpolation),估算,L1:,中位数区间下界,N,:,数据集中值的个数,所有区间频率和,中位数区间的频率,width,:中位数区间的宽度,10,习题,2.3,设给定的数据集已经分组到区间,这些区间和对应频率如图。计算该数据的近似中位数,确定中位数所在组,因此中位数在,2150,组,计算中
7、位数,11,中心趋势度量,众数,(mode),数据集中出现频率最高的值,最高频率对应多个峰值,分为单峰的,(unimodal),双峰的,(bimodal),三峰的,(trimodal),经验公式,:,中列数,(midrange),最大数和最小数的平均值,12,对称数据和非对称数据,对称、正倾斜、负倾斜数据的中位数、均值和众数,13,数据统计常识,Quartiles,outliers and boxplots,四分位数,Quartiles,:Q,1,(25,th,percentile),Q,3,(75,th,percentile),四位分数极差,Inter-quartile range,:IQR
8、Q,3,Q,1,五数概括,Five number summary,:min,Q,1,median,Q,3,max,盒图,Boxplot,:,分布直观表示,体现五数概括,离群点,Outlier,:,第三个四分位数之上或者第一个四分位数之下至少,1.5 x IQR,的值,Variance and standard deviation(,sample:,s,population:,),方差,Variance,:,标准差,Standard deviation,方差的平方根,14,盒图,五数概括,Minimum,Q1,Median,Q3,Maximum,盒图,盒的端点在四分位数上,使得盒长度为四分位数
9、极差,IQR,中位数用盒内线标记,盒外线延伸到最小和最大的观测值,15,3-D,盒图,16,基本统计图,盒图,Boxplot,:,五数概括,直方图,Histogram,:x-axis,数值大小,y-axis,频率,分位数图,Quantile plot,:,观测单变量数据分布,,x,1,最小,x,n,最大,分位数,-,分位数图,Quantile-quantile(q-q)plot,:,两个观测集,观察一个分布到另一个分布是否漂移,散点图,Scatter plot,:,每个值视作一个坐标对,作为一个点画在平面上,17,分位数图,显示给定属性所有数据,绘制分位数信息,增序排列,每个观测值,x,i,与
10、一个百分数,f,i,配对,百分比,0.5,对应中位数,,0.75,对应,Q3,18,分位数,-,分位数图,对着另一个对应的分位数,绘制一个单变量分布的分位数,使得用户可以观测从一个分布到另一个分布,X,,,Y,轴分别代表不同的观测集,存在两个观测集的值的个数不一致时,不是所有的值都被表示,19,散点图,确定两个数值变量之间看上去是否存在联系,观察双变量数据的有用的方法,20,第二章:认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性小结,21,数据可视化,数据可视化意义,通过将数据映射在图元(,graphical primitives,)上来表示数据,便于深
11、刻理解数据信息,便于对大型数据集进行定性描述(,qualitative overview,),便于搜索数据间的模式(,patterns,),,倾向(,patterns,),,结构,(,structure,),,不规则性,(,structure,),与联系性,(,relationships,),为进一步的定量分析找到合适的区间与变量,数据可视化的技术,:,基于像素,几何投影,基于图符,层次可视化,可视化复杂对象与关系,22,23,基于像素可视化技术,对于一个,m,维的数据集,在屏幕上创建,m,个窗口,每个窗口代表一个维度,记录的,m,个维值映射到这些窗口对应位置上的,m,个像素,像素的颜色反映相
12、对应的值(,corresponding values,),Income,(b)Credit Limit,(c)transaction volume,(d)age,23,24,圆弓分割技术,圆弓分割是一种节约空间且简明扼要展示多维间关系的方法,在圆弓内表示一个数据记录,(b),在圆弓内安排像素,24,几何投影可视化,基于像素:对理解多维空间数据分布帮助不大,将数据几何化,帮助用户发现多维数据在高维空间上的投影,技术,直接投影,散点图或散点图矩阵,平行坐标,25,直接投影,Ribbons with Twists Based on Vorticity,26,散点图矩阵,Matrix,of scatt
13、erplots(x-y-diagrams)of the k-dim.data total of(k2/2-k)scatterplots,Used by,ermission of M.Ward,Worcester Polytechnic,Institute,27,平行坐标,绘制,n,个等距离,相互平行的轴,每个代表一个维,数据记录用折线表示,与每个轴在对应相应维值的点上相交,28,平行坐标,29,基于图符可视化技术,将数据值可视化为有不同特征的图符,代表技术,切尔诺夫脸,人物线条画,30,切尔诺夫图,用二维的脸表示,18,维的多维数据(赫尔曼,切尔诺夫),切尔诺夫脸利用脸的眼耳口鼻等要素的不同形
14、状,大小,位置和方向代表维的值。利用人的思维能力,识别面部特征的微小差异来理解许多面部特征,有助于数据的规律性和不规律性的可视化。,31,人物线条画,X,和,Y,轴映射两个维,used by permission of G.Grinstein,University of Massachusettes at Lowell,用五段人物线条画表示其他维,32,层次可视化技术,把所有维划分成子集(子空间),子空间按层次可视化,Methods,世界中的世界,树图,33,Worlds-within-Worlds,世界中的世界,(n-version),对六维数据集(,F,X,1,X,5,)可视化,把,X,3
15、X,4,X,5,作为选定值,例如(,c3,c4,c5,),对另外三维可视化,内世界的点位于外世界(,c3,c4,c5,)处,外世界是另一个三维图,34,Tree-Map,把层次数据显示成嵌套矩形的集合,SchneidermanUMD:Tree-Map of a File System,SchneidermanUMD:Tree-Map to support large data sets of a million items,35,可视化复杂对象和关系,非数值数据的可视化,:,文本与社交网络,标签云:用户产生标签的统计量可视化,除了文本数据,还有用于可视化社交网络关系的技术,Newsmap:G
16、oogle News Stories in 2005,36,第二章:认识数据,数据对象和属性类型,数据的基本统计描述,数据可视化,度量数据的相似性和相异性,37,度量数据的相似性和相异性,相似性,(Similarity),两个对象相似程度的数量表示,数值越高表明相似性越大,通常取值范围为,0,1,相异性,(Dissimilarity)(,例如距离,),两个对象不相似程度的数量表示,数值越低表明相似性越大,相异性的最小值通常为,0,相异性的最大值(上限)是不同的,邻近性,(Proximity),:,相似性和相异性都称为邻近性,38,数据矩阵与相异性矩阵,数据矩阵,-,对象,-,属性结构,行,-,
17、对象:,n,个对象,列,-,属性:,p,个属性,二模矩阵,(Two modes),相异性矩阵,(Dissimilarity matrix),n,个对象两两之间的邻近度,对称矩阵,单模,(Single mode),其中,d(i,j),表示对象,i,与对象,j,之间,的相异性,39,标称属性的邻近性度量,标称属性,(Nominal Attributes):,可以取两个或多个状态,例如:颜色属性,可以取值为:红、黄、蓝、绿,两个对象,i,和,j,之间的相异性使用不匹配率来表示,m,:,对象匹配数目,p,:,对象的属性总数,40,表,2.2,包含混合类型属性的样本数据表,只对标称属性,test1,计算
18、相异性,因此,p=1,,当对象,i,和,j,匹配时,,d(i,j)=0,,当对象不同时,d(i,j)=1,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,41,二元属性的邻近性度量,对象,i,和对象,j,的频数表,对称的二元相异性,非对称的二元相异性,(t,被认为不重要,例如:病理化验呈阴性,),Object,i,Object,j,42,二元属性的邻近性度量,Jaccard,系数,(,非对称的二元相似性,):,Note:Jaccard,系数与,“,一致性,”,计算
19、相同,:,43,二元属性的相异性(例子),Name(,姓名,),和,Gender(,性别,),是对称属性,其他属性是非对称二元属性,假设只针对非对称二元属性进行相异性计算,值,Y,和,P,是,1,值,N,是,0,44,数值属性的相异性,:,闵可夫斯基距离,闵可夫斯基距离,(Minkowski Distance):,计算距离的通用的公式:,i,=(,x,i1,x,i2,x,ip,),和,j,=(,x,j1,x,j2,x,jp,),是,p,维数据对象,距离需要满足的性质:,非负性:,d(i,j),0 if i,j,and,d(i,i),=0,对称性:,d(i,j),=,d(j,i),三角不等式:,
20、d(i,j),d(i,k),+,d(k,j),满足上述条件的测度称为度量,(metric),45,闵可夫斯基距离的特殊表现形式,h,=1:,曼哈顿距离,(,或城市块距离,Manhattan distance,),h,=2:,欧几里德距离,(,用的最多的,),h,:,上确界距离,找出两个对象的属性中最大的距离,46,例:闵可夫斯基距离,相异性矩阵,Manhattan(L,1,),Euclidean(L,2,),Supremum,47,序数属性的邻近性度量,序数属性:值之间是有意义的序或者排位,假设,f,为,n,个对象的一组序数属性之一,第,i,个对象的,f,值为,x,if,,属性,f,有 个有序
21、状态,表示排位,用下面公式实现数据规格化,相异性计算可以用数值属性的距离度量来计算,48,=3,,把,test2,的每个值替换为它的排位,则,4,个对象将分别被赋值为,3,、,1,、,2,、,3,实现规格化:将,1,映射为,0.0,,,2,映射为,0.5,,,3,映射为,1.0,使用欧几里德距离求相异性矩阵,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,3,1,2,3,1.0,0.0,0.5,1.0,表,2.2,49,混合类型属性的相异性,数据库中可能包含各种属
22、性类型,标称的、对称二元的、非对称二元的、数值的或序数的,分别对每类数据进行数据挖掘分析,可能产生的结果不兼容,所有类型一起处理,公式为:,如果,x,if,或者,x,jf,缺失,即对象,i,或者对象,j,没有属性,f,的度量值,或者,x,if,=x,jf,=0,,并且,f,是非对称的二元属性,则,=0,其他情况指示符,=1,50,混合类型属性的相异性,若,f,是标称或二元的:,如果,x,if,=x,jf,则,d,ij,(f),=0,否则,d,ij,(f),=1,若,f,是数值的:,其中,h,遍取属性,f,的所有非缺失对象,若,f,是序数的:,计算,r,if,和,z,if,,并将,z,if,作为
23、数值属性对待。,51,对于数值属性,Test3,,,计算相异性并规格化:,max=64,,,min=22,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,表,2.2,52,Test1,Test2,Test3,对象,1,和对象,4,的最相似,对象,1,和对象,2,最不相似。,对象标识符,Test-1,(,标称的,),Test-2,(,序数的,),Test-3,(,数值的,),1,A,优秀,45,2,B,一般,22,3,C,好,64,4,A,优秀,28,53,余弦相似
24、性,对文档中的关键词或短语的频度表:,词频向量通常很长,稀疏的,使用余弦相似性作为度量:,sim(x,y)=(x,y)/|x|y|,其中:,表示向量积,,|x|:,向量,d,的长度,54,例,:,余弦相似性,sim(,d,1,d,2,)=(,d,1,d,2,)/|,d,1,|,d,2,|,例,:,求文档,1,与文档,2,的相似性,d,1,=,(5,0,3,0,2,0,0,2,0,0),d,2,=,(3,0,2,0,1,1,0,1,0,1),d,1,d,2,=5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1=25,|,d,1,|=(5*5+0*0+3*3+0*0+2
25、2+0*0+0*0+2*2+0*0+0*0),0.5,=(42),0.5,=6.481,|,d,2,|=(3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1),0.5,=4.12,sim(d1,d2)=0.94,55,习题,2.6,给定两个被元组,(22,1,42,10),和,(20,0,36,8),表示的对象。,(a),计算这两个对象之间的欧几里得距离。,(b),计算这两个对象之间的曼哈顿距离。,56,习题,2.6,给定两个被元组,(22,1,42,10),和,(20,0,36,8),表示的对象。,(c),使用,q=3,,计算这两个对象之间的闵可夫斯基距离。,(d),计算这两个对象之间的上确界距离,57,






