资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据挖掘,*,数据对象与属性类型,什么是属性:,一个数据字段,表示数据对象的一个特征,属性、维、特征和变量可以互换地使用,标称属性:是一些符号或事物的名称,每个值代表某种类别、编码或状态,2025/10/24 周五,1,数据挖掘,二元变量:一种标称属性,只有两个类别或状态:,0,或,1,,又可以称为布尔属性(值为,true,或,false,),对称的二元属性:两种状态具有同等价值并且携带相同的权重,非对称的二元属性:两种状态的结果不是同样重要,2025/10/24 周五,2,数据挖掘,序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的,2025/10/24 周五,3,数据挖掘,数据的基本统计描述,度量数据的中心趋势,度量数据的离中趋势,2025/10/24 周五,6,数据挖掘,度量数据的中心趋势,数据集中心最常用、最有效的数值度量是算术均值,集合中每个值与一个权值相关联,采用加权算术均值(加权平均),为抵消少数极端值的影响,使用截断均值,去掉高、低极端值的影响,对于倾斜的数据,数据中心的一个最好度量是中位数,众数是集合中出现频率最高的值:分为单峰、双峰、三峰或多峰,中列数是数据集的最大和最小值的平均值,2025/10/24 周五,7,数据挖掘,度量中心趋势的方法,分布式度量:将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原数据集的度量值,代数度量:通过应用一个代数函数于一个或多个分布度量计算中,整体度量:不能通过将给定数据划分成子集并合并每个子集上度量得到的值来计算,计算数据集中位数的近似值,2025/10/24 周五,8,数据挖掘,度量数据的离散程度,离差(方差):数值数据趋向于分散的程度,极差:最大值与最小值之差,百分位数:百分之,K,的数据项位于或低于,X,i,中间四分位数极差:,IQR=Q,3,-Q,1,五数概括:数据集分布形状的完整概括包含中位数、四分位数,Q,1,和,Q,3,,最小和最大观测值,盒图:是五数概括的可视化表示,其缺点针对大量数据集的描述比较困难,方差:,标准差:是方差的平方根,2025/10/24 周五,9,数据挖掘,2025/10/24 周五,10,数据挖掘,显示数据汇总的图形,直方图:概括给定属性分布的图形方法,2025/10/24 周五,11,数据挖掘,分位数图:是一种观察单变量数据分布的简单有效方法,2025/10/24 周五,12,数据挖掘,散布图:是确定两个数值属性之间看上去是否有联系、模式或趋势的最有效图形,2025/10/24 周五,13,数据挖掘,Loess,曲线:添加一条光滑曲线到散布图,以便更好地理解依赖模式,2025/10/24 周五,14,数据挖掘,度量数据的相似性和相异性,数据结构,2025/10/24 周五,15,数据挖掘,度量聚类的质量,相异,/,相似矩阵:相似性用距离函数,d(i,j),表示,存在一个分离的“质量函数”来度量聚类的好坏,距离函数的定义要根据区间标度变量、二元变量、标称、序数以及比例标度变量的不同而不同,根据不同的应用和数据语义可以把权和不同的变量联系起来,很难定义足够相似和足够好,答案高度主观,2025/10/24 周五,16,数据挖掘,标称属性(又称分类属性),2025/10/24 周五,17,数据挖掘,二元变量,二元变量可能性表,简单匹配系数(恒定,二元对称变量),系数(非恒定的,非对称二元变量),2025/10/24 周五,18,数据挖掘,二元变量之间的相异度,2025/10/24 周五,19,数据挖掘,数值变量:,1.,区间标度变量,均值绝对偏差比标准差对于离群点有更好的鲁棒性,2025/10/24 周五,20,数据挖掘,对象间的相似度和相异度,距离通常被用来度量两数据对象间的相似度和相异度,一些常用的距离度量方法包括:闵考夫斯基距离,当,q=1,时表示曼哈顿距离,2025/10/24 周五,21,数据挖掘,2025/10/24 周五,22,数据挖掘,上确界距离(切比雪夫距离):找出属性,f,,它产生两个对象的最大值差即为上确界距离,2025/10/24 周五,23,数据挖掘,序数型变量,一个序数变量可以是离散的也可以是连续的,值的相对顺序是必要的,例如在某个比赛中的相对排名,1,,,.,M,f,处理方式与区间标度变量非常相似,用对应的秩来代替,X,if,将每个变量的值域映射到,0,1,通过用,Z,if,代替第,i,个对象的第,f,个变量的,r,if,,用以下公式计算,使用区间标度变量中的方法来计算相异度,2025/10/24 周五,24,数据挖掘,比例标度型变量,2025/10/24 周五,25,数据挖掘,混合型变量,2025/10/24 周五,26,数据挖掘,余弦相似性,是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序,当属性为二值属性时,可以使用,Tanimoto,系数(距离),2025/10/24 周五,27,数据挖掘,小结,数据集由数据对象组成,数据对象代表实体,数据对象由属性描述,基本统计描述为数据预处理提供了分析基础,包括度量数据中心趋势和度量数据散步的方法,对象相似性与相异性度量用于诸如聚类、离群点分析、最近邻分类等数据挖掘应用中,2025/10/24 周五,28,数据挖掘,
展开阅读全文