样本的管理.pptx_咨信网zixin.com.cn

资源描述

第第4章章 Clementine样本的管理样本的管理第第4章章 Clementine样本的管理样本的管理n样本管理主要针对样本，实现样本管理主要针对样本，实现样本的排序、条件筛样本的排序、条件筛选、抽样、浓缩、分类汇总、平衡处理选、抽样、浓缩、分类汇总、平衡处理以及以及数据转数据转置置和和重新组织重新组织等。等。n样本管理的节点工具放置在节点工具箱的样本管理的节点工具放置在节点工具箱的记录记录选项选项卡中，还有一些相关节点放置在卡中，还有一些相关节点放置在字段字段选项卡中。选项卡中。4.1 样本的排序样本的排序n通过将样本数据按某个或某几个变量值的升序或降通过将样本数据按某个或某几个变量值的升序或降序重新排列，不仅便于浏览数据，而且还能够帮助序重新排列，不仅便于浏览数据，而且还能够帮助发现数据可能存在的异常值。发现数据可能存在的异常值。n异常值往往是极大值或极小值异常值往往是极大值或极小值n通过记录选项卡中的通过记录选项卡中的排序排序节点实现样本排序。节点实现样本排序。n下面以高中学生某学期期末各科考试成绩数据下面以高中学生某学期期末各科考试成绩数据ReportCard.xls为例，说明排序的具体操作。为例，说明排序的具体操作。n操作目标：分性别将总成绩按降序排序。操作目标：分性别将总成绩按降序排序。4.1 样本的排序样本的排序n建立建立Excel节点读入节点读入ReportCard.xls数据数据n建立建立导出导出节点计算总成绩；节点计算总成绩；n选择记录选项卡中的选择记录选项卡中的排序排序节点并将其连接到数据流节点并将其连接到数据流的相应位置上，其参数设置窗口如图所示。的相应位置上，其参数设置窗口如图所示。4.1 样本的排序样本的排序n在字段列选择排序变量，在顺序列指定升序或降序在字段列选择排序变量，在顺序列指定升序或降序n这里首先选择性别，指定按升序排序；再选择总成这里首先选择性别，指定按升序排序；再选择总成绩，指定在性别相同的情况下按降序排序。绩，指定在性别相同的情况下按降序排序。4.2 样本的条件筛选样本的条件筛选n分析有时只针对某类特征的样本进行，这时要首先分析有时只针对某类特征的样本进行，这时要首先给出条件，将满足条件的样本筛选出来。通过记录给出条件，将满足条件的样本筛选出来。通过记录选项卡中的选项卡中的选择选择节点实现样本的筛选。节点实现样本的筛选。n这里仍以高中学生某学期期末各科考试成绩数据这里仍以高中学生某学期期末各科考试成绩数据ReportCard.xls为例，说明样本筛选的具体操作为例，说明样本筛选的具体操作n操作目标：筛选出总成绩大于操作目标：筛选出总成绩大于500分的所有男生分的所有男生（性别为（性别为1）样本。）样本。4.2样本的条件筛选样本的条件筛选n建立建立Excel节点读入节点读入ReportCard.xls数据；数据；n建立导出节点计算总成绩；建立导出节点计算总成绩；n选择选择记录记录选项卡中的选项卡中的选择选择节点并将其连接到导出节节点并将其连接到导出节点之后，进行参数设置。点之后，进行参数设置。n在在条件条件框中输入框中输入CLEM表达式以表示筛选条件表达式以表示筛选条件n模式模式选项选项n包括：筛选出满足条件的样本包括：筛选出满足条件的样本n丢弃：剔除满足条件的样本。丢弃：剔除满足条件的样本。4.3 样本的随机抽样样本的随机抽样n数据挖掘的数据量通常较庞大，海量数据的建模效数据挖掘的数据量通常较庞大，海量数据的建模效率往往不高，因此一般可通过在全部样本中随机抽率往往不高，因此一般可通过在全部样本中随机抽样较少样本并建模的方式，解决这个问题。样较少样本并建模的方式，解决这个问题。n样本的随机抽样是在现有数据的基础上，按照随机样本的随机抽样是在现有数据的基础上，按照随机的原则挑选出部分样本，通过的原则挑选出部分样本，通过记录记录选项卡中的选项卡中的样本样本（Sample，采样）节点实现。，采样）节点实现。n以高中学生某学期期末各科考试成绩数据以高中学生某学期期末各科考试成绩数据ReportCard.xls为例。为例。n操作目标：随机抽取操作目标：随机抽取70%的样本。的样本。4.3 样本的随机抽样样本的随机抽样n建立建立Excel节点读入节点读入ReportCard.xls数据，选择数据，选择样样本本节点并将其连接到数据流的相应位置上。节点并将其连接到数据流的相应位置上。4.3 样本的随机抽样样本的随机抽样n具体参数设置如下。具体参数设置如下。n第一个第一个(First)：抽取前：抽取前N个样本，应指定个样本，应指定N的值的值nN中取中取1：系统抽样，按照样本顺序每隔：系统抽样，按照样本顺序每隔n个样本个样本选取选取1个样本个样本n随机随机%：按照随机原则抽取一定百分比的样本：按照随机原则抽取一定百分比的样本n注意：如希望随机化抽样结果可以反复出现，应选注意：如希望随机化抽样结果可以反复出现，应选择设置随机数种子项，还可以单击生成按钮重新生择设置随机数种子项，还可以单击生成按钮重新生成随机数种子。成随机数种子。nSet random seed.When sampling or partitioning records based on a random percentage,this option allows you to duplicate the same results in another session.By specifying the starting value used by the random number generator,you can ensure the same records are assigned each time the node is executed.Enter the desired seed value,or click the Generate button to automatically generate a random value.If this option is not selected,a different sample will be generated each time the node is executed.4.3 样本的随机抽样样本的随机抽样n模式选项：模式选项：n包括样本：选用抽取的样本包括样本：选用抽取的样本n丢弃样本：剔除抽取的样本丢弃样本：剔除抽取的样本4.4 样本的浓缩处理样本的浓缩处理n海量数据的随机抽样可在一定程度上提高数据建模海量数据的随机抽样可在一定程度上提高数据建模的效率，但随机抽样可能带来信息的丢失的效率，但随机抽样可能带来信息的丢失n样本浓缩处理，试图从另一个角度减少样本数量，样本浓缩处理，试图从另一个角度减少样本数量，是提高数据建模型效率的另一种有效方法。是提高数据建模型效率的另一种有效方法。n通过记录选项卡中的通过记录选项卡中的区分区分（Distinct）节点实现样）节点实现样本浓缩处理。本浓缩处理。n样本的浓缩处理结果就是要得到样本的浓缩处理结果就是要得到1.2.3节中提到的节中提到的浓缩数据。浓缩数据。n以以1.2.3节表节表1-1的客户调查数据的客户调查数据Customer.xls为为例例4.4 样本的浓缩处理样本的浓缩处理n首先建立首先建立Excel节点读入节点读入Customerd.xls数据。数据。n利用利用Output卡中的卡中的Table节点浏览数据节点浏览数据4.4 样本的浓缩处理样本的浓缩处理n通过数据浏览可以发现，性别在预测客户是否购买通过数据浏览可以发现，性别在预测客户是否购买方面没有显著意义，因为在购买和不购买人群中，方面没有显著意义，因为在购买和不购买人群中，性别分布大致相同，因此可以忽略该变量。性别分布大致相同，因此可以忽略该变量。n如忽略性别变量，无论购买人群还是不购买人群中，如忽略性别变量，无论购买人群还是不购买人群中，都有变量取值完全相同的重复样本都有变量取值完全相同的重复样本n在输出变量的一些非线性分类预测中，重复的样本在输出变量的一些非线性分类预测中，重复的样本并没有提供更多的附加信息，它们除增加计算量之并没有提供更多的附加信息，它们除增加计算量之外，通常意义不大。外，通常意义不大。n因此可以考虑剔除重复样本，缩减样本量，以提高因此可以考虑剔除重复样本，缩减样本量，以提高建模的计算效率。建模的计算效率。4.4 样本的浓缩处理样本的浓缩处理n为实现上述目标，可首先选择为实现上述目标，可首先选择字段字段选项卡中的选项卡中的过滤过滤节点，剔除性别变量；然后选择节点，剔除性别变量；然后选择记录记录选项卡中的选项卡中的区区分分节点并将其连接过滤节点后面，进行参数设置。节点并将其连接过滤节点后面，进行参数设置。4.4 样本的浓缩处理样本的浓缩处理n在在查找重复字段查找重复字段框中选择对哪些变量的取值进行重框中选择对哪些变量的取值进行重复性检查。复性检查。n这里选择消费频率、收入水平、是否打算购买，表这里选择消费频率、收入水平、是否打算购买，表示对这三个变量取值同时相同的样本，只选取其中示对这三个变量取值同时相同的样本，只选取其中第一个样本。第一个样本。n模式选项模式选项n包括：选取第一个样本，剔除相同的其余样本包括：选取第一个样本，剔除相同的其余样本n丢弃：剔除第一个样本，保留相同的其余样本丢弃：剔除第一个样本，保留相同的其余样本4.4 样本的浓缩处理样本的浓缩处理n区分节点还可用于数据的唯一性检测。区分节点还可用于数据的唯一性检测。n例如，人事系统数据中，一个员工只能有唯一的记例如，人事系统数据中，一个员工只能有唯一的记录。如果重复录入多遍，区分节点能够通过诸如职录。如果重复录入多遍，区分节点能够通过诸如职工号等关键字，很快检测出来并只取其中的一条数工号等关键字，很快检测出来并只取其中的一条数据。据。n另外，还应注意，浓缩样本对后续分析方法的选择另外，还应注意，浓缩样本对后续分析方法的选择是有限制的。是有限制的。4.5 样本的分类汇总样本的分类汇总n分类汇总分类汇总：先根据所指定的分组变量将样本分成若：先根据所指定的分组变量将样本分成若干组，然后在各个组内计算其他变量的基本描述统干组，然后在各个组内计算其他变量的基本描述统计量计量n通过通过记录记录选项卡中的选项卡中的汇总汇总节点实现分类汇总节点实现分类汇总n以高中学生某学期期末各科考试成绩数据以高中学生某学期期末各科考试成绩数据ReportCard.xls为例，说明分类汇总的具体操作为例，说明分类汇总的具体操作n操作目标操作目标：分别计算男女生总成绩的平均值和标准：分别计算男女生总成绩的平均值和标准差。差。4.5样本的分类汇总样本的分类汇总n首先建立首先建立Excel节点读入节点读入ReportCard.xls数据数据n其次建立导出节点计算总成绩其次建立导出节点计算总成绩n选择选择记录记录选项卡中的选项卡中的汇总汇总节点并将其连接到导出节节点并将其连接到导出节点之后，右击鼠标，进行参数设置点之后，右击鼠标，进行参数设置n参数设置参数设置n关键字段关键字段：一个或多个分组变量，该变量通常是：一个或多个分组变量，该变量通常是分类型变量。这里指定分类型变量。这里指定性别性别。n汇总字段汇总字段：选择需计算哪些变量的哪些基本描述：选择需计算哪些变量的哪些基本描述统计量。这里，计算总成绩的统计量。这里，计算总成绩的均值均值和和标准差标准差n在字段中包含记录计数在字段中包含记录计数：产生一个默认名为：产生一个默认名为Record Count的变量，存放各组样本量的变量，存放各组样本量4.6 样本的平衡处理样本的平衡处理n样本的平衡处理在很多实际问题中会涉及样本的平衡处理在很多实际问题中会涉及n例如，为研究某种儿童疾病的成因，以便尽早给家例如，为研究某种儿童疾病的成因，以便尽早给家长提出警示，某机构对适龄儿童的健康状况进行了长提出警示，某机构对适龄儿童的健康状况进行了大规模调查，取得了有关儿童性别、居住地、饮食大规模调查，取得了有关儿童性别、居住地、饮食习惯、卫生习惯等方面的数据。习惯、卫生习惯等方面的数据。n假设该地区有适龄儿童假设该地区有适龄儿童100000人，其中有人，其中有1%的的得病记录得病记录n病儿样本有病儿样本有1000个，健康儿童达个，健康儿童达99000个个4.6 样本的平衡处理样本的平衡处理n在这种分布的样本上建立分类模型，由于模型总是在这种分布的样本上建立分类模型，由于模型总是力争使错误率最小化，所得模型偏向于健康儿童力争使错误率最小化，所得模型偏向于健康儿童n这样的模型虽然对健康儿童预测精度较高，但不能这样的模型虽然对健康儿童预测精度较高，但不能有效地区别健康和患病儿童有效地区别健康和患病儿童n其主要原因是其主要原因是数据中两类样本（健康和患病）的分数据中两类样本（健康和患病）的分布比例相差悬殊布比例相差悬殊n解决的一般方法：过抽样（解决的一般方法：过抽样（Over Sampling），即），即在罕见样本（患病）中多抽样，在常见样本（健康）在罕见样本（患病）中多抽样，在常见样本（健康）中少抽样，进而调整两类样本的分布比例，使其基中少抽样，进而调整两类样本的分布比例，使其基本达到平衡。本达到平衡。4.6 样本的平衡处理样本的平衡处理n例如，对儿童疾病问题，在患病儿童中抽算例如，对儿童疾病问题，在患病儿童中抽算100%的样本，并根据所获得的样本量计算出在健康儿童的样本，并根据所获得的样本量计算出在健康儿童中的抽样比例，如中的抽样比例，如1%n建立在过抽样样本基础上的模型，其预测精度应在建立在过抽样样本基础上的模型，其预测精度应在全部样本的基础上计算。全部样本的基础上计算。n样本平衡处理通过记录选项卡中的样本平衡处理通过记录选项卡中的平衡平衡节点实现节点实现n这里以药物研究数据这里以药物研究数据DRUG.txt为例，说明样本平为例，说明样本平衡处理的具体操作。衡处理的具体操作。4.6 样本的平衡处理样本的平衡处理n选择选择源源卡中的卡中的可变文件可变文件节点读入节点读入DRGU.txt数据。数据。n观察数据发现，服用观察数据发现，服用DrugY和和DrugX药物的样本较药物的样本较多，服用其他药物的样本相对较少，可以进行样本多，服用其他药物的样本相对较少，可以进行样本平衡处理平衡处理n在在记录记录选项卡中选择选项卡中选择平衡平衡节点并与可变文件节点相节点并与可变文件节点相连连4.6 样本的平衡处理样本的平衡处理n在在平衡指令平衡指令框中，输入一个框中，输入一个CLEM条件表达式条件表达式nDrug=“drugY”表示对表示对Drug取值为取值为DrugY的样的样本做过抽样，同理，本做过抽样，同理，Drug=“druaX”表示对表示对Drug取值为取值为DrugX的样本做过抽样；的样本做过抽样；n因子因子列中输入样本随机抽取的比例，允许为任意列中输入样本随机抽取的比例，允许为任意值，通常小于值，通常小于1。大于。大于1时，所进行的是有放回时，所进行的是有放回的重复抽样。的重复抽样。n指定抽取指定抽取drugY类和类和drugX类样本的比例分别是类样本的比例分别是0.3和和0.5，总样本量会减少，且服用各类药物的样，总样本量会减少，且服用各类药物的样本比例基本接近。本比例基本接近。4.7样本的其他管理样本的其他管理自学自学n样本的其他管理主要指整个样本结构的调整，包括样本的其他管理主要指整个样本结构的调整，包括数据转置和数据的重新组织。数据转置和数据的重新组织。n4.7.1 数据转置数据转置n数据转置是将数据行列互换，原来的样本转换成变数据转置是将数据行列互换，原来的样本转换成变量，原来的变量转换成样本。量，原来的变量转换成样本。n通过通过字段字段卡中的卡中的转置转置节点实现节点实现n以某以某4年中我国鲜苹果出口的季度数据为例，文件年中我国鲜苹果出口的季度数据为例，文件名为名为ExportApple.sav4.7样本的其他管理样本的其他管理n首先在首先在源源卡中选择卡中选择SPSS文件文件节点放置到数据流编节点放置到数据流编辑区中，设置参数指定文件名读入数据，利用表节辑区中，设置参数指定文件名读入数据，利用表节点浏览数据，如图点浏览数据，如图4-10所示。所示。4.7 样本的其他管理样本的其他管理n数据按行组织，数据按行组织，Y1 1表示第表示第1年第年第1季度，季度，Y2 2表表示第示第1年第年第2季度，季度，Y4 4表示第表示第4年第年第4季度等等。季度等等。n第一行样本是鲜苹果出口量，第二行是出口额。第一行样本是鲜苹果出口量，第二行是出口额。n数据组织格式不利于分析，需进行数据转置处理，数据组织格式不利于分析，需进行数据转置处理，形成的数据格式如图形成的数据格式如图4-11所示。所示。4.7 样本的其他管理样本的其他管理n参数设置参数设置n从字段读取选项：选择从原数据的哪个变量中读取从字段读取选项：选择从原数据的哪个变量中读取变量值作为新数据的变量名。这里选择变量值作为新数据的变量名。这里选择NAME，单，单击读取值按钮。于是，新字段名称框中列出变量击读取值按钮。于是，新字段名称框中列出变量NAME的所有变量值，它们将作为新文件的变量名。的所有变量值，它们将作为新文件的变量名。4.7 样本的其他管理样本的其他管理n转置选项：转置选项：n所有数值型变量表示原数据中的所有数值型变量所有数值型变量表示原数据中的所有数值型变量均参与转置；均参与转置；n所有字符串表示原数据中的所有字符串型变量均所有字符串表示原数据中的所有字符串型变量均参与转置；参与转置；n自定义允许用户自行选择参与转置的变量。自定义允许用户自行选择参与转置的变量。n行行 ID 名称框：输入新数据中的标识行含义的变量名称框：输入新数据中的标识行含义的变量名。这里，新数据中各行为不同的时间，因此输入名。这里，新数据中各行为不同的时间，因此输入Time作为变量名作为变量名4.7 样本的其他管理样本的其他管理4.7.2数据的重新组织数据的重新组织n数据的重新组织是将原来不利于某种计算和分析的数据的重新组织是将原来不利于某种计算和分析的数据组织形式，调整为较方便处理的形式。数据组织形式，调整为较方便处理的形式。n重新组织通过重新组织通过字段字段选项卡中的选项卡中的重新组织重新组织节点实现。节点实现。n这里，以一份简单的客户银行开户和储蓄情况的数这里，以一份简单的客户银行开户和储蓄情况的数据为例，该数据为据为例，该数据为SPSS格式，文件名为格式，文件名为BankBalance.sav。n首先，在源卡中选择首先，在源卡中选择SPSS File节点放置到数据流节点放置到数据流编辑区中，右击鼠标设置参数指走文件名读入数据，编辑区中，右击鼠标设置参数指走文件名读入数据，利用利用Output选项卡中的选项卡中的Table节点浏览数据，如图节点浏览数据，如图4-13(a)所示。所示。4.7.2数据的重新组织数据的重新组织n可以看到，图可以看到，图4-13(a)中存储了各个客户的编码、中存储了各个客户的编码、账户类型、开户金额和当前余额。账户类型、开户金额和当前余额。n现希望浏览各个客户的账户类型、开户金额及当前现希望浏览各个客户的账户类型、开户金额及当前余额并打印成表，显然这个格式不如图余额并打印成表，显然这个格式不如图4-13(b)的的格式更一目了然。格式更一目了然。n两种格式的差异在于，第一种格式中，不同账户类两种格式的差异在于，第一种格式中，不同账户类型的开户金额和当前余额是列在一起的，参看金额型的开户金额和当前余额是列在一起的，参看金额的同时必须要参看账户类型；而第二种格式分变量的同时必须要参看账户类型；而第二种格式分变量存储不同账户类型的金额，浏览和计算金额就比较存储不同账户类型的金额，浏览和计算金额就比较方便，虽然其中的窄缺数据较多。方便，虽然其中的窄缺数据较多。n为此，在为此，在Filed Ops卡中选择重新组织节点并与卡中选择重新组织节点并与SPSS File节点相连，右击鼠标设置参数，如图节点相连，右击鼠标设置参数，如图4-14所示。所示。n具体参数设置如下。具体参数设置如下。n可用字段选项：选择哪个变量的变量值将作为新格可用字段选项：选择哪个变量的变量值将作为新格式中的新变量名。这里选择账户类型，于是账户类式中的新变量名。这里选择账户类型，于是账户类型的所有变量值将列在可用字段框中，通过箭头选型的所有变量值将列在可用字段框中，通过箭头选择变量值到创建重新构建的字段中。如果选择了包择变量值到创建重新构建的字段中。如果选择了包括名字字段，则新变量名是原变量名加下划线变量括名字字段，则新变量名是原变量名加下划线变量值，这里是账户类型值，这里是账户类型1等。等。n使用其他字段的值：新格式中，新变量的取值来自使用其他字段的值：新格式中，新变量的取值来自一个用户指定的原变量。一个用户指定的原变量。n这里在值字段中选择了当前余额变量，表示新变量这里在值字段中选择了当前余额变量，表示新变量账户类型账户类型1将依次取原账户类型为将依次取原账户类型为1的当前余额值，的当前余额值，没有相应样本则取系统缺失值没有相应样本则取系统缺失值$null$。n同理，新变量账户类型同理，新变量账户类型2将依次取原账户类型为将依次取原账户类型为2的的当前余额值，没有相应样本则取系统缺失值当前余额值，没有相应样本则取系统缺失值$null$。n可通过可通过Output卡中的卡中的Table节点浏览数据重新组织节点浏览数据重新组织后的结果。在此基础上，利用后的结果。在此基础上，利用Aggregate芾点能够芾点能够非常方便地计算出各客户各类型账户的当前余额的非常方便地计算出各客户各类型账户的当前余额的总和，如图总和，如图4-15所示。所示。

展开阅读全文