WEKA中文详细教程.ppt_咨信网zixin.com.cn

资源描述

2024/5/22 周三1数据挖掘工具-WEKA教程oWEKAWEKA简介简介.2.2o数据集数据集.11.11o数据准备数据准备.24.24o数据预处理数据预处理3636o分类分类6363o聚类聚类.184.184o关联规则关联规则225225o选择属性选择属性244244o数据可视化数据可视化253253o知识流界面知识流界面2752752024/5/22 周三21、WEKA简介简介oWEKA的全名是怀卡托智能分析环境的全名是怀卡托智能分析环境n（Waikato Environment for Knowledge Analysis）nweka也是新西兰的一种鸟名也是新西兰的一种鸟名o是新西兰怀卡托大学是新西兰怀卡托大学WEKA小组用小组用Java开发的机器学习开发的机器学习/数据挖掘开源软件。其源代码获取数据挖掘开源软件。其源代码获取nhttp:/www.cs.waikato.ac.nz/ml/weka/nhttp:/ SIGKDD国际会议上，怀国际会议上，怀卡托大学的卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的小组荣获了数据挖掘和知识探索领域的最高服务奖，最高服务奖，WEKA系统得到了广泛的认可，被誉为数据系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今挖掘和机器学习历史上的里程碑，是现今最完备最完备的数据挖的数据挖掘工具之一。掘工具之一。WEKA的每月下载次数已超过万次。的每月下载次数已超过万次。2024/5/22 周三3WEKA软件软件o主要特点主要特点n它是集数据预处理、学习算法（分类、回归、聚类、关它是集数据预处理、学习算法（分类、回归、聚类、关联分析）和评估方法等为一体的综合性数据挖掘工具。联分析）和评估方法等为一体的综合性数据挖掘工具。n具有交互式可视化界面。具有交互式可视化界面。n提供算法学习比较环境提供算法学习比较环境n通过其接口，可实现自己的数据挖掘算法通过其接口，可实现自己的数据挖掘算法WEKA的界面2024/5/22 周三4探索环境探索环境命令行环境命令行环境知识流环境知识流环境算法试验环境算法试验环境2024/5/22 周三5Explorer环境环境 2024/5/22 周三6把“Explorer”界面分成8个区域o区域区域1的几个选项卡是用来切换不同的挖掘任务面板。的几个选项卡是用来切换不同的挖掘任务面板。nPreprocess（数据预处理）数据预处理）：选择和修改要处理的数据。选择和修改要处理的数据。nClassify（分类）分类）：训练和测试分类或回归模型。训练和测试分类或回归模型。nCluster（聚类）聚类）：从数据中聚类。从数据中聚类。nAssociate（关联分析）关联分析）：从数据中学习关联规则。从数据中学习关联规则。nSelect Attributes（选择属性）选择属性）：选择数据中最相关的属性。选择数据中最相关的属性。nVisualize（可视化）可视化）：查看数据的二维散布图。查看数据的二维散布图。o区域区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功是一些常用按钮。包括打开、编辑、保存数据及数据转换等功能。例如能。例如,我们可以把文件我们可以把文件“bank-data.csv”另存为另存为“bank-data.arff”。o区域区域3中可以选择中可以选择（Choose）某个筛选器某个筛选器（Filter），），以实现筛选以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。数据或者对数据进行某种变换。数据预处理主要就利用它来实现。2024/5/22 周三7o区域区域4展示了数据集的关系名、属性数和实例数等基本情况。展示了数据集的关系名、属性数和实例数等基本情况。o区域区域5中列出了数据集的所有属性。中列出了数据集的所有属性。n勾选一些属性并勾选一些属性并“Remove”就可以删除它们，删除后还可以利用就可以删除它们，删除后还可以利用区域区域2的的“Undo”按钮找回。按钮找回。n区域区域5上方的一排按钮是用来实现快速勾选的。上方的一排按钮是用来实现快速勾选的。o区域区域6中显示在区域中显示在区域5中选中的当前某个属性的摘要。中选中的当前某个属性的摘要。n摘要包括属性名（摘要包括属性名（Name）、）、属性类型（属性类型（Type）、）、缺失值缺失值（Missing）数及比例数及比例、不同值（不同值（Distinct）数数、唯一值唯一值（Unique）数及比例数及比例n对于数值属性和标称属性，摘要的方式是不一样的。图中显示的对于数值属性和标称属性，摘要的方式是不一样的。图中显示的是对数值属性是对数值属性“income”的摘要。的摘要。o数值属性显示最小值（数值属性显示最小值（Minimum）、）、最大值最大值（Maximum）、均值（、均值（Mean）和标准差（和标准差（StdDev）o标称属性显示每个不同值的计数标称属性显示每个不同值的计数2024/5/22 周三8o区域区域7是区域是区域5中选中属性的直方图。中选中属性的直方图。n若数据集的最后一个属性（这是分类或回归任务的默认目标若数据集的最后一个属性（这是分类或回归任务的默认目标变量）是类标变量（例如变量）是类标变量（例如“pep”），直方图中的每个长方），直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。形就会按照该变量的比例分成不同颜色的段。n要想换个分段的依据，在区域要想换个分段的依据，在区域7上方的下拉框中选个不同的上方的下拉框中选个不同的分类属性就可以了。分类属性就可以了。n下拉框里选上下拉框里选上“No Class”或者一个数值属性会变成黑白的或者一个数值属性会变成黑白的直方图。直方图。2024/5/22 周三9o区域区域8窗口的底部区域窗口的底部区域，包括状态栏、包括状态栏、loglog按钮和按钮和WekaWeka鸟鸟。n状态栏（状态栏（Status）显示一些信息让你知道正在做什么。例如，）显示一些信息让你知道正在做什么。例如，如果如果 Explorer 正忙于装载一个文件，状态栏就会有通知。正忙于装载一个文件，状态栏就会有通知。n在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜单给了你两个选项：单给了你两个选项：oMemory Information-显示显示WEKA可用的内存量。可用的内存量。oRun garbage collector-强制运行强制运行Java垃圾回收器，垃圾回收器，搜索不再需要的内存空间并将之释放，从而可为新任务分搜索不再需要的内存空间并将之释放，从而可为新任务分配更多的内存。配更多的内存。nLog按钮按钮可以查看以可以查看以weka操作日志操作日志。n右边的右边的weka鸟在动的话，说明鸟在动的话，说明WEKA正在执行挖掘任务。正在执行挖掘任务。2024/5/22 周三10KnowledgeFlow环境环境2024/5/22 周三112、WEKA数据集oWEKA所处理的数据集是一个所处理的数据集是一个.arff文件的二维表文件的二维表2024/5/22 周三12o表格里的一个横行称作一个实例（表格里的一个横行称作一个实例（Instance），），相当相当于统计学中的一个样本，或者数据库中的一条记录。于统计学中的一个样本，或者数据库中的一条记录。o竖行称作一个属性（竖行称作一个属性（Attribute），），相当于统计学中的相当于统计学中的一个变量，或者数据库中的一个字段。一个变量，或者数据库中的一个字段。o这样一个表格，或者叫数据集，在这样一个表格，或者叫数据集，在WEKA看来，呈现了看来，呈现了属性之间的一种关系属性之间的一种关系(Relation)。o上图中一共有上图中一共有14个实例，个实例，5个属性，关系名称为个属性，关系名称为“weather”。oWEKA存储数据的格式是存储数据的格式是ARFF（Attribute-Relation File Format）文件，这是一种文件，这是一种ASCII文文本文件。本文件。o上图所示的二维表格存储在如下的上图所示的二维表格存储在如下的ARFF文件中。这也文件中。这也就是就是WEKA自带的自带的“weather.arff”文件，在文件，在WEKA安装目录的安装目录的“data”子目录下可以找到。子目录下可以找到。relation weatherattribute outlook sunny,overcast,rainyattribute temperature realattribute humidity realattribute windy TRUE,FALSEattribute play yes,nodatasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no2024/5/22 周三132024/5/22 周三14WEKA数据文件数据文件oWEKA存储数据的格式是存储数据的格式是ARFF（Attribute-Relation File Format）文件文件n这是一种这是一种ASCII文本文件文本文件n文件的扩展名为文件的扩展名为.arffn可以用写字板打开、编辑可以用写字板打开、编辑 ARFF文件文件o文件中以文件中以“%”开始的行是注释，开始的行是注释，WEKA将忽略这些行。将忽略这些行。o除去注释后，整个除去注释后，整个ARFF文件可以分为两个部分文件可以分为两个部分:n第一部分给出了头信息（第一部分给出了头信息（Head information），），包包括了对关系的声明和对属性的声明。括了对关系的声明和对属性的声明。n第二部分给出了数据信息（第二部分给出了数据信息（Data information），），即数据集中给出的数据。从即数据集中给出的数据。从“data”标记开始，后面标记开始，后面的就是数据信息了。的就是数据信息了。2024/5/22 周三152024/5/22 周三16关系声明关系声明o关系名称在关系名称在ARFF文件的第一个有效行来定义，格式为：文件的第一个有效行来定义，格式为：relation o是一个字符串。如果这个字符串包含空格，它是一个字符串。如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。必须加上引号（指英文标点的单引号或双引号）。2024/5/22 周三17属性声明o属性声明用一列以属性声明用一列以“attribute”开头的语句表示。开头的语句表示。o数据集中的每一个属性都有对应的数据集中的每一个属性都有对应的“attribute”语句，语句，来定义它的属性名称和数据类型（来定义它的属性名称和数据类型（datatype）：attribute n其中其中必须以字母开头的字符串。和关系名必须以字母开头的字符串。和关系名称一样，如果这个字符串包含空格，它必须加上引号。称一样，如果这个字符串包含空格，它必须加上引号。o属性声明语句的顺序很重要，它表明了该项属性在数据属性声明语句的顺序很重要，它表明了该项属性在数据部分的位置。部分的位置。n例如，例如，“humidity”是第三个被声明的属性，这说明数据是第三个被声明的属性，这说明数据部分那些被逗号分开的列中，第部分那些被逗号分开的列中，第2列（从第列（从第0列开始）数列开始）数据据 85 90 86 96.是相应的是相应的“humidity”值。值。n其次，最后一个声明的属性被称作其次，最后一个声明的属性被称作class属性，在分类或属性，在分类或回归任务中，它是默认的目标变量。回归任务中，它是默认的目标变量。2024/5/22 周三18数据类型数据类型oWEKA支持四种数据类型支持四种数据类型nnumeric数值型数值型 n标称（标称（nominal）型型nstring字符串型字符串型ndate 日期和时间型日期和时间型o还可以使用两个类型还可以使用两个类型“integer”和和“real”，但是但是WEKA把它们都当作把它们都当作“numeric”看待。看待。o注意：注意：“integer”，“real”，“numeric”，“date”，“string”这些关键字是区分大小写的，而这些关键字是区分大小写的，而“relation”、“attribute”和和“data”则不区分。则不区分。2024/5/22 周三19o数值型属性数值型属性n数值型属性可以是整数或者实数，但数值型属性可以是整数或者实数，但WEKA把它们把它们都当作实数看待。例如：都当作实数看待。例如：attribute temperature real o字符串属性字符串属性n字符串属性可以包含任意的文本。例如：字符串属性可以包含任意的文本。例如：attribute LCC string2024/5/22 周三20o标称属性标称属性n标称属性由标称属性由列出一系列可列出一系列可能的类别名称并放在花括号中：能的类别名称并放在花括号中：,.。n数据集中该属性的值只能是其中一种类别。数据集中该属性的值只能是其中一种类别。n例如属性声明：例如属性声明：attribute outlook sunny,overcast,rainy 说明说明“outlook”属性有三种类别：属性有三种类别：“sunny”，“overcast”和和“rainy”。而数据集中每个实例对应而数据集中每个实例对应的的“outlook”值必是这三者之一。值必是这三者之一。n如果类别名称带有空格，仍需要将之放入引号中。如果类别名称带有空格，仍需要将之放入引号中。2024/5/22 周三21o日期和时间属性日期和时间属性n日期和时间属性统一用日期和时间属性统一用“date”类型表示，它的格式是：类型表示，它的格式是：attribute date n其中其中是一个字符串，来规定该怎样是一个字符串，来规定该怎样解析和显示日期或时间的格式，默认的字符串是解析和显示日期或时间的格式，默认的字符串是ISO-8601所给的日期时间组合格式：所给的日期时间组合格式：“yyyy-MM-dd HH:mm:ss”n数据信息部分表达日期的字符串必须符合声明中规定的数据信息部分表达日期的字符串必须符合声明中规定的格式要求，例如：格式要求，例如：ATTRIBUTE timestamp DATE yyyy-MM-dd HH:mm:ss DATA 2011-05-03 12:59:552024/5/22 周三22数据信息数据信息o数据信息中数据信息中“data”标记独占一行，剩下的是各个实例标记独占一行，剩下的是各个实例的数据。的数据。o每个实例占一行，实例的各属性值用逗号每个实例占一行，实例的各属性值用逗号“,”隔开。隔开。o如果某个属性的值是缺失值（如果某个属性的值是缺失值（missing value），），用用问号问号“?”表示，且这个问号不能省略。表示，且这个问号不能省略。n例如：例如：data sunny,85,85,FALSE,no?,78,90,?,yes2024/5/22 周三23稀疏数据稀疏数据o有的时候数据集中含有大量的有的时候数据集中含有大量的0值，这个时候用稀疏格式的值，这个时候用稀疏格式的数据存储更加省空间。数据存储更加省空间。o稀疏格式是针对数据信息中某个对象的表示而言，不需要稀疏格式是针对数据信息中某个对象的表示而言，不需要修改修改ARFF文件的其它部分。例如数据：文件的其它部分。例如数据：ndata 0,X,0,Y,class A 0,0,W,0,class B n用稀疏格式表达的话就是用稀疏格式表达的话就是 data 1 X,3 Y,4 class A 2 W,4 class B o注意：注意：ARFF数据集最左端的属性列为第数据集最左端的属性列为第0列，因此，列，因此，1 X表示表示X为第为第1列属性值。列属性值。2024/5/22 周三243、数据准备、数据准备o数据获取数据获取n直接使用直接使用ARFF文件数据。文件数据。n从从CSV，C4.5，binary等多种格式文件中导入。等多种格式文件中导入。n通过通过JDBC从从SQL数据库中读取数据。数据库中读取数据。n从从URL（UniformResourceLocator）获取网络资源的获取网络资源的数据。数据。o数据格式转换数据格式转换nARFF格式是格式是WEKA支持得最好的文件格式。支持得最好的文件格式。n使用使用WEKA作数据挖掘，面临的第一个问题往往是数据不是作数据挖掘，面临的第一个问题往往是数据不是ARFF格式的。格式的。nWEKA还提供了对还提供了对CSV文件的支持，而这种格式是被很多其他文件的支持，而这种格式是被很多其他软件（比如软件（比如Excel）所支持。所支持。n可以利用可以利用WEKA将将CSV文件格式转化成文件格式转化成ARFF文件格式。文件格式。2024/5/22 周三25数据资源数据资源oWEKA自带的数据集自带的数据集C:Program FilesWeka-3-6datao网络数据资源网络数据资源 http:/archive.ics.uci.edu/ml/datasets.html2024/5/22 周三26.XLS.CSV.ARFFoExcel的的XLS文件可以让多个二维表格放文件可以让多个二维表格放到不同的工作表（到不同的工作表（Sheet）中，只能把中，只能把每个工作表存成不同的每个工作表存成不同的CSV文件。文件。o打开一个打开一个XLS文件并切换到需要转换的工文件并切换到需要转换的工作表，另存为作表，另存为CSV类型，点类型，点“确定确定”、“是是”忽略提示即可完成操作。忽略提示即可完成操作。o在在WEKA中打开一个中打开一个CSV类型文件，再类型文件，再另存为另存为ARFF类型文件即可。类型文件即可。2024/5/22 周三27打开打开Excel的的Iris.xls文件文件2024/5/22 周三282024/5/22 周三29将将iris.xls另存为另存为iris.csv文件文件2024/5/22 周三302024/5/22 周三312024/5/22 周三32在weka的Explorer中打开Iris.csv文件2024/5/22 周三332024/5/22 周三34将将iris.csv另存为另存为iris.arff 文件文件2024/5/22 周三352024/5/22 周三364、数据预处理、数据预处理 preprocesso在在WEKA中数据预处理工具称作筛选器中数据预处理工具称作筛选器（filters）o可以定义筛选器来以各种方式对数据进行变换。可以定义筛选器来以各种方式对数据进行变换。oFilter 一栏用于对各种筛选器进行必要的设置。一栏用于对各种筛选器进行必要的设置。oChoose 按钮：点击这个按钮就可选择按钮：点击这个按钮就可选择 WEKA 中的某中的某个筛选器。个筛选器。o选定一个筛选器后，它的名字和选项会显示在选定一个筛选器后，它的名字和选项会显示在 Choose 按钮旁边的文本框中。按钮旁边的文本框中。2024/5/22 周三37载入数据oExplorer的预处理（的预处理（preprocess）页区域）页区域2的前的前4个按钮用来把数据载入个按钮用来把数据载入WEKA：nOpen file.打开一个对话框，允许你浏览本地文打开一个对话框，允许你浏览本地文件系统上的数据文件。件系统上的数据文件。nOpen URL.请求一个存有数据的请求一个存有数据的URL地址。地址。nOpen DB.从数据库中读取数据从数据库中读取数据。nGenerate.从一些数据生成器从一些数据生成器（DataGenerators）中生成人造数据。）中生成人造数据。2024/5/22 周三38去除无用属性去除无用属性o通常对于数据挖掘任务来说，像通常对于数据挖掘任务来说，像ID这样的信息是无用这样的信息是无用的，可以将之删除。的，可以将之删除。n在区域在区域5勾选属性勾选属性“id”，并点击并点击“Remove”。n将新的数据集保存将新的数据集保存，并重新打开。并重新打开。2024/5/22 周三39数据离散化o有些算法有些算法(如关联分析如关联分析)，只能处理标称型属性，这时候就需要对数，只能处理标称型属性，这时候就需要对数值型的属性进行离散化。值型的属性进行离散化。o对取值有限的数值型属性可通过修改对取值有限的数值型属性可通过修改.arff文件中该属性数据类型实文件中该属性数据类型实现离散化。现离散化。n例如，在某数据集中的例如，在某数据集中的“children”属性只有属性只有4个数值型取值：个数值型取值：0，1，2，3。n我们直接修改我们直接修改ARFF文件，把文件，把 attribute children numeric 改为改为 attribute children 0,1,2,3 就可以了。就可以了。n在在“Explorer”中重新打开中重新打开“bank-data.arff”，看看选中看看选中“children”属性后，区域属性后，区域6那里显示的那里显示的“Type”变成变成“Nominal”了。了。2024/5/22 周三40o对取值较多的数值型属性，离散化可借助对取值较多的数值型属性，离散化可借助WEKA中名为中名为“Discretize”的的Filter来完成。来完成。n在区域在区域2中点中点“Choose”，出现一棵出现一棵“Filter树树”，逐级找到逐级找到“weka.filters.unsupervised.attribute.Discretize”，点击。点击。n现在现在“Choose”旁边的文本框应该显示旁边的文本框应该显示“Discretize-B 10-M-0.1-R first-last”。n点击这个文本框会弹出新窗口以修改离散化的参数。点击这个文本框会弹出新窗口以修改离散化的参数。2024/5/22 周三41在weka的Explorer中打开Iris.arff文件2024/5/22 周三422024/5/22 周三432024/5/22 周三44查看Iris数据集2024/5/22 周三452024/5/22 周三46查看Iris数据属性分布图，选择属性2024/5/22 周三472024/5/22 周三482024/5/22 周三49通过观察发现petallength最能区分各类2024/5/22 周三50将属性petallength离散化2024/5/22 周三512024/5/22 周三522024/5/22 周三532024/5/22 周三542024/5/22 周三552024/5/22 周三56离散化成离散化成10段数据段数据等频离散化等频离散化离散化成离散化成10段数据段数据2024/5/22 周三572024/5/22 周三582024/5/22 周三592024/5/22 周三602024/5/22 周三61查看离散化后的Iris数据集2024/5/22 周三622024/5/22 周三635、分类、分类 ClassifyoWEKA把分类把分类(Classification)和回归和回归(Regression)都放在都放在“Classify”选项卡中。选项卡中。o在这两个数据挖掘任务中，都有一个目标属性（类别属性，输出变在这两个数据挖掘任务中，都有一个目标属性（类别属性，输出变量）。量）。o我们希望根据一个我们希望根据一个WEKA实例的一组特征属性实例的一组特征属性（输入变量），对（输入变量），对目标属性进行分类预测。目标属性进行分类预测。o为了实现这一目的，我们需要有一个训练数据集，这个数据集中每为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的分类起预测的分类/回归模型。回归模型。o有了这个模型，就可以对新的未知实例进行分类预测。有了这个模型，就可以对新的未知实例进行分类预测。o衡量模型的好坏主要在于预测的准确程度。衡量模型的好坏主要在于预测的准确程度。2024/5/22 周三64WEKA中的典型分类算法oBayes:贝叶斯分类器贝叶斯分类器nBayesNet:贝叶斯信念网络贝叶斯信念网络nNaveBayes:朴素贝叶斯网络朴素贝叶斯网络oFunctions:人工神经网络和支持向量机人工神经网络和支持向量机nMultilayerPerceptron:多层前馈人工神经网络多层前馈人工神经网络nSMO:支持向量机（采用顺序最优化学习方法）支持向量机（采用顺序最优化学习方法）oLazy:基于实例的分类器基于实例的分类器nIB1:1-最近邻分类器最近邻分类器nIBk:k-最近邻分类器最近邻分类器2024/5/22 周三65选择分类算法选择分类算法nMeta:组合方法组合方法oAdaBoostM1:AdaBoost M1方法方法oBagging:袋装方法袋装方法nRules:基于规则的分类器基于规则的分类器oJRip:直接方法直接方法Ripper算法算法oPart:间接方法从间接方法从J48产生的决策树抽取规则产生的决策树抽取规则nTrees:决策树分类器决策树分类器oId3:ID3决策树学习算法（决策树学习算法（不支持连续属性不支持连续属性）oJ48:C4.5决策树学习算法（第决策树学习算法（第8版本）版本）oREPTree:使用降低错误剪枝的决策树学习算法使用降低错误剪枝的决策树学习算法ooRandomTreeRandomTree:基于决策树的组合方法基于决策树的组合方法2024/5/22 周三66选择分类算法选择分类算法2024/5/22 周三672024/5/22 周三68选择模型评估方法选择模型评估方法o四种方法四种方法nUsing training set 使用训练集评估使用训练集评估nSupplied test set 使用测试集评估使用测试集评估nCross-validation 交叉验证交叉验证o设置折数设置折数FoldsnPercentage split 保持方法。使用一定比保持方法。使用一定比例的训练实例作评估例的训练实例作评估o设置训练实例的百分比设置训练实例的百分比2024/5/22 周三69选择模型评估方法选择模型评估方法2024/5/22 周三70oOutput model.输出基于整个训练集的分类模型，从而模型可以被输出基于整个训练集的分类模型，从而模型可以被查看，可视化等。该选项默认选中。查看，可视化等。该选项默认选中。oOutput per-class stats.输出每个输出每个class的准确度的准确度/反馈率反馈率（precision/recall）和正确和正确/错误（错误（true/false）的统计量。该选项的统计量。该选项默认选中。默认选中。oOutput evaluation measures.输出熵估计度量。该选项默认没有输出熵估计度量。该选项默认没有选中。选中。oOutput confusion matrix.输出分类器预测结果的混淆矩阵。该选输出分类器预测结果的混淆矩阵。该选项默认选中。项默认选中。oStore predictions for visualization.记录分类器的预测结果使得记录分类器的预测结果使得它们能被可视化表示。它们能被可视化表示。oOutput predictions.输出测试数据的预测结果。注意在交叉验证时，输出测试数据的预测结果。注意在交叉验证时，实例的编号不代表它在数据集中的位置。实例的编号不代表它在数据集中的位置。oCost-sensitive evaluation.误差将根据一个价值矩阵来估计。误差将根据一个价值矩阵来估计。Set 按钮用来指定价值矩阵。按钮用来指定价值矩阵。oRandom seed for xval/%Split.指定一个随即种子，当出于评价指定一个随即种子，当出于评价的目的需要分割数据时，它用来随机化数据。的目的需要分割数据时，它用来随机化数据。点击点击More options 按钮可以设置更多的测试选项：按钮可以设置更多的测试选项：2024/5/22 周三71文字结果分析文字结果分析o单击单击start按钮，按钮，Classifier output窗口显示的文字结窗口显示的文字结果信息：果信息：nRun information 运行信息运行信息nClassifier model(full training set)使用全部训练数据使用全部训练数据构造的分类模型构造的分类模型nSummary 针对训练针对训练/检验集的预测效果汇总。检验集的预测效果汇总。nDetailed Accuracy By Class 对每个类的预测准确度的详对每个类的预测准确度的详细描述。细描述。nConfusion Matrix 混淆矩阵，混淆矩阵，其中矩阵的行是实际的类，其中矩阵的行是实际的类，矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个数。数。2024/5/22 周三72文字结果文字结果2024/5/22 周三73主要指标主要指标oCorrectly Classified Instances 正确分类率正确分类率oIncorrectly Classified Instances 错误分类率错误分类率oKappa statistic Kappa Kappa 统计数据统计数据oMean absolute error 平均绝对误差平均绝对误差oRoot mean squared error 根均方差根均方差oRelative absolute error 相对绝对误差相对绝对误差oRoot relative squared error 相对平方根误差相对平方根误差oTP Rate(bad/good)正确肯定率正确肯定率oFP Rate(bad/good)错误肯定率错误肯定率oPrecision(bad/good)精确率精确率oRecall(bad/good)反馈率反馈率oF-Measure(bad/good)F F测量测量oTime taken to build model 建模花费的时间建模花费的时间 2024/5/22 周三74输出图形结果输出图形结果鼠标右键鼠标右键2024/5/22 周三75oView in main window(View in main window(查看主窗口查看主窗口)。在主窗口中查看输出结果。在主窗口中查看输出结果。oView in separate window(View in separate window(查看不同的窗口查看不同的窗口)。打开一个独立的新窗。打开一个独立的新窗口来查看结果。口来查看结果。oSave result buffer(Save result buffer(保存结果的缓冲区保存结果的缓冲区)。弹出对话框来保存输出结。弹出对话框来保存输出结果的文本文件。果的文本文件。oLoad model(Load model(下载模式下载模式)。从二进制文件中载入一个预训练模式对象。从二进制文件中载入一个预训练模式对象。oSave model(Save model(保存模式保存模式)。将一个模式对象保存到二进制文件中，也。将一个模式对象保存到二进制文件中，也就是保存在就是保存在JAVA JAVA 的串行对象格式中。的串行对象格式中。oRe-evaluate model on current test set(Re-evaluate model on current test set(对当前测试集进行重新评对当前测试集进行重新评估估)。通过已建立的模式，并利用。通过已建立的模式，并利用Supplied test set(Supplied test set(提供的测试集提供的测试集)选项下的选项下的Set.Set.按钮来测试指定的数据集。按钮来测试指定的数据集。2024/5/22 周三76oVisualize classifier errors(Visualize classifier errors(可视化分类器错误可视化分类器错误)。弹出一个可视化。弹出一个可视化窗口来显示分类器的结果图。其中，正确分类的实例用叉表示，然而不窗口来显示分类器的结果图。其中，正确分类的实例用叉表示，然而不正确分类的实例则是以小正方形来表示的。正确分类的实例则是以小正方形来表示的。oVisualize tree(Visualize tree(树的可视化树的可视化)。如果可能的话，则弹出一个图形化的界。如果可能的话，则弹出一个图形化的界面来描述分类器模型的结构面来描述分类器模型的结构(这只有一部分分类器才有的这只有一部分分类器才有的)。右键单击空。右键单击空白区域弹出一个菜单，在面板中拖动鼠标并单击，就可以看见每个节点白区域弹出一个菜单，在面板中拖动鼠标并单击，就可以看见每个节点对应的训练实例。对应的训练实例。oVisualize margin curve(Visualize margin curve(边际曲线的可视化边际曲线的可视化)。产生一个散点图来描述。产生一个散点图来描述预测边际的情况。边际被定义为预测为真实值的概率和预测为真实值之预测边际的情况。边际被定义为预测为真实值的概率和预测为真实值之外的其它某类的最高概率之差。例如加速算法通过增加训练数据集的边外的其它某类的最高概率之差。例如加速算法通过增加训练数据集的边际来更好地完成测试数据集的任务。际来更好地完成测试数据集的任务。2024/5/22 周三77oVisualize threshold curve(Visualize threshold curve(阈曲线的可视化阈曲线的可视化)。产生一个散点。产生一个散点图来描述预测中的权衡问题，其中权衡是通过改变类之间阈值图来描述预测中的权衡问题，其中权衡是通过改变类之间阈值来获取的。例如，缺省阈值为来获取的。例如，缺省阈值为0.50.5，一个实例预测为，一个实例预测为positivepositive的的概率必须要大于概率必须要大于0.50.5，因为，因为0.50.5时实例正好预测为时实例正好预测为positivepositive。而而且图表可以用来对精确率且图表可以用来对精确率/反馈率权衡进行可视化，如反馈率权衡进行可视化，如ROC ROC 曲线曲线分析分析(正确的正比率和错误的正比率正确的正比率和错误的正比率)和其它的曲线。和其它的曲线。oVisualize cost curve(Visualize cost curve(成本曲线的可视化成本曲线的可视化)。产生一个散点图，。产生一个散点图，来确切描述期望成本，正如来确切描述期望成本，正如Drummond Drummond 和和Holte Holte 所描述的一所描述的一样样。2024/5/22 周三78oVisualize classifier errors.可视化分类错误可视化分类错误n实际类与预测类的散布图实际类与预测类的散布图。其中正确分类的结果用叉表示，其中正确分类的结果用叉表示，分错的结果用方框表示。分错的结果用方框表示。2024/5/22 周三79Visualize tree可视化树可视化树2024/5/22 周三802024/5/22 周三812024/5/22 周三82可视化边际曲线（Visualize margin curve）o创建一个散点图来显示预测边际值。创建一个散点图来显示预测边际值。n四个变量四个变量

展开阅读全文