ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:250.67KB ,
资源ID:6905285      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6905285.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(Weka 数据挖掘软件使用指南.docx)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

Weka 数据挖掘软件使用指南.docx

1、 Weka 数据挖掘软件使用指南 1. Weka简介 该软件是WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看Weka的接口文档。在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件

2、很困难的事情。 2. Weka启动 打开Weka主界面后会出现一个对话框,如图: 主要使用右方的四个模块,说明如下: 􀁺 Explorer 使用 Weka 探索数据的环境,包括获取关联项,分类预测,聚簇等;(本文主要总结这个部分的使用) 􀁺 Experimenter 运行算法试验、管理算法方案之间的统计检验的环境; 􀁺 KnowledgeFlow 这个环境本质上和 Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习; 􀁺 SimpleCLI 提供了一个简单的命令行

3、界面,从而可以在没有自带命令行的操作系统中直接执行 Weka命令;(某些情况下使用命令行功能更好一些) 3.主要操作说明 点击进入Explorer模块开始数据探索环境: 3.1主界面 进入Explorer模式后的主界面如下: 3.1.1标签栏 主界面最左上角(标题栏下方)的是标签栏,分为五个部分,功能依次是: 1. Preprocess. 选择和修改要处理的数据; 2. Classify. 训练和测试关于分类或回归的学习方案; 3. Cluster. 从数据中学习聚类; 4. Associate. 从数据中学习关联规则; 5. Select attributes.

4、选择数据中最相关的属性; 6. Visualize. 查看数据的交互式二维图像。 3.1.2载入、编辑数据 标签栏下方是载入数据栏,功能如下: 1. Open file.打开一个对话框,允许你浏览本地文件系统上的数据文件(.dat); 2. Open URL.请求一个存有数据的 URL 地址; 3. Open DB.从数据库中读取数据 ; 4. Generate. 从一些数据生成器中生成人造数据。 3.1.3其他界面说明 接下来的主界面中依次是Filter(筛选器),Currtent relation(当前关系)、Attributes(属性信息)、Selected attri

5、bute(选中的属性信息)以及Class(类信息),分别介绍如下: Filter 在预处理阶段,可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要设置。Filter 一栏的左边是一个Choose 按钮。点击这个按钮就可选择 Weka 中的某个筛选器。用鼠标左键点击这个choose左边的显示框,将出现GenericObjectEditor对话框。用鼠标右键点击将出现一个菜单,你可从中选择,要么在 GenericObjectEditor 对话框中显示相关属性,要么将当前的设置字符复制到剪贴板。 Currtent relation 显示当前打开的数据文件的基

6、本信息:Relation(关系名),Instances(实例数)以及Attributes(属性个数)。 Attributes 显示数据文件中的属性信息,并且包含四个操作按键: 1. All. 所有选择框都被勾选; 2. None. 所有选择框被取消; 3. Invert. 已勾选的选择框都被取消,反之亦然; 4. Pattern. 让用户基于 Perl 5 正则表达式来选择属性。例如,用 *_id 选择所有名称以 _id 结束的属性。 底下显示的就是数据文件包含的属性,可以进行勾选等操作。特别地,当数据预处理是不要某个属性时,将其各选,点击列表正下方的Remove按键即可删

7、除这一属性: Selected attribute 显示勾选的属性的基本信息。 Class 显示属性中数据元组的直方图。点击Visualize all按键可以查看所有属性中元组的直方图。 3.2实现基本数据挖掘功能: 3.2.1Associate(关联规则) 注意:目前,Weka的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。 各部分功能说明如下: Associator 首先切换到Associate选项卡。默认关联规则分析是用Apriori算法,我们就用这个算法,点Choose右边的文本框修改默认的参数,弹出的窗口中点More可以看到各参数的说明。一下简列几

8、项: LowerBonundMinSupport:最小支持度下限; UpperBonundMinSupport:最小支持度上限; metricType:关联、程度指标; numRules:在某种关联规则下取出的满足条件的规则数; 注意:各种关联规则算法都是尤其使用范围的,并不是所有的属性的数据类型都能被某一算法处理,典型的例如Apriori算法。因此可以在choose下拉菜单中选择Filter选项,在其中勾选待处理数据的属性的类型以滤除无法使用的算法。要想知道每种算法都是用哪些数据类型,可以左击choose旁边的文本框,在弹出的菜单栏中单击capabilities选项可以看到这种算法

9、能够处理的数据类型。 Result list 点击Associator下方的start按键可以开始进行关联项分析,结果列表即出现在Result list中,右击出现更多选项可供选择。 Associator output 这里显示关联分析结果,如图为一个例子: 一次显示了100个符合条件的关联规则,并且在其后显示了关联规则的四项指标以供参考。 3.2.2Classify(分类预测) 该部分实现数据挖掘中的分类与预测功能,提供了各种主要的分类预测算法供使用者选择。下面是界面各部分的介绍: Classifier 在choose一栏中选择需要的分类算法,同样地方法,每当选择一个算法,

10、这个算法便在choose左边的文本框中进行显示,单击他会出现一个菜单,其中包含了一些参数的设定和more以及capabilities选项,欠着用来获取那些需要设定参数的具体信息,后者用来获取算法适合的属性数据类型,这一点是相似的,因此在对数据进行处理是也应该注意数据的属性类型,单击choose在下拉菜单中选择Filter按键可以进行数据类型的选择从而过滤掉不能使用的算法。。 Test option 提供四种测试模式: 1. Using training set. 根据分类器在用来训练的实例上的预测效果来评价它。 2. Supplied test set. 从文件载入的一组实例,根据分类

11、器在这组实例上的预测效果来评价它。点击 Set… 按钮将打开一个对话框来选择用来测试的文件。 3. Cross-validation. 使用交叉验证来评价分类器,所用的折数填在Folds 文本框中。 4. Percentage split. 从数据集中按一定百分比取出部分数据放在一边作测试用,根据分类器这些实例上预测效果来评价它。取出的数据量由% 一栏中的值决定。 当一切准备就绪时,点击start按键开始分类过程,完成后Result list中会显示结果列表,并且Classifier output中会显示出结果。右击Result list中的结果,可以看见多个选项,选择Visualize

12、 tree,新窗口里可以看到图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fit to screen”,可以把这个树看清楚些。先运行一个结果解释其中一些内容,如图所示: 第一行的Correctly Classified Instances表示当前参与分类的实例中被正确分类的实例数目,第二行Incorrectly Classified Instances表示未被正确分类的实例数目。 关于Confusion Matrix,解释如下: 原本“pep”是“YES”的实例,有74个被正确的预测为“YES”,有64个错误的预测成了“NO”;原本“pep”是“NO”的实例,有30个

13、被错误的预测为“YES”,有132个正确的预测成了“NO”。74+64+30+132 = 300是实例总数,而(74+132)/300 = 0.68667正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。 更多选项及解释内容参见: http://maya.cs.depaul.edu/~classes/ect584/WEKA/classify.html 3.3.3Cluster(聚簇分析) 聚簇分析的原理就是将为标定类的数据根据其相似性分为几个类,在同一类中的 数据元组具有较强的相似性,而在不同类中的数据元组则没有相似性或者很弱。 现对其主要界面说明如下: C

14、lusterer 单击choose,在这里可以选择适当的聚簇算法,选择后该算法会出现在choose左边的文本框中,在单击弹出的菜单可以对参数进行设定。同时在选择more或者capabilities选项可以查看每种设定表示的具体信息和该算法的适用范围(包括适用的数据类型信息等)。 Cluster mode Cluster Mode 一栏用来决定依据什么来聚类以及如何评价聚类的结果。前三个选项和分类的情形是一样的:Use training set、Supplied test set 和 Percentage split区别在于现在的数据是要聚集到某个类中,而不是预测为某个指定的类别。

15、第四个模式,Classes to clusters evaluation,是要比较所得到的聚类与在数据中预先给出的类别吻合得怎样。和Classify 面板一样,下方的下拉框是用来选择作为类别 的属性的。在 Cluster mode 之外,有一个 Store clusters for visualization 的勾选框,该框决定了在训练完算法后可否对数据进行可视化。 设定按start开始进行,注意在其上方的可以允许我们忽略某些属性。 Result list 与前面的情形一样,该栏对结果进行顺序显示。右击每一项弹出选择菜单:如,Visualize cluster assignments

16、和Visualize tree。后者在它不可用时会变灰。 Clusterer output 显示聚簇分析的结果。 具体解释参见:http://maya.cs.depaul.edu/~classes/ect584/WEKA/classify.html Linux下Weka环境配置: 在Linux下和windows下使用Weka 注:我的版本是Weka 3.6. linux环境下: 一般下载了官方提供的tar.gz包之后解压,如果机器上装有java运行环境,可以直接运行weka. 不过可能会在命令行出现 加载数据库驱动出错,在classpath找不到驱动之类消息, 似

17、乎是can not find com.mysql.jdbc.Driver error not in CLASSPATH? 如果你不需要从数据库加载数据作为分析数据源,完全不用理会。 要想使用数据库连接功能,首先准备好对应数据库的驱动,比如mysql jdbc Driver等,简便的方法是 将jar文件copy到 /usr/lib/jvm/“java-1.6.0-openjdk”/jre/lib/ext “java-1.6.0-openjdk“不是唯一的,具体视机器上装的java运行时而定。 还有修改CLASSPATH的方法,没尝试过。 这一步弄完之后应该不会出现命令行提示找不

18、到驱动的错误。 其次是修改weka数据类型和数据库数据类型的映射。 (这下面的内容来自Weka官方wiki 在weka.jar里面有一个文件 /weka/experiment/DatabaseUtils.props,记录了数据库操作的相关参数。 还有很多文件 DatabaseUtils.props.msaccess, DatabaseUtils.props.mssqlserver等,分别对应了各个数据库的操作参数, 如果你使用msaccess,可以把DatabaseUtils.props.msaccess的内容覆盖DatabaseUtils.props. 如果不对Datab

19、aseUtils.props修改,可能在连接数据库时一切顺利,但在将数据装入准备预处理时 却出现找不到数据类型(can not read from database,unknown data type)之类错误。 没关系,在DatabaseUtils.props加入类型映射就OK了。 文件中一般有下面的内容(这里是我用mysql对应的文件覆盖了): # JDBC driver (comma-separated list) jdbcDriver=com.mysql.jdbc.Driver # database URL jdbcURL=jdbc:mysql://server_

20、name:3306/database_name # specific data types  string, getString() = 0;    --> nominal  boolean, getBoolean() = 1;  --> nominal  double, getDouble() = 2;    --> numeric  byte, getByte() = 3;        --> numeric  short, getByte()= 4;        --> numeric  int, getInteger() = 5;      --> numeric

21、  long, getLong() = 6;        --> numeric  float, getFloat() = 7;      --> numeric  date, getDate() = 8;        --> date  text, getString() = 9;      --> string  time, getTime() = 10;       --> date  BigDecimal,getBigDecimal()=11; -->nominal #mysql-conversion CHAR=0 TEXT=0 #mysql-convers

22、ion下提供的类型一般是不够的,比如int unsigned就找不到, 所以要加入int是如何映射到weka类型的。 在# specific data types下找到Int对应的java类型,这里是int, getInteger() = 5;      --> numeric 所以在#mysql-conversion下新增INT=5 再加上UNSIGNED类型,INT_UNSIGNED=6(因为unsigned比signed多一倍的数,为防止截断,要取大的类型) 其他类型的映射依次类推。 注意INT和UNSIGNED之间的下划线,缺了的话错误解决不了,我就在这里搞了好久。 (Note: in case database types have blanks, one needs to replace those blanks with an underscore, e.g., DOUBLE PRECISION must be listed like this:  DOUBLE_PRECISION=2) from 最后,最重要的是,把DatabaseUtils.props放到home目录下,重启Weka后生效。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服