ImageVerifierCode 换一换
格式:DOC , 页数:42 ,大小:205KB ,
资源ID:5881156      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/5881156.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(数据挖掘课后作业.doc)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数据挖掘课后作业.doc

1、数据挖掘课后作业 5.4(实现项目)使用你熟悉的程序设计语言(如C++或Java),实现本章介绍的三种频繁项集挖掘算法:(1)Apriori [AS94B],(2)FP增长[HPY00]和(3)ECLAT [Zak00](使用垂直数据格式挖掘)。在各种类型的大型数据集上比较每种算法的性能。写一个报告,分析在哪些情况下(如数据大小、数据分布、最小支持阀度值设置和模式的稠密度),某种算法比其他算法好,并陈述理由。 三种算法的比较 1、对与项集较大,频繁项集较分散,是一个稀疏型的数据集,性能为Apriori>FP-growth>Eclat 2、对与数据集的项集较小,数据非常稠密的数据

2、集,性能为:FP-growth>Apriori>Eclat 各算法采用的数据表示模式及挖掘策略不同。采用优化措施后的 Apriori算法,对于非稠密数据己经具有较高的效率,其性能甚至优于FP-growth 算法;但由于其采用的是广度优先的挖掘策略,对稠密数据效率仍较差。而 Eclat 算法采用的纵向表示法,对数据集较小的稠密数据,效率相对较高;但对于数据集较大的稀疏数据,效率较低,FP一树浓缩了数据库的主要信息,分而治之的挖掘策略也使挖掘问题的复杂程度有所降低。 答:(1)Apriori算法的实现:使用Java语言实现Apriori算法,AprioriAlgorithm类包含了频繁项集

3、的挖掘过程和频繁关联规则的挖掘过程;ProperSubsetCombination辅助类用于计算一个频繁项集的真子集,采用组合原理,基于数值编码原理实现的组合求解集合的真子集。 Apriori算法的核心实现类为AprioriAlgorithm,实现的Java代码如下所示: (一)核心类 package org.shirdrn.datamining.association; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.Map; imp

4、ort java.util.Set; import java.util.TreeMap; /** * 关联规则挖掘:Apriori算法 * *

该算法基本上按照Apriori算法的基本思想来实现的。 */ public class AprioriAlgorithm { private Map> txDatabase; // 事务数据库 private Float minSup; // 最小支持度 private Float minConf; // 最小置信度 private Integer txDatabas

5、eCount; // 事务数据库中的事务数 private Map>> freqItemSet; // 频繁项集集合 private Map, Set>> assiciationRules; // 频繁关联规则集合 public AprioriAlgorithm(     Map> txDatabase,     Float minSup,     Float minConf) {    this.txDatabase = txD

6、atabase;    this.minSup = minSup;    this.minConf = minConf;    this.txDatabaseCount = this.txDatabase.size();    freqItemSet = new TreeMap>>();    assiciationRules = new HashMap, Set>>(); } /** * 扫描事务数据库,计算频繁1-项集 * @return */ public Map<

7、Set, Float> getFreq1ItemSet() {    Map, Float> freq1ItemSetMap = new HashMap, Float>();    Map, Integer> candFreq1ItemSet = this.getCandFreq1ItemSet();    Iterator, Integer>> it = candFreq1ItemSet.entrySet().iterator();    while(i

8、t.hasNext()) {     Map.Entry, Integer> entry = it.next();     // 计算支持度     Float supported = new Float(entry.getValue().toString())/new Float(txDatabaseCount);     if(supported>=minSup) {      freq1ItemSetMap.put(entry.getKey(), supported);     }    }    return freq1ItemSetMap;

9、} /** * 计算候选频繁1-项集 * @return */ public Map, Integer> getCandFreq1ItemSet() {    Map, Integer> candFreq1ItemSetMap = new HashMap, Integer>();    Iterator>> it = txDatabase.entrySet().iterator();    // 统计支持数,生成候选频繁1-项集    wh

10、ile(it.hasNext()) {     Map.Entry> entry = it.next();     Set itemSet = entry.getValue();     for(String item : itemSet) {      Set key = new HashSet();      key.add(item.trim());      if(!candFreq1ItemSetMap.containsKey(key)) {       Integer value

11、 = 1;       candFreq1ItemSetMap.put(key, value);      }      else {       Integer value = 1+candFreq1ItemSetMap.get(key);       candFreq1ItemSetMap.put(key, value);      }     }    }    return candFreq1ItemSetMap; } /** * 根据频繁(k-1)-项集计算候选频繁k-项集 * * @param m 其中m=k-1 * @param freqMIt

12、emSet 频繁(k-1)-项集 * @return */ public Set> aprioriGen(int m, Set> freqMItemSet) {    Set> candFreqKItemSet = new HashSet>();    Iterator> it = freqMItemSet.iterator();    Set originalItemSet = null;    while(it.hasNext()) {  

13、   originalItemSet = it.next();     Iterator> itr = this.getIterator(originalItemSet, freqMItemSet);     while(itr.hasNext()) {      Set identicalSet = new HashSet(); // 两个项集相同元素的集合(集合的交运算)          identicalSet.addAll(originalItemSet);      Set set = itr.ne

14、xt();      identicalSet.retainAll(set); // identicalSet中剩下的元素是identicalSet与set集合中公有的元素      if(identicalSet.size() == m-1) { // (k-1)-项集中k-2个相同       Set differentSet = new HashSet(); // 两个项集不同元素的集合(集合的差运算)       differentSet.addAll(originalItemSet);       differentSet.removeAl

15、l(set); // 因为有k-2个相同,则differentSet中一定剩下一个元素,即differentSet大小为1       differentSet.addAll(set); // 构造候选k-项集的一个元素(set大小为k-1,differentSet大小为k)       candFreqKItemSet.add(differentSet); // 加入候选k-项集集合      }     }    }    return candFreqKItemSet; } /** * 根据一个频繁k-项集的元素(集合),获取到频繁k-项集的从该元素开始的迭代器实例

16、 * @param itemSet * @param freqKItemSet 频繁k-项集 * @return */ private Iterator> getIterator(Set itemSet, Set> freqKItemSet) {    Iterator> it = freqKItemSet.iterator();    while(it.hasNext()) {     if(itemSet.equals(it.next())) {      break;     }

17、    }    return it; } /** * 根据频繁(k-1)-项集,调用aprioriGen方法,计算频繁k-项集 * * @param k * @param freqMItemSet 频繁(k-1)-项集 * @return */ public Map, Float> getFreqKItemSet(int k, Set> freqMItemSet) {    Map, Integer> candFreqKItemSetMap = new HashMap

18、 Integer>();    // 调用aprioriGen方法,得到候选频繁k-项集    Set> candFreqKItemSet = this.aprioriGen(k-1, freqMItemSet);       // 扫描事务数据库    Iterator>> it = txDatabase.entrySet().iterator();    // 统计支持数    while(it.hasNext()) {     Map.Entry

19、>> entry = it.next();     Iterator> kit = candFreqKItemSet.iterator();     while(kit.hasNext()) {      Set kSet = kit.next();      Set set = new HashSet();      set.addAll(kSet);      set.removeAll(entry.getValue()); // 候选频繁k-项集与事务数据库中元素做差元算      if(set.isE

20、mpty()) { // 如果拷贝set为空,支持数加1       if(candFreqKItemSetMap.get(kSet) == null) {        Integer value = 1;        candFreqKItemSetMap.put(kSet, value);       }       else {        Integer value = 1+candFreqKItemSetMap.get(kSet);        candFreqKItemSetMap.put(kSet, value);       }      }    

21、 }    }      // 计算支持度,生成频繁k-项集,并返回    return support(candFreqKItemSetMap); } /** * 根据候选频繁k-项集,得到频繁k-项集 * * @param candFreqKItemSetMap 候选k项集(包含支持计数) */ public Map, Float> support(Map, Integer> candFreqKItemSetMap) {    Map, Float> freqKItemSetMap = ne

22、w HashMap, Float>();    Iterator, Integer>> it = candFreqKItemSetMap.entrySet().iterator();    while(it.hasNext()) {     Map.Entry, Integer> entry = it.next();     // 计算支持度     Float supportRate = new Float(entry.getValue().toString())/new Float(txD

23、atabaseCount);     if(supportRate> freqKIt

24、emSet = this.getFreq1ItemSet().keySet();    freqItemSet.put(1, freqKItemSet);    // 计算频繁k-项集(k>1)    int k = 2;    while(true) {     Map, Float> freqKItemSetMap = this.getFreqKItemSet(k, freqKItemSet);     if(!freqKItemSetMap.isEmpty()) {      this.freqItemSet.put(k, freqKItemSetM

25、ap.keySet());      freqKItemSet = freqKItemSetMap.keySet();     }     else {      break;     }     k++;    } } /** *

挖掘频繁关联规则 *

首先挖掘出全部的频繁项集,在此基础上挖掘频繁关联规则 */ public void mineAssociationRules() {    freqItemSet.remove(1); // 删除频繁1-项集    Iterator

26、g>>>> it = freqItemSet.entrySet().iterator();    while(it.hasNext()) {     Map.Entry>> entry = it.next();     for(Set itemSet : entry.getValue()) {      // 对每个频繁项集进行关联规则的挖掘      mine(itemSet);     }    } } /** * 对从频繁项集集合freqItemSet中每迭代出一个频繁项集元素,执行一次关联规则的挖

27、掘 * @param itemSet 频繁项集集合freqItemSet中的一个频繁项集元素 */ public void mine(Set itemSet) {      int n = itemSet.size()/2; // 根据集合的对称性,只需要得到一半的真子集    for(int i=1; i<=n; i++) {     // 得到频繁项集元素itemSet的作为条件的真子集集合     Set> properSubset = ProperSubsetCombination.getProperSubset(i, itemSe

28、t);     // 对条件的真子集集合中的每个条件项集,获取到对应的结论项集,从而进一步挖掘频繁关联规则     for(Set conditionSet : properSubset) {      Set conclusionSet = new HashSet();      conclusionSet.addAll(itemSet);      conclusionSet.removeAll(conditionSet); // 删除条件中存在的频繁项      confide(conditionSet, conclusionS

29、et); // 调用计算置信度的方法,并且挖掘出频繁关联规则     }    } } /** * 对得到的一个条件项集和对应的结论项集,计算该关联规则的支持计数,从而根据置信度判断是否是频繁关联规则 * @param conditionSet 条件频繁项集 * @param conclusionSet 结论频繁项集 */ public void confide(Set conditionSet, Set conclusionSet) {    // 扫描事务数据库    Iterator

30、String>>> it = txDatabase.entrySet().iterator();    // 统计关联规则支持计数    int conditionToConclusionCnt = 0; // 关联规则(条件项集推出结论项集)计数    int conclusionToConditionCnt = 0; // 关联规则(结论项集推出条件项集)计数    int supCnt = 0; // 关联规则支持计数    while(it.hasNext()) {     Map.Entry> entry = it.next();

31、     Set txSet = entry.getValue();     Set set1 = new HashSet();     Set set2 = new HashSet();     set1.addAll(conditionSet);         set1.removeAll(txSet); // 集合差运算:set-txSet     if(set1.isEmpty()) { // 如果set为空,说明事务数据库中包含条件频繁项conditionSet      // 计数

32、     conditionToConclusionCnt++;     }     set2.addAll(conclusionSet);     set2.removeAll(txSet); // 集合差运算:set-txSet     if(set2.isEmpty()) { // 如果set为空,说明事务数据库中包含结论频繁项conclusionSet      // 计数      conclusionToConditionCnt++;          }     if(set1.isEmpty() && set2.isEmpty()) {      supCn

33、t++;     }    }    // 计算置信度    Float conditionToConclusionConf = new Float(supCnt)/new Float(conditionToConclusionCnt);    if(conditionToConclusionConf>=minConf) {     if(assiciationRules.get(conditionSet) == null) { // 如果不存在以该条件频繁项集为条件的关联规则      Set> conclusionSetSet = new HashSe

34、t>();      conclusionSetSet.add(conclusionSet);      assiciationRules.put(conditionSet, conclusionSetSet);     }     else {      assiciationRules.get(conditionSet).add(conclusionSet);     }    }    Float conclusionToConditionConf = new Float(supCnt)/new Float(conclusionToConditio

35、nCnt);    if(conclusionToConditionConf>=minConf) {     if(assiciationRules.get(conclusionSet) == null) { // 如果不存在以该结论频繁项集为条件的关联规则      Set> conclusionSetSet = new HashSet>();      conclusionSetSet.add(conditionSet);      assiciationRules.put(conclusionSet, conclusionSetS

36、et);     }     else {      assiciationRules.get(conclusionSet).add(conditionSet);     }    } } /** * 经过挖掘得到的频繁项集Map * * @return 挖掘得到的频繁项集集合 */ public Map>> getFreqItemSet() {    return freqItemSet; } /** * 获取挖掘到的全部的频繁关联规则的集合 * @return 频繁关联规则集合 */ public M

37、ap, Set>> getAssiciationRules() {    return assiciationRules; } } (二)辅助类 ProperSubsetCombination类是一个辅助类,在挖掘频繁关联规则的过程中,用于生成一个频繁项集元素的非空真子集,实现代码如下: package org.shirdrn.datamining.association; import java.util.BitSet; import java.util.HashSet; import java.util.Set; /**

38、 * 求频繁项集元素(集合)的非空真子集集合 *

从一个集合(大小为n)中取出m(m属于2~n/2的闭区间)个元素的组合实现类,获取非空真子集的集合 */ public class ProperSubsetCombination { private static String[] array; private static BitSet startBitSet; // 比特集合起始状态 private static BitSet endBitSet; // 比特集合终止状态,用来控制循环 private static Set> prop

39、erSubset; // 真子集集合 /** * 计算得到一个集合的非空真子集集合 * * @param n 真子集的大小 * @param itemSet 一个频繁项集元素 * @return 非空真子集集合 */ public static Set> getProperSubset(int n, Set itemSet) {    String[] array = new String[itemSet.size()];    ProperSubsetCombination.array = itemSet.toArray(arra

40、y);    properSubset = new HashSet>();    startBitSet = new BitSet();    endBitSet = new BitSet();    // 初始化startBitSet,左侧占满1    for (int i=0; i=array.length-n; i--) {     endBitS

41、et.set(i, true);    }       // 根据起始startBitSet,将一个组合加入到真子集集合中    get(startBitSet);          while(!startBitSet.equals(endBitSet)) {     int zeroCount = 0; // 统计遇到10后,左边0的个数     int oneCount = 0; // 统计遇到10后,左边1的个数     int pos = 0; // 记录当前遇到10的索引位置         // 遍历startBitSet来确定10出现的位置     fo

42、r (int i=0; i

43、k;      }     }     // 将遇到10后,左侧的1全部移动到最左侧     int counter = Math.min(zeroCount, oneCount);     int startIndex = 0;     int endIndex = 0;     if(pos>1 && counter>0) {      pos--;      endIndex = pos;      for (int i=0; i

44、tBitSet.set(endIndex, false);       startIndex = i+1;       pos--;       if(pos>0) {        endIndex = pos;       }      }     }     get(startBitSet);    }      return properSubset; } /** * 根据一次移位操作得到的startBitSet,得到一个真子集 * @param bitSet */ private static void get(BitSet bitSet) {

45、   Set set = new HashSet();    for(int i=0; i using namespace std; #include #include

46、include #include #include #define debug(a) printf((a)) struct Item{ string item_name;//项目 Item *node_link; //节点链 Item *parent_link; //父节点链 map child_link; //孩子节点 int support_count; //支持度 }; void print(vector< vec

47、tor > ssvec) { for(int ii=0;ii ss=ssvec[ii]; for(int jj=0;jjitem_name<<":"<support_count<<"] ";

48、 cout<support_count!=b->support_count) return a->support_count>b->support_count; return a->item_nameitem_name; } #ifndef _PF_TREE_H #define _PF_TREE_H class PFTree{ map

49、 head_table; void insert(Item * root,Item **vec,int curP,int maxSize,int ); public : Item * root; vector T; int min_support; void build_PFTree(vector< vector >);//建表 void init_head_table(vector< vector >);//建树 void build_PFTree(vector<

50、 vector >);//建表 void init_head_table(vector< vector >);//建树 vector< vector > generate_base_pattern(Item *);//生成基模式 bool is_signal_path(); //查看是否是单源树 void print_tree(Item *r); void delte_all(Item *root); void print_head_ta

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服