你正在下载：《

数据挖掘在软件工程中的应用.doc

》 [预览]

格式：DOC ，页数：4 ，大小：156.50KB ,
资源ID：5702122 下载积分：10 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/5702122.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（数据挖掘在软件工程中的应用.doc）为本站上传会员【xrp****65】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

数据挖掘在软件工程中的应用.doc

1、数据挖掘在软件工程中的应用在大数据时代，数据挖掘是从海量数据中获取信息的有效手段。这种手段同样可以用于软件的开发上。软件工程中数据挖掘是指：在海量的软件工程数据中利用已有的技术或者开发新的数据挖掘技术和算法，经过提取、分析、表示等步骤，发现对软件开发者有用的信息/知识的过程。为了了解数据挖掘在软件工程中的使用，我一共阅读了三篇文献：《软件工程数据挖掘的研究进展》是一篇概括性的综述类文章，它介绍了软件开发阶段，软件修复性维护阶段和软件改善性维护阶段可能用到数据挖掘的地方以及可能用到的算法。对开发阶段的数据挖掘技术深入讲解的文献是：《u

2、sing Structural Context to Recommend Source Code Examples》.它通过一个自动返回代码模式的插件详细讲解了软件工程中需数据挖掘技术在软件开发阶段的运用原理。为了理解软件开发阶段数据挖掘技术推荐的代码复用模块中关联模式的挖掘，我又阅读了《基于FPclose算法挖掘强亲密地关联模式》。这篇文章让我了解了什么是强关联模式，怎么挖掘强关联模式，从而更好的理解数据挖掘技术返回重用代码模块所用到的机制。软件工程中的数据挖掘和传统意义中的数据挖掘所需要的步骤大致一样，都需要经过数据预处理，数据挖掘，数据分析这三步。只是预处理的数据由传统的

3、数字数据信息变成了软件开发中的必要元素：代码，注释，测试用例和缺陷报告等，单从这个角度上了说，对数据库中的数据进行预处理的难度就提升了不少。预处理后的格式化数据才可以用数据挖掘的手段进行挖掘并生成类别，频繁序列和关联规则等挖掘结果。最后再对结果进行分析和同化找到软件工程中重用的代码片段，缺陷位置等信息。数据挖掘本身是一个近几年新晋的热门概念，软件工程中的数据挖掘的实际应用也是一个新概念。根据三篇论文的迭代和相关性，本篇报告主要阐述软件开发阶段遇到的问题。问题分为三种：第一，开发者在已有的代码库中寻找所需的代码结构；第二，开发者在数据库中寻找重用该模式的静态规则；第三，开

4、发者进一步寻找重用模式的动态规则。下面依次介绍这三个问题所运用到的机制和算法。 I 重用模式的检索重用模式的检索最基本的重用问题是开发者知道所需的类和方法但不知道调用这一方法所需遵循的模式。手工寻找重用模式的方法需要大量浏览包含已知关键字(类或方法的标识符)的代码,根据经验在其中选择可能的重用模式, 不断尝试所选模式。其中,必然有许多代码与用户所需的模式无关,这种浏览和尝试会浪费开发者大量的时间和精力。因此，数据挖掘技术根据已知关键字从代码库中搜索包含重用模式的代码段, 并且按符合用户需求的程度对搜索结果进行排序,标注用户感兴趣的段和行。核心思想是：重用模式必然是相

5、似的, 而这种相似性会通过上下文结构, 如类之间继承和调用关系体现出来。具体步骤包括构建代码库，用户向代码库提交查询信息，返回例程给开发者。在服务器搜索重用模式的过程中，用到了六种启发式规则。基本启发式规则子类规则规则描述继承式启发从存储器中返回一个类的集合Cr。集合中的类按与被查询的类C有共同祖先（包括父类和实现的接口）的顺序从高到底排列。调用式启发基本调用式启发返回与m调用相同目标的方法集Mr。按调用方法相同个数从高到低进行排序。最优调用式启发从Mr中选取匹配率最高的方法，一般而

6、言阈值为0.4 继承调用式启发从Mr,中选取那些包含了和类c有至少一个共同祖先的类的方法。使用型启发基本使用型启发找到m所涉及的对象类型，然后返回用了相同对象类型的一个方法集Ur。按所用相同类型对象的数目从高到低排序继承使用型启发结合了继承的使用型启发式规则表1 重用模式检索的六种启发式规则 II静态规则的发现首先，遍历代码库中的类间关系，将每一个继承、重载、调用其他类的关系写在数据库中；其次，对上述数据库进行关联规则挖掘。关联规则挖掘可以划分为两个子问题Apriori算法发现频繁项集和关联规则的生成。接着，进行规则的全局和局部裁剪。

7、最后，在开发者针对某一个类进行查询时，用列表的形式表示重用这个类必须遵循的规则。规则之间根据支持度进行排序。 III动态规则的发现开发者预先设定程序所必须遵循的系统的动态规则，例如在调用函数A之前不能调用函数B；比如在解锁之前不能访问锁里的资源。事实上，由于缺乏文档等原因，在许多情况下开发者无法预先设定动态规则，这时就需要用挖掘的方法在代码和其他软件工程数据中发现这些规则。具体步骤：①以静态代码为挖掘对象，将软件代码中调用的函数hash为ID值，将程序映射为ID序列，存入数据库。②对上述序列数据库执行FPClose算法挖掘频繁闭项集，对所得的频繁项集再次执行支持度为2

8、的FPClose算法，在闭项集中挖掘公共子集，对每个子集I和他所属的每个闭项集C，生成规则 I->(C-I).③查找程序中违反规则的代码段，这些代码段可能蕴含缺陷。阅读这三篇文献后，我对软件工程中的数据挖掘技术有了一个概括性的了解，也掌握了一些软件工程中需要用到的挖掘算法。但是，在这三篇文章的背后，仍有一些细节性的模糊带过的概念值得思考。像《using Structural Context to Recommend Source Code Examples》贯穿通篇的数据库的构建问题，他要将每个类和类间关系存储起来，为数据挖掘提供数据源。这个数据库是几维的，是关系数据库还是其他类别的数据库，这个基本的问题文章并未提及，但是值得思考。