基于大数据文本聚类关联的网络招聘信息挖掘.doc

资源描述

基于大数据文本聚类关联的网络招聘信息挖掘(完整资料） (可以直接使用，可编辑优秀版资料，欢迎下载）教学单位湖北工程学院学生学号 0１230１124１２７本科毕业论文（设计) 题　目基于大数据文本聚类关联的网络招聘信息挖掘学生姓名　郑小乐专业名称统计学指导教师张学新 2０16年4月５日目　录 1、引言1 1、引言1 2、网络招聘信息挖掘综述1 2。1文本挖掘定义及特点1 2.1．1文本挖掘的定义1 2.1。２文本挖掘的特点1 2。2文本挖掘及其网络招聘信息挖掘的现状2 ３、网络招聘信息挖掘步骤3 3。1读取网页招聘信息文本文件3 3．2招聘信息文本分词4 3。２。１分词4 3．2。２设置频繁出现的领域干扰词5 3。３词频统计与词云6 3。4招聘信息文本聚类分析7 3.4．1特征词权重7 3。4.2TＦ-IDF法计算关键词权重8 ３.4．3相似度计算8 3．4.4创建文本—词条矩阵9 3。４。5K-均值聚类9 4、招聘信息文本Web图分析12 5、建议13 参考文献1５附录１6 致谢18 基于大数据文本聚类关联的网络招聘信息挖掘摘要：随着计算机网络技术的迅速发展，网络招聘信息平台已成为招聘者发布信息和应聘者获取职位的主要途径。大量的网络招聘信息蕴含着用人单位丰富的需求知识，诸如对人才的能力、素质等方面的要求。本文自行爬取20１５年11月—2016年４月拉钩网２4万５千多条企业招聘信息，使用R语言编程，通过中文分词,设置频繁出现的领域干扰词,词频统计，文本向量化，应用k-均值聚类及网状Ｗeb图方法分析社会各行业对人才的能力及素质要求，描绘企业基本信息、薪资水平、工作经验要求间的关联强度，给高校及时了解社会对人才的需求变化，有针对性的调整人才培养方案以及应届毕业生求职提出有益建议。关键词:大数据；网络招聘信息；聚类分析；Web图;R语言编程Ｏnｌine recｒuiｔｍent inforｍatioｎ mｉning by vast amounｔs ｏｆ teｘt clusｔerｉnｇ and aｓsociａting Abstraｃｔ：Ｃｏmpanyiｎｇ wiｔｈｃｏmｐuｔｅr netwoｒk ｔechnology raｐid deveｌoｐmenｔ,　network ｒecｒｕiｔment　infｏｒmaｔion plaｔfoｒm hａｓ become a　ｍaiｎ way for reｃrｕitｅｒ　to reｌease　ｉnｆoｒｍatioｎ and ｆｏr job seekeｒ tｏ　ｇet jｏb. A large ｎumbeｒ of netｗoｒk　recｒuｉtｍent iｎｆormａtion contaiｎs tｈe knｏwlｅｄｇｅ of ｄｅｍａnd of units for eｍployｅes, ｓucｈ　as tｈe rｅquiremeｎt　of　talｅｎｔs' abｉlity and ｑualiｔｙ， eｔc． In this pａpｅｒ, mｏre ｔｈan 24, 5　thoｕsaｎｄs entｅｒprises ｎｅt　reｃruｉtment　inforｍatioｎ，　from Novｅmber ２015 tｏ Apriｌ　2016 in Ｌａgou nｅt　are craｗlｅd ｏut. through settinｇ　fｒeｑueｎt ｆield distuｒｂanｃe　tｅｒｍｓ, Chineｓe word ｓｅｇmenｔatｉon,　ｗord fｒequenｃｙ sｔatｉstiｃs，　texｔ veｃｔoriｚaｔioｎ，ｋ—means　clustering　usiｎg R language prｏgraｍｍiｎg ａnｄ Wｅb diaｇram metｈod are appｌied tｏ　excavate abｉlｉｔy and ｑuality rｅquireｍentｓｆroｍｓociａｌ varｉoｕs　industｒies ｆor taｌents, ｔo descｒiｂe tｈｅ cｏｒrｅｌatiｏｎ sｔrengths amｏng ｅｎteｒｐｒise ｂasic iｎｆormaｔion， wａges,　ｊob expｅrience requiｒeｍentｓ for eｍployｅes .Finaｌｌy, ｓomｅ bｅneficial sｕggeｓtions are ｐut fｏｒward　for colｌegｅs ａnd uｎｉveｒsities ｔo ｔimely unｄerstａnd of　ｔhe　sｏciａｌ dｅmand fｏr　ｔalents anｄ targeted adjｕst　the tａlent training scｈeme ，and soｍe ｒefｅrence arｅ pｒovided　 fｏｒ the fｒeｓh　graduａtｅs ｔo　appｌy foｒａ　jｏb. Keｙ words： Big　ｄata; Nｅtｗorｋ　recruitmenｔ　iｎfoｒmation; Clustｅrｉnｇａnaｌysis; Wｅb graｐh；Ｒｌａnguage pｒogramming 1、引言随着互联网技术的迅速发展，网上信息呈爆发式增长,这种增长超过了创造机器的速度，甚至超过了人们的想象。数据库中以文本形式存储的信息越来越多，包含各种数据源的文本，如研究报告、研究论文、数字图书馆、电子邮件和页面等.这些信息的存储方式分为两大类:一是可以用数字、符号等表示的结构化数据,另一类则是非结构化数据。其中非结构化数据的挖掘更难。当今,众多用户开始显示出对文本挖掘的兴趣，希望挖掘出有用的信息、规则。例如,企业把人才招聘信息越来越多的发布到互联网上，这些招聘信息含有用人单位对人才的需求及能力要求，在一定程度上代表了人才需求的未来走向。高校希望利用现代技术手段从互联网上获取有用信息，分析用人单位对人才的需求特点，及时了解社会对人才的需求变化情况,有针对性的调整人才培养方案和设置相关课程，培养出更多的优秀人才以满足社会的需求.应聘者也需要从网络招聘信息平台获取信息，做好求职前的准备工作。本文利用八爪鱼采集器自行爬取拉勾网２4万多海量企业招聘信息,应用R语言编程挖掘出一些有用的知识. ２、网络招聘信息挖掘综述 2．１文本挖掘定义及特点 2.1．１文本挖掘的定义网络招聘信息挖掘是一种文本挖掘.文本挖掘是指从大量文本数据中获取先前未知的模式,这种发现必须是可理解的、潜在有用的。分析文本数据,抽取文本信息,目标是发现文本知识。文本挖掘的主要难点在于它必须处理那些本来就模糊而且非结构化的文本数据,是一个多学科混杂的领域,涵盖了统计学、机器学习、数据库技术以及专业软件使用等技术. 2。1。2文本挖掘的特点 1. 面对的是大量文本集合. 2. 文本挖掘发现的知识是以前未发现的。 3. 文本挖掘的知识具有潜在价值，是用户感兴趣的直接可用的。 4. 文本挖掘算法具有较高的复杂度. 5. 文本挖掘涉及多个学科交叉,包括模式识别、统计学、自然语言处理、可视化技术、数据库技术等。２．2文本挖掘及其网络招聘信息挖掘的现状文本挖掘最近几年在国外发展迅速，广泛应用于电子会议、邮件分类、垃圾信息过滤等多个方面[1］—［３]. 国内文本挖掘研究则较晚。早期主要是对Wｅb文本挖掘技术研究的介绍［4］。稍后主要聚焦于对各种改进的k-均值聚类算法的精度进行实验研究。王智勇［5]应用基于词条互信息的统计降维和Kohonｅn网络相结合的文本聚类算法，测试搜狐网下载的已知类别的48６篇文本的聚类精度。李伯阳［6］在网格聚类算法基础上进行文本聚类，将其应用于14524个垃圾邮件的甄别。蔡坤［７]基于topN特征词的文本聚类算法，采用复旦大学国际数据库中心自然语言处理小组公开提供的测试语料，从中随机抽取了五大类共200篇文本实证聚类效果. 现在的研究则关注中文分词及应用.曾路平［8］采用中科院开发的ICＴCLAS2009共享版进行中文分词，利用单词间的语义相关性，对公安情报系统中的舆情信息聚类分析。钟晓旭[9］－［10］先后对201０年的3家招聘网站的78481条招聘信息及新安人才网上计算机类专业招聘信息进行聚类，统计各个职位的需求量，计算职位间的相关系数。王静［11]选择2011年的4家招聘网站,包括六种职业的2262个招聘网页，采用伪二维隐马尔可夫模型来分割，抽取其中的职位名、机构名等信息。马力［１2］对3０2个浏览页面聚类分析，获得用户兴趣序列的频繁模式.王盛明,卢秉亮[１3]从校图书馆读者借阅量表中抽取200名学生的记录，应用加权聚类算法划分读者群体。刘玉华等人[１4]对某城市若干高校历年毕业生的就业数据进行聚类分析、关联分析,开发毕业生和企业间的双向推荐系统. 总的来说,国内以上文本挖掘的研究深度有限,所用数据不是真正意义上的网络招聘数据，各种改进的聚类算法的精度可信度不高。鲜见对网页里大量非结构化的招聘数据的挖掘研究。统计分析方法简单，特别的，很少使用软件编程。本文自行爬取２015年1１月-2016年4月拉勾网（http：//wwｗ。ｌaｇoｕ.com/）24万多海量企业招聘信息,应用k-均值聚类分析社会各行业对人才的能力及素质要求，网状Ｗeb图方法描绘企业规模、金融状态、所在行业领域、工作性质、职位类型、薪资水平、应聘者工作经验间的关联强度，为高校了解社会对人才的需求变化情况及时提供信息，设置实践性选修课程提供科学依据。 2.３网络招聘信息挖掘的流程文本解析文本向量化文本预处理聚类与关联挖掘中文分词停用词处理词频统计与词云 TF-IDF计算权重文档-词条矩阵 K-均值聚类网络招聘信息文本集合聚类结果分析 Apriori关联挖掘 Web图分析图1 网络招聘信息挖掘流程图 3、网络招聘信息挖掘步骤 3.１读取网页招聘信息文本文件本文首先通过八爪鱼采集器抓取拉钩网的招聘信息，然后汇总到一张csｖ表格，数据格式如图2所示: 图2 网络招聘信息原始数据样例３.2招聘信息文本分词 3．２。1分词为了统计分析，必须对获取的大量非结构化数据进行中文分词,提取有意义的中文单词。所谓中文分词指的是将一个汉字序列切分成单独的有意义的词条，以便为其建立索引。经过中文分词后,句子按照一定的规范重新组合成词序列。分词的准确性直接影响着文本挖掘结果的有效性，词分的越准确,对文本的挖掘与分析越能有效提取文本中蕴含的有用信息。本文采用IＣTCLAS分词软件包对ｃｓv文本中的文本数据进行中文分词。IＣTCＬAS的分词速度快,精度高，具有词性标注、未登录词识别等功能，是当前世界上最好的汉语词法分析器。为了提高切词的准确率,在分词之前需要导入一些与文本数据相关的自定义词典。本文中文分词示例图3：图3 网络招聘信息文本分词 3．2.２设置频繁出现的领域干扰词在分词结果中存在很多连词、介词、助词、感叹词及标点符号，或者一些通用名称词，如“公司”、“描述”等,称做停用词,它们对区分文本没有作用，需要将其删除.首先创建一个停词表，添加招聘内容中出现的停用词。然后，在程序里自定义删除停止词的函数，删除文本中无实际意义的词,得到结果如图4：图4 删除停用词后的分词相比之前的分词结果,这次精简了很多，剔除了诸如“对”、“的”、“和”等无意义的词。３.３词频统计与词云对分词的结果做一个词频统计，计算出每个词出现的次数并排序，然后取排名前５０的5０个词语,用wｏｒdｃｌoud()的方法来绘制词云。词云是现在很常见的一种分析图,把这些词语放在一张图中,按频次出现的多少来显示词语的大小。判断分词结果的好坏,最快捷的方法是绘制词云，从而可以清晰的查看哪些词不该出现或哪些词分割的不准确. 图5　词频统计图6　词云从词云可以看出，除了少数无意义的词未被完全剔除外,分词结果总体上还是比较令人满意的.此外,招聘信息的内容有很明显的特征,“工作”、“能力"、“开发”、“经验”出现的次数远大于其他词语;其次出现频率比较高的词语是“设计”、“负责”、“团队"、“熟悉”、“产品”等词语,可以看出现在的人才市场比较看重求职者的工作能力、工作经验、责任心、团结协作能力等. 3.４招聘信息文本聚类分析文本聚类把所有文本文本按照某种相似性准则聚合为若干类别，同类文本尽可能相似，每一类别挖掘出一个主题。文本聚类是一种无监督的机器学习方法，不需要训练样本,自动化处理能力较高,是文本信息提取的主要手段 [８]。文本聚类算法要求变量是数值型的，为此，先将文本数据转换为文本—词条矩阵. ３.4．1特征词权重设是一个包含个文本的集合，是第个文本的特征向量,为文本中第个特征项词条的权值，则;。 3.4。2TF-IＤF法计算关键词权重ＴF－ＩDF方法不仅用特征词在训练文本内的频数度量该词的重要性，而且也考虑包含该词的文本数量，如果包含该词的文本数量太多,那么该词识别不同文本的能力就差，需要把二者结合起来。对于给定文本，TＦ-IDF算法给出该文本中词条的权重公式 (1）其中表示第个特征词在文本中出现的频率；表示该词条在整个文本集中的分布情况,即包含该词条的文本数越少，则越大,说明该词语有较强的类别区分能力。 (2）其中的取值通过实验来确定（通常取０。0１），为出现特征项的文本数,表示总文本数目。 3。４.3相似度计算通过上述方法将文本映射成向量，再选择某种距离度量文本间的相似度。本文用向量夹角的余弦值来度量。设第个和第个职位描述的特征向量分别为，,定义为特征项词条在文本集合中出现的频率;给定文本向量与，选择它们的相似度指标为向量夹角的余弦值： (3) 所有招聘信息文本向量化以后，获得结构化数据，再使用R语言编程。 3。4。４创建文本-词条矩阵将已分完词的列表导入为语料库，并进一步加工处理语料库，从而创建文本—词条矩阵，图7展示了部分文本的向量化结果。图７文本—词条矩阵该文本—词条矩阵实际上为稀疏矩阵，其中矩阵中非0元素有8098５个,而0元素有9442015个,稀疏率达到99％；最后,这９5２３个词中,最频繁的一个词出现在了24条招聘信息中。由于稀疏矩阵的稀疏率过高，我们再剔除一些出现频次极低的词语,结果见图8. 图8　精细化的文本—词条矩阵精细化的文本—词条矩阵中的列数大幅减少，当前矩阵只包含了２8列，即28个词语。３.４．5K—均值聚类 K—均值聚类的基本思想是通过迭代的方法,逐次更新各聚类中心的值，直至获得满意的结果。 K-均值聚类算法的步骤： 1.初始化聚类中心.设定指定聚类类数Ｎ，给出迭代中止条件。在文本集合中随机选取N个文本作为初始聚类中心. 2.迭代。将文本与各个聚类中心进行比较,把它划入距离最近的聚类中心所在的类，形成新类。 3。重新计算聚类中心.把新类的所有文本向量平均后作为新的聚类中心。４。重复2—３步，直到类别的变动很小或不再变动为止,形成K个类[14］。将以上算法通过Ｒ语言编程实现，结果见表1. 表1　网络招聘信息聚类结果由表1可知，网络招聘信息可分为7类。详细分类见附件，聚类结果的可视化如图9。图９聚类结果可视化图9中,不同颜色的点代表不同的类别,＊表示聚类中心。分别提取聚类的7个类别的特征词,得到表2结果：表2 特征词排行第一类能力工作经验强以上团队客户良好相关优先第二类客户团队招聘工作负责管理经验开发完成分析第三类公司销售合作工作客户能力团队以上负责经验第四类产品设计能力负责经验工作用户以上需求分析第五类工作负责能力经验以上相关管理强开发优先第六类熟悉开发经验工作设计以上能力技术系统优先第七类开发经验能力熟悉产品以上工作设计要求优先聚类结果依据词频重要性分成7类，第一类强调工作能力，第二类强调团队协作精神，第三类属于市场营销,强调沟通能力，第四类是产品设计，强调要从满足用户需求的角度来设计产品，第五类强调工作要认真负责，对工作经验和能力也有一定要求，第六类强调软件设计与开发能力,第七类强调产品设计与开发能力。 4、招聘信息文本Web图分析 Wｅb图分析是一种用图的形式来描述关联规则结果的方法。关联规则的任务是从海量的数据中得到各指标间有价值的相互关系,其结果很容易被理解且能够使人有效地捕捉数据间联系。关联规则的一般形式.是规则的前项,可以是一个项目或项目集合,是规则的后项，一般是一个项目。关联规则的核心算法是Ａpｒｉoｒi算法，其基本思想是设定最小支持度（一个规则支持度定义为前项与后项同时出现的概率）,先找频繁集，然后在频繁集中产生较强的关联规则。本文选择Aｐｒｉori算法挖掘关联规则,算法具体过程为： 1. 从容量为1的频繁集开始扫描,将小于最小支持度的集合忽略不计； 2. 接着通过归纳从容量为k-1的频繁集中生成容量为k的频繁集，同时修建其中的容量为k-1的非频繁集. 3. 确定了修剪后的频繁集列表后，计算频繁集的所有子集和（容量为k－1)，其中包含输入信息，包含输出信息。 4. 计算规则的置信度，即在项目出现的条件下，项目出现的条件概率。若不低于最小支持度，则列入相关规则. Web图中线条的粗细直观的表示了两者的关联强度,线条越粗，说明前项与后项的相关性越大。通过对网络招聘信息中的各个变量编码（具体见图10),然后做出Weｂ图，见图10。由图1０可以看出InduｓtryＦｉｅｌｄ_１1(信息安全)与IｎduｓｔｒyFielｄ_８（生活服务）、PｏsitioｎTｙpｅ＿13（高端设计职位)、ＰoｓiｔｉonTyｐe＿16（高端职能职位）、PｏsｉtionType＿29（投资)、PositioｎTyｐｅ_8(法务)之间有较强的关联;IndustｒyFieｌｄ＿8（生活服务）与ＰositiｏnType_２9(投资）之间有较强的关联；IｎdusｔryField_6（旅游）与ＰｏsiｔiｏｎＴypｅ_2９(投资）之间有较强的关联等。表明信息安全领域的企业与生活服务类企业关联性较强,且这类企业比较倾向于招聘高端设计职位、高端职能职位、投资、法务类人才；生活服务和旅游领域的企业比较倾向于招聘投资类人才。图10　招聘信息关联Ｗeb图进一步，选择支持度＞10％、置信度〉80%可得如下结果：PositioｎFｉrstTｙpｅ_２（技术)与PositｉoｎType_2４(前端开发)、PoｓitｉｏnType＿20（后端开发）、ＩndusｔryFiｅld＿12（移动互联网）之间有较强的关联;PositｉonＦirstType_5(市场与销售）与PositionＴｙｐe_３1（销售)之间有较强的关联；IndustryＦiｅld＿1２(移动互联网)与FinanceStage_2（成长型)、WｏrｋYear＿5(3－5年)、Edｕcation_3（本科）之间有较强联系；FinaｎceStagｅ＿１（初创型）与CompanySizｅ_2(15-5０人）、InｄustrｙField_1２（移动互联网）之间有较强的关联；Eduｃaｔioｎ_3（本科)与ＦｉnancｅStaｇe_4（上市公司）、ＣompaｎySizｅ_６（20０0人以上)、Salaｒy＿5（２0000以上）、PosｉtioｎFirstType_2(技术）有较强的关联等。表明移动互联网领域对技术类人才需求量较大，其中前端开发和后端开发领域的人才尤其受欢迎;此外,成长型公司大多存在于移动互联网领域,且对人才的工作经验和学历要求较高;初创型公司一般规模较小，且主要集中在移动互联网领域；而上市公司的公司规模一般较大，员工人数在2000人以上，上市公司对技术类人才需求量较大，对人才的学历要求主要集中在本科学历,对员工支付的薪水较高，普遍在２0０00元以上。 5、建议从挖掘结果看,高校可有针对性的调整人才培养方案，开设R、Jaｖa、Ｐyｔｈon语言选修课程,提升学生应用相关软件的能力,积累解决实际问题的经验，学会团队协作。企业对市场营销、软件和产品的开发与设计类人才需求量较大,应届毕业生要重视参加软件和产品的开发、设计等职业培训工作，适度利用业余时间做兼职，积累工作经验,在实践中学习与客户沟通的技巧。此外，我们不难看出移动互联网行业发展前景广阔,求职者若对移动互联网感兴趣,可优先考虑向技术类方向发展，并且要注意工作经验的积累。若求职者想去规模较大的上市公司,那么有较高学历的技术型人才有较大优势。参考文献［1]U.Fayｙaｄ，GPiａtｅｔskｙＳhapiｏｒ，P．Sｍyth.An Overview．Ｉn Advancｅｉｎ Knowlｅdgｅ Dｉsｃｏvｅry　and Dａｔa Mining［M］．ＭIT　Press,1996. ［2]Rabiner L.R.A tutoriａl on hidｄｅn Ｍａrkov　ｍoｄeｌs aｎd selected　aｐｐlｉｃaｔiｏｎｓ inｓpeech recognition［Ｊ]．Proｃ　IＥEE,2００7，77(2）：257-286．［3]Amaｕｄ Saｈｕｇuet，Fａbien Azavａnt.Buｉｌding inteｌlｉgent Web aｐplicａtｉｏns usｉng lｉｇhtweｉgｈt　wｒapｐｅrｓ［J］．Ｄａta Ｋnowledge Engineｅring，2010，36（3)：２83－3１６。 [4］王继成,潘金贵，张福炎.Ｗeb文本挖掘技术研究［J］.计算机研究与发展,2000,37(5):５13—52． [5］王智勇.基于统计降维和Kｏhonen网络的文本聚类和分类研究［D］.天津:天津大学，2０05。 [6］李伯阳。文本聚类方法研究及其应用［D]．厦门：厦门大学,2008。［7］蔡坤.基于特征词的文本聚类算法研究[D］.开封：河南大学，20０9．［8]曾路平.基于相似度的文本聚类算法研究及应用[Ｄ］．镇江：江苏大学，20０9． [9]钟晓旭．基于Web招聘信息的文本挖掘系统研究［D]．合肥：合肥工业大学,２0１０. ［１0］钟晓旭,胡学钢．基于数据挖掘的Weｂ招聘信息相关性分析［J］.安徽建筑工业学院学报（自然学科版),2010,１８(４）：2３-45．［１1]王静.Ｗeb对象的信息抽取的关键技术研究[Ｄ］。西安：西安电子科技大学,2011. ［12]马力．基于聚类分析的网络用户兴趣挖掘方法研究[D］。西安：西安电子科技大学，201２. [13］王盛明，卢秉亮.加权聚类算法在图书馆中的应用研究[Ｊ]。微机处理,20１5，(6)：４７-４9. ［1４］刘玉华，陈建国,张春燕。基于数据挖掘的国内大学生就业信息双向推荐系统［J]。沈阳大学学报(自然科学版）,2015,2７（3)：22６-232．附录文本数据聚类程序：＃读取数据ｍｙｄata＜—read．ｔablｅ(ｆile=file.ｃhoose(）,quote="”，hｅａｄer=ＴRUE，sep=”\ｔ”，striｎｇsAsFactｏrs=FＡLSE）strｓtr（mｙdata）＃添加自定义字典ｉnstalｌＤict（dicｔpａｔh='Ｄ：\\R\\财经金融词汇大全【官方推荐】．scel'，＋　ｄiｃtname='caijinｇ＇,ｄicｔｔｙｐe＝'scel') ｉnstａｌlＤict(ｄictｐaｔh=＇D:\\R＼\旅游词汇大全【官方推荐】．scｅl', + dｉctnａmｅ='ｌvyoｕ'，dicttｙpe='ｓcｅl') instａllＤiｃt(dｉctｐath＝’D:＼\Ｒ\\电子商务专用词库【官方推荐】.scel’， + ｄictｎame＝’ｄiaｎｚｉsｈangｗu’,diｃttype=＇sceｌ＇）ｉnsｔalｌDict(dictpａｔh='D：＼\Ｒ\\IT计算机．scel＇，＋　dictｎamｅ=＇jisuanji'，dｉcttype=＇sｃeｌ’） instａｌlDict(dictｐath=’D:\\Ｒ\\SEO 搜索引擎优化专业词汇．scｅl’，＋ｄicｔnamｅ=＇sousuｏyinqiｎg＇，diｃtｔyｐe=＇scel’) inｓtalｌDict(ｄictpａｔh='D:\\R＼\医学词汇大全【官方推荐】。scel'， + dictnaｍe=’yixue’,ｄicttype=’sｃeｌ'） #查看已安装的词典 lisｔDiｃｔ() #预处理 myｄaｔa。reｓ＜-mydata［mｙdatａ!=”"] ＃分词ｓegword〈－segmenｔCN（ｓｔrwoｒｄs=mydaｔａ.ｒes） #查看第一条招聘信息分词结果 segworｄ［[１］］＃创建停止词 mysｔopｗorｄs〈—reａd.table(fｉlｅ=ｆiｌe。choose（）,sｔriｎgsAsFａｃtors＝ＦALSE） heａｄ（mystoｐwords) claｓs（mｙsｔopwords) #需要将数据框格式的数据转化为向量格式 mｙstopｗordｓ＜—aｓ．vectｏr(mｙstoｐｗordｓ［,1］）ｈｅaｄ（mｙsｔopwoｒds） #自定义删除停止词的函数 reｍoveｗordｓ<－fｕnction（targｅt_words,ｓtｏp＿wｏｒds)｛ taｒget_ｗｏｒds=tａrget_ｗordｓ[targｅｔ＿wｏrds％ｉn％sｔｏp_words=＝FALSＥ］ rｅtuｒｎ（ｔａrgｅｔ＿ｗoｒds) ｝ segwｏrd2〈－saｐｐly(X=segwｏrｄ,FＵN＝ｒｅmoｖeworｄs,ｍyｓtopwords）＃查看已删除后的分词结果 segword2［［1]］＃词频统计ｗorｄ_freq<-ｇｅtWoｒdFrｅq（strｉng=ｕnｌisｔ(sｅgwｏrd2））＃查看词频统计结果ｗord＿ｆrｅｑ opar＜－par（ｎo。ｒｅadonly=TRUE）Ｐａr（ｂg＝’ｂｌａｃｋ’) ＃绘制出现频率最高的前50个词 woｒｄcｌouｄ（ｗords=woｒd_freq＄Word，freｑ=word_fｒeq＄Freq, + maｘ.wｏrｄs=50,randoｍ.coｌor＝ＴRUE，coｌｏｒs=ｒainbow（n=７) ＋　） par(opar)　＃将已分完词的列表导入为语料库,并进一步加工处理语料库 text_ｃoｒpuｓ〈-Corpus（x=VectorSource（ｓｅgword2）） text_cｏｒpus ＃去除语料库中的数字 texｔ_corpuｓ〈—tｍ_map(texｔ_corpｕs，remｏveＮｕmbers）＃去除语料库中的多余空格 text＿corｐus<-tm_map(teｘｔ_corpｕs，stripWhitesｐａcｅ）＃创建文本－词条矩阵 dｔm<－DocｕmentTermMatrix（x=ｔext_corpuｓ，control=ｌｉst(worｄLeｎｇtｈｓ＝ｃ（2，Inｆ））） dtm ＃去除稀疏矩阵中的词条 dtm〈－rｅmoｖeSparseＴeｒms（ｘ=dtm，spａrｓe＝0.7） dｔｍ #将矩阵转换为数据框格式 df＜－as.ｄata。frａme（inｓpect（ｄtｍ)) ＃查看数据框的前6行(部分) head(ｄf) ＃统计建模：聚类分析 #K—均值聚类 zｗms．ｍatrix＜-aｓ。maｔｒix（dtm) ｋ<—7 kmeanｓＲes<—kmeans（zwms.matrix,ｋ) mｏdｅ(ｋmｅaｎｓRes） [1] "ｌist” names(kmｅanｓRes) ［１］　"cluｓtｅr" 　 "ｃｅｎｔers” 　 ”totss" 　　　 "withinｓｓ＂　 ”tot。wiｔhinsｓ＂　"bｅtweenss" 　［７］ "size” 　　＂ｉｔer” ＂ｉfａuｌｔ” head（kmeａnsRｅs$clusteｒ，10） 1７55661６64 kｍeaｎsRes$siｚe [1］ｚｗms。ｋmｅaｎsRes〈-lｉｓt(coｎｔｅnt=mｙdａta，tｙｐe=kmeａnｓＲes＄类) wriｔｅ.cｓv（zｗms。ｋmｅａnsRｅｓ,＂zwms_kｍeanｓRes.csｖ＂） zwms。kmeansRｅs〈－as。datａ．frａme(ｚwms．kｍeansＲes） fix(zwms。kｍeansRes） #聚类结果可视化Ｐlｏｔ（ｚwms.matrｉx［c（““Seｐａl．Leｎgth”，"Sepａｌ.Ｗidｔｈ”)］，ｃoｌ=kmｅaｎｓＲｅs$cluｓter) Poinｔs（kmeans＄cenｔers[，ｃ(“Seｐal.Ｌength"，”Sｅｐal.Ｗidｔh”)］，cｏl=1：4,pｃh=8,cｅx=２) 致谢大学四年学习生涯即将结束，在这四年里，我不仅学到了专业知识，也收获了珍贵的友谊和师生情。我要特别感谢我的指导老师张学新老师,在指导我完成毕业论文的过程中，从选题、定题到论文的修改以及最终完成，张老师一丝不苟的工作态度深深感染着我,在今后的学习工作中,我会努力向张老师学习,时刻追求进步,认真完成每一项工作。基于社会网络分析视角的微博学术信息交流实证分析摘要：微博是伴随ｗｅｂ2．0技术迅速发展的网络社区平台，越来越多的学者或用户利用微博进行学术信息交流。以“图书馆学、情报学领域的微博圈”为研究样本，构建关注矩阵，运用社会网络分析法,通过学者之间的关注及交流探寻微博学术信息交流网络的特点，以期为其它领域的学术信息交流提供参考和借鉴，同时为学科发展提供实际应用价值. 关键词:学术信息交流；社会网络分析；微博ＢaseｄＯｎＳNA Ｐerspectｉvｅ Eｍｐirical Aｎalｙsis Micｒoblog Academic Ｉnｆorｍaｔioｎ Eｘcｈange Ａbｓtｒａct：Miｃroｂlogis　asｓoｃｉａted with web tecｈnoｌｏgｙ of　the rapid developｍenｔ of　ｔｈe netｗork cｏｍmｕｎiｔy pｌａtfoｒm，　mｏrｅａnd　more sｃhｏlars ｏr user use Microblｏgfoｒ　aｃaｄeｍiｃｅｘcｈａngｅｓ of inｆoｒmａtiｏn．Ｗith ”circle　of Ｍicｒobｌog" iｎ tｈe　fielｄ　oｆ librａｒy ａnd librａｒy sciencｅ as the research saｍple，　bｕilｄ on　ｍatrix,　uｓing soｃial　nｅtｗork　aｎａlysis meｔhｏd, through the ｓcholarｓ attention　ａnd interactiｏn between　seａrch Miｃｒobloｇthe chaｒａcｔeristｉｃs　of the acａdｅmiｃ　inｆormatｉoｎ exchａngｅ network，ｓo as to　proｖide ｒeferenｃe　for ｏtｈｅr aｒeas of　acａdemiｃ informａtion exｃhange　and refｅrence, at ｔｈe　saｍｅ tｉｍe providｅ practiｃal ａpｐlication vaｌｕe for subjeｃt　devｅｌoｐment． Keｙ woｒds：　Tｈｅ aｃadeｍiｃ excｈａｎges of informａtｉon；SNA；Mｉcｒoｂｌoｇ 1研究背景及相关工作１。1 研究背景Ｗeb2.0的出现和发展，催生了博客（Blog)、人人网、微博客（简称：微博）、网摘、P2P、天涯社区等虚拟社区的形成，它们所具备的即时性、互动性等优势［1]引发了学术信息交流环境、范围、方式以及内容的巨大的变化:学术信息交流环境由实体空间逐渐转变为虚拟社区平台,不同学者、专业人士之间的交流比现实生活中交流更为真实;学术信息交流的范围不再局限于固定的学科以及人员结构，从整体上实现了跨空间、跨地区共享;学术信息交流的方式从单一向多样转变，从学术座谈会、研讨会扩展到学术博客、学术论坛、学术微博圈等；学术信息交流的内容也打破了传统学术信息交流话题固定、覆盖面少、内容单一的局限性，不仅实现了显性知识的共享,更推动了隐性知识的利用[2]。其中，微博独特的设计理念，及时、通畅和广泛的用户信息交流渠道，使其在众多的虚拟社区中脱颖而出。近年来，作为新兴的社交网络应用，微博已经成为网民获取信息的重要途径之一，微博从满足人们弱关系的社交需求逐渐演变为大众化的舆论平台,越来越多机构及公众人物都通过微博来发布或传播信息。截至20１３年6月底，我国微博网民规模为3．31亿，较201２年底增长了２216万,增长７．2%.网民中微博使用率达到了5６．0％,较2012年底增加了1。3个百分点［3]。　 1。2 相关工作目前,我国学者对于微博信息交流网络的特点的研究主要集中在以下两个方面：　（1）微博用户信息交流网络结构的研究。王晓光等人［4］首先深入研究与实证分析了微博用户形成的交流网络，分别根据社会网络分析中的核心—边缘理论和聚类分析方法，界定了微博社区中核心区域与外围区域,描述了聚类群组结构，分析了群组间成员彼此关系.亦有学者[5]提出了3　种信息交流网络结构模型，即圈子模型,嵌套模型和围观模型，并且从微博信息传播机制角度提出了裂变模式和聚合模式，从信息内容分析角度提出了链状模式、环状模式和树状模式.除此之外,袁毅,杨成明［6]从实证分析的角度出发，跟踪微博用户在时间周期内关于某一话题的交流数据,发现用户在信息交流过程中形成了关注、评论、转发和引用四种社会关系网络，对此,利用社会网络分析软件,测量、比较和分析了四种网络不同的结构形态及其交流特征。（2）微博社区信息传播模式的研究。中国科学院国家科学图书馆利用新浪微博平台设立官方微博“科学人讲坛”，构建了集微博信息发布、微博活动直播、微博大屏幕、微访谈等多种微博服务应用于一体的“微博传播云”模式［7]。刘丽芳［8]通过构建微博的信息传播模式,提出微博客的传播方式既不是传统媒体的线性传播，也不是网络媒体的网络传播，而是一种裂变传播。社交网络提供了一种基于关系的网络信息传播方式，社交网络信息传播模式中传播者

展开阅读全文