资源描述
第4 1 卷第l O 期2 0 0 7 年1 0 月西安交通大学学报J O U R N A I。O FX I A NJ I A O T O N GU N I V E R S I T YV o l4 1 1 0O c t 2 0 0 7流量内容词语相关度的网络热点话题提取周亚东“2,孙钦东“2,管晓宏1。23。4,李卫“2,陶敬“2(1 西安交通大学智能网络与网络安全教育部重点实验室,7 1 0 0 4 9,两安;2 西安交通大学机械制造系统工程国家重点实验室,7 1 0 0 4 9,西安;3 清华大学自动化系1 0 0 0 8 4,北京;4 清华大学信息科学与技术国家窭验室,1 0 0 0 8 4,北京;5 西安理工大学计算机科学与_ _ I:=程学院,7 1 0 0 4 8,西安)摘要:针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到1 6 7,为网络热点话题传播特性研究提供了基础,与W e b 挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源胄B 更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况关键词:嘲络热点话题;流量内容;网络舆情分析中图分类号:T P 3 9 3 4 文献标识码:A 文章编号:0 2 5 3 9 8 7 X(2 0 0 7)1 01 1 4 2 0 4I n t e r n e tP o p u l a rT o p i c sE x t r a c t i o no fT r a f f i cC o n t e n tW o r d sC o r r e l a t i o nZ h o uY a d o n 9 1”,S u nQ i n d o n 9 1 2,G u a nX i a o h o n 9 1 2 3”,L iW e i l”,T a oJ i n 9 1 2(1 M()E K e yL a b f o r I n t e l l i g e n t N e t w o sa u dN e t w o r kS e c u r i t y,X i 8 nJ i a o t o n g U n i v e r s i t y,X i7 7 1 0 0 4 9 C h。;2 S t a t e K e yL a bf o rM a n u h c t u r i n gS y s t e m,X i+a nJ i a o t o n gU n i v e r s i t y,X l7 a 1 17 1 0 0 4 9,C h i”t3D e p a r t m e n to fA u t o m a t i o n,T s m g h u au H,蹦岫1 0 0 9 8 4,C h i n a4T s-i n g h u aN a t i o a m lI a b hI n f e c r n a h o n&a n dT e c h n i C S,Y g n g h u aU n i v e r s t y,B e l l i n 9 1 0 0 0 8 4,C h i n a;jS c h o o lo f C e m p u t e rS c i e n c ea n d g n g i n e e m l g,X i a n U n i v e r s a yo f T m o l o g y,X i a n7 1 0 0 4 8,(=l l i m)A b s t r a c t:A i m i n ga tt h er e q u i r e m e n t so fn e t w o r kp u b l i cf e e l i n ga n a l y s i s,t h ef o r m a ld e f i n i t i o na n dd e r i p t i o no ft h ep o p u l a rt o p i co nI n t e r n e ti sp r e s e n t e d,t h er e l a t i o n s h i ph e t w e e nh o tw o r d sa n dp o p u l a rt o p i c si sa n a l y z e d,a n df i n a l l yah o t p o i n tw o r d sc o r r e l a t i o nc o m p u t i n ga p p r o a c hf o re x t r a c t i n gp o p u l a rt o p i c so nI n t e r n e ti si n t r o d u c e di nt r a f f i cc o n t e n t s B a s e do nt h a t,I)B S C A N(D e n s i t y-B a s e dS p a t i c a lC l u s t e r i n go fA p p l i c a t i o nw i t hN o i s e)c l u s t e r i n ga l g o r i t h mi sa d o p t e dt oe x t r a c tp o p u l a rt o p i c sa n df o r m a l i z e dr e s u l t sa r eg i v e n T h et e s tr e s u l t ss h o wt h a tt h i sm e t h o dh a sa na v a i l a b i l i t yo f1 6 7 i ne x t r a c t i n gI n t e r n e tp o p u l a rt o p i c s,w h i c h,c o m p a r e dt ow e bm i n-i n ga n dT D I、(T o p i cD e t e c t i o na n dT r a c k i n g),c a np r o v i d eam o r es u i t a b l ed a t as o u r c ef o re f f e c t i v er e c o v e r yo fI n t e r n e tp u b l i co p i n i o n s K e y w o r d s:p o p u l a rt o p i co nI n t e r n e t;n e t w o r kt r a f f i cc o n t e n t;I n t e r n e tp u b l i co p i n i o na n a l y s i s目前,互联网已经成为人们交流信息的重要渠道网络舆情分析研究也随之受到广泛关注网络舆情信息具有规模巨大、凌乱无序等特点,如何从中识别、分析有价值的信息已成为研究热点针对这一问题,国内外均开展了相关研究”日,主要包括两类,一类是话题识别与追踪研究:1。“,另一类是W e b 数据挖掘研究啪,它们都以W e b 站点发布的各类信息为数据源,其结果反映了网络媒体对信息的呈现状况,但却无法有效反映网络用户对信息的关注状况,因此也就很难反映网络舆情的真收稿日期:2 0 0 7 一0 1 1 0 作者简介:周亚东(1 9 8 2),男,博士生;管鹿宏(联系人),男,教授,博士生导师基金项目国家自然科学基金资助项目(6 0 5 7 4 0 8 7);国家高技术研究发展计划资助项目(2 0 0 3 A A l 4 2 0 6 0)万方数据第1 0 期周亚东+等:j】f 量内容】司语相毙度的网络热点话题提取实情况本文将网络流量作为数据源,这种流量数据能直接对应于用户的网络行为,能更为准确地反映网络舆情的状况同时,本文着重于研究还原、理解网络用户的各种行为,从中获取用户对网络信息的关注情况,并通过网络热点话题的形式化描述得到更真实的网络舆情状况1网络热点话题的形式化描述在话题识别与追踪研究巾,已对一般意义下的话题进行了定义,而在网络信息分析研究中却没有明确定义,为此本文埘网络热点话题作如下定义定义1 网络热点话题指,以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化捕述以及话题的传播方式等为了突出人们关注的内容,网络热点话题可被形式化地表示为一个多维向量,并以热点词语、核心标题及信息发布网站等作为基本元素设当前网络的一个热点话题为P=(l,m,L,五,L,S,S,S)(1)式中:矸0 表示热点词语,即与热点话题直接相关并可用以描述话题含义的词语;L 表示核心标题,为可概括热点话题核心意义的词语或短句;S:表示信息发布网站,其中包括传播话题的网络站点源名称或地址2 热点词语相关度计算网络热点话题是用户广泛关注的信息,是在网络流量中大频度出现的内容,而热点词语可以直接描述热点话题,在网络流量中其必将以较大频度出现一个热点话题可由多个热点词语来描述,且词语之间具有一定的相关度基于此,本文提出一种流量内容热点词语相关度计算方法,该方法可量化热点词语之问的相关程度,量化结果可作为网络热点话题提取的中间数据在处理网络流量数据时,首先计算内容中各项词语的出现频度,词语按照出现频度又分为高频词语、中频词语和低频词语词语的统计式为W=(w,)(2)式中:w 表示词语的统计值;W 表示某一词语;f 表示词语的总频度通过设定高、中、低频度阈值,贝町基于频度的词语集合L a 一(让l,w,叫h)L。=(u,“k,“k。)(3)L【=(”1 1,”b,)J式中:L h、L L t 分别表示高、中、低频度词语集合;h、。、W,分别表示高、中、低频度词语在网络中,热点话题可视为网络文章的集合,在集合中的所有文章都参与讨论特定话题描述同一个热点话题的多个热点词语,必然出现在网络文章之中,那么当用户查看这些文章时,文章的内容便是构成一次网络连接的传输内容,而热点词语也会同时出现在一次网络连接之中因此,流量中的任意2个高频度词语同时出现于网络连接之中的次数,可量化衡量词语之间的相关度,即词语同时出现的次数越多,表示它们之间的相关度越大,那么用该词语描述同一热点话题的可能性就越大网络流模型包括数据包列车模型”J、基于T C P连接的流模型”J,而广泛应用于I n t e r n e t 的流模型是由C l a f f y 提出的”本文借鉴网络流的相关研究,定义了话题流,以重现网络连接情况定义2 话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合话题流的表达式为B=(i d,t,i p。,p。,i p d。,p。,C,T,S)(4)式中:i d 是流的标志号,一个标志号惟一地对应一条流;t 表示流的到达时间;i p。、i。分别表示话题流的源、端主机地址;p p“表示话题流的源、端网络端口;C 表示话题流包含的内容负载特性;1、为流内容对应文本的标题信息;s 为发布文本信息的网站基于话题流的定义,流量中的一个热点词语与相关届性可表示为W 一(w,f,i d。,A,i d z z,斌,)(5)式中:表示词语集合;,表示词语的总频度;表示词语在第n 条流中出现的频度;i d,表示包含某词语的第i 条话题流的标志号词语之间的相关度p(w,)与2 个词语流相关的程度直接关联:如果2 个同语同时出现在一条词语流之中,称这2 个词语与1 条词语流相关,则这2个词语对象之间的相关度为1;如果2 个词语同时出现在n 条词语流之中,这2 个词语对象之问的相关度为”;如果2 个词语没有共同的词语流,其相关度为0 设2 个词语对象和w 的表达式为 一(,f,i d-,池,豳,)(6)万方数据酉安变通大学学报第4 l 卷缸,7 一(7,i d;,一,i d;,丘,i 也丘、(7)照式(1)计算网络的热点话题则相关度表达誓尹4实验结果分析Ifi di di d;i di d a,l2i 晶,:2 2,=,”1“。t h e np(w,w)一n(8)式巾:-如、1 以分别表示词语W、w 中的流标志号5p(w,7)表示 与w7 的相关度2 个词语的P(,扎,)值越大,即2 个词语的相关度越大,2 个、同语同时出现在词语流的次数就越大,则2 个词语同属于一个热点话题内容的可能性越大3 网络热点话题生成任意2 个热点浏语的相关度p(w,w)可以描述2 个词语同属于一个热点话题内容的可能性,从几何角度看,2 个热点词语的相关度越大,它们的几何距离越短闲此,本文采用D B S C A N(D e n s i t y _B a s e dS p a t i c a lC l u s t e r i n go fA p p l i c a t i o nw i t hN o i s e)I”聚类算法将具有较大相关度(属于同一热点话题的可能性比较大)的热点词语聚合为簇,这些簇可描述各自对应热点话题(见式(1)的第1 项,以簇为基础可分析相关网页标题和网站地址,从而得到如式(1)所描述的网络热点话题由式(1)可知,网络热点话题由3 部分元素组成本文以聚类分析得到的热点词语簇为基础,统“每个类别中的词语流属性的核心标题T 和信息发布地址S,然后用每个簇中出现次数满足一定闾值的核心标题、信息发布源及该类别的热点词语,来描述一个网络热点话题,即c=(t,u,议k)(9)式中:C 为聚类得到的热点词语簇,它由n 个热点词语组成一个热点词语,其属性可由式(5)描述,其中包括词语流的标号值(每一个标号值对应一个词语流,其属性由式(4)描述)对聚类结果C 中的每一个热点词语流集合的了1、S 进行统计,得到核心标题及相应的信息发布网络地址,即丁(一(,、,i d l,i d?,i 屯)(1 0)s c=(5,、,i d l,i d“,i 也)(1 1)式中:S 耳表示核心标题的字符串;表示核心标题出现的总频度;s s,表示网站的字符串,浚网址应在k 条流中出现;风表示网址出现的总频度;i d,表示第i 条包含网址的流的标忐号对统计得到的核心标题及信息发布地址进行排序,选取频度可达到一定阈值的核心标题和信息发布地址,并与式(9)的聚类结果进行组合,就可叭按4 1 实验环境及数据源将西安交通大学网络巾心的多台H+r7 1 1 1 服务器出口的镜像流量数据存储到数据分析服务器之h,然后采用离线分析的方法对9 0G B 流量数据进行分析、处理数据分析服务器为A c e rA l t o sG 5 3 0,硬件配置为P 4X e o n32 处理器,内存为E C C4G B,硬盘为S C S I3 2 0G B,操作系统为w i nd o w s2 0 0 3S e r v e r,实现程序语言为c+4 2 实验结果及分析在实验中,流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统选取参数:中频阈值为30 0 0 高频闽值为1 00 0 0,相应地生成6 6 5 个高频词,10 4 7 个巾频词18 9 9 个低频词利用D B S C A N 聚类算法,对高频词队列进行分析,选取的领域半径e=5 0 0,队列的最小密度阈值r a i nq-5,由此获得的聚类类别数为4 8,聚类效率为1 6 7,其中含有语义信息的热点词语类别数为8,无语义信息的热点浏语类别数为4 0 在网络热点话题生成的过程中,Y c=5 0 0,S c 一5 0 0,由此得到8个网络热点话题的描述信息从聚类结果看出,有8 项具有较明晰语义信息的热点话题,包括“交大招生科目信息”、“交大校庆消息”、“交大概况及校史”、“交大电气学院关十电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等选取其中2 项热点话题,通过式(1)的热点话题形式化描述对有效类别进行格式化,结果如表1所示在表1 描述的2 项网络热点话题中,第1 项话题包含r8 1 个热点词语(由于篇幅所限,不便全部列举)、3 个核心标题和1 个信息发布网站通过人工分析可知,热点舌题与交大人才培养及招生录取信息有关,主要内容为交大的学科专业信息,包括一级学科、二级学科及院系名称,它们均通过交大网站向外传播第2 项热点话题包含r3 5 个热点词语、3个核心标题及2 个信息发布网站,主要内容为交大概况及校史表1 所示话题的区别有二:其一是第2 项话题的热点词语数量只占第l 项的4 3 2,这表明第2项话题的内容更为集中;其二是第2 项话题通过2个网站传播,这表明关注交大主页信息以及关注交 万方数据第1 0 期周亚东,等流量内容词语相关度的网络热点话题提取袁l网络热点话题提取结果表示大校庆新闻的很多用户均对交大概况及校史感兴趣,第2 项话题主要关注用户对信息的兴趣度可以看出,中文词语语义的丰富性和多义性导致了中文词语聚类的有效性仅能达到1 6 7,但是作为一个初步研究的成果,还是较为理想的通过分析实验结果发现,从流量内容中提取出的8 项热点话题,能够在部分程度上描述一定范围内的网络当前舆论状况,给网络管理者提供了辅助的管理信息由于计算机的自然语言理解能力有限,暂时无法得到语义更加明确的热点话题信息,还需要由人工来解析、分析5 结论本文根据网络信息特点,定义网络热点话题并给出了其形式化描述通过分析流量内容中的热点词语与热点话题之间的关系,提出了热点词语的相关度计算算法和网络热点话题的生成方法该方法采用了D B S C A N 聚类算法,再结合与热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述实验结果表明,本文方法能够有效地获取当前网络中的热点话题,通过选取更合适的数据源能更大程度地还原网络用户行为,获取用户对网络信息的关注情况,从而得到更为准确的网络信息传播状况所提方法可作为研究网络热点话题传播特性的基础下一步的工作将研究流量内容预处理分析方法,改进网络热点话题提取算法的效率,在热点话题内容提取工作的基础上,开展热点话题动态传播规律以及相关社会网络关系的研究参考文献:1 J a m e sA,J a i m eC,G e o r g eD,e ta 1 T o p i cd e t e c t i o na n dt r a c k i n gp i l o ts t u d y:f i n a lr e p o r tE c “P r o c e e di n g so ft h eD A R P AB r o a d c a s tN e w sT r a n s c r i p t i o na n dU n d e r s t a n d i n gW o r k s l l o nS a nF r a n c i s c o:M o r g a nK a u f t m n nP u b l i s h e r s,1 9 9 8:1 9 4 2 1 8 2 于满泉,骆卫华,许洪渡,等话题识别与跟踪中的层次化话题识别技术研究 j 计算机研究与发展,2 0 0 6,4 3(3):4 8 9 4 9 5Y uM a n q u a n,L u oW d h u a X uH o n g b o。e ta lR e s e a r c ho nh i e r a r c h i c a lt o p i cd e t e c t i o ni nt o p i cd e t e c t i o na n dt r a c k i n g J J o u r n a lo fC o m p u t e rR e s e a r c ha n dD e v e l o p m e n t,2 0 0 6,4 3(3):4 8 9 4 9 5 3 K o s a l aR B l o c k e d LW e bm i n i n gr e s e a r c h:as u r v e y 刀S I C,K D D E x p l o r a t i o n s,2 0 0 0,2(1):I-1 5 4 王泽彬,金飞,李夏,等w e b 数据挖掘技术!;乏实现 J 晗尔滨工业大学学报,2 0 0 5,3 7(1 0):1 4 0 3 1 4 0 5 W a n gZ e b i n,J i nF e i I jX i a e ta 1 W e bd a t am i n i n gt e c h n i q u ea n dr e a l i z a t i o n J J o u r n a lo fH a r b i nI n s t i t u t eo f T e c h n o l o g y,2 0 0 5,3 7(1 0):1 4 0 3 1 4 0 5 5 李保利,俞十汶话题识别与跟踪研究 J 计算机工程与应用,2 0 0 3,3 9(1 7):7-1 0 L iE a o l i,Y uS h i w nR e s e a r c ho i lt o p i cd e t e c t i o na n dt r a c k i n g J C o m p u t e rE n g i u e e r i n ga n dA p p l i c a t i o n s,2 0 0 3,3 9(1 7):7 1 0 6 T o p i cD e t e c t i o na n dT r a c k i n g(T D T)E v a l u a t i o nW o r k s h o nT h e2 0 0 2t o p i c&t e e t i o na n dt r a c k i n gt a s kd e f i n i t i o na n de v a l u a t i o np l a n E B(w。2 0 0 8 0 4 2 0 f t p:j a g u a nn c s l n i s t g o v t d t t d t 2 0 0 2 7 J a i nR,R o u t h i e rSAP a c k e tt r a i n s:m e a s u r e m e n t sa n dan e wm o d e l o rc o m p u t e rn e t w o r kt r a f f i c J I E E EJ o u r m lo i lS e l e c t e dA r 翩si nC o r m n u n i c a t i o n s,1 9 8 6,4(6):9 8 6 9 9 5(下转第1 1 5 0 页)万方数据日安变通大学学报表4 蚁群遗传算法在不同参数下的最优F h d(n i t c=1)4 结论遗传算法作为一种自适应全局优化概率搜索算法,在组合优化问题的求解中取得了良好的效果蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法,已成为近年来研究的热点本文提出的蚁群一遗传融合聚类算法,将遗传算法融人到蚁群算法之中,利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合,并将其应用到文本聚类问题上,结果取得了较好的聚类效果今后研究的重点是,进一步提高蚁群遗传聚类算法的效率,并基于本文方法对蚁群算法的各个参数取值再做试探性的理论研究参考文献:E l i 刘远超,王唬龙,徐志明,等文档聚类综述 j +中文信息学报,2 0 0 6,2 0(3):5 5 6 2 L i uY u a n e h a o W a n gX i a o l o n g,X uZ h i m i n g,e ta lAs m w e yo fd o c u t l t e g l l Lc l u s t e r i n g j J o u r n a lo fC h i n e s eI n f o r m a t i o np r o c e s s i n g,2 0 0 6,2 0(3):5 56 2 2 S a s a k iM,S h i n n o uHS p md e t e c t i o nu s i n gt e x tc l u st e r i n g q I n t e r a a t i o n a lC o n f e r e n c eonC y b e r w o r l d s(上接第1 1 4 5 页)第4 1 卷L o sA l a m i t o s,U S A:I E E EC o m p u t e rS o c i e t y 2(1 0 5:3 i 63 1 9 H eF a n g,U n gX i a e q i n g,C o m b i n i n g 把nd u s t e s n ga n dr e t r i e v a lf o rc o r p u sa d a p t a t i o n-C O L P r o c e e di n g so fS P I E E 2 0 0 7 0 13 1 1 h t t p:s p i e d i g i t a l l i b r a r y a p i o r g 1 1 M g oM+B l u mCA mc o l o n yo p t i m i z a t i o n*h e o r y8s u r v e y J T h e o r e t i c a lC o m p u t e rS c i e n c e,2 0 0 5,3 4 4(2 3):2 4 3 2 7 8 Z h uX i n g l i a n g,I iJ i a n z b a n g A na i rc o l o n ys y s t e mb a s e do p t i m i z a t i o ns c h e m eo fd a t am i n i n g:c P r o c e e d i n g so ft h e6 t hI n t e r n a t i o n a lc D n e r e n e eo nI n t e l lg e n tS y s t e m sD e s i g aa n dA p p l i c a t i o n s L o sA l a m i t o s,U S A:I E E EC o m p u t e rS o c i e t y,2 0 0 6:4 0 04 0 3 vanm j s b e r g e nCJI n f o r m a t i o nr e t r i e v a l M 2 n de d L o n d o n:B u t t e r w o r t b s 1 9 7 9 吴春明,陈治,姜明蚁群算法巾系统初始化驶系统参数的研究 J 电子学报8 0 0 5,3 4(8):1 5 3 01 5 3 3W uC h m m f i n g,C b e nZ h i i a n gM i n g T h er e s e a r c ho f li g i t i a l i z a t i o no fa 1 1 _ Ss y s t e ma n dc o n f i g u r a t i o no lp a r a m e t e r sf o rd i f f e r e n tT S Pp r o b l e m si na n ta l g o r i t h m nA c t a E e c t r o n i c a S i n i c a,2 0 0 6,3 4(8):1 5 3 015 3 3黄永青,梁昌勇,张祥德基于均匀设计的蚁群算法参数设定 J 控制与决策,2 0 0 6,2 1(1):9 3 9 6 H u a n gY o n g q H 堆,L i a n gC h a n g y o n g,珏8 n gN J a n g d e P a r a m e t e re s t a b l i s h m e n to fa na n ts y s t e mb a s e do i lu n i f o r md e s i g n J C o n t r o la n dD e c i s i o n,2 0 0 6,2 1(1):9 3 9 6 9 段海滨蚁群算法原理及其应用E M 北京:科学出版社t2 0 0 5(编辑苗凌)8 M o g u lJCO b s e r v i n gT C Pd y t m x n i c si nr e a ln e t w o r k s J A C MS I O C O i V L MC o m p u t e r(_ m m u n i c a t i o nR e v i e w,1 9 9 2,2 2(4):3 0 5 3 1 7 L 9 C l a f f yKC B r a u nHW,P o l y z o sGeAp a r a m e t e r i z a b l em e t h o d o l o g yf o ri n t e r n e tt r a f f i cf l o wp r o f d l n g J I E E EJ o u m a lo l lS e l e c t e dA r e a si nC o m m u n i c at i o n s 1 9 9 5,1 3(8):1 4 8 1 1 4 9 4阴)E s t e rM,K r i e g e lHP,S a n d e rJ,e ta 1 Ad e n s i t 3 b a s e da l g o r i t h mf o rd i s c o v e r i n gc l u s t e r si nl a r g es p a t i a ld a t a b a s e sw i t hn o i s e c P r o c e e d i n g so f2 n dI n t e r n at i o n MC o n f e r e n c e0 1 7 1K n o w l e d g eD i s c o v e r ya n dD a t aM i n i n g M e n l oP a r k。U S A;A A A lP r e s s,1 9 9 6:2 2 62 3 1(编辑苗凌)嘲田嘲嘲忉嘲 万方数据流量内容词语相关度的网络热点话题提取流量内容词语相关度的网络热点话题提取作者:周亚东,孙钦东,管晓宏,李卫,陶敬,Zhou Yadong,Sun Qindong,GuanXiaohong,Li Wei,Tao Jing作者单位:周亚东,李卫,陶敬,Zhou Yadong,Li Wei,Tao Jing(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安),孙钦东,Sun Qindong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;西安理工大学计算机科学与工程学院,710048,西安),管晓宏,Guan Xiaohong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;清华大学自动化系,100084,北京;清华大学信息科学与技术国家实验室,100084,北京)刊名:西安交通大学学报英文刊名:JOURNAL OF XIAN JIAOTONG UNIVERSITY年,卷(期):2007,41(10)被引用次数:15次 参考文献(10条)参考文献(10条)1.James A;Jaime C;George D Topic detection and tracking pilot study:final report 19982.于满泉;骆卫华;许洪波 话题识别与跟踪中的层次化话题识别技术研究期刊论文-计算机研究与发展 2006(03)3.Kosala R;Blockeel H Web mining research:a survey 2000(01)4.王泽彬;金飞;李夏 Web数据挖掘技术及实现期刊论文-哈尔滨工业大学学报 2005(10)5.李保利;俞士汶 话题识别与跟踪研究期刊论文-计算机工程与应用 2003(17)6.The 2002 topic detection and tracking task definition and evaluation plan 20067.Jain R;Routhier S A Packet trains:measurements and a new model for computer network traffic1986(06)8.Mogul J C Observing TCP dynamics in real networks 1992(04)9.Claffy K C;Braun H W;Polyzos G C A parameterizable methodology for internet traffic flow profiling外文期刊 1995(08)10.Ester M;Kriegel H P;Sander J A densitybased algorithm for discovering clusters in large spatialdatabases with noise 1996 本文读者也读过(3条)本文读者也读过(3条)1.钱爱兵.Qian Aibing 基于主题的网络舆情分析模型及其实现期刊论文-现代图书情报技术2008(4)2.马慧芳.尹旻.何清.史忠植.Ma Huifang.Yin Min.He Qing.Shi Zhongzhi 一种基于时序窗口的动态热点话题提取模型期刊论文-高技术通讯2010,20(6)3.王伟.许鑫.Wang Wei.Xu Xin 基于聚类的网络舆情热点发现及分析期刊论文-现代图书情报技术2009(3)引证文献(15条)引证文献(15条)1.张召灵.张元林 网络信息内容审计研究的现状及趋势期刊论文-中国管理信息化 2010(22)2.迟呈英.李红 基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪期刊论文-计算机应用与软件 2013(12)3.黄敏.胡学钢 基于复杂网络方法的舆情热点挖掘期刊论文-计算机仿真 2011(9)4.李岩.娄云 文本聚类算法在舆情监控中的应用分析期刊论文-电子设计工程 2013(1)5.严硕.石鑫 短信舆情信息处理平台及关键技术期刊论文-现代电信科技 2010(7)6.余传明.张小青.陈雷 基于LDA模型的评论热点挖掘:原理与实现期刊论文-情报理论与实践 2010(5)7.殷风景.肖卫东.葛斌.李芳芳 一种面向网络话题发现的增量文本聚类算法期刊论文-计算机应用研究 2011(1)8.王巍.杨武.齐海凤 基于多中心模型的网络热点话题发现算法期刊论文-南京理工大学学报(自然科学版)2009(4)9.杨菲.黄柏雄 词共现网络的遗传聚类在话题发现中的应用期刊论文-计算机工程与应用 2013(14)10.蒙祖强.黄柏雄 一种新的网络热点话题提取方法期刊论文-小型微型计算机系统 2013(4)11.彭丹.许波.宋仙磊 基于网络评论的网络舆情研究期刊论文-现代情报 2009(12)12.张卫.曹先彬.尹洪章 基于多特征融合的聊天室社会网络挖掘方法期刊论文-中国科学技术大学学报 2009(5)13.刘林浩 网络新闻信息挖掘
展开阅读全文