收藏 分销(赏)

文本信息处理技术.pptx

上传人:可**** 文档编号:949427 上传时间:2024-04-08 格式:PPTX 页数:93 大小:1.19MB
下载 相关 举报
文本信息处理技术.pptx_第1页
第1页 / 共93页
文本信息处理技术.pptx_第2页
第2页 / 共93页
文本信息处理技术.pptx_第3页
第3页 / 共93页
文本信息处理技术.pptx_第4页
第4页 / 共93页
文本信息处理技术.pptx_第5页
第5页 / 共93页
点击查看更多>>
资源描述

1、第三章 文本信息处理技术第三章 文本信息处理技术 自动标引技术自动标引技术 1 标引词加权方法2 自动分类技术3第一节 自动标引技术 自动标引的含义自动标引的含义 一 自动标引的流程自动标引的流程 二 中文自动标引中文自动标引 三 一、自动标引的含义1自动标引的定义自动标引的定义文献标引文献标引:指对所收集的文献给出标识导引,这些标识包括文献标题、作者名、分类号和主题词等。文献标引作业包括:v文献文本分析;v特征信息(主题词、关键词及其他标识)的提取与描述:v建立索引或倒排档。自动标引(automatic indexing):“自动标引就是用机器抽取或赋予索引词,一旦编制好程序和规则,就不需要

2、人工干预。”一、自动标引的含义2、自动标引的类型、自动标引的类型 从标引工作的自动化程度自动化程度来说,自动标引分为:v全自动标引(automatic indexing);v半自动标引(机助标引:Automated indexing)。半自动标引基本技术实现是:(1)文献纪录(题目等著录项目)键入终端后显示在荧光屏上;(2)操作人员移动光标从题目中抽取关键词;(3)利用人机对话方式输入与标题内容有关的隐含概念词,以保证主题标引的全面性;同时删除计算机程序错误组配的词。(4)根据词库中的参照系统将关键词转换成标准主题词,进行上位登录。词库是计算机辅助标引的核心。从标引词的来源来源去划分,自动标引

3、分为:v自动抽词标引;v自动赋词标引一、自动标引的含义(3)自动抽词标引(自由词标引)自动抽词标引(自由词标引)定义定义:利用计算机直接从文献题名、文摘或正文中自动抽出能表达文献主题的词作为标引词,并自动生成关键词索引或倒排档。类别类别:v主关键词标引:要求计算机从抽出的全部关键词中选出少量主要关键词做索引词。v全关键词标引:把除停用词以外的全部关键词抽出,直接做索引词。抽词标引的标引词只能来源于文献本身的文内关键词,所以也称为自自由词标引由词标引。优点优点:无需主题切换,接近自然语言。缺点缺点:v标引用词不规范,影响查全率;v同义词检索降低系统的时间效率;v难以找出词和词之间的相互关系,很难

4、进一步利用语义信息。一、自动标引的含义(4)自动赋词标引(受控词标引)自动赋词标引(受控词标引)定义:让计算机模仿人的赋词标引方法,分析文献的内容,选选取取与文献主题相符或密切相关的语词符号作为索引词。其标引词是由描述词组成的,这些词不一定来源于文献本身所用的词,而是选自预先编制的词表,所以叫受控词标引受控词标引。优点优点:v规范化用词v词表可以反映词的“类属”关系。缺点:缺点:v受控词标引往往有一定的标引误差;v词典面临老化的问题;v主题词表对用户来说往往是一个负担;自动赋词标引是在自动抽词标引的基础上发展起来的。最合理的标引方法:混合标引方法二、自动标引的流程在手工标引中,标引员的一般工作

5、流程是:1.阅读待标引文献2.分析文献内容3.提取文献主题概念4.用语词符号或语句去表达主题概念5.使表达规范化(转换为受控词)6.编制索引款目7.将全部索引款目汇集和编辑为索引或文档。二、自动标引的流程篇章语句语句段词加权选词规范化标点符号停用词表词频阈值转换123词主题词典索引生成三、中文自动标引1、汉语分词与中文自动标引、汉语分词与中文自动标引分词:分词:就是把一个句子按照其中词的含义进行切分。抽词:抽词:信息检索系统中所涉及的“分词”实际上是抽取代表主题概念的关键词。目前比较常用的抽出自由词的方法有两种:v词典匹配标引法;v单汉字标引法。词典匹配标引法的步骤:v利用停用词表将语句分为语

6、句段(子字串);v利用主题词典(或关键词典)将语句段分为词;三、中文自动标引2停用词表及其切分原理停用词表及其切分原理(1)停用词及停用词表的概念)停用词及停用词表的概念根据文本中词的检索意义,可以对它们做一个简单的分类:v检索词(检索入口词、入口词、标引词)检索词(检索入口词、入口词、标引词):表示具有检索意义的词,一般为实词(多数是名词、动词等)。v停用词(禁用词、非用词)停用词(禁用词、非用词):在文本中没有检索意义的词,多是一些虚词(如介词、叹词、连词等)。所谓停用词表停用词表,是一种特殊的词表,在这个词表中含有冠词、虚词、叹词、连词、介词以及语义泛泛的词等一切在上下文中没有检索意义的

7、词。三、中文自动标引2停用词表及其切分原理停用词表及其切分原理(1)停用词及停用词表的概念)停用词及停用词表的概念 对于特定专业特定专业而言,可以将停用词表内部的词基本上可以分为两大类:v通用性较强的停用词;v通用性不强的停用词。停用词的特点:停用词的特点:v停用词语义变化不大,v数量小(5000)中每个词出现的频率统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然语言给这些词编上等级序号,即频次最高的词的等级为1,频次次高的等级为2,频次最小的词等级为D(或L),若用f表示等级为r的词在文献中出现的相对频次,则有:frrC (C是一个常数,大约等于0.1).齐普夫分布曲线齐普夫分布

8、曲线:如果用横坐标表示词的等级序号r,纵坐标表示相应的频次fr,我们就可以得到一条双曲线,即齐普夫分布曲线。二、绝对频率加权法2 Luhn的自动标引思想的自动标引思想词的分辨力词的分辨力的概念:它是指词的识别文章内容的能力。Luhn的思想的思想:文献中每一个词都有一定的分辨能力,而这种能力与词出现的频率有密切的关系。一般讲来:v词频过高的词一般多为仅起语法作用而无实际内容的功能词,或为一些语义泛泛而专指性不高的词;v而词频过低的词,在文献中很少出现,其分辨能力也很低;只有词频适中的词的分辨力较强,他们被称为有效词。I1:文本中仅出现一次的词的数量。二、绝对频率加权法2 Luhn的自动标引思想的

9、自动标引思想基于卢恩思想的词频统计抽词标引法的基本步骤为:(1)抽词;(2)统计分析;(3)筛选。卢恩在自动标引中使用的文献,长度在5005000字之间,为每篇文献选择的标引词数量定在1024个词之间。近似平均值为16。三、相对频率加权法1、文内相对频率、文内相对频率 指某特定词的绝对频数与文中所有词的绝对频数之比。2、文外相对频率加权法、文外相对频率加权法 文外相对频率:某特定词在一批足够多的文献集合中的出现频次的平均值。加权的步骤为:v建立有关领域全部词汇的文外相对频率表;v对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中出现的相对频率;v将每个实词在特定文献中的文内相对频次与

10、整个文献集合中的文外相对频率进行比较。三、相对频率加权法三、相对频率加权法3、反(逆)文献频率加权法、反(逆)文献频率加权法一篇文献的词大致可以分为:v特征词特征词:就是能反映文献的主题内容的词;v非特征词非特征词:是不能反映文献主题内容的词,只是为了语法或写作风格上的需要才出现的。词词k的文献频率的文献频率:文献集合中包含词k的文献篇数。特征词与非特征词的文献频率特点:特征词与非特征词的文献频率特点:v非特征词的文献频率一般较高;v特征词的文献频率一般较低 一个词如果文献频率较低,说明它是特征词;若这个词在某篇特定文献中的出现频率较高,则用这个词可以较好地反映该文献的主题内容。三、相对频率加

11、权法3、反(逆)文献频率加权法、反(逆)文献频率加权法逆文献频率加权法基于如下假设假设:某词的重要性与它在特定文献中出现的频次成正比,而与含有该词的文献量成反比。逆文献频率标引词权重的设计如下:vFik为词k在文献i中的出现频率;vDFk为词k的文献频率。文献频率。标引词的权与标引词的文献频率有互逆关系,因此这种标引加权方法叫“逆文献频率加权法”,根据这种加权方法进行的标引叫“逆文献频率加权标引”。第二节第二节 标引词加权方法标引词加权方法四、词的位置加权法四、词的位置加权法 根据词的位置进行加权的方法称为位置加权法位置加权法。1)标题 2)文摘 3)首尾章节 4)章节的首尾段 5)段落的首尾

12、句 部位权值主标题中词汇2其他标题中词汇 1.8文摘中的词汇1.6首尾章节词汇1.3首尾段(句)词汇1.1其他位置词汇1.0五、其它加权的方法1)词性2)词本身的价值3)词的长度4)词的特定位置,如:v文献中用括号括起来的部分:ISDN(综合业务数据网);v用破折号引出来的部分,“数据的自动识别输入条码技术”;v用“所谓”所引出的部分,如“所谓的预置关键词”,其中的实词往往也应当给予特别的加权。5)词的颜色、字体等第二节 标引词加权方法六、加权检索技术六、加权检索技术 1 检索词加权与检索检索词加权与检索检索词加权:检索词加权:检索者根据检索需求的理解确定检索词,同时给提问中的每一个检索词(概

13、念)给定一个数值以表示其重要程度,即“权”。检索词加权检索检索词加权检索:在检索过程中,对每个检索词首先查找其检索词在数据库记录中是否存在,然后对存在的检索词计算权值总和。只有当数据库记录的权值之和达到或超过预先给定的阈值时,该记录才是命中记录。第二节 标引词加权方法六、加权检索技术六、加权检索技术 1 检索词加权与检索检索词加权与检索例题:以“住房补贴政策”为检索课题,给检索词分别赋以权值为:住房=4、补贴=5、政策=3,阈值T=5 设有文献如右:文献号标引词1住房,补贴,政策2住房,补贴3补贴,政策4住房,政策5补贴6住房7政策8第二节 标引词加权方法六、加权检索技术六、加权检索技术 1

14、检索词加权与检索检索词加权与检索词加权提问逻辑的优点和不足分析:优点:v通过加权,明确了各检索词的重要程度,使检索更具有针对性;v只需列出检索词,不必写出提问式(不必定义检索词间的逻辑关系)。不足:v权值、阈值的确定具有主观性;v加权是对概念加权,而非对具体的词进行加权,故同义词、相关词权值的确定问题。第二节 标引词加权方法六、加权检索技术六、加权检索技术 2、标引词加权与检索、标引词加权与检索标引词加权:标引词加权:根据标引词在文献中重要程度不同,为它们附上不同的权值。具体内容如上所述。标引词加权检索:标引词加权检索:在检索时,检索者给出检索词阈值和检索阈值,对于那些满足检索阈值的检索结果,

15、按照权值之和从大到小依次输出。设定检索阈值设定检索阈值:v给每个检索词指定一个阈值;v给总的检索结果指定一个阈值。第二节 标引词加权方法六、加权检索技术六、加权检索技术 2、标引词加权与检索、标引词加权与检索例:设已知:用户提问:检索词为:A、B、C;检索词阈值:A:0.3;B:0.2;C:0.2;总阈值:0.5.数据库:第三节 自动分类技术 自动分类概述自动分类概述 一 自动聚类技术概述自动聚类技术概述二 文本表示与相关矩阵计算文本表示与相关矩阵计算三 等级聚类法等级聚类法、动态聚类法动态聚类法 四 模糊关系及其聚类方法模糊关系及其聚类方法 五 基于聚类文档的检索模型基于聚类文档的检索模型

16、六一、自动分类概述 1、文本分类的概念、文本分类的概念定义:自动分类(定义:自动分类(Automatic classification)是指利用计算机对一批实体或对象进行分类,包括自动建立分类体系及其自动更新。发展发展:第一阶段(19581964)进行自动分类的可行性研究;第二阶段(19651974)进行自动分类的实验研究;第三阶段(1975年至今)进行实用化阶段并在邮件分类、电子会议、信息过滤等方面取得较为广泛的应用。一、自动分类概述 2、文本分类的类别、文本分类的类别:v自动聚类:自动聚类:从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则将具有相同或相近特征的对象定义

17、为一类,并设法使各类中包含的对象大致相等;特点是“先有文档后有类”。v自动归类:自动归类:指在给定的分类体系下,分析被分类对象的特征,使之与各种类别中对象所具有的共同特征进行比较,然后将对象划归为特征最接近的一类并赋予相应的分类号。特点是“先有类(表)后有文档”。v类号的自动转换:类号的自动转换:针对多部分类法并存的现状而提出的,有利于分类标准化。一、自动分类概述3、文本分类的步骤、文本分类的步骤文本集合预处理文本标引文本表示特征选择构建分类器结果评价一、自动分类概述3、文本分类的步骤、文本分类的步骤(1)文本预处理)文本预处理即将原始文本进行分词处理并转化为标准格式,需要删除的套话和停用词一

18、般也在这个阶段删除。(2)文本标引)文本标引通常选择文本中的特征词作为该文本的特征项。自动分类是建立在自动标引的基础(3)文本表示)文本表示即选用什么样的语言要素和用怎样的数学形式组织这些语言要素来表征文本。一、自动分类概述3、文本分类的步骤、文本分类的步骤(4)选择合适的分类方法)选择合适的分类方法 即:用什么方法建立从文本特征到文本类别的映射关系。现有的主题分类技术主要有3种方法:v基于统计的方法:如快速聚类、扁平聚类、层次聚类、支持向量机,等等;v基于联结的方法:即人工神经网络;v基于规则的方法:如决策树、关联规则等。(5)性能评估)性能评估 即如何评估分类方法和系统的性能。目前使用比较

19、多的分类性能评估指标为查全率和查准率。二、自动聚类技术概述1、定义、定义所谓“文本聚类”(text clustering),就是完全根据文本文档的内容相关性来组织文档集合,将整个集合分成若干个类,并使得属于同一类的文档尽量地相似,属于不同类的文档差别明显。聚类的定义:v(文档)聚类是将一系列文档按照相似性聚团成子集或者簇(cluster)的过程v簇内文档之间应该彼此相似v簇间文档之间相似度不大v聚类是一种最常见的无监督学习(unsupervised learning)方法。聚类假设聚类假设:在考虑文档和信息需求之间的相关性时,同一簇中的文档表现互相类似。二、自动聚类技术概述2、类别、类别(1)

20、按照聚类所依据的文本特征)按照聚类所依据的文本特征v基于词语特征的自动聚类;v基于非词语特征的自动聚类。基于引文的聚类:基于引文的聚类:v“文献耦合”:如果A和B两篇文献共同引证了一篇或多篇参考文献,则称A和B两文献具有引文的耦合关系。其耦合程度可以用“耦合强度”指标来衡量,“耦合强度”的度量单位是A和B共有的参考文献的篇数。v“文献同被引”:是指两篇文献被别的文献同时引用,并以共同引用它们的文献数量作为测度,称为“同被引强度”。二、自动聚类技术概述2、类别、类别(2)按照聚类文本归属的不同)按照聚类文本归属的不同v硬聚类:每篇文档仅仅属于一个簇,很普遍并且相对容易实现。v软聚类:一篇文档可以

21、属于多个簇,较复杂。软聚类对于诸如浏览目录之类的应用来说很有意义,比如,将 胶底运动鞋(sneakers)放到两个簇中:v体育服装(sports apparel)v鞋类(shoes)二、自动聚类技术概述3、聚类步骤、聚类步骤“文本聚类文本聚类”:从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。由定义可知聚类的步骤:v从待分类对象中提出特征定义属性(等同于自动标引,所以:自动标引是自动分类的基础);v将提出的全部特征进行比较计算相关性,形成相关矩阵(大多都是基于经典的向量空间检索模型);v根据一定的原则

22、将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等聚类算法。文本聚类的流程图目标文档集合1、自动标引2、建立文档向量3、构建文档相关矩阵4、聚类处理5、聚类输出二、自动聚类技术概述4、文本聚类的应用、文本聚类的应用文本聚类是一种重要的文本挖掘技术,在文本信息处理系统中,它的价值主要表现在以下几个方面:v聚类检索聚类检索:发现与某文档相似的一批文档,以帮助用户发现相关知识,加快了搜索的速度;v检索结果聚类检索结果聚类:可以将检索结果文档集合聚集成若干个类,使用滚迅速定位到所需要的信息。v信息组织信息组织:文档集聚类:提供一种组织文档集合的方法,以便于有效地进行信息的展示(如:

23、信息过滤、信息主动推荐等);v生成分类体系生成分类体系:可以作为一种文本分类的辅助技术,即使用聚类技术可以生成用于文本自动分类的分类体系表。三、文本表示与相关矩阵计算三、文本表示与相关矩阵计算 20世纪60年代末期,Gerard Salton(现代信息检索的奠基人),SMART系统。向量空间检索模型:Vector Space Model,简称VSM 向量空间模型向量空间模型是用提问词和标引词的向量空间来表示用户的查询要求和文档信息,根据向量空间的相似度,排列查询结果。向量空间方法的基本思想要点基本思想要点是:v(1)文档D用标引词的向量表示;v(2)查询Q用提问词的向量表示;v(3)匹配方法:

24、计算文档向量和查询向量之间的相似度;三、文本表示与相关矩阵计算三、文本表示与相关矩阵计算1文档向量的构造文档向量的构造考虑到一个有n个记录(文献)的集合:D=d1,d2,dn 对一条属于该集合的特定的文档记录di,可以用属性向量把它表示成:di(ti1,ti2,tim)di就称为文档向量,其中:m:用于描述这些记录的属性的个数,一般情况下,该属性为主题词;tij:表示文献di中具有属性tj(j1,2,m)的程度。把这种程度用数值的形式表示出来,就是人们常说的“加权加权”。最简单的情况:若文献di具有属性tj,则tij1;否则tij0。我们称向量di(ti1,ti2tim)为文档向量文档向量。三

25、、文本表示与相关矩阵计算三、文本表示与相关矩阵计算1文档向量的构造文档向量的构造 cij的取值如前所述,可以简单地用1、0来表示,也可以用1,0之间的数来表示。需要注意的是,如果是后者的话,一般应该有:三、文本表示与相关矩阵计算三、文本表示与相关矩阵计算2相似度的计算相似度的计算 量化地判断系统文档两两之间的相似程度文献相关矩阵D较常采用的相似度计算指标是两个向量夹角的余弦值:1)简单匹配系数:2)余弦系数:三、文本表示与相关矩阵计算三、文本表示与相关矩阵计算 文献属性相关矩阵 文献相关矩阵:三、文本表示与相关矩阵计算三、文本表示与相关矩阵计算 文献相关矩阵文献相关矩阵D:为了表示文献之间的相

26、关关系,分别计算C矩阵中第i行与第j行之间的相关系数dij,由dij构成的一个nn的矩阵就称作文献相关矩阵。当C矩阵中的值取1和0时,dijk,说明这两篇文献中有k个相同的标引词。矩阵中dij元可以理解成第i篇文献与第j篇文献包含的属性词的重复面的大小,dij越大,说明第i篇文献与第j篇文献包含的相同主题越多,因此两篇文献的相关程度也就越大。三、文本表示与相关矩阵计算三、文本表示与相关矩阵计算 2相似度的计算相似度的计算 在聚类分析中,对象相似性的指标大致可分为二类:v距离指标:常用的距离指标有:绝对值距离、欧式距离和切比雪夫距离。v相似系数。常用的相似性指标为:余弦系数、皮尔逊积差相关系数、

27、重叠系数、雅克比系数等。四、等级聚类法和快速聚类法1 等级聚类的概念等级聚类的概念 等级聚类又称为分层聚类、层次聚类、系统聚类、谱系聚类,是一种可以利用谱系结构或树状结构图来描绘聚类过程的方法,也是进行聚类分析时应用最多的方法。特别适用于对小样本场合(样本量在100以内比较合适)。四、等级聚类法和快速聚类法1 等级聚类的概念等级聚类的概念等级聚类可以分为分解法和凝聚法:v分解法(Top-down):在聚类开始时,将所有的文献都看成是一类,然后再根据距离或相似性,不断进行分解,直到每篇文献都自成一类为止。v凝聚法(Bottom-up):聚类开始将每篇文献看成一类,然后再根据距离或者相似性,不断进

28、行合并,直到将所有文献都归结为一类为止。四、等级聚类法和快速聚类法2 凝聚法凝聚法以凝聚法为例,分层聚类的主要步骤有:将每篇文献视为一类,选择度量距离的方法,计算点与点之间的距离,并将最近的两篇文献聚为一类;选择计算类与类之间距离的方法,计算类与类之间的距离,并将最近的两类进行合并;如果合并后的类数大于1,继续进行类与类之间的合并,直到所有文献合并为一类;绘制等级聚类的谱系图,并根据研究目的、相关的专业理论等选择确定最后的分类结果。上述整个合并的历史是构成一个二叉树,四、等级聚类法和快速聚类法3 类(簇)相似度的定义类(簇)相似度的定义计算类与类之间的距离成为聚类法中的一个核心问题,常见的聚集

29、方法有:v最短距离法;v最长距离法;v中间距离法;v组间平均距离法;v重心法;v组内平均距离法;v离差平方和法。四、等级聚类法和快速聚类法4、动态聚类动态聚类法又称为:均值聚类、快速聚类。K均值聚类是文本聚类的默认或基准算法。动态聚类的基本思想基本思想是:先对所要分类的事物作一个初始的分类,然后按照某种最优的原则修改不合理的初始分类,直至分类被认为比较合理时为止,形成最终的聚类结果。处理流程图如下:动态聚类流程图算法开始确定聚类个数(凝聚点、质心向量)将文档分配给离它最近的质心向量聚类合理聚类结果算法结束重新计算质心向量YN例子6364例子:随机选择两个种子例子:随机选择两个种子(K=2)64

30、例子:将文档分配给离它最近的质心向量(第一次)65例子:分配后的簇(第一次)66例子:重新计算质心向量67例子:将文档分配给离它最近的质心向量(第二次)68例子:重新分配的结果69例子:重新计算质心向量70例子:再重新分配(第三次)71例子:分配结果72例子:重新计算质心向量73例子:再重新分配(第四次)74例子:分配结果75例子:重新计算质心向量76例子:重新分配(第五次)77例子:分配结果78例子:重新计算质心向量79例子:重新分配(第六次)80例子:分配结果81例子:重新计算质心向量82例子:重新分配(第七次)83例子:分配结果84 例子:重新计算质心向量85质心向量和分配结果最终收敛8

31、6四、等级聚类法和快速聚类法4、动态聚类法、动态聚类法优点:优点:动态聚类法具有方法简单、计算量小、占用计算机内存空间较少、聚类速度快等优点,比较适用于大样本量的文献聚类分析。缺点:缺点:需要事先规定类别的个数,而且中心的选择带有随意性。动态聚类的两个关键问题两个关键问题需要得到较好地解决:v如何确定并调整聚类参数k;v如何选取合适的初始凝聚点。注:动态聚类法得到的结果没有层次结构(扁平结构)。可以将等级聚类法和k均值聚类法结合结合起来使用:先利用等级聚类法得到一个分类的初始解;然后将所得到的类别数和聚类中心作为动态聚类法的输入,再作进一步分析,以获得更为理想的分类结果。五、基于聚类文档的检索

32、模型1、聚类文档的类目表示、聚类文档的类目表示在建立聚类文档后,为了判断各个类目与用户需求的相关程度,需要从整体上给出各个类目的某种表示。这种聚类表示也称为理想文献理想文献表示。最常见的一种方法是把聚类的子类中的各文献以某种“平均”的方法来表示,即我们之前学到的中心文献向量。例如:请计算下列文献类别的理想文献。五、基于聚类文档的检索模型2、检索策略(1)扁平聚类的检索策略(2)层次聚类的检索策略对一个多级分类的文献集合,一种简单的检索策略检索策略是:先从最高(粗)级分类开始,计算这一级分类中各子类与(给定)查询q的相似程度,将检索限制在相似程度最大的那一个子类中,对这个子类的检索将在下一级分类

33、中按照同样的步骤进行。这个过程一直继续到满足“停止法则”为止。停止法则停止法则是:当第k1(较细)级分类中各子类与查询q的相似程度的最大值小于第k级(较粗)分类中各子类与查询q的相似程度的最大值时,就停止往下进行,而将检索限定在第k级分类中与查询q相似程度最大的那一个子类中。六、基于聚类文档的检索模型C1nC2nC1n-1C2n-1C3n-1C1n-2C2n-2C3n-2C4n-2C5n-2C6n-2C1n-3C2n-3C3n-3C4n-3C5n-3C6n-3C7n-3C8n-3六、基于聚类文档的检索模型设Ckn表示第n级分类中第k个子类的理想文献表示,则当:时,将检索从第n级分类扩展到第n1级分类,当时,将检索限制在第n级分类中,并以该级分类中与查询q的相似程度最大的子类为对象,搜索该子类的原始文献。六、基于聚类文档的检索模型有关此策略的一些注意事项是:(1)它以聚类假设为基础,即密切相关的文献倾向于相同的检索要求。(2)如果相似函数的最大值不惟一,则当我们考虑下一步的需要时,要有一个特殊的处理过程(略)。(3)查找总要终止并将检索到最后一篇文献。显然,该检索策略是在各级各类的检索中,忽略了原始文献集合中各文献的个体属性,而将任一子类中各文献都等同地同该子类所产生的理想文献来代表。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服