1、8 文献计量学方法文献计量学方法内 容 提 要&8.1 概述&8.2 文献计量学方法的基本原理及其应用8.1 8.1 概概 述述文献计量学的产生和发展文献计量学的产生和发展值得关注的趋势值得关注的趋势从文献计量向信息计量发展从文献计量向信息计量发展文献计量学、科学计量学、信息计量学的合流趋势文献计量学、科学计量学、信息计量学的合流趋势文献计量研究手段的现代化趋势文献计量研究手段的现代化趋势重视文献计量学在科技管理和决策中的应用重视文献计量学在科技管理和决策中的应用文献计量学的研究对象和内容文献计量学的研究对象和内容文献计量学的研究对象文献计量学的研究对象文献及其内容信息文献及其内容信息与文献相
2、关的指标与文献相关的指标文献计量学的研究内容文献计量学的研究内容文献计量学的基本理论文献计量学的基本理论文献计量学的方法文献计量学的方法文献计量学的应用文献计量学的应用8.2 8.2 文献计量学方法文献计量学方法 的基本原理及其应用的基本原理及其应用布拉德福定律及其应用布拉德福定律及其应用 英国文献学家布拉德福英国文献学家布拉德福提出了定量描述文献序性结构的经验定提出了定量描述文献序性结构的经验定律:律:“如果将科技期刊按其刊载某专业论文的数量的多少以递如果将科技期刊按其刊载某专业论文的数量的多少以递减顺序排列起来,则可以在这些期刊中区分出载文率最高的核减顺序排列起来,则可以在这些期刊中区分出
3、载文率最高的核心区和包含着与核心区同等数量论文的后继几区。此时,核心心区和包含着与核心区同等数量论文的后继几区。此时,核心区和后继各区中所含的期刊数成区和后继各区中所含的期刊数成1:n:n2的关系(的关系(n1)。)。应用:应用:主要体现在文献信息的搜集环节上。主要体现在文献信息的搜集环节上。也可用于研究某一学科发展的特点以及学科之间的交叉影响也可用于研究某一学科发展的特点以及学科之间的交叉影响和相互渗透关系,并以此确定某些新学科的生长点。和相互渗透关系,并以此确定某些新学科的生长点。布拉德福定律及其应用布拉德福定律及其应用 也可用于研究某一学科发展的特点以及学科之间的交叉影响也可用于研究某一
4、学科发展的特点以及学科之间的交叉影响和相互渗透关系,并以此确定某些新学科的生长点。和相互渗透关系,并以此确定某些新学科的生长点。不太成熟较成熟核心区洛特卡定律及其应用洛特卡定律及其应用 洛特卡定律是揭示文献著者与数量关系的基本定律,是为了洛特卡定律是揭示文献著者与数量关系的基本定律,是为了评价科学工作者的贡献,由洛特卡于评价科学工作者的贡献,由洛特卡于19261926年提出的。年提出的。洛特卡定律的数学表达式为:洛特卡定律的数学表达式为:f(x)=C/X2 0.6/X2 发表x篇论文的著者出现的频率(在所统计的著者总数中所占的比例)科学工作者发表的论文数量 C为常数,C的极限值为0.6079
5、齐普夫定律及其应用齐普夫定律及其应用 美国哈佛大学语言学教授齐普夫于美国哈佛大学语言学教授齐普夫于19351935年提出年提出齐普夫定律齐普夫定律:在:在一篇足够长的文章(一篇足够长的文章(50005000字以上)中,如果我们以单词词频的字以上)中,如果我们以单词词频的高低进行等级排列(约定词频越高,则单词的等级越高),词高低进行等级排列(约定词频越高,则单词的等级越高),词频最高的单词等级为频最高的单词等级为1 1,次之为,次之为2 2,再次之为,再次之为3 3,则词频,则词频与等级之间存在着一次反比关系。与等级之间存在着一次反比关系。f*r=C与样本有关的常数某一单词的词频该单词的等级序号
6、齐普夫定律及其应用齐普夫定律及其应用v美国语言学家朱斯(美国语言学家朱斯(M.JoosM.Joos)提出了广义的齐普夫定律数学)提出了广义的齐普夫定律数学公式:公式:F*rF*rB B=C =C B B为与样本有关的常数为与样本有关的常数 v法国数学家芒代尔布罗(法国数学家芒代尔布罗(B.MandelbrotB.Mandelbrot)运用信息论原理和)运用信息论原理和概率论方法在式概率论方法在式8-58-5的基础上,进一步提出了新的修正式:的基础上,进一步提出了新的修正式:F*F*(r+mr+m)B B=C =C m m为与样本有关的常数;为与样本有关的常数;齐普夫定律的齐普夫定律的运用实例运
7、用实例v电子邮件列表成员的相对价值。电子邮件列表成员的相对价值。按照齐普夫定律,这种网络的成员可以像齐普夫定律排列单词那样来排序按照你收件箱当中电子邮件的数量。每个人所发的电子邮件都会给你收件箱的总“价值”贡献1/k,这里的k是指每个人的排名。引文分析及其应用引文分析及其应用引文分析是运用数学、统计学和逻辑学的方法对论文、专著引文分析是运用数学、统计学和逻辑学的方法对论文、专著等各种文献的相互引用现象进行分析,以揭示出其数量特征和等各种文献的相互引用现象进行分析,以揭示出其数量特征和内在规律的一种研究方法。内在规律的一种研究方法。在进行引文分析时,经常采用的计量指标有:引文率、被引在进行引文分
8、析时,经常采用的计量指标有:引文率、被引用率、自引率、被自引率、影响因数、即年指标、引文耦合强用率、自引率、被自引率、影响因数、即年指标、引文耦合强度、同被引强度等。度、同被引强度等。内容分析法内容分析法内容分析法(Content Analysis)是对文献内容进行系统的定量分析的一种专门方法,其目的一般是弄清或测度文献中本质性的事实或趋势。补充补充20世纪初,人们提出在一般性阅读文献获得理解世纪初,人们提出在一般性阅读文献获得理解之外,采用半定量的统计方法对文献的内容进行之外,采用半定量的统计方法对文献的内容进行深入分析和解释。二战中,美国传播学家拉斯韦深入分析和解释。二战中,美国传播学家拉
9、斯韦尔等在进行战时军事和政治信息分析中,以德国尔等在进行战时军事和政治信息分析中,以德国公开出版的报纸为分析对象,分析获取法西斯政公开出版的报纸为分析对象,分析获取法西斯政权重要军政机密情报,取得了出乎意料的成功,权重要军政机密情报,取得了出乎意料的成功,使内容分析法显示出实际效果。使内容分析法显示出实际效果。60年代,前苏联年代,前苏联学者在社会科学研究中采用内容分析法。学者在社会科学研究中采用内容分析法。60年代年代日本巧妙获取大庆油田的相关情报。日本巧妙获取大庆油田的相关情报。半定量分析方法。对大量样本进行特征识别的系统方法,具有统计性。可以揭示出隐性的内容。是一种从公开资料中萃取秘密信
10、息的方法。确定目的确定目的选择样本选择样本定义分析单元定义分析单元制定分析框架制定分析框架频数统计频数统计结论汇总结论汇总建立假设建立假设检验假设检验假设内容分析步骤框图确定目的确定目的必须首先明确。必须首先明确。选择样本选择样本力求样本信息量大,有力求样本信息量大,有连续性,便于统计分析并尽可能是分连续性,便于统计分析并尽可能是分析人员所熟悉的。析人员所熟悉的。分析单元分析单元是内容的是内容的“指示器指示器”。一般先依。一般先依据目的确定分析范畴,即确定符合目的要求的据目的确定分析范畴,即确定符合目的要求的最一般的关键性概念。确定范畴时应避免两个最一般的关键性概念。确定范畴时应避免两个极端:
11、过大的范畴可能使分析结果表面化和简极端:过大的范畴可能使分析结果表面化和简单化;过细的范畴造成几乎重复原文。范畴选单化;过细的范畴造成几乎重复原文。范畴选择之后,再明确相对应的分析单元。分析单元择之后,再明确相对应的分析单元。分析单元是不再细分析测度单位。对文字对象,词是最是不再细分析测度单位。对文字对象,词是最小的分析单元。此外,意义独立的词组、简单小的分析单元。此外,意义独立的词组、简单句、段和意群甚至独立的篇也可视作分析单元。句、段和意群甚至独立的篇也可视作分析单元。在复杂的内容分析中,可同时采用几种分析单在复杂的内容分析中,可同时采用几种分析单元。元。制定分析框架制定分析框架体现分析思
12、路和保证系统性的体现分析思路和保证系统性的核心步骤。要求分析人员对问题本身和分析对象核心步骤。要求分析人员对问题本身和分析对象二者都有深透的认识。其基本出发点是使分析单二者都有深透的认识。其基本出发点是使分析单元的测度结果能反映和说明实质性的问题。例如,元的测度结果能反映和说明实质性的问题。例如,用图书馆中通用的主题词表作词频分析有时意义用图书馆中通用的主题词表作词频分析有时意义不大,原因在于通用的主题词表并不是为分析专不大,原因在于通用的主题词表并不是为分析专门问题而设计的。门问题而设计的。频数统计频数统计一种规范性的操作,包括计数一种规范性的操作,包括计数和数据处理,需要通过大数量的统计反
13、映统和数据处理,需要通过大数量的统计反映统计意义上的相关性。在内容分析中,最常用计意义上的相关性。在内容分析中,最常用的是词频统计。的是词频统计。结论汇总结论汇总在综合统计结果和定性分析的在综合统计结果和定性分析的基础上,得出某些结论性的看法,同时指出基础上,得出某些结论性的看法,同时指出所作的内容分析的适用范围或边界。所作的内容分析的适用范围或边界。分析的核心是推理和比较。常见的有:分析的核心是推理和比较。常见的有:趋势比较趋势比较历史性纵向比较,着眼于同一历史性纵向比较,着眼于同一事件在时间序列中的变化趋势。事件在时间序列中的变化趋势。不同内容体比较不同内容体比较同一主题下,比较来源同一主
14、题下,比较来源不同的信息内容,从而得出结论。如各国对不同的信息内容,从而得出结论。如各国对同一事件的反应。这种比较是共时性的横向同一事件的反应。这种比较是共时性的横向比较。比较。内容内比较内容内比较对同一文献中不同主题的比对同一文献中不同主题的比较,以分析其相关性和差异。如比较某报纸较,以分析其相关性和差异。如比较某报纸对白人和黑人的不同用词。对白人和黑人的不同用词。带标准的内容比较带标准的内容比较有一给定的标准作为有一给定的标准作为比较尺度,对文献内容进行相应的比较。即比较尺度,对文献内容进行相应的比较。即事先确立某种评估标准,在该标准下得出比事先确立某种评估标准,在该标准下得出比较结果。较
15、结果。分析方法内容分析的类 型贾尼斯(美国内容分析专家)划分法贾尼斯(美国内容分析专家)划分法实用内容分析实用内容分析对某些主题词或特定的词汇进行统计分对某些主题词或特定的词汇进行统计分析,并赋予不同的权重(如对不同的字体、版面位置、排析,并赋予不同的权重(如对不同的字体、版面位置、排名顺序等),推断其出现的原因和可能的后果。对报纸、名顺序等),推断其出现的原因和可能的后果。对报纸、新闻进行内容分析时,常属该类型。新闻进行内容分析时,常属该类型。语义内容分析语义内容分析针对文字的语义内容,对特定词汇作统针对文字的语义内容,对特定词汇作统计分析,统计不局限于字面。如二战中统计计分析,统计不局限于
16、字面。如二战中统计“德国德国”出现出现的次数时,包括的次数时,包括“第三帝国第三帝国”、“纳粹政府纳粹政府”、“希特勒希特勒当局当局”等。等。符号媒介分析符号媒介分析只从字面上统计特定的符号(如某些主只从字面上统计特定的符号(如某些主题词)出现的频率,不考虑语义,也不引入权重等,从中题词)出现的频率,不考虑语义,也不引入权重等,从中进行内容分析。如依据某社论中某词出现的次数得出结论。进行内容分析。如依据某社论中某词出现的次数得出结论。指定分析指定分析:统计分析指定的人、:统计分析指定的人、事、物出现的频次。事、物出现的频次。归因分析归因分析:统计分析相关特征:统计分析相关特征的频次。如分析某人
17、物时统计的频次。如分析某人物时统计其不诚实信息出现的次数。其不诚实信息出现的次数。断言分析断言分析:统计对某人、事、:统计对某人、事、物作出反应的有关信息次数,物作出反应的有关信息次数,以分析特定的主题(如对某项以分析特定的主题(如对某项政策的反应)。政策的反应)。按内容分析采用的分析单元区分按内容分析采用的分析单元区分词频分析词频分析文献计量学研究的重要工具。文献计量学研究的重要工具。包括主题词词频分析和指示词词频分析。包括主题词词频分析和指示词词频分析。篇幅分析篇幅分析是以具有独立意义的内容篇幅是以具有独立意义的内容篇幅作为分析单元,根据对有关内容的比重作为分析单元,根据对有关内容的比重
18、结构结构及数量变化等进行分析和推测。内容篇幅的及数量变化等进行分析和推测。内容篇幅的统计以标准页或单篇报道等作为单位。一般统计以标准页或单篇报道等作为单位。一般进行篇幅分析的工作量是比较大的。如进行篇幅分析的工作量是比较大的。如J.奈斯奈斯比特对美国社会发展趋势的分析。比特对美国社会发展趋势的分析。主题词词频分析主题词词频分析:用主题词作为分析单元,从统计所分析的对:用主题词作为分析单元,从统计所分析的对象中有关主题词出现的频次为基础进行分析和推断。所用的主象中有关主题词出现的频次为基础进行分析和推断。所用的主题词取自图书馆的主题词表或数据库的叙词表,因此是用现成题词取自图书馆的主题词表或数据
19、库的叙词表,因此是用现成的通用的高度规范的词汇作为分析单元。使用这些词,一方面的通用的高度规范的词汇作为分析单元。使用这些词,一方面比较可靠、方便,另一方面可能难以揭示一些特定的内容,并比较可靠、方便,另一方面可能难以揭示一些特定的内容,并要求熟悉文献标引和有关专业的知识。要求熟悉文献标引和有关专业的知识。指示词词频分析指示词词频分析:用特定的指示词作为分析单元,根据其频次:用特定的指示词作为分析单元,根据其频次进行分析判断。指示词进行分析判断。指示词 是文献内容中能反映特定概念的实义是文献内容中能反映特定概念的实义词,是依据具体的分析对象和分析目标专门选定的,是非标准、词,是依据具体的分析对
20、象和分析目标专门选定的,是非标准、非规范化的。优点是有可能满足特定的分析需要,较为灵活,非规范化的。优点是有可能满足特定的分析需要,较为灵活,便于解决一些专门性的问题。但无法利用现成的规范的文献标便于解决一些专门性的问题。但无法利用现成的规范的文献标引,要在所选定的指示词的基础上专门建立有关的数据库,因引,要在所选定的指示词的基础上专门建立有关的数据库,因此往往工作量要大得多。此往往工作量要大得多。内容分析法局限内容分析法局限 文献需具备两个条件:形式化原则,即能从文献文献需具备两个条件:形式化原则,即能从文献中抽出便于可靠统计的、具有语义特征的分析单元。中抽出便于可靠统计的、具有语义特征的分
21、析单元。统计原则,即要有一定数量的文献。统计原则,即要有一定数量的文献。方法的背景是归纳法。即不可能超越和脱离所分析方法的背景是归纳法。即不可能超越和脱离所分析的文献。不是一种发挥想象的开放式方法。的文献。不是一种发挥想象的开放式方法。方法实施的工作量大,投入时间较长。特别是长期方法实施的工作量大,投入时间较长。特别是长期跟踪或大范围扫描的内容分析工作,对人力和时间跟踪或大范围扫描的内容分析工作,对人力和时间的要求更加突出,需要计算机辅助分析。的要求更加突出,需要计算机辅助分析。供词:供词:“我我的小册子里的小册子里的全部材料的全部材料都是从德国都是从德国公开报刊上公开报刊上得来的!得来的!”
22、内容分析法案例内容分析法案例 二战期间,侨居瑞士的德国二战期间,侨居瑞士的德国新闻记者新闻记者伯尔托尔德伯尔托尔德 雅各布雅各布编写的一本反映德军编写的一本反映德军168位军事位军事指挥官简历的指挥官简历的172页的小册子事页的小册子事件。件。内容分析法案例内容分析法案例 奈斯比特奈斯比特大趋势大趋势改变我们生活的改变我们生活的十个新趋热十个新趋热“趋势报告趋势报告的工作人员每月不断地监的工作人员每月不断地监视视6 000种地方报纸种地方报纸经过经过12年这样仔年这样仔细地监视地方事件,我已经逐渐能清楚细地监视地方事件,我已经逐渐能清楚地辨别出我们正在对美国进行结构重组地辨别出我们正在对美国进
23、行结构重组的方向。的方向。”奈斯比特奈斯比特分析样本分析样本凡凡10万人口以上的城市的所有的州政府的万人口以上的城市的所有的州政府的地方报纸均作为分析的对象,并考虑报纸质量和代表性。地方报纸均作为分析的对象,并考虑报纸质量和代表性。约约6000种地方报纸。种地方报纸。分析的框架分析的框架一级共一级共10个,即教育、就业、环境、政个,即教育、就业、环境、政府和政策、健康、住房、人际关系和经济联系、法律和府和政策、健康、住房、人际关系和经济联系、法律和正义、交通、福利和贫困。这些一级主题再分解为二级、正义、交通、福利和贫困。这些一级主题再分解为二级、三级和四级主题。每一个一级主题大致分为三级和四级主题。每一个一级主题大致分为816个小主个小主题,总共有题,总共有117个小主题。个小主题。分析单元分析单元以单篇报道作为分析单元,按主题框架对以单篇报道作为分析单元,按主题框架对每篇报道归类编码,建立可多种途径检索的全文数据库。每篇报道归类编码,建立可多种途径检索的全文数据库。篇幅分析篇幅分析利用所建的数据库可以实现多方面的内容利用所建的数据库可以实现多方面的内容分析,如某一议题的篇幅变动分析,某一时期内各类主分析,如某一议题的篇幅变动分析,某一时期内各类主题的比例结构等,从而完成系统化的定量和定性分析。题的比例结构等,从而完成系统化的定量和定性分析。