资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,文献计量学,三大定律,目录,1,、文献计量学的概述,2,、文献计量学三大定律,产生背景,发展,应用,概念,文献计量学,是将,数学,和,统计学,的方法运用于,文献,及,其他交流介质,研究的一门学科。,文献计量学产生于20世纪初,20年代到40年代形成了构成其主要理论框架的几个经典定律。1969年出现“文献计量学”这个名词,成为,情报学,的重要组成部分。现在文献计量学已成为图书情报领域内最活跃的一个分支学科,体现了当代学科定量化的趋势。,特点,4,/12,文献计量学的概念是不统一的,不同研究者有不同的解释。同一研究者也在不断修正自己的观点。其具有如下特点:,首先,,文献计量学的研究内容主要是文献情报流的机理探讨。,如论文作者指标、引证文献与被引证文献及二者之间的关系、文献的利用情况、书目、文献、索引等。,其次,,文献计量学的关键是定量,用定量化方法对文献特征进行分析处理。,采用了情报学与数学、统计学相结合的研究手段。文献计量学通过采集和处理数据,深刻、准确地观察和描述各种现象及规律。,最后,,以若干基本定律和规律为基础进行文献分布研究。,布拉德福定律、洛特卡定律和齐普夫定律的建立,为文献计量学奠定了坚实的基础。,发展趋势,21世纪,随着信息科学和信息技术的迅速发展,信息资源向着电子化、数字化、网络化的方向发展,给人类社会、政治、经济、科技和文化带来的巨大的影响和深刻的变革。,在新的社会环境和技术条件下,文献计量学的发展呈现新的趋势。具体表现为:,1.,计量单位的深入。,文献计量学已经不仅仅停留在以篇、册、本为单位 的文献单元的计量上,而开始深入到文献的内部知识单元和文献的相关信息进行计量研究,如题目、关键词、词频、知识项、引文信息、著者、出版者、日期、语言、格式等都已成为计量的对象。,5,/12,6,/12,2.,文献计量研究工具现代化。,随着计算机的普及,研究者开始利用计算机进行文献计量工作。通过建立系统化、规范化的数据来源体系和原始数据的获取渠道,利用计算机等现代化方法和手段进行数据处理和分析研究。,3.,网络计量学产生并且有了一定的发展,。,信息资源网络化的发展为网络计量学的产生提供了基础条件和研究对象。,定义:,网络信息计量学,是采用数学、统计学等各种定量方法,对网上信息的组织、存贮、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以便指示网络信息数量特征和内在规律的一门新兴分支学科。,三大定律,7,/12,洛特卡定律,齐普夫定律,布拉德福定律,布拉德福定律,8,/12,布拉德福(Bradford)定律,的含义,:,信息流的序性结构经验定律,也叫文献分散定律。,布氏定律,是英国文献学家布拉德福于1934 年在 Engineering 杂志上发表的 Sources of information onspecific subjects 上提出的描述文分散规律的经验定律。,在其专著 文献工作 中,他又一次阐述了文献分散定律。认为,“,在数量很大的文献体中,文献按某一规律的模型分散,”,。,科学信息很大程度上是以科技期刊的形式出现的,借助期刊这个载体得以交流传播,科技期刊对促进科学技术发展起着举足轻重的作用。,布拉德福定律 (Bradford Law of Scattering)就是描述某一学科论文在相关期刊中的分布规律。它定量的揭示了,科学论文在期刊中的集中与离散分布规律,,今天仍然具有不可替代的理论价值和实际意义。,产生背景,9,/12,1,、文献分散是普遍的客观现象,在科学研究和文献工作中,布拉德福深深感到科学文献的分散。他发现:一门学科的论文分散在其他学科的期刊杂志上是屡见不鲜的。,2,、科学统一性,科学统一性原则是布拉德福定律产生的思想基础。布拉德福认为;按照科学统一性原则,科学技术的每一个学科都或多或少、或远或近地与其他任何一个学科相关联。,3,、文献统计研究是布氏定律产生的基础,布拉德福本人在长期的文献工作中,对科学文献进行大量的统计研究,掌握了文献分散的特点,发现了其中的某些规律性;并在文献统计的基础上经过数学推导,得出了与上述理论推导一致的结论,为布拉德福分散定律的正式确立奠定了基础。,产生和基本内容,10,/12,1933,年,英国科学博物图书馆的布拉德福选择了,“,应用地球物理学,”,和,“,润滑,”,专业领域为样本,组织图书馆的工作人员统计所收集的科技期刊上的相关论文,共统计了,490,种期刊,,1727,篇论文,并将期刊按照相关论文载文量的多少减序排列。,然后他采用,3,种不同的方法,即,区域分析、图像观察和数学推导,的方法对文献统计数据进行了分析研究,结果发现,尽管学科不同,但相关论文在相应的期刊有着同样的分布规律。,布拉德福于,1934,年,1,月在工程发表了题为专门学科的情报源一文,首次公开提出了,定量描述文献分散规律的经验定律,即布拉德福定律。,区域分析,11,/12,布拉德福定律的区域分析,:如果将科学期刊按其登载某个学科的论文数量的大小,以减序排序,那么可以把期刊分为专门面向这个学科的核心区、相关区、非相关区,,3,个区的论文数量相等,此时,核心区、相关区、非相关区期刊数量之比为:1aa,a,为布拉德福常数。,核心区:所发表的论文来自数量不多但是效率最高的期刊,相关区:数量较多的中等效率的期刊,非相关区:数量众多但效率最低的期刊,图像分析,12,/12,此外,布拉德福还对收集的数据进行,图像分析,:取上述等级排列的,期刊数量的对数,为横坐标,以相应的,论文累计数R(n),为纵坐标进行图像描述,就得到了布拉德福分散曲线。,发展,13,/12,自从布拉德福定律产生,很多学者对其进行了关注。,英国,情报学家,维克利,最早把布氏定律推广到更一般的情形,指出分布图形由曲线和直线两部分组成,且布拉德福定律不只是局限于划分,3,个区,而同样适用于,3,个区以上,的情形,即与选区区域的数量无关,但分区不同,比例系数则要相应地变化。,n,1,:,n,2,:,n,m=,1,:,a,:,a,m-1,14,/12,英国情报学家,布鲁克斯,首次用数学公式描述了布拉德福的经验定律,发展了,图像描述方法,,从而完成了布氏定律的这一重要的后续工作,并创造性地提出用,两个部分,组成的数学表达式来描述布拉德福定律,分别表示图像的曲线部分和直线部分:,总结:发展过程,15,/12,创立阶段,1934,年,布拉德福的论文特定主题的信息源,1934-1948,年,无人问津,1948,年,文献学出版,使其理论开始传播,理论研究阶段(,60S,),“,布拉德福热,”,:相关研究空前活跃,形成两个学派:区域派和图像派,全面发展阶段(,60S,以后,),由纯粹的理论研究向应用领域渗透,理论与应用并举的全面发展情形,应用,16,/12,1,、指导期刊采购工作,确定,“,核心期刊,”,,为期刊选订提供依据,2,、考察专著的分布,分析各个出版社关于某一学科或专业的著作出版情况,确定此学科的,“,核心出版社,”,,以指导图书馆的采购工作,3,、动态馆藏的维护,可分析流通期刊的最小核心,以及核心读者所感兴趣的学科的最小核心,准确的为收藏服务,使馆藏保持为一种有序状态,17,/12,4,、检索工具完整性的测定,用来确定某一覆盖面的文摘索引至少要索及多少情报源,评价某一学科的检索工具的完整性,为这些工具的选择和利用提供科学依据,5,、学科幅度的比较,可确定不同学科核心区和,S,值,核心区出现的期刊数量可作为两门学科重叠程度的依据,S,值可以用来比较学科的领域范围和发展成熟程度,6,、指导读者利用期刊,以,“,核心期刊,”,的概念指导读者利用期刊,洛特卡定律,18,/12,1926,年,洛特卡最先研究了科学文献数量与著者数量之间的关系,并创造性地提出了“科学生产率,”,的概念。所谓“科学生产率”是指科学家在科学上所表现出来的能力和工作效率,通常用其生产的科学文献的数量来衡量。洛特卡就是从“科学生产率”这个概念出发,通过统计和分析科研人员的论著数量,首次揭示了科学文献按著者的分布规律。,产生背景,19,/12,19,世纪末,20,世纪初,,是科学发展史上一个重要的转折时期。物理学和化学领域取得了革命性的进展,同时文献领域科研人员和文献骤增。洛特卡首先注意到这种情况,着手研究了科研人员与其撰写的论著间的数量关系。,洛特卡首先引入,“,科学生产率,”,的概念来测量科研人员撰写科学文献的能力。,基本内容,20,/12,洛特卡对这些数据的统计结果表包含两部分的内容:,1.,与论著数量相对应的作者数量;,2.,著者频率,即相应的著者占著者总数的百分比。,这两个部分均按论著数量增序排列。,在对数据的研究过程中,洛特卡发现,科学领域的论著数量与著者频率有一定的关系。他在名为,科学生产率的频率分布,中,论述了化学与物理领域中,作者频率与论文数量的分布规律,,提出了描述这两者关系的一般公式,同时还阐明了科学生产率的经验规律,即洛特卡定律,又称“倒数平方定律”。,基本内容,21,/12,从洛特卡定律的产生过程可以看出,该定律的目的和基本内容是:描述科学工作者人数与其所论著论文之间的关系。,如果设,f,(,x,)为写了,x,篇论文的作者数占作者总数的比例,则洛特卡定律可表示为:,C,某特定主题领域的特正常数。,洛特卡统计的指数,a,约:,a=2,,即“平方反比率,”,。,洛特卡定律的发展,22,/12,一,.,洛特卡定律的验证工作,1926,年,洛特卡定律诞生;,1941,年,,Davis,对洛特卡的结果进行验证;,1949,年,,Zipf,在人类行为和最小努力法则中肯定洛特卡定律的同时也指出它的不足之处在于只是一种近似的计算方法,而不是一种严格意义上的分布。,后来,众多的学者在不同的领域取得数据进行研究,,对洛特卡定律的验证、完善与发展起到一定的作用。,(,在洛特卡定律的基础上,普莱斯进一步研究了科学家人数与科学文献的数量,以及不同能力层次的科学家之间的定量关系,提出了著名的普莱斯定律和一些其他重要结论,),23,/12,二,.,弗拉奇的贡献,对洛特卡定律的验证工作作了一个客观、严谨的总结;,发现了影响洛特卡分布的两个因素。,(a),研究者本人所处的时代或环境直接影响着研究结果,即该定律的验证工作具有一定的人为性,(b),论文作者的数量,即统计样本中有关作者的数据量或统计样本的容量与研究结果有关,24,/12,三,.,洛特卡定律在我国的发展,初期研究工作,文武商,讨论定律的推广和适用性问题;,应用研究,王崇德,,1987,年对我国情报科学作者的分布情况进行研究。,25,/12,四,.,合作者问题的研究,某种期刊在一定时期内的,合作度,=,作者总数,/,论文总数,*100%,合作率,=,合作论文数,/,论文总数,*100%,洛特卡定律的局限性,26,/12,LOTKA,定律是有局限性的,平方反比率是科学生产率一般的理论估计,不是一个精确的统计分布,它是对,CA,中收录的物理、化学两个领域十年间著者(姓氏以,A A,、,B B,开头)抽样研究结果的推广。后来的学者沿着这个思路进行的研究,有些数据符合这个规律,有些则不符合。,总而言之,只有统计时间区间足够长,统计数据充分才严格符合该定律。,洛特卡定律的应用,27,/12,1,、在,图书馆学情报学,方面,一般是用它来预测发表不同数目文章的著者数量和特定学科的文献数量;,2,、在,预测科学,方面,按照洛特卡定律,可以从统计或计算科学著者数量来预测文献数量的增长速度和文献流的动向,便于掌握文献的交流规律,同时从文献计量学的角度出发,也可以预测科学家数量的增长和科学发展的规模及趋势等;,3,、在,科学学和人才学,方面,可以用来研究科学家的活动规律,研究人才的著述特征等。,齐普夫定律,28,/12,词汇在科技文献中的使用和出现频率是有一定规律的,。许多学者对词频分布理论进行了探索和研究,其中最为著名的是齐普夫定律。,齐夫主要是根据汉莱,(M.Hanley),为朱伊斯,(J.Jayee),的中篇小说,尤利西斯,(Ullysses),一书所编的频率词典来进行工作的。该词典文句容量为,260,432,个,词典中收词,29,899,个。后来,齐普夫还根据其它一些文句中的词频统计来论证单参数词频分布公式的正确性。,齐夫在做了大量艰苦的统计工作后,将单词以其出现的频次的多寡进行了等级排队,经过计算,论证了描述词的频率与等级序号之间关系的定量形式。,产生背景,29,/12,频率词典,每一个词在一定长度的文件中出现的频率,两个最基本的数量指标,词的出现频率、词的序号,艾斯杜发现(,1916,),较长的文章中,词频分布的定量化形式,Nr*r=C,(常数),词的序号:,1,2,,,.,r.,D(1,:绝对频率最大的词,,D,:绝对频率最小的词),词的绝对频率:,n1,n2,.nr,.nD,30,/12,贡东的公式,根据德韦和阿叶斯的资料,得到词频分布图,词的序号的对数为横坐标,r,词的绝对频率的对数为纵坐标,n,定量公式:,fr*r=C,31,/12,齐普夫定律的确立,检验贡东关系式的可靠性并研究,C,的性质,确定,c,是一个系数,使得,验证了单参数词频分布公式的正确性,齐普夫定律的提出,32,/12,1949,年,美国语言学家齐普夫发表了专著,人类行为与最省力法则,,提出了最省力法则这个概念。齐普夫通过研究大量的统计资料,试图证明自然语言词汇在文献中的分布服从一个简单的定律,他称这一定律为,“最省力法则”,。齐普夫认为:人们在解决任何一个问题时,总是力图把所能付出的平均工作消耗最小化,达到最省力的地步。,基本内容,33,/12,齐普夫定律的基本内容为:如果把一篇较长文章(约,5000,以上)中的每个不同的词按其出现频次的递减顺序排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为,1,级,其次为,2,级,一直到,L,级,那么等级值和频次值的乘积是一个常数,即,:,其中,f,表示某个词在文章中出现的频次,r,表示该词的等级序号,,c,为常数。,齐普夫定律的局限性和发展,34,/12,由于齐普夫定律是一个纯粹的,经验定律,,只是通过一般的统计方法得到,所以它的使用范围有一定的局限性。对于频次特别高和频次特别低的词,都不能完全满足。,之后,一些学者对齐普夫定律进行了一些修正,这些修正主要在增加参数方面,有的学者把参数增加到两个,有的学者把参数增加到三个,使其更加精确的描述词频分布规律。比较突出的有美国语言学家朱斯的双参数等级分布率,美籍法国数学家芒代尔布罗的词的三参数频率分布规律,布斯的低词频的分布规律。,发展,35,/12,一、朱斯的修正,不仅,C,是一个参数,而且,r,的指数也是一个参数。,36,/12,二、芒代尔布罗的修正,提出了三参数序号分布规律:,a,b,c,三参数的含义如下:,参数,a,与词的数量有关,参数,b,与高频率词的数量有关,参数,c,与出现频率最高的词的概率大小有关,37,/12,三、低频词分布规律,齐普夫第二定律,齐普夫第二定律是阐述低频词频次与词数关系的一个定律。具体描述为:设,n,表示出现频次为,n,的词的个数,则,n/,1,的大小与文献的长度无关,仅取决于频次,n,,:,齐普夫定律的应用,38,/12,1,、,词表编制,叙词表和标引可以提高计算机检索的效率,根据齐普夫定律的频率分布方法,通过标引实验,找出被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值。,选用原始文献中术语,统计其发生的频率,研究分布特征,最后决定合乎使用频率,研究分布特征,最后决定合乎使用频率的词。,39,/12,2,、,文献标引,a,、,自动标引,利用计算机对每一个词的频率进行统计分析,筛选出适合标引的词汇。,卢恩的频率自动索引方法,去掉高频词,去掉后缀,找出相应的词干,b,、,加权标引,斯派克琼斯的加权法,如果有,N,篇文章,某个检索词涉及其中的,n,篇,给这个词,(N/n)+1,的权值,可得到较佳的检索效果,40,/12,3,、,信息检索,用于估计信息检索系统所需要的存储量,倒排档的大小,取决于同属性字段中不同的词的数量以及每个词的出现频率,按照齐普夫定律,计算词频出现的几率,41,/12,4,、,在图书情报管理中的应用,处理与语言文字有关的问题,将,“,最省力法则,”,的原理应用于图书情报信息事业的管理,合理选择图书馆或者信息中心的最佳地理位置,使得使用者能以最省力途径方便到达,用以设计图书馆、信息中心资料库的排架,谢谢,
展开阅读全文