收藏 分销(赏)

基于文献计量的数字档案研究趋势分析.pdf

上传人:自信****多点 文档编号:640467 上传时间:2024-01-22 格式:PDF 页数:10 大小:2.94MB
下载 相关 举报
基于文献计量的数字档案研究趋势分析.pdf_第1页
第1页 / 共10页
基于文献计量的数字档案研究趋势分析.pdf_第2页
第2页 / 共10页
基于文献计量的数字档案研究趋势分析.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、研究综述RESEARCH REVIEW-179-基于文献计量的数字档案研究趋势分析*周丽霞 孙书剑(黑龙江大学信息管理学院 哈尔滨 150080)摘 要:采用可视化分析方法,对我国数字档案研究成果进行计量分析。从词频统计、文献来源、时间序列、聚类、突现词等多种角度绘制图谱,清晰、准确、完整、系统地展现我国数字档案理论应用研究及实践工作现状,分析热点研究领域及未来发展趋势。我国数字档案研究将向信息化与共享大数据方向迈进。关键词:数字档案;可视化分析;研究趋势中图分类号:G270 文献标识码:A 文章编码:1005-9652(2022)06-0179-010数字技术的产生与应用将档案记忆由传统实体

2、空间带入到数字空间1。数字档案更倾向于电子文件本身的非结构化和结构化数据,即档案的逻辑属性2。近几年,数字档案相关研究领域产生大量研究成果,如在不可信云端和可信客户端间部署可信本地服务器,负责运行档案云上分级存储模型和档案云上分段查询模型3,这些创新研究成果在为开展数字档案研究相关工作带来启示和经验的同时,也极大增加了其准确性评估的操作难度。也有一些研究人员使用可视化检验方式来发现数字档案加密技术、档案袋装质量评价技术等当前热点问题,以定位研究成果的质量及变化规律。1 文献采集与数据处理文献数据标准化采集加工与数据处理自动化发展的最终目的是为了最终实现文献数据的结构化。因为采集获得的原始数据多

3、是非结构化的数据,无法直接用于数据计量或统计分析,需要人工将现有结构化数据重新转换。在图书情报领域,可视化方法越来越受到研究人员的重视,是一个全新的研究方法与发展方向4。1.1 检索词及数据源选取1.1.1 检索词确定对大量“数字档案”概念进行语义分析后得出:数字档案主要是指档案通过微型计算机物理存储载体等数字设备形式进行文档信息数字化存储,与传统的袋装存储纸质档案概念相对应,在计算机其他专业领域里被统称为数字文件。目前进行数字文件信息存储利用的电子介质主要有电子磁盘和光盘5,高速云数据计算技术时代,数字档案大部分可以采用云存储管理方式。再根据中英文比较,将中文检索语词界定为“数字档案”,或者

4、灵活转换检索式,比如在“数字化医疗档案管理技术中的数字电子病例档案”又可分解成“数字健康档案”“数字健康记录”“数字病例”。1.1.2 数据源选取本文分析样本来自中国知网(CNKI)和万方数据,时间设置为近五年即 2017-2022 年。为了提升检索数据的准确性和全面性,两个数据库的检索范围和检索词一致,去重后得到5256条记录(如表1所示),*【基金项目】国家档案局科技项目:总体国家安全观下档案信息安全治理体系研究(项目编号:2021-R-14)研究成果。【作者简介】周丽霞(1972-),女,黑龙江大学信息管理学院教授,博士,研究方向:数据开放与政策法规;孙书剑(1998-),男,黑龙江大学

5、信息管理学院硕士,研究方向:数字档案开放与管理。2022 年第 6 期 总第 266 期-180-SHANXI ARCHIVES包含万方数据类资料 2497 条和中国知网数据 2759 条。表 1 检索结果统计1.2 数据标准化导出数据库原始数据格式大致可分为中国知网原始数据库 EndNote 格式和万方 NoteExpress 格式两种,为尽量避免全文资料的重复,必须要针对导出文章的数据信息进行手工输入或由电脑来自动进行数据库录入的调整与数据自动剔除。为了确保导出数据全文资料内容的准确性及完整性,每篇文章至少要完整保留原始资料题名、作者等相关信息6。1.2.1 数据合并由于数据包含两种文献题

6、录格式,为了更好方便统计,统一合并转换为中国知网全文数据的标准化EndNote 格式,同时使用该转换工具能够执行多文件数据合并7,将多个文本文件批量转换合并为一个Excel 文件,方便后期再进行其他数据操作。本次分析数据仅经过了简单压缩处理,共分析获得了有效的数据信息 56791 行,数据量适中,且对数据进行格式合并、分析统计时未发现有空行或编码错误,但合并后的数据已无法直接进行标准化处理操作,需要数据清洗。1.2.2 数据清洗在数据转换合并过程中发现,主题词库中使用了大量的近义词、同义词,同时,国内不常使用一些国际通用的名词也用作关键词8。为了有效解决主题词名称数据之间可能存在着的各种高度相

7、似性,使用 Excel 工具来实现数据格式统一管理和标准化。本次采集到的数据在经过多次去重与清洗处理后源数据量均没有明显降低,合并处理后的总记录数据量为 34609 条,约占源数据量的 60.94%,所以对数据质量的再次检验分析则就显得尤为必要。同时,在对数据内容的转换与检验操作过程与实践研究中亦可以发现,除了有部分题录内容相似现象出现以外,在实际检验采集相关数据时均可明显发现,在数据转换及验证两环节中,确有小部分数据内容存在题目错误和个别关键词信息缺失,具体操作及采集结果分析方法表 2 所示。表 2 缺失值处理表该检索表中可以看出,Newspaper中的Article类、Conference

8、及Proceedings这三部分文献类目中,发表年、卷号信息均显示缺失,Article 类摘要等文献列表显示缺失的程度也比较较严重,缺失部分文献类型属于数据未处理完全时的信息缺失9。期刊论文 学位论文 会议文献专利标准报纸其他合计万方216823930000602497CNKI24151882500151162759类型地址出版年卷Newspaper Article中国经营报Newspaper Article福建日报Conference Proceedings黑龙江省航道局;2017研究综述RESEARCH REVIEW-181-2 基于可视化的我国数字档案研究热点分析主题词、关键词的对比研究

9、,爆发词分析均可以初步确定相关研究领域词汇频率变化和规律。2.1 词频统计不同作者对关键词的选词标准会有所不同,因此,对文中某些特定关键词的筛选及处理方法将会或多或少出现规范性差和随意性强的现象,这也会直接影响相关研究人员和普通用户对论文内容判断的准确性。2.1.1 高频词统计通过相似词矩阵对论文关键词质量再次筛选并进行二次审核10,常见的学术论文关键词数量一般为 3-8 个,因此我们在保持原有的数据基础上将会进一步清洗,目的是通过计算机快速分析和判断某一个研究主题关键词的时间出现次数的频次高低及变化规律,以此辅助判断当前相关研究主题的热点所在和研究工作发展趋势。本次的分析与研究也正是为了发现

10、关键词出现频率高低的时间规律及变化,采用时间频率序列图式表的快速分析方式来快速进行呈现。为了可以进一步方便对图表文本资料检索或查看,列出表 3。按照出现频次排序,抽取频次大于 30次的关键词,按照对应的时间节点分别进行相关排序标注。表 3 高频关键词统计序号频次中心度时间关键词13970.352017数字档案21870.222017档案管理3950.062017数字化4740.092017大数据5700.122017档案6680.12018数字人文7550.12017档案馆8500.072017信息安全9470.12017信息化10450.092017高校11440.042018档案资源124

11、00.112017策略13400.132017档案工作14350.082017档案信息15350.122017管理16350.062017建设17340.132017电子档案18340.092017电子文件19310.092017档案数据20300.062017问题2022 年第 6 期 总第 266 期-182-SHANXI ARCHIVES表3中可以看出,档案数字化、大数据、信息化、策略等四个高频词均与其他关键词间的相关性较高,对比统计后也发现只有数字档案管理、数字档案计算机、电子档案信息化、数字档案对策分析等五个关键词无法完全与其他词合并11,故未单独作为高频关键词出现。词语可以用于更加

12、深入有效的沟通不同类型档案研究领域主题概念之间微妙复杂的交叉关系12,以数字档案原始性研究分析领域为研究核心和代表该主题概念的数字档案信息资源管理和信息安全的管理的研究分析领域都与数字档案长期和安全有效保存领域的问题密切交叉。中心度差的一般计算方式为由某一点中心点到周围其他各点之间距离和的平方倒数,距离越远则表明在该点中心处于边缘位置。2.1.2 高频词时间序列分析对关键词数据库全面清洗后得到 342 个关键词,其中词频大于 10 的关键词有 54 个。为了便于更好和准确及时地发现数字档案研究热点,进一步准确了解关键词词频度随研究时间序列变化后的规律,使用时间序列分析法,以 1 年为研究周期1

13、3,同时考虑采用分层随机抽词的研究方法,最终筛选与确定207 个词汇,绘制成时间序列图,如图 1 所示。图 1 可以快速展示各阶段数字档案研究热点,分别为档案云计算基础研究建设阶段、管理部门信息化规划建设发展阶段、信息资产安全规范管理实施阶段、信息时代管理创新阶段、共享研究阶段五个部分。图 1 高频关键词时间序列分析图图 1 中光圈颜色越多表明包含该关键词跨度范围越大,文件与归档信息化管理技术研究贯穿应用在涵盖了档案电子化管理研究及管理信息化体系规划建设等各个技术阶段,同时归档信息化管理系统规划建设在每个研究阶段中也是全面覆盖。结合高频词的时间序列分布情况与时空变化规律,可以简单据此来将数字档

14、案技术发展的总体变化历程分为三个阶段。第一个建阶段主要以电子文件数据归档方法为核心进行的教育部档案业务管理综合信息系统的信息化平台建设实施,该发展阶段时间点为 2016 至 2017 年,以信息数字化和归档信息化为主要工作目的,实现全省高校、政府档案信息资源全面数字化管理。该发展阶段的重要研究理论问题是数字化归档。第二阶段是以信息时代为主体的数字档案馆前景研究,主要集中在 2018-2019 年。研究热点体现在数字文档安全和创新技术应用方面。文档安全及其保护问题早在二十世纪就已提出,2012 年已有很多国外知名学者关注信息时代档案法修订14,这一阶段,学者们更多的尝试和迎接新技术对数字档案带来

15、的挑战。第三阶段提出以现代事业单位管理制度为核心概念,这个核心词起源较早,但是预计在 2020 年中2022 年第 6 期 总第 266 期-184-SHANXI ARCHIVES以“数字化档案与信息化管理体系建设”为核心内容的研究主要集中在推进数字档案信息系统平台搭建,以及探索数字档案信息在各类公共行政事业工作中有效的实际应用,进而充分突显数字化管理的极端重要性。同时我国高校数字档案技术研究工作也开始占据较大比重,与目前传统机关事业单位科研工作占比较多的情况有较明显变化。以“机关事业单位改革”为典型代表的关键词为制度创新、模式、数字化。结合关键词时间序列可以更加有效地验证从 2017 年底至

16、 2019 年,数字档案的研究内容主要集中在企业创新管理思维模式的具体方法与应用研究方面。2.2.2 中心关键词分析利用可视化分析工具在进行共现网络关键词构建或统计分析处理时,往往可以发现几个关键词的中心性指标频率非常明显地很高。中心性主要用于分析该节点所能够被连接访问到的网络环境中其他节点关键词数量的多少18,中心性指标数值越高,说明其所处的关键地位越明显,与其他节点之间能够建立起来的联系亦相对较多。但是,在关键词可视化共现图中,如果关键词频次普遍都较低话,往往不能很清楚直观地观察到中心性,所以一般选择时间序列与时间中心度分别排序,如图 3 所示。图 3 我国数字档案关键词共现中心度时间序列

17、图图 3 中,中心度值相对较大的时间节点也都在某同一特定的时间域内与其他节点有很明显的交集,处于核心地位,并表现出与不同时期重点领域节点之间的数据相关性,成为最受关注的研究热点。图 3中还可以较为清楚地看出,数字档案管理和纸质档案这两个关键词的中心度较高,证明了数字档案与传统纸质档案研究相互交叉的必然性。2017 年开始出现的数字档案检索与共享管理应用系统关键词频次较低,但是其中热心度相对较高,而“档案管理人员”中心度最高,反映出数字档案利用及归档管理的技术应用中一项重点工作是加强对数字档案管理人员的研究。2.3 关键词聚类分析使用 Citespace 可视化大数据分析工具,绘制一个适合于数字

18、档案或相关数据库研究分析内容的高频关键词文献共轭发现矩阵,并基于此数据基础框架,对这些高频关键词文献进行切词与聚类,能够迅速从中确定出数字档案热点领域文献内容的共同主题或具体内容。在 Citespace 的操作界面属性选项列表中,时间范围属性选项(Time Slicing)选择 2017 至 2022,时间间隔(Years Per Slice)属性选择 1,标签类型(Node Types)属性选项选择“关键词”,数据抽取对象设为 top50,其他属性和设置项则一直研究综述RESEARCH REVIEW-187-现有数字档案资源基础能力、培训、基建改造升级、成本管理等各项硬件的建设,同时重视将馆

19、藏数字文档管理业务同整个社会其他各项重大公共社会事务建立密切联系,如目前在其他国家,数字档案馆管理等工作实际上都直接与公共档案馆、国家政府信息资源数字化管理办公室有着极为密切复杂的协作关系。第五,通过时间序列以及高频的爆发词的相关性分析,云计算、档案与编研、数字人文、知识图谱、共享以及云计算服务等一直以来处于相对较高频次,这些热点研究领域是我国数字档案当前五年和在未来五年里的核心研究领域。可以明确预计,未来几年间国内即将开展起来的数字档案技术的研究与技术波动的变化情况都会较为剧烈,数字文件信息处理和存储系统仍要持续并面临一个更为巨大、复杂严峻的技术变革挑战。特别关注的焦点是电子档案数据库的快速

20、利用、预测档案数据质量日益走向精准与可靠发展的大背景下,数字档案开放利用与安全存取等问题和电子档案知识产权问题,原始性、利用、安全等诸多理论问题研究成果为当前数字档案的利用及管理等提供了较为系统的参考依据。注释与参考文献1 王丹,王红红,颜祥林.国内档案学界数字记忆研究的兴起、发展与展望 J.山西档案,2022(03):177-186.2 张霄旭.数字档案安全体系建设思考 J.办公室业务,2022(14):127-129.3 谢坚,宣绍龙,吴宗大.数字化改革背景下档案云上保密管理研究 J.浙江档案,2022(06):47-50.4 王芳.我国图书情报领域可视化研究的文献计量分析 D.山西财经大

21、学.5 黎乃宁.“红色档案”主题研究现状与趋势探究基于 CNKI 的文献计量及可视化分析 J.陕西档案,2021(06):27-30.6 李育桂.基于文献计量的我国档案领域人工智能研究论述 J.文化产业,2021(19):58-59.7滕春娥,何春雨.基于文献计量的档案记忆观理论内涵探析J.兰台世界,2021(04):76-78+89.8 张艳清.云计算背景下的档案管理研究文献计量分析 J.内蒙古科技与经济,2021(05):123-125+128.9 董泽信.文献计量视角下高校档案信息管理系统研究现状 J.兰台内外,2021(01):40-42.10 蔡丽娟,向禹.基于文献计量法的我国口述档

22、案研究热点分析 J.资源信息与工程,2020(06):154-158.11 薛晗.文献计量的我国企业档案开发利用问题 J.办公自动化,2020(22):50-52+59.12 杨典,杨鑫,苏慧慧,罗静.基于文献计量及社会网络的档案信息化研究 J.现代计算机,2020(29):15-18+36.13杨芸伊,王立群.干部人事档案研究:回顾、反思与前瞻基于CNKI文献计量和内容分析J.兰台世界,2020(09):71-74.14 李毅强,郑川.云计算背景下档案管理研究现状基于 NoteExpress 的文献计量分析 J.兰台内外,2020(19):25-27.15 王艺璇.我国档案学专业硕士论文的文

23、献计量研究 D.福建师范大学,2020.16 冯微微.我国电子档案研究热点与发展趋势的文献计量分析 D.辽宁大学,2020.17 季文硕,周丽霞.基于文献计量的我国档案领域大数据研究综述(2012-2019)J.山西档案,2020(04):170-179.2022 年第 6 期 总第 266 期-188-SHANXI ARCHIVES18 黄芮雯.基于文献计量分析的我国口述档案研究发展概略:1997-2016J.云南档案,2018(07):48-52.19王富忠,王淼,王宇靖.最低生活保障档案研究文献计量分析J.档案管理,2015(05):54-55.20 杜鹏.基于文献计量分析的档案方法研究

24、(1981-2010)D.天津师范大学,2012.Analysis of Digital Trends Based on BiblientationZHOU Li-xia,SUN Shu-jian(School of Information Management,Heilongjiang University,Haerbin 150080)Abstract:The research results of digital archives in China are quantitatively analyzed by visual analysis method.The atlas is dra

25、wn from various angles such as word frequency statistics,document sources,time series,clustering,and emergent words to clearly,accurately,completely and systematically present the current situation of the theoretical application research and practice of digital archives in China,and analyze the hot

26、research fields and future development trends.Chinas digital archives research will move towards informatization and sharing big data.Keywords:digital archives;visual analysis;research trends论文摘要撰写标准:GB 644786 文摘编写规则 定义摘要是“以提供文摘内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。”其类型主要有“报道性”“指示性”和“报道/指示性”三种,其中报道性摘要是“指明一次文献的主题范围及内容梗概的简明文摘,也称简介”,包括“目的、方法、结果、结论、其他”五项要素。论文关键词撰写标准:GB 771387科学技术报告、学位论文和学术论文的编写格式定义关键词“是为了文献标引工作从报告、论文中选取出来的用以表示全文主题内容信息款目的单词或术语。”关键词的来源主要包括叙词(主题词)和自由词两种,关键词要有专指性、专业性、全面性、整体性等。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服