网络档案存档系统研究——基于WARC标准化嵌入的视角.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

网络档案存档系统研究——基于WARC标准化嵌入的视角.pdf

1、业务探索云南档案网络档案存档系统研究基于WARC标准化嵌入的视角刘冰摘要：借鉴西方网络档案基础设施研究，基于标准化索引有序堆理论和WARC标准，本研究分析网络信息资源归档并讨论生成和处理网络档案的代表性系统，探索不同系统籍由标准化实施网络信息资源归档，旨在为我国网络档案归档研究提供思路和价值参考，助力我国网络档案归档发展。关键字：网络档案WARC嵌入捕获系统提取系统引言2023年5月，中共中央、国务院印发数字中国建设整体布局规划，指出建设数字中国是数字时代推进中国式现代化的重要引擎，明确提出我国将“打通数字基础设施大动脉”，“畅通数据资源大循环”，到2 0 2 5年，基本形成横向打通、纵向贯通

2、、协调有力”的一体化推进格局，到2 0 35年，我国数字化发展水平进入世界前列。近年来，数字化技术蓬勃发展，万物互联水平日新月异，但是我国网络信息资源归档理论与实践研究仍处于起步阶段，先进的网络信息资源归档，对于我们迎接数字时代，激活数据潜能，推进网络强国建设，以数字化转型驱动社会生产变革发挥重要基础支撑作用，是当前函待解决的时代命题。借鉴西方网络信息归档前沿研究，结合我国国情实际，基于Star和Griesemer1989）提出的通过标准化方式索引有序堆实现收集信息的标准化研究，本研究分析标准化方法索引和提取网络信息资源数据。文章首先介绍了WARC体系，研究了WARC文件格式及成为收集、访问系

3、统中心的影响，而后通过不同设施系统索引WARC文件生成数据格式并提取数据，衍生访问分析系统，分析标准化数据构件在系统中的作用，阐释了各信息系统与WARC文件格式数据交互，通过系统跟踪数据移动、转换和操作，写入或应用新数据值以及不同类别生成分类方案、标识符、执行嵌入设计的特定选择、假设和决策等。一、WARC标准(一)WARC标准基本概述WARC(WebArchive）格式是国际公认的记录存档网络数据的标准，是收集和格式化存档网络数据的标准形式。WARC定义并具象化了网络计算中使用的HTTP、U R I、H T M L 标准，是建立在标准之上的标准。WARC生成的附加数据符合前体设置，从基础设施研

4、究角度，WARC作为标准促进了互操作性,WARC通过遵循Star和Griesemer为边界物体类型确定特征满足需求，作为可填写表单/标准开放数据的字段集，用HTTP、H T M L、U R I和URL等网络标准定义数据填充，并通过单个项目存储库，即存储在单独WARC-RECORDS中的异构材料和各网络资源有序堆，建立索引。WARC源于2 0 0 5年国际互联网保护联盟（InternationalInternetPreservationConsortium,llPC）的开发项目并于2 0 0 6 年发布标准草案，正式的WARC文件格式规范在ISO标准2 8 50 0：2 0 0 9.2 中实施。

5、目前，WARC文件可以由不同网络抓取和数据捕获工具编写，WARC被称为“容器”或“包装器”格式，包含了各种文件类型，与输出存储在结构化数据的CSV或JSON文件网络抓取工具不同，WARC文件保留了网页上的全部底层数据和所有连接的网络资源，WARC将HTML页面的代码存储与有关元数据与网络服务器配对，将每个网络资源存储在独立记录中，并连接到线性文件。WARC遵循文件记录模式，WARC格式文件是一个或多个WARC记录连接，第一个记录472024年第1期业务探索云南档案通常描述后面的记录，记录内容为检索结果或者有关存档内容附加信息的合成数据，如元数据、转换后的相关联数据等。WARC记录由标头（H e

6、 a d e r）和区块（Block）组成，表示网络交易信息，用于捕获网页，图像文件捕获浏览器呈现网页像素，音频文件捕获调制解调器处理信号声波，信号传输互联网协议消息比特编码，WebScraper有选择性地从HTML代码中以JSON文件形式捕获数据结构。(二)WARC存在的问题WARC文件以线性方式存储记录，每个记录可以累积数百行数据，而数据又包括标准化数据字段组合，格式化标记资源及图像、音频及视频文件二进制数据等，因此，单个WARC文件可能包含数千条记录，超过百万行的网络数据和元数据。整个网络存档收藏可能包含数百万个单独的WARC文件，导致逐行读取难于管理，很少可以直接查看或处理单个WARC

7、文件，同时，管理和定位WARC文件数据还需要其他索引、元数据文件和衍生数据集等。二、捕获系统编写数据基于网络档案基础设施的嵌入性优势，多系统可以共同工作创建网络存档并将数据写入WARC文件。Heritrix爬虫是核心，是网络收集的主要系统，Heritrix作为独立程序运行，集成于一个收集系统，系统将种子列表和配置信息发送给爬虫，并跟踪收集信息；Archive-lt是系统提供设置和监控爬虫的主要接口，由InternetArchive管理Netarchivesuite是另一个类型的收集系统，管理发送给Heritage的种子列表和配置。(一)Heritrix网络爬虫Heritrix网络爬虫是IIPC

8、和许多其他机构网络存档使用最广泛的爬虫（Costa等,2 0 17）,通过使用HTML网页中列出的超链接或URL作为定位，捕获存储在各网络服务器上的网络资源。Heritrix爬虫通过处理URL运行，在抓取开始时，向抓取程序提供初始URL列表种子，爬虫即在URL列表或队列中工作，在不同网络服务器上定位和请求网络资源，爬虫从响应网络服务器接收到资源时记录数据。对于HTML页面等特定资源，爬虫分析数据并发现HTML嵌入或链接的新URL，新URL添加到爬虫资源队列中请求和下载，并根据爬虫设置过程中提供的标准进行评估。Heritrix爬虫以“决定规则”格式解析数据，评估和处理URL，并引入新的数据字段。

9、(二)Netarchivesuite和 Archive-ItNetarchivesuite和Archive-lt都产生符合标准的WARC数据，但是如由不同系统生成，数据结构或数据值不相同，每个系统生成的WARC都遵循ISO标准。两个系统采用不同方法消除重复数据，跟踪爬虫遇到爬虫前发现和下载URL。Archive-lt为重复数据生成重访记录，是单独重访类型WARC记录项，列于抓取的主WARC文件。Netarchivesuite省略了主WARC文件中的请求和重访记录，将信息写入为每个抓取作业生成的单独元数据WARC中。Netarchivesuite通过元数据文件抓取日志跟踪重复数据删除资源，在抓取

10、WARC文件中不再记录重复数据删除资源，但无论记录是否存在于主WARC文件，都会影响后续数据提取和管理。Netarchivesuite和Archive-It在WARC-INFO记录生成不同信息字段。不同系统有选择地遵守或偏离ISO标准中规定的数据格式，作为独立于InternetArchive的系统，Netarchivesuite还使用不同选项和配置生成输出WARC文件，删除部分字段和记录，同时添加其他字段和记录，并使用单独元数据-WARC文件。Heritrix.Archive-lt、N e ta rc h iv e su ite 三个系统为爬行过程中的WARC文件提供的独特定位性数据，这些系统

11、从其他机器和服务器复制数据，并强化顺序，分配标识符，在存档网络数据上引入组织结构。通过比较上述收集系统设计，可以发现每个系统中存在特定逻辑，这些结构执行不同角色并代表网络存档基础设施的不同侧重领域。Heritrix没有开发新的数据字段表示异常情况，而通过一组代码将新含义嵌入到现有数据结构，这种方式符合简化原则，对大规模附加信息管理具有优势作用，重组以爬虫活动为中心，将定向和嵌入等代码转换为Breadcrumb路径中的单个字符，可更有效记录或编码爬行日志文件信息。引入标识符和实体等数据结构有助于在特定系统对不同数据文件进行分组或聚合，每个系统对数据施加特定排序。与WARC文件列出482024年第

12、1期业务探索云南档案各记录遵循爬虫进程顺序一样，收集系统按连续顺序生成标识符，Netarchivesuite按照集合时间顺序将WARC文件趋同，而Archive-lt中的组织帐户ID采用不同时间顺序，在特定系统承载更长区间。三、系统数据聚合、选择和提取除了生成WARC文件的收集系统之外，还存在用于从WARC文件聚合、选择和提取数据的附加系统,SolrWayback提供搜索和过滤界面；基于代码工具箱和云仪表板界面，UnleashedProject使用两个相关组件生成标准衍生数据文件；提取转换负载自定义代码用于过程选择和重新配置数据的大规模分析。(一)SolrWayback索引Netarchive

13、原始搜索选项、界面升级和扩展后，2 0 18 年最新版本命名为SolrWayback，向用户提供了一个简单的搜索框界面，由集合WARC数据的底层索引提供支持，索引允许对结果进行有效查询和聚合。Netarchive索引由Archive Discovery 工具创建 Apache Solr。So lr索引将每个URI视为文档，根据固定数据字段组织收集材料，索引字段使用Solr搜索查询基本构建块。全文搜索查询针对文档完整内容数据字段中列出字段，Solr索引为每个文档构建数据字段（取自WARC-RECORDS），并提供额外专门搜索功能和接口。上述格式生成索引为WARC文档提取和写入数据，索引相对较小的

14、WARC集合可用单个计算机命令执行界面完成。处理Netarchive集合的百万WARC文档和数据工作流程较为复杂，大规模索引作为一项技术工作，需要提前对未来扩展规划，既要索引新抓取内容，同时要维护和升级索引本身。（二)Archives Unleashed Project 与衍生数据生成Archives Unleashed Project（R u e s t 等,2020）以生成衍生数据格式为中心，更有选择性地从WARC文件提取、格式化数据，重新打包衍生数据集。衍生数据格式为满足特定研究创建，与研究分析过程或研究工具保持一致。与整体处理WARC集合索引相比，以衍生格式存储的数据更具针对性。默认情

15、况下，作为ArchivesUnleashed云服务的一部分，为每个收藏生成衍生文件和集成凭据，提供新的接口和分析收藏方法，在虚拟机数量和大型集合所需处理时间有限时，衍生工具优势更明显。Archive-lt集合有四个衍生文件，用于从WARC文件加载、转换和过滤数据。一是域，二是全文，三是原始网络，四是Gephi格式网络图文件。RecordLoader摄取文件路径目录或文件夹中的所有WARC文件，选择数据过滤无效页面数据，然后使用Map函数创建表，每个记录都有一行，每条记录均有四个字段：日期、域、URL和去掉HTML的文本，最后，整个表作为纯文本文件写入代码中指定目录。衍生数据遵循相同加载和过滤步

16、骤，选择并格式化数据产生不同输出。AU开发的过滤分析聚合可视化(FAAV)模型目前广泛应用（Lin等,2 0 17)。（三）自定义数据集提取、转换、加载前述为广泛研究目的生成标准化索引或衍生数据集，本节讨论特定研究项目需要定制数据的选择和提取。Extract Transform Load（ET L）用于确定整个网络档案集合中的特定数据项目处理和分析，总体目标是将所需数据从安全服务器ISILON转移到KAC数据存储，由项目特定虚拟机进行访问和分析，ETL选择特定WARC数据并转换为更易使用的Python等分析工具操作格式。数据提取过程针对捕获的元数据-WARC文件，定位元数据-WARC文件与Ne

17、tarchivesuite系统的数据库连接，数据库存储并映射捕获名称和特定路径。ETL生成定制数据集，通过选择和格式化数据满足研究需求。细化数据选择可明确过程中异常，但原则上从概念上而不是目录中选择要使用的WARC集。（四）数据提取系统的比较上述三种常用的选择提取系统处理存储WARC文件数据各有特点。鉴于WARC文件格式繁，WARC格式总体、记录的线性列表以及每个WARC记录内容的异质性都需要额外处理及数据操作支持使用和访问，因此，索引或衍生数据集文件等格式与其他分析系统兼容，每个系统可以交互、重构并配置WARC文件。每个系统使用通用方法，基于嵌入WARC结构中的标准化数据结构和分类集，从WA

18、RC文件中提取和492024年第1期业务探索云南档案重组数据。WARC-HEADERS、H T T P标头和记录内容区块中的HTML标记和编码中的数据字段。Solr索引提取WARC标头和HTTP标头中，的所有数据字段和值，允许基于字段通过SolrWayback接口过滤。系统可以选择并显示与标准化内容类型字段标记的值匹配结果列表。用于生成AUT衍生的Scala代码依据HTTP标头中的标准代码，并从WARC中选择有效页面。数据格式的标准化允许选择完全以计算为中介、遵循计算逻辑的数据。数据的标准化意味着所有WARC文件都具有相似的结构，并允许这些文件跨管理系统互操作。由于使用标准数据字段，每个系统都

19、可以应用于WARC文件。索引采用更广泛的方法，提取所有数据字段，衍生文件预先选择确定对有助研究的某些字段。无论是通过索引还是生成衍生数据文件，每个系统在格式化和重组WARC提取材料方面采用各自方法将数据从WARC文件转换为新数据格式，重新配置需要添加、删除不在原始WARC中的新元素。为了简化和辅助分析，AUT全文衍生数据提供了删除或移除范例，生成衍生数据的代码既删除了HTML标记，又以不同编码呈现文本，系统可以添加、注释原始记录数据值。结语本研究基于西方网络档案理论与实践研究，探索分析了网络信息资源归档使用的技术系统和数据构件，与现阶段侧重于数字技术替代原始记录和文件的具体数字研究不同，本研究

20、探索了数字技术涉及的系统与过程，重点描述了相关背景、不同系统及与限定条件标准的关系，揭示了不同系统设计与数据交互系统的聚合与分类，标准化允许系统之间互操作，符合标准的数据构件在收集系统和管理系统的移动和转换中易读，系统数据视图通过系统使用、引入或具象化分类实现。WARC通常被视为集合的中心或唯一数据源，但标准化数据设计系统与处理、合并本地化数据表示之间存在一定矛盾，用于WARC的数据收集系统和用于选择和整理WARC数据的管理系统之间存在一定脱节，选择系统围绕WARC格式的标准数据元素设计，允许广泛互操作性，但这种设计选择删除了采集系统引入的类别和顺序，导致较难辨认，这些类别和顺序具有独特的流程

21、、排序和组织逻辑，需要进一步探索，未来还可以进一步关注扩展构件。我国网络档案归档与管理可学习、借鉴并超越WARC标准，对其他捕获系统和管理系统构件进行进一步研究、开发和建设。参考文献：1Ruest,N.,LinJ.,Milligan,I.,and Fritz,S.(2020).The Archives Unleashed Project:Technology,Process,and Community to Improve Scholarly Access toWeb Archives.In Proceedings of the ACM/IEEEJoint Conference on Digi

22、tal Libraries in 2020,pages157-166,2Bender,E.M.,Gebru,T.,McMillan-Major,A.,and Shmitchell,S.（2 0 2 1).O n th e D a n g e r s o fStochastic Parrots:Can Language Models Be TooBig?In Proceedings of the 2021 ACM Conferenceon Fairness,Accountability,and Transparency,FACCT21,pages 610-623,New York,NY,USA.Associationfor Computing Machinery.3Deschamps,R.,Ruest,N.,Lin,J.,Fritz,S.,andMilligan,I.(2019).The Archives Unleashed Note-book:Madlibs for Jumpstarting Scholarly Explo-ration.作者单位：大连商品交易所行政服务有限责任公司502024年第1期

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？