基于大数据平台架构的智慧图书馆研究.pdf

资源描述

1、SCIENCE&TECHNOLOGY INFORMATION科技资讯 2023 NO.16 图书馆资讯科技资讯SCIENCE&TECHNOLOGY INFORMATION基于大数据平台架构的智慧图书馆研究李飞(内江师范学院四川内江 641112)摘要：时代的发展与进步使当下的图书馆功能更加丰富，且业务不断拓展，尤其是在互联网技术的高速发展背景下，智慧图书馆俨然已经成为保证数据挖掘、资源调配以及智能获取图书馆知识服务的关键发展方向。该文简述了基于大数据平台架构的智慧图书馆的总体架构，并从建立数据标准、ETL数据采集清洗、RESTful API接口设计多个角度阐述了智慧图书馆构建要点，希

2、望能够为同行业工作者提供一些帮助。关键词：大数据平台架构智慧图书馆构建要点数据传输中图分类号：G250.7文献标识码：A 文章编号：1672-3791(2023)16-0205-04Research on Smart Libraries Based on Big Data Platform ArchitectureLI Fei(Neijiang Normal University,Neijiang,Sichuan Province,641112 China)Abstract:The development and progress of the times make the curren

3、t functions of the library continue to enrich and expand its business,especially in the context of the rapid development of Internet technology,making the smart library seem to have become the key development direction to ensure data mining,resource allocation and intelligent access to librarys know

4、ledge services.This article briefly describes the overall architecture of the smart library based on big data platform architecture,and expounds the key points of the construction of the smart library from the perspectives of the establishment of data standards,collection and cleaning of ETL data an

5、d design of RESTful API interface,hoping to provide some help for workers in the same industry.Key Words:Big data platform architecture;Smart library;Key points of construction;Data transmission作为一种较为典型的大数据体系，图书馆信息资源的重要性毋庸置疑。伴随社会的发展与进步，使当下的图书馆资源数据量处于急剧增加状态。因此，为满足智慧图书馆构建与大数据管理分析的基本要求，就需要基于大数据平台架构明确核心

6、为Hadoop的图书馆大数据平台构建要点，希望能够为同行业工作者提供一些帮助。1 智慧图书馆总体架构以Hadoop为核心的分层架构设计基于Hadoop等技术可构建智慧图书馆大数据平台，在包含图书馆数据的同时集成了针对读者一系列消费数据与教学数据，实现了围绕大数据平台的数据存储与分析功能。从逻辑分层的角度来看，平台架构的设计要点主要包含了数据采集层、数据存储层、数据服务层以及数据应用层。1.1 数据采集层针对源数据系统所存储的数据进行抽取，是数据采集层的主要工作任务，集成了图书馆所有的数据资源数据与自动化系统产生的数据1。而智慧图书馆所应用的大数据平台，则需要对读者的数据进行抽取、转化以及加载，

7、将其变更为统一格式即可为后续的数据存储层的实际应用提供准备条件。1.2 数据存储层作为智慧图书馆大数据平台的构建基础，数据存储的重要性毋庸置疑，而数据存储层则在此过程中承担了业务执行与功能展示责任，既包含了传统关系型数据库，又可与分布式文件系统进行对接，为数据的清DOI：10.16661/ki.1672-3791.2301-5042-5861作者简介：李飞（1971），女，本科，馆员，研究方向为图书管理。205SCIENCE&TECHNOLOGY INFORMATION科技资讯图书馆资讯 2023 NO.16 SCIENCE&TECHNOLOGY INFORMATION科技资讯洗与转化

8、提供中间表等有利条件，可对需求存储的相应数据与结果进行针对性的分析与挖掘。分布式文件系统作为数据存储层功能实现的前提条件，针对的数据类型主要包括了结构化数据与非结构化数据，也是实现数据分析挖掘的核心。1.3 数据服务层存储层与应用层连接的桥梁为数据服务层，友好的接口定义促使平台中所包含的各类服务相互连接，所提供的访问接口皆可作为上层应用的主体2。Hadoop平台是数据分析服务的前提，可从智慧图书馆的实际业务需求角度出发，基于大数据平台所具备的强大计算能力，完成对针对性数据的转换与分析挖掘。1.4 数据应用层展示业务整合结果以及数据分析挖掘是数据应用层的主要功能，其主要对接着读者的个人报告、智慧

9、图书馆的功能决策、移动客户端的实时应用以及图书馆智慧大屏所承担的数据展示功能。2 建立数据标准2.1 标准概述智慧图书馆数据分析挖掘与源数据的整合等相关工作的顺利推进，皆需要依靠统一的数据标准实现元数据的抽取与转化。而围绕自动化系统所构建的数据存储结构，皆需要依据对应的业务需求实现设计目标，对应的逻辑关系相对较为复杂，且即使是同一业务，自动化系统也可能由多家厂商所提供，这使所使用的数据库无论是在类型还是在结构方面均存在着诸多差异3。为消除数据隐患，需要在采集相关数据前构建统一数据标准，进而为后续的数据分析过程提供具有准确性与全面性特点的一系列基础数据。2.2 设计数据存储架构基于云端的数据存储

10、模块，其功能在于满足当下所产生的海量结构化与非结构化数据的功能性存储要求，并需要保证数据存储的安全性与在实际使用时展开数据访问的高效性。通常情况下选择使用HDFS作为存储的主要介质，原因在于HDFS本身的超大数据存储能力相对较强，基于其备份功能确保了数据使用的高效性，且自身具备着一定的系统容错能力。此外，Hadoop中的诸多生态系统关键组件，可用于搭建并行计算的重要框架，皆可作为后续实现高效性读取存储数据等功能的重要基础4。不同业务系统所包含的数据在云端存储，为方便后续展开数据分析，围绕HDFS的存储目录均需要依靠智慧型图书馆的实际使用要求，包括对应的业务类型与基础信息维度。2.3 设计数据标

11、准作为数据分析挖掘的前提条件，存储采集数据的重要性毋庸置疑，为从多个维度分析数据提供了诸多方便条件。建议将需要进行数据分析的维度总制一张表，这使每张存储表均包含了大量的冗余，用以将各类表单之间的交叉关联查询予以减少，其也是提高数据分析挖掘效率的关键措施。根据源系统业务类型的差异，可展开不同的数据标准设计。例如：借还系统，数据量较大且有表之间交叉减少的需求，就需要对数据抽取过程中中间数据库表的承受能力予以充分考虑5。再如：将图书借还系统所包含的诸多行为数据依照借书、还书以及续借3种业务方式存储为3张不同的表单，且需要在每张表单中自动生成图书名、借还时间、用户名以及行为类型等诸多信息。关联读者的信

12、息则包括读者的姓名、读者的性别以及联系方式等。图书与读者的详细信息均被存储于原系统所对应的不同表单中，需要基于中间表对这些信息进行汇总。3 ETL数据采集清洗3.1 概述基于对源数据系统的分析，可发现各个自动系统中的源数据均被存储于对应的数据库中，其中既包含了具有结构化特点的行为数据，也包含了具有非结构化特点的日志数据，且有着较为繁多的数据相类型，使数据格式不统一且存在诸多问题，需要使用专业工具采集基于统一标准化的传输数据。此外，数据映射、采集装载、定时执行等同样需要专业工具的标准化支持，完成转化清洗后的数据需要依靠对应的数据标准进行存储以方便后续的使用。ETL作为能够描述数据从源端最终目的端

13、整个过程的关键工具，可将数据的传输过程主要分为数据抽取、数据清洗、数据转化以及数据装载4个部分，原本凌乱且未能统一标准的数据经过抽取与清洗等环节，即可将其完整加载到执行具体任务的大数据平台中。3.2 设计与实现ETL将智慧图书馆的内部数据完美集成，并能够根据对应的模块明确实际的服务需求，选择合适的抽取方法抽取大数据平台中的需求数据。之后收取完成的源数据将在所设计的中间层完成清洗与转化，最终通过统一集成汇集到所需要使用的数据库中6。ETL技术在整个过程中的重要作用不可被忽略，具体情况见图1。3.2.1 抽取数据作为智慧图书馆大数据平台数据采集的首个步骤，数据抽取工作的前提为详细分析元数据的数据库

14、类型以及具体的数据类型。需要注意的是源数据来源于具有一定差异的 DBMS，可基于 JDBC 实现数据连接，封装设定标准的压缩包后即可建立与数据库用户名、密码配置的对应连接。206SCIENCE&TECHNOLOGY INFORMATION科技资讯 2023 NO.16 图书馆资讯科技资讯SCIENCE&TECHNOLOGY INFORMATION一是全量与增量等抽取方式。首次采集数据时由于其中包含了较多的业务数据，因此首次的数据采集需要选择使用全量抽取方式，采集数据完成后即可根据需求选择使用增量抽取方案。基于SQL代码可控制全量与增量抽取的过程，具体的代码被分配到不同的工作表中，对应着

15、不同类型的元数据系统抽取过程，可通过中间数据库中的表单显示相关内容。二是设定抽取频率。针对不同类型的业务数据所使用的数据抽取频率存在着一定差异，以图书借阅环节所产生的行为数据为例，抽取的时间相对较短，而对于图书详细信息或读者的自身信息只需要每半年或一年抽取一次即可。3.2.2 数据清洗一是缺失重要字段的不完整数据。此类数据包含了共有的缺失时间字段与针对不同业务系统的字段数据。以行为数据为例，时间维度极为关键，若时间范围，则后续所执行的分析挖掘无法保证其准确性。而图书借还数据在缺少读者相应信息字段数据的情况下，则可将其判断为无法获取重要字段的不完整数据，原因在于除去时间这一维度字段，其余缺失的数

16、据可基于中间表完成补全操作。二是错误数据较为明显。产生此种情况的常见数据类型为行为数据，表现则主要为数据产生的时间不在读者的信息生成时间段内。三是重复数据。基于行为数据所产生的时间可判断数据是否为重复数据，通常情况下所记录的数据时间精确到秒，但由于图书馆业务系统自身的数据并发量不大，因此，同类型的业务系统中所产生的数据，只要时间相同则皆被判断为重复数据，系统将自动对其进行删除处理。3.2.3 数据转换一是缺失字段的补全。以读者信息表为例，不同的业务系统输出的读者信息的各维度字段不同，每个系统皆记录了读者的姓名、性别等信息，但读者借阅图书的种类、时间等可能来源于进入图书馆所必须通过的闸机系统，且

17、图书借还系统同样包含了读者的一定信息，不存在某个系统能够对读者个人信息完整记录的情况，这就需要建立一个针对读者的信息表用以对各系统数据中的缺失字段进行补全处理。首先需要将读者的个人信息存入到读者表中，基于各系统中所包含的数据抽取行为数据存储表中的信息，根据读者的序号或进入智慧图书馆的具体时间对读者表进行实时更新，汇总读者表中的各个字段。最后则是需要根据读者表中的记录信息，对各个行为存储表中所缺失的读者信息字段进行更新。二是数据格式的统一。业务规则在图书馆所包含的各个业务系统中实际上存在着一定的差异，即使针对同类数据所使用的表述方式也可能存在不同。这就需要首先建立基于所设计统一标准的学院字段格式

18、表，以人工或专业的对应工具对应读者借阅图书的不同类型。如此即可根据所设定的对应关系对业务数据表进行更新，实现数据格式的统一功能。3.2.4 数据加载基于SQL语句即可直接插入，通过智慧图书馆将数据进行清洗转化处理后，即可将处理完成的数据集中加载到智慧图书馆的数据库中，需要在插入的环节对应原表中的字段与目标表中的字段。4 以Sqoop为核心的数据传输作为一种具有开源特点的工具，Sqoop的自身开发目的在于交换关系型数据库与Hadoop之间的数据。基于Sqoop不仅能够实现关系型数据库中的数据导入到分布式文件系统的功能，同样能够将所处理完成的数据导入到需求的关系型数据库中，其具体的架构见图2。由于

19、Sqoop实现数据处理功能的基础为MapReduce，因此Sqoop一系列功能的充分展现需要依赖于Hadoop集群环境，且需要从Sqoop的选用角度出发，充分考虑到所使用的功能对应的环境要求以及需要进行协调的版本，在满足Hadoop环境对应功能需求的情况图1 ETL数据采集过程207SCIENCE&TECHNOLOGY INFORMATION科技资讯图书馆资讯 2023 NO.16 SCIENCE&TECHNOLOGY INFORMATION科技资讯下才能够正常使用。为了使本文所构建的基于大数据平台架构的智慧图书馆系统的各类功能能够实现，建议选择Hadoop2.7.3。5 RESTfu

20、l API接口设计作为数据存储层与数据应用层之间的连接桥梁，数据接口在智慧图书馆中扮演着平台之间的数据共享、数据可视化以及平台移动化等功能实现的重要角色。尤其是在智慧图书馆中所包含的决策支持系统、图书馆报告以及图书馆智慧大屏中，所包含的诸多接口具有功用特点，而想要实现接口在智慧图书馆建设过程中的核心地位相对较高，这就需要设计一套具有复合性与松耦合特点的API。RESTful这一架构设计具有跨平台与跨语言的特点，该架构需要基于统一接口原则实现相应的操作与处理功能。对应的接口则需要基于统一的资源标识符完成信息的识别与资源的定位。从智慧图书馆的应用层级角度进行分析，发现所包含的系统接口具有大量重叠的

21、特点，因此，需要根据智慧图书馆的功能要求设计针对不同业务与资源类型的136个接口，共7大类，主要包括借还数据接口、空间数据接口、打印复印数据接口、移动端独立接口等。第一是图书借还数据接口。该接口主要包含了多个维度的分析数据，如时间维度、用户维度、图书维度等。第二是进入图书馆的闸机数据接口，包含的维度类型主要为时间维度、读者性别维度、读者类别维度等。第三是空间数据接口，包含了时间维度、读者性别维度、IC空间类别维度等。第四是具有自助特点的打印复印接口，包含了文印类型维度、纸张类型维度等。第五是对应图书馆的馆藏数据接口，包含了出版社维度、馆藏资源入馆时间维度、图书种类维度等。第六是移动端的独立接口

22、，具体包括注册读者账号与登录账号、统一认证读者身份、修改读者个人信息、查看读者的个人兴趣列表以及功能修改等；第七是对应智慧图书馆的机器人接口，主要指的是人脸识别与语音识别两个关键功能，如基于科大讯飞的语音识别、基于百度的人脸识别。为最大限度地将后续的技术选型改变对前端服务的影响降低，要对接口进行特殊处理。6 结语综上所述，为解决当下图书馆中所存在的信息孤岛现象与读者行为数据挖掘分析环节严重缺乏等重要问题，就需要基于大数据平台架构建立智慧图书馆。构建过程中要充分考虑到各类业务开展的实际需求，综合先进的信息化技术，充分发挥基于大数据平台的数据中心应用优势。其所包含的有移动图书馆、图书馆机器人等先进

23、应用系统，皆可根据读者的实际要求满足其对智慧图书馆的功能需求。需要注意的是，当下所建立的大数据平台仅仅与图书馆业务系统中的相关数据进行了对接，为满足后续读者对数据分析挖掘的实际要求，建议搜寻读者的生活习惯与图书借阅的特点，进而深度挖掘读者的个人喜好，提供给读者具有个性化特点的图书展示窗口，为充分发挥智慧图书馆的大数据应用优势奠定基础。参考文献1 赵志光.基于大数据的图书馆总分馆智慧服务云平台架构研究J.河南图书馆学刊,2021,41(11):90-92.2 张双双.基于CiteSpace的大数据环境下智慧图书馆的思考J.信息记录材料,2021,22(10):205-207.3 李明伟,王爱.大数据时代区块链技术与智慧图书馆的融合发展研究J.内蒙古科技与经济,2021(16):79-81.4 田瀚琳.基于DIKW体系的智慧图书馆大数据服务模式分析J.造纸装备及材料,2021,50(8):70-71.5 高美玲.基于元宇宙的智慧图书馆研究J.数据通信,2022(6):33-38.6 金芮冰.教育大数据视域下高校图书馆智慧服务模式研究D.济宁:曲阜师范大学,2021.图2 Sqoop1的架构208

展开阅读全文