收藏 分销(赏)

Python在广播电视设备数据清洗实践中的应用.pdf

上传人:自信****多点 文档编号:3007580 上传时间:2024-06-13 格式:PDF 页数:4 大小:3.06MB
下载 相关 举报
Python在广播电视设备数据清洗实践中的应用.pdf_第1页
第1页 / 共4页
Python在广播电视设备数据清洗实践中的应用.pdf_第2页
第2页 / 共4页
Python在广播电视设备数据清洗实践中的应用.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、85影视制作Python在广播电视设备数据清洗 实践中的应用文/浙江广播电视集团 朱江摘要:数据已经成为推动社会前进和企业数字化转型升级的新动能,数据资产能给企业带来新的增长点,数据治理是一项基础性工作,它能提高数据价值。本文提出 Python 工具在广电设备管理数据治理中的具体应用,能有效提高广电领域数据治理效能。关键词:Python;openpyxl;数据质量;数据清洗;数据治理;设备管理 经过多年的发展与建设,广电系统积累了大量设备,利用统一的设备管理系统对设备进行管理有利于设备资产长期维护,为设备资产管理提供了具体、可靠的信息系统数据支撑1。浙江广播电视集团在设备管理系统建设过程中,极

2、其注重基础数据的质量,为此,利用数据清洗手段保证基础数据高质量运转是摆在我们面前的一大课题。本文介绍利用 Python 等工具简便高效完成广电设备基础数据清洗的方法与实践结果,为相关领域应用提供参考。1.数据清洗概述1.1 数据清洗的重要性信息系统的核心是数据,数据仓库需要确保数据的准确性、规范性、完备性和可信度(Correctness、Consistency、Completeness、Reliability)2。实践中,历史数据可能会因为多种原因积累错误而违背以上原则,因此,在新的设备管理信息系统建立前,要利用数据清洗手段纠正这些偏差。数据清洗是指为了提高数据质量,在数据集合中发现不准确、不

3、完整或不合理的数据,并对这些数据进行调整或完善的过程3。换句话说,在数据被装载到数据库之前,数据清洗是提高数据质量的必要环节。1.2 数据清洗方案(1)利用数据清洗框架模型以 Trillium 模型、Bohn 模型、AJAX 模型4以及ETL 框架5等为代表的数据清洗模型框架能针对不同系统网络System Network86影视制作系统网络System Network领域、不同侧重点的数据处理目标提供整套数据处理流程和工具。这类方案的实质是将源数据按规范转化为目标数据的数据转换器,要完成数据转换工作,必须经过周密的规划和设计,才能建立起相对独立的系统,其学习成本较高且不够灵活,对于数据清洗的中

4、小体量来说略显臃肿。(2)灵活应用基础工具针对设备资产数据结构和体量的特点,借鉴数据清洗框架对数据抽取、集成、规约5的思路,利用 Excel与 Python 等基本工具,也可实现对数据的提取、判定和转换。1.3 Python的特点(1)快速开发Python 代码编写灵活简单,能够以很少的代码行数完成复杂的数据清洗任务,并且能够快速迭代和调试。(2)大量的第三方库Python 社区有大量的第三方库可用于数据清洗,例如 pandas、openpyxl、XlsxWriter、NumPy 等。这些库不仅提供了丰富的函数和方法,还包含了许多高级算法和工具,使得数据清洗更加容易和高效。(3)开放的社区和资

5、源Python 具有庞大的开放社区和大量的学习资源,包括官方文档、课程、在线论坛等等,这使得学习和使用 Python 更加方便容易。综上所述,Python 在数据清洗中具有高效、易用、灵活、可扩展性强的特点,因此在数据科学和数据分析领域得到了广泛应用。2.相关工具介绍2.1 WPSWPS 是金山软件开发的一款办公软件套装,其表格模块不仅有 Microsoft Office Excel 类似的界面和操作方式,还提供了更多实用的功能和工具,是我们存储和处理数据的主要载体。2.2 openpyxlopenpyxl 可以用于将 Excel 数据导入 Python 中进行清洗和处理。在数据清洗方面,op

6、enpyxl 提供了以下功能:(1)读取和写入 Excel 文件中的数据。(2)在单个单元格和多个单元格之间处理数据。(3)对数据进行筛选、排序、重塑等操作。(4)可以添加、修改或删除工作表或工作簿。(5)支持 Excel 公式的解析和计算。这些功能使得openpyxl在数据清洗方面具有很大的作用,我们可以用 openpyxl 读取一个 Excel 文件并筛选出满足某些条件的数据,然后对这些数据进行加工和转换,最后再将结果写回到另一个 Excel 文件中。同时,openpyxl 还支持与 pandas 等 Python 数据分析库协同使用,方便快速地进行数据清洗和处理。3.Python工具在数

7、据清洗中的应用实践3.1 数据准备表格是一种常见的数据组织形式,它通常由一个或多个列(也称为字段或属性)组成,每行(也称为记录或元组)代表一个单独的实例,该实例包含与该表相关的所有信息。数据准备需要围绕这两个维度展开。一是根据需要设计属性列表,其基本要求符合数据库基本范式要求,字段属性设计依据所收集的用户需求并借鉴同类项目设计经验,只有取得两方面的最大公约数,将两方面结合才能在适用性和效率之间取得平衡。二是完成数据整合,多表合并前要对数据进行分组,准确识别每组数据源信息的字段含义,并准确匹配到目标数据表中。数据的聚合要不重不漏,同时要避免数据字段信息的错位,防止数据的张冠李戴。基础数据表整理完

8、成后可统一添加辅助字段,为数据提供准确标注,便于数据清洗各阶段的数据识别。如添加“序号”字段,为数据建立统一索引,便于在数据清洗过程中的检验与匹配;添加“数据来源备注”字段,标记数据组来源,便于对问题数据的回溯判断。3.2 数据清洗首先,我们分析一个待清洗问题数据实例,见表 1。该实例中关于数据质量的典型问题包括:(1)缺少值:如 H2 中的数据为空,原因可能是录87影视制作系统网络System Network入数据时不知道该信息或遗漏。(2)数据错误:如 F4 中的数据在录入时引入的错误,如 H3 中由数据类型多次转换引入的错误。(3)不同的表达:如 E3 不同于 E6 没有严格按约定的标准

9、录入数据。(4)自由格式的文本串:如 G2 在单一字段中存放了多种信息。(5)错误的引用:如 G3 的责任人不属于对应责任部门。(6)相似重复记录:如 A4 和 A5 标记的两条记录对应于同一个现实实体。(7)互相矛盾的记录:如 A4 和 A5 标记的两条记录对应于不同现实实体。总结起来,遗漏值处理、重复值处理、资料类型转换、异常值检测及数据归一化、规范处理是数据清洗的具体目标。可以利用 WPS 的表格工具对数据缺失、重复值以及数据类型转换进行判断和处理,我们重点讨论如何利用 Python 进行数据异常值检测以及数据归一化和规范化处理。相关数据处理使用 Python 分为三步:第一步是异常值检

10、测:将源数据和参考数据进行对比,其思路是先定义一个源列表 source_list 和一个参考列表 reference_list,然后将源列表 source_list 放入一个字典 source_dic 中,并打印出偏差列表,即在源列表中但不在参考列表中的元素。具体实现是通过遍历源列表和参考列表,若源列表中的元素不在参考列表中,则将其打印出来,生成数据偏差列表。第二步是建立转换依据:将数据偏差列表和参考列表整合生成数据查找表。第三步是数据转换:首先导入 openpyxl 模块,然后加载名为“数据转换表”的表格文件。接着,从该文件中获取名为“源数据”和“查找表”的两个工作表。然后,分别获取“源数据

11、”工作表中的源数据列和“查找表”工作表中的偏差数据列和参考数据列。接着,将偏差数据列和参考数据列的数据分别存储在 list_a 和 list_b 两个列表中,并将这两个列表打包成一个字典 map_dic。接下来,遍历源数据列中的每个单元格,如果该单元格的值在 map_dic 的键中出现,则将该单元格的值替换为 map_dic 中对应的值。最后,以“数据转换结果表.xlsx”为名的表格文件,保存修改后的工作表。运用上述方法,可以根据找字表对字段值的正确性进行验证,如果发现有错的地方就进行纠错。3.3 数据检验数据检验是指从数据的准确性、规范性、完备性和可信度等方面来检验数据。数据检验是保证数据清

12、洗质量的重要一环,它既是数据清洗前的试金石,又是数据清洗后的裁判员,因此应在数据清洗过程适时做好数据检验工作。数据抽样检验是一种重要的方法,用于检验数据的表1 效率对比ABCDEFGH1设备条码设备名称规格型号序列号存放地点责任部门责任人入库日期2171717-2672通话接收机P10RC50219 二制作区801m演播厅音响部王银平 刘先达3171717-2673通话接收机P10RC50383制作区800平米演播厅音响部陈世平413794050505-0711音频分配器PA835s56dRHv工作车音箱部王银平2016.1.255050505-0711音频分配器PA835s56dRHvD31

13、21音响部王银平2016-01-256121212-0123监视器L MD-1702723167制作区800m2演播厅视频部陈世平200807047121212-0123跳线盘P-KIT-350002436A楼219音响部王银平2008061388影视制作系统网络System Network抽样是否代表一般情况,它能帮助我们判断样本数据是不是足够可靠,从而推论出一个大致的情况。4.应用结果与分析经过以上步骤的处理,数据清洗结果见表 2。特别的,不应在数据分析检测过程中单独删除某几行重复数据,可利用辅助字段标识数据,如在表 2 中添加“拟删除”字段用以标记待删除数据,直到数据最后交付前统一处理,

14、这样做可维护数据的整体性和一 致性。实践中,利用 Excel 与 Python 等基本工具,对一份包含 40 余个属性字段、2 万余条数据实例的数据表,在参考标准数据完备的前提下,3 人天可完成数据处理并出具数据清洗结果及问题分析报告,清洗后的数据质量有了明显提升,为系统基础信息初始化做了必要准备。表2 清洗后数据实例ABCDEFGHI1设备条码设备名称规格型号序列号存放地点责任部门责任人入库日期拟删除2171717-2672通话接收机P10RC50219制作区800m2演播厅音响部王银平190001013171717-2673通话接收机P10RC50383制作区800m2演播厅音响部王银平1

15、90001014050505-0711音频分配器PA835s56dRHv工作车音响部王银平2016.1.25删除5050505-0711音频分配器PA835s56dRHvD3121音响部王银平201601256121212-0123监视器LMD-1702723167制作区800m2演播厅视频部陈世平200807047121212-0123-1跳线盘P-KIT-350002436A楼219音响部王银平200806135.结束语在本项目实践中,Python 在广电设备数据清洗环节得到了很好的应用。在未来,数据清洗工作必将向着更加自动化、更加集成化的趋势发展,相关工具需要能够处理各种类型的数据,并且

16、可以在不同的数据源之间进行转换和整合,与此同时,数据清洗会更加注重对数据隐私的保护。当前,我国各行业数字化转型发展趋势正不断得到加强,广电行业也将以数字化引领相关技术系统迭代升级,为高质量数据推动高质量发展提供高效而可靠的技术支撑。【参考文献】1 周明辉.基于Python+Django的电台播出设备维护系统设计与实现J.广播与电视技术,2022,49(03):121-125.2 AgostaL.TheEssentia1GuidetoDataWarehouseM.PrenticeHall,2000.2-47.3 李学龙,龚海刚.大数据系统综述J.中国科学:信息科学,2015,45(01):1-44.4 王曰芬,章成志,张蓓蓓,吴婷婷.数据清洗研究综述J.现代图书情报技术,2007,(12):50-56.5 周宏广,周继承,彭银桥,龙思锐.数据ETL工具通用框架设计J.计算机应用,2003,(12):96-98.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服