1、Computer Era No.12 20230 引言我国已建成的招聘网站约有两千多家,有大量的求职者通过浏览网站招聘信息寻找工作机会,但网站上招聘信息量大,有效职位信息更新快,使得求职者在眼花缭乱的招聘信息中筛选出自己满意的工作具有难度1。BOSS 直聘是国内目前应用最广泛的招聘网站之一,本文依托BOSS直聘网站,根据互联网行业关键词,运用爬虫技术获取相关岗位的地点、薪资、福利和公司规模等信息,再对数据进行预处理和可视化分析,在一定程度上帮助毕业生以及其他求职者了解就业市场行情,根据求职需求精准定位岗位信息,找到与自身能力相匹配的工作。1 爬虫获取数据1.1 确定爬取对象本文研究对象为BOS
2、S直聘网站上IT行业招聘信息数据,使用Selenium库自动化操作火狐浏览器的方式爬取网站IT行业相关岗位信息2,爬虫采用的编程语言版本是 Python3.9.10,集成开发环境是Pycharm。1.2 分析URL在BOSS直聘网上进入“职位”页面,招聘页面的URL规律为https:/ 洛阳 471023)摘要:针对求职者面对招聘网站上繁杂的招聘信息而无法高效获取有参考价值信息并准确找到合适工作的情况,本文首先基于Python爬虫技术对BOSS直聘网站上互联网行业相关岗位招聘信息进行爬取,然后将获取到的招聘信息数据采用PySpark技术进行数据清洗,最后利用FineBI工具对岗位数据进行可视化
3、分析,得到岗位要求与学历、地区、薪资等存在的关系,也进行了招聘岗位和福利待遇的词云图分析。该研究结果能够直观的呈现互联网行业当前招聘现状,可为求职者提供有效参考。关键词:招聘信息;Python;PySpark;FineBI;可视化分析中图分类号:TP391文献标识码:A文章编号:1006-8228(2023)12-15-05Research on recruitment information data analysis and visualization based on FineBIWang Jiaojiao,Gu Shen,Zhao Miao,Zhou Yijie(School of C
4、omputer an Information Engineering,Luoyang Institute of Science and Technology,Luoyang,Henan 471023,China)Abstract:In order to solve the problem that job seekers cannot efficiently obtain valuable information and accurately find thesuitable job in the face of the complicated recruitment information
5、on the recruitment website,the recruitment information forpositions related to the internet industry on the BOSS recruitment website is firstly crawled based on Python crawler technology.Then,Pyspark technology is used to clean the data of the acquired recruitment information,and FineBI tool is used
6、 to visuallyanalyze the job data.Finally,the relationship between job requirements and education,region,salary,etc.is obtained,and the wordcloud analysis of recruitment positions and welfare benefits is carried out.The research results can visually present the currentrecruitment status of the intern
7、et industry and provide effective reference for job seekers.Key words:recruitment information;Python;PySpark;FineBI;visualization analysis收稿日期:2023-08-18作者简介:王姣姣(1994-),女,汉族,河南洛阳人,硕士,助教,主要研究方向:计算机应用、大数据技术。通讯作者:顾珅(2002-),男,河南焦作人,本科生在读,主要研究方向:数据科学与大数据技术。15计算机时代 2023年 第12期1.3 提取数据采用CSS选择器获取网页上的全部数据,通过定
8、义函数 lis=driver.find_elements(By.CSS_SELECTOR,.job-card-wrapper)实现4,再根据标签的类属性提取到公司名称、公司地区、薪资水平、学历要求以及福利待遇等详细内容。1.4 数据保存为了方便进行数据查看和数据交换,这里采用CSV文件的形式保存招聘信息数据,先将信息放入相应类型的列表中,创建标签列表作为文件列名,再将数据写入文件中,如图1所示。图1爬取招聘信息数据部分截图2 数据分析过程上述得到的CSV文件存在数据缺失、重复、错误以及不可用的情况,需要进行数据处理5。本文通过采用PySpark大数据技术将上述获取得到的CSV文件进行预处理,以
9、便整理出期望的格式,这样才能得到更好效果的可视化分析6。数据预处理过程分为下面三个步骤:数据去重。调用dropDuplicates()函数对数据进行去重,保留惟一的记录。信息拆分。根据获取到的数据观察到地区列、薪资列和tag_list列都包含多个字段,需要从三个方面完成数据的拆分:一是对地区列的拆分,地区列数据格式为“xx xx xx”,要将该格式拆开创建新的“城市”、“区域”和“街道”三个列;二是对薪资列的拆分,薪资列格式为“xx-xx xx”,要将该格式拆开创建新的“最低薪资”、“最高薪资”和“薪资制度”三个列;三是对tag_list列的拆分,要将该列数据拆开创建新的“工作经验”和“教育程
10、度”两个列。数据格式转换。薪资列和工作经验列格式需统一为数值类型,例如:将 salary中包含“元/时”的数据行删除,将 salary统一单位为“K”,将 5000元/月转换为5K,将 salaryPay 转换数值型,将maxsalary列的“元/天”删除掉等操作。经过数据预处理后最终得到1800余条可用数据,如图2所示,调整后的数据提升了可用性,便于后续进行可视化分析。图2预处理后的招聘信息数据部分截图16Computer Era No.12 20233 招聘数据可视化分析结果FineBI是帆软软件有限公司旗下的一款免费开源的数据可视化的BI工具7,FineBI对于数据加工操作可谓良好,使用
11、方便,可视化结果能够随着操作步骤实现实时展现,用户能够简易的制作出丰富多样的可视化信息8。综上,本文选取FineBI工具对招聘信息数据进行可视化研究。3.1 学历要求通过图3岗位对不同学历要求的占比图,可以看出在IT行业就业市场中,要求本科学历的工作岗位最多,占比七成左右;其次是大专学历,占比两成左右;对于硕士、博士这类高学历人群招聘比例不高,通过观察招聘岗位信息发现,招聘硕士和博士的都是偏向于研发方向,对学历要求高;学历为高中及以下的岗位招聘数量较少。图3不同学历要求占比3.2 工作经验要求从图 4 可以看出,要求具备 35 年工作经验的岗位招聘数量最多,其次是工作经验为13年。要求10 年
12、以上工作经验的岗位数量最少,其次是应届毕业生。这说明大多招聘单位倾向于招聘有一定工作经验的人才,在校生及应届生因缺乏工作经验而工作机会较少,因此建议学生可以把重点放在校园招聘,无需工作经验。图4不同工作经验要求岗位数量统计3.3 薪资水平分析从图5可以得知,目前全国平均薪资排名前三的城市是南通、北京和上海,其对应的薪资水平分别为36000、25290和20500。这意味着在不同地区从事相同类型的工作获得的收入也是不尽相同的,这就需要求职者明白在选择工作时应充分了解各个地区的薪资情况,同时跟自己的实际情况综合考虑,以便找到适合自己的工作。图5不同城市薪资分布情况17计算机时代 2023年 第12
13、期3.4 招聘岗位地区分布图6和图7展示了岗位地区分布情况,可以看出IT行业相关岗位集中分布在沿海发达城市和中西部省会城市,求职者在找工作时候可结合自身情况去在这些城市中去选择工作区域,就业机会排名前五名的城市为北京、上海、深圳、杭州和广州,相对来说这些地区招聘人数多,求职者找工作选择多,在一定程度上录用率也高。图6岗位分布地图图7岗位分布词云图3.5 招聘岗位词云分布通过对公司招聘岗位数据绘制词云图共得到575条不同的福利词汇,如图8所示。出现频率最高的五大 关 键 词 为:“C+”、“ETL 工 程 师”、“JAVA”、“PYTHON”和“数据分析师”,如表1所示,表明在人才市场需求中,求
14、职者想从事该方向工作就需增强这类技能,提升求职竞争力,这样工作选择机会较大。图8招聘岗位词云图表1排名前五岗位词汇出现次数排名12345词条C+ETL工程师JAVAPYTHON数据分析师次数179137136103433.6 福利词云分布通过对福利待遇数据绘制词云图共得到261条不同的福利词汇,如图9所示。出现次数排名前五的分别是“五险一金”、“带薪年假”、“年终奖”、“节日福利”和“定期体检”,如表2所示,这些福利待遇好坏能反映出公司的实力及规模,也是求职者比较关心的一个方面,能够帮助求职者做出决策。图9福利待遇词云图表2排名前五福利待遇词汇出现次数排名12345词条五险一金带薪年假年终奖节
15、日福利定期体检次数1318111511131091894(下转第23页)18Computer Era No.12 20232 罗菁.揭开职场上神秘“背调”的面纱J.劳动保障世界,2019,No.554(34):30.3 Bai Y,Lei H,Li S,et al.Decentralized and self-sovereignidentity in the era of blockchain:a surveyC/2022IEEE International Conference on Blockchain(Block-chain).IEEE,2022:500-507.4 Ayaburi E
16、W,Treku D N.Effect of penitence on socialmedia trust and privacy concerns:Thecase of FacebookJ.International Journal of Information Management,2020,50:171-181.5 Nakamoto,S.(2008).Bitcoin:A Peer-to-Peer ElectronicCash System.6 Chen L,Lee W K,Chang C C,et al.Blockchain basedsearchableencryptionforelec
17、tronichealthrecordsharingJ.Future generation computer systems,2019,95:420-429.7 Mohamed K,Aziz A,Mohamed B,et al.Blockchain fortrackingserialnumbersinmoneyexchangesJ.IntelligentSystemsinAccounting,FinanceandManagement,2019,26(4):193-201.8 翟社平,陈思吉,汪一景.基于区块链的数字版权存证系统模型研究J.计算机工程与应用,2020,56(19):13-21.9
18、Wang G,Zhang S,Yu T,et al.A Systematic Overview ofBlockchainResearchJ.JournalofSystemsScienceand Information,2021,9(3):205-238.10 Skelton D H.Resume and cv certification process:U.S.Patent Application 12/610,721P.2011-5-5.11 Chen Z,Liu W,Yang Y,et al.Electronic evidence serviceresearchincloudcomputi
19、ngenvironmentC/201817th IEEE International Conference On Trust,Secu-rity And Privacy In Computing And Communications/12thIEEEInternationalConferenceOnBigDataScience And Engineering(TrustCom/BigDataSE).IEEE,2018:332-338.12 江麒海.基于区块链的简历认证系统的设计与实现D.厦门:厦门大学,2019.13 马继,周凤,田有亮.基于区块链的可搜索加密人才履历共享方案J.计算机系统应用
20、,2021,30(12):95-102.14 Buterin,V.(2013).Ethereum:A Next-Generation SmartContractandDecentralizedApplicationPlatform.White Paper.15 Christidis,K.,&Devetsikiotis,M.(2016).BlockchainsandSmartContractsfortheInternetofThings.IEEE Access,2016(4):2292-2303.16 Androulaki E,Barger A,Bortnikov V,et al.Hyperle
21、dgerfabric:adistributedoperatingsystemforpermis-sionedblockchainsC/ProceedingsofthethirteenthEuroSys conference,2018:1-15.17 Nguyen,L.(2005).Accumulators from Bilinear PairingsandApplications.InC.Boyd&J.M.GonzlezNieto(Eds.),CryptographersTrackattheRSAConference(pp.275-292).Springer.18 钟晓睿,马春光.基于动态累加
22、器的异构传感网认证组密钥管理方案J.通信学报,2014,35(3):124-134.19 Bunz,B.,Bonneau,J.,Boneh,D.,&Li,B.(2018).Bulletproofs:Short Proofs for Confidential Transac-tions and More.In 2018 IEEE Symposium on Securityand Privacy(SP)(pp.315-334).4 结论本文通过爬虫技术获取招聘信息数据,使用PySpark技术完成数据去重、信息拆分和格式转换等预处理操作,基于FineBI工具完成了招聘信息数据的可视化分析。可视化分析
23、结果包括岗位学历要求、工作经验要求、岗位城市分布、薪资范围、岗位词云分布和福利待遇词云分布等内容。该结果直观呈现出IT行业招聘岗位的特点,求职者从中了解岗位信息,在一定程度上节省了盲目浏览网站的时间,有利于高效找到适合自己的工作。同时,爬虫获取的招聘信息数据也可以进行文本挖掘、机器学习等进一步的分析。参考文献(References):1 汤飞弘.基于 Python 爬虫的招聘信息数据可视化分析J.软件,2023,44(1):176-179.2 张晨祥,宁璐,冯明歌.基于Pyhton的涉农职位招聘信息爬取与可视化分析J.计算机时代,2023(2):51-54,60.3 于学斗,柏晓钰.基于Pyt
24、hon的城市天气数据爬虫程序分析J.办公自动化,2022,27(7):10-13,9.4 杨孟姣,杜棋动.基于Python爬虫网站数据分析系统设计与实现J.计算机时代,2023(11):81-83.5 黄涛,高丽婷.基于 Spark 的实时数据采集与处理J.河北建筑工程学院学报,2022,40(4):176-179,188.6 杨卫宁,邹维宝.基于 Spark 的出租车轨迹处理与可视化平台J.计算机系统应用,2020,29(3):64-72.7 帆 软 社 区.FineBI6.0 帮 助 文 档 EB/OL.https:/ 胡是洋,刘威.基于FineBI的农产品产销数据的可视化研究J.电脑知识与技术,2023,19(15):54-59.(上接第18页)CECE23