1、一行python代码搞定数据分析报告Python是程序员和数据科学家最常用的编程语言之 -o在现实世界中,数据在每个行业中都起到了非常 重要的因素,当我们做任何项目时,我们都需要先了 解数据。我们需要编写不同的编程逻辑、分析、进一步的建模 来了解数据,这样往往需要花费大量时间。在python 中有一个名称为pandas_profiling,它可以用一行来 创建端到端数据分析报告。pandas_profilingpandas_profiling是python中最著名的库之一,使用 它只需一行代码就可以立刻获取数据分析报告。安装要安装此库,可以使用pip命令,如下所示:pip inslall pa
2、ndas_profiling导入库pandas_pro filingimport pandas as上面己经详细介绍了数据分析报告。分析报告可以为 我们提供数据的总体摘要、有关每个功能的详细信息、 组件之间关系的直观表示、有关缺失数据的细节以及 可以帮助理解数据的更多有趣的见解。数据本文中实用的数据为开源房屋价格数据,如果你需要 练习,可以文末下载。df= pd.read_csv(train.csv)df.head(10)POSTED_BYUNDER.CONSTRUCT1ONRERABHK.NO.BHK_OR_RKSQUARE.FT READY.TO.0Owner002BHK1300 2364
3、071Dealer002BHK1275 0000002Owner002BHK9331597223Owner012BHK929 9211434Dealer102BHK999 0092475Owner003BHK1250 0000006Dealer003BHK1495 0539577Owner013BHK1181.0129468Dealer012BHK1040 0000009Owner012BHK879 120879获取数据分析报告我们准备好数据,就可以使用python代码的一行来生成数据剖析报告,如下所示:hourse_price_report=pandas_profiling.ProfilcR
4、cpon(df)|运行如下命令后,我们将看到进度条,该进度条根据特定参数生成数据概要分析报告。hourse_price_report=pandas_profiling.ProfileReport ;df100%12/12 00:2700:00, 2.26s/itcorrelations recoded: 100%6/6 00:1000:00, 1 68s/itinteractions continuous: 100%25/25 00:0800:00, 2.91 it/s100%1/1missing matrix: 100%2/2 00:0300:00, 1.61s/itwarnings cor
5、relations: 100%3/3 00:0000:00, 54.57it/s100%1/13.82iVsbuild report structure: 100%1/1 00:0700:00, 7.92s/it将报告另存为HTML格式成功生成报告后,我们可以将报告另存为HTML文件 并与他人共享。可以使用下面的代码行将报告保存为 HTML格式。hourse_)ort.to_file(house_reiport.hlml)从数据分析报告中获得什么总体数据汇总OverviewOverviewReproduction Warnings。Dataset statisticsVariablNumber
6、 of variables12NUMNumber of observations29451BOOLMissing cells0CATMissing cells (%)0.0%Duplicate rows401Duplicate rows (%)1.4%Total size in memory7.6 M旧Average record size in memory272.2 B有关每个变量的详细信息Distinct countUnique (%)MissingPOSTED BYCategoricalMissing (%)Memory sizeZirakpur,Chandigarh1509White
7、field,Bangalore230Raj Nagar Extension,Ghaziabad215Sector-137 Noida,Noida139New Town,Kolkata131Other values (6894)28227变量之间每个相关性的详细可视化UNDER_CONSTRUCTIONRERABHK_NO.SQUARE_FTREADY_TO_MOVERESALELONGITUDELATITUDETARGET(PRICE IN LACS)hu.uj%ads .onxhcd NO_JLonor.LSN(BHK_NO.BHK_OR_RKLATITUDELONGITUDEPOSTED_
8、BYREADY_TO_MOVERERARESALESQUARE_FTTARGET(PRICE_IN_LACS)UNDER_CONSTRUCTIONUJAC 巨 C-L Ac Asia 山.LSOO- 山 antzeNOl UJant:J._l W8OI工工8 .onxhcd缺失值统计Missing valuesCount Matnx不同类别的相互联系BHK_NO. SQUARE_FT LONGITUDE LATITUDE TARGET(PRICE_INBHK_NO. SQUARE_FT LONGITUDE LATITUDE TARGET(PRICE_II20.017.515.012.510.07.55.02.50LONG0LONG-40-20结论