资源描述
一行python代码搞定数据分析报告Python是程序员和数据科学家最常用的编程语言之 -o在现实世界中,数据在每个行业中都起到了非常 重要的因素,当我们做任何项目时,我们都需要先了 解数据。
我们需要编写不同的编程逻辑、分析、进一步的建模 来了解数据,这样往往需要花费大量时间。在python 中有一个名称为pandas_profiling,它可以用一行来 创建端到端数据分析报告。
pandas_profiling
pandas_profiling是python中最著名的库之一,使用 它只需一行代码就可以立刻获取数据分析报告。
安装要安装此库,可以使用pip命令,如下所示:
pip inslall pandas_profiling导入库
pandas_pro filingimport pandas as
上面己经详细介绍了数据分析报告。分析报告可以为 我们提供数据的总体摘要、有关每个功能的详细信息、 组件之间关系的直观表示、有关缺失数据的细节以及 可以帮助理解数据的更多有趣的见解。
数据本文中实用的数据为开源房屋价格数据,如果你需要 练习,可以文末下载。
df= pd.read_csv('train.csv')
df.head(10)
POSTED_BY
UNDER.CONSTRUCT1ON
RERA
BHK.NO.
BHK_OR_RK
SQUARE.FT READY.TO.
0
Owner
0
0
2
BHK
1300 236407
1
Dealer
0
0
2
BHK
1275 000000
2
Owner
0
0
2
BHK
933159722
3
Owner
0
1
2
BHK
929 921143
4
Dealer
1
0
2
BHK
999 009247
5
Owner
0
0
3
BHK
1250 000000
6
Dealer
0
0
3
BHK
1495 053957
7
Owner
0
1
3
BHK
1181.012946
8
Dealer
0
1
2
BHK
1040 000000
9
Owner
0
1
2
BHK
879 120879
获取数据分析报告我们准备好数据,就可以使用python代码的一行来
生成数据剖析报告,如下所示:
hourse_price_report=pandas_profiling.ProfilcRcpon(df)|运行如下命令后,我们将看到进度条,该进度条根据
特定参数生成数据概要分析报告。
hourse_price_report=pandas_profiling.ProfileReport ;df100%12/12 [00:27<00:00, 2.26s/it]
correlations [recoded]: 100%6/6 [00:10<00:00, 1 68s/it]
interactions [continuous]: 100%25/25 [00:08<00:00, 2.91 it/s]100%1/1
missing [matrix]: 100%2/2 [00:03<00:00, 1.61s/it]
warnings [correlations]: 100%3/3 [00:00<00:00, 54.57it/s]100%1/13.82iVs]
build report structure: 100%1/1 [00:07<00:00, 7.92s/it]将报告另存为HTML格式
成功生成报告后,我们可以将报告另存为HTML文件 并与他人共享。可以使用下面的代码行将报告保存为 HTML格式。
hourse_
)ort.to_file('house_rei
port.hlml')
从数据分析报告中获得什么
总体数据汇总Overview
Overview
Reproduction Warnings。
Dataset statistics
Variabl
Number of variables
12
NUM
Number of observations
29451
BOOL
Missing cells
0
CAT
Missing cells (%)
0.0%
Duplicate rows
401
Duplicate rows (%)
1.4%
Total size in memory
7.6 M旧
Average record size in memory
272.2 B
有关每个变量的详细信息
Distinct count
Unique (%)
Missing
POSTED BY
CategoricalMissing (%)
Memory size
Zirakpur,Chandigarh
1509
Whitefield,Bangalore
230
Raj Nagar Extension,Ghaziabad
215
Sector-137 Noida,Noida
139
New Town,Kolkata
131
Other values (6894)
28227
变量之间每个相关性的详细可视化
UNDER_CONSTRUCTION
RERABHK_NO.
SQUARE_FTREADY_TO_MOVE
RESALELONGITUDE
LATITUDETARGET(PRICE IN LACS)
hu.—uj%ads .on—xhcd NO_JLonor.LSN(
BHK_NO.
BHK_OR_RKLATITUDE
LONGITUDEPOSTED_BY
READY_TO_MOVERERA
RESALESQUARE_FT
TARGET(PRICE_IN_LACS)UNDER_CONSTRUCTION
UJAC 巨 C-L Ac Asia 山.LSOO- 山 antzeNO—l UJant:J.<_l W—8OI工工8 .on—xhcd缺失值统计
Missing valuesCount Matnx
不同类别的相互联系
BHK_NO. SQUARE_FT LONGITUDE LATITUDE TARGET(PRICE_IN
BHK_NO. SQUARE_FT LONGITUDE LATITUDE TARGET(PRICE_II20.0
17.515.0
12.510.0
7.55.0
2.50
LONG
0
LONG
-40-20结论
展开阅读全文