1、pandas 1:入门+SeriesPandas,即python data analysis的组合缩写,是python语言中基于numpy和matplotlib搭建的第三方数据分析库,与后两者共同构成了python数据分析的基础工具,享有数据分析三剑客之名。1 pandas导入pandas模块的方法如下:import pandas as pd # pd是用户为导入模块取的别名 2 pandas中的数据结构pandas提供了Series和DataFrame两种数据结构。3 SeriesSeries是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引(index ),索引值默认是从0起递
2、增的整数。列表、字典等可以用来创建Series数据结构,与列表不同的是,Series的索引可以指定,类型可以为字符串型。3.1 创建Series功能:创建1个Series结构类型的对象,存储3名同学的身高值。序号代码运行结果说明例1import pandas as pds1=pd.Series(166,178,180)print(s1)0 1661 1782 180dtype: int64通过列表创建索引默认例2import pandas as pds2=pd.Series(166,178,180,index=s01,s02,s03)print(s2)s01 166s02 178s03 180
3、dtype: int64通过列表创建索引指定例3import pandas as pds3 = pd.Series(a:1, b: 2, c: 10, d: 20)print(s3)a 1b 2c 10d 20dtype: int64通过字典创建3.2 查看Series对象的属性值功能:查看Series对象的index、values属性值。序号代码运行结果说明例4import pandas as pds4=pd.Series(166,178,180)for i in s4.index: print(i)012查看index例5import pandas as pds5=pd.Series(16
4、6,178,180)for i in s5.values: print(i)166178180查看values例6import pandas as pds6=pd.Series(166,178,180)for i in s6: print(i)166178180与例5结果相同3.3 选取并修改Series对象中的值功能:通过索引可以选取Series对象中的值,通过赋值语句可以修改Series对象中的值。序号代码运行结果说明例7import pandas as pds7=pd.Series(166,178,180)s70=168print(s7)0 1681 1782 180dtype: int
5、64修改索引为0的数据为168例8import pandas as pds8=pd.Series(166,178,180,index=s01,s02,s03)s8s01=168print(s8)s01 168s02 178s03 180dtype: int64修改索引为“s01”的数据为168例9import pandas as pds9 = pd.Series(a:1, b: 2, c: 10, d: 20)s9c=123print(s9)a 1b 2c 123d 20dtype: int64修改索引为c的数据为123课中例析题:1.在 python 中为了对数据进行分析整理,可以使用的库是
6、 ( )A . requests 库B. pandas库C. matplotlib库D . jieba 库2.Pandas 中 Series 左列默认 index 是从( )开始生成。 A .0B.1C. NaND.a3.代码创建 Series 对象,第二行数据的下标是( )import pandas as pd s1=pd.Series (188,167,156, index=I.,II.,III.)A.167B.2.C. I.D.II.4.下列有关 Series 说法错误的是( )A.Series 中 index 和 values 长度必须一致 B.Series 中必须指定indexC.两
7、个 index 不同的 Series 可以相加 D.Series 经过计算后的 index 顺序和计算前不一定一致5.Pandas 中有两个重要的数据结构:_、_pandas 2:DataFrame1 DataFrame DataFrame是一种二维的数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。【DataFrame是由一组数据与一对索引(行索引和列索引)组成的表格型数据结构。其存储形式与Excel的数据存储形式很相近。】DataFrame可以看作是共享同一个index的Series的集合。创建DataFrame对象的方法很多,通常用一个相等长度的列表或字
8、典来创建。1.1 创建DataFrame1.1.1 使用函数.DataFrame()创建DataFrame对象功能:使用函数.DataFrame()创建DataFrame对象序号代码运行结果说明例1import pandas as pddata=a,b,c,ddf1 = pd.DataFrame(data)print(df1) 00 a1 b2 c3 d通过列表创建,创建一列数据例2import pandas as pddata=a,A,b,B,c,C,d,Ddf2 = pd.DataFrame(data)print(df2) 0 10 a A1 b B2 c C3 d D通过列表创建,创建两
9、列数据例3import pandas as pddata = 小写:a,b,c,d,大写:A,B,C,D df3 = pd.DataFrame(data)print(df3) 小写 大写0 a A1 b B2 c C3 d D通过字典创建,创建两列数据 例4import pandas as pddata = 小写:a,b,c,d,大写:A,B,C,Ddf4 = pd.DataFrame(data,index=甲,乙,丙,丁)print(df4) 小写 大写甲 a A乙 b B丙 c C丁 d D通过字典创建,字典中的key值相当于列索引,如要加入行索引,可使用index= 参数例5import
10、 pandas as pddata = 小写:a,b,c,d,大写:A,B,C,Ddf5 = pd.DataFrame(data,columns=大写,小写)print(df5) 大写 小写0 A a1 B b2 C c3 D dcolumns可以设定数据列的顺序1.1.2 直接读取数据文件创建DataFrame对象功能:直接读取二维数据文件创建DataFrame对象 read_excel() 可以从.xlsx文件导入生成DataFrame read_csv() 可以从.csv文件导入生成DataFrame序号代码运行结果说明例6import pandas as pddf6=pd.read_e
11、xcel(test.xlsx)print(df6) name sex age0 Helen female 151 Bruce male 192 Jack male 17导入.xlsx文件创建DataFrame对象。(以下是test.xlsx中数据)例7import pandas as pddf7=pd.read_csv(test.csv)print(df7) name sex age0 Helen female 151 Bruce male 192 Jack male 17导入.csv文件创建DataFrame对象。(以下是test.csv中数据)name,sex,ageHelen,femal
12、e,15Bruce,male,19Jack,male,171.2 查看DataFrame对象的属性值功能:查看Series对象的行索引index、列标题columns、值values,并行列转置。序号代码运行结果说明例8import pandas as pddf8=pd.read_excel(test.xlsx)for i in df8.index: print(i)012行索引index(以下是test.xlsx中数据)例9import pandas as pddf9=pd.read_excel(test.xlsx)for i in df9.columns: print(i)namesexa
13、ge列标题columnsdf9.columns可简写为df9例10import pandas as pddf10=pd.read_excel(test.xlsx)for i in df10.values: print(i)Helen female 15Bruce male 19Jack male 17值values例11import pandas as pddf11=pd.read_excel(test.xlsx)print(df11.T) 0 1 2name Helen Bruce Jacksex female male maleage 15 19 17行列转置1.3 选取并修改DataFr
14、ame对象中的值1.3.1 选取DataFrame对象中的值功能: DataFrame对象中的一列可以通过字典记法或属性来检索,可以通过布尔型数据选取满足条件的行,使用at 方法可以根据行标签和列标签选取单个值。 选取方法1:法字典记法 选取方法2:属性 选取方法3:布尔型数据 选取方法4:at 方法序号代码运行结果说明例12import pandas as pddf12=pd.read_excel(test.xlsx)print(df12.name)0 Helen1 Bruce2 JackName: name, dtype: object字典记法。(以下是test.xlsx中数据)例13im
15、port pandas as pddf13=pd.read_excel(test.xlsx)print(df13sex)0 female1 male2 maleName: sex, dtype: object属性。例14import pandas as pddf14=pd.read_excel(test.xlsx)print(df14df14sex=male) name sex age1 Bruce male 192 Jack male 17布尔型数据。选取sex为male的数据。例15import pandas as pddf15=pd.read_excel(test.xlsx)print(
16、df15.at2,name)Jackat 方法。选取第3行”name”列数据。1.3.2 通过赋值修改DataFrame对象中的值功能: DataFrame对象中的列可以通过赋值来修改序号代码运行结果说明例16import pandas as pddf16=pd.read_excel(test.xlsx)df16.age=16,20,18print(df16) name sex age0 Helen female 161 Bruce male 202 Jack male 18(以下是test.xlsx中数据)1.4 将DataFrame结果导出功能: DataFrame对象导出为.xlsx文件
17、可使用函数to_excel( )函数DataFrame对象导出为.csv文件可使用函数to_csv( )函数序号代码运行结果说明例17import pandas as pddata=a,A,b,B,c,C,d,Ddf17 = pd.DataFrame(data)df17.to_excel(df2excel.xlsx)df17.to_csv(df2csv.csv)生成两个文件:DataFrame结果导出在文件中课中例析题:1.在 pandas 库中用于查看列类型的函数是 A.pandas.DataFrame.shape B.pandas.DataFrame.dtypes C.pandas.Dat
18、aFrame.columns D.pandas.DataFrame.columns.dtypes2.使用 to_excel()函数,读取 Excel 文件创建 DataFrame 对象,也可以使用 read_excel()函数,创建 Excel 文件保存数据。_(填:对或错)3.请使用 at方法,获取一个 df 对象中第6行,“姓名”列数据:_4.以下程序用 data 建立一个 DataFrame ,先后取出member和class数据,并转置显示。_(1)_data =grade :Grade1,Grade1,Grade1,Grade2,Grade2,class: Class 1, Clas
19、s 2, Class 3, Class 1, Class 2,member:43,45,44,46,47_(2)_print(df.T)课后巩固题:1.下列哪个不是 Series 对象的属性 ( )A . index B . values C . name D . T 2.下列关于 DataFrame 的说法,错误的是( )A .可以读取 Excel 文件创建 DataFrame 对象 B .创建 DataFrame 对象后,可以修改索引C.可以将 Series 转换为 DataFrame D.Series 和 DataFrame 之间不能进行运算3.有如下 Python 程序段:import
20、 pandas as pd s1 = pd.Series (120,130,180, index =s01,s02,s03 )s11=125 print (s1 s1 179)执行代码后,输出的结果是( )A. 120125180B. s01 120s02 125C .s01 125s02 130D.1201254.有如下 Python 程序段: import pandas as pd data =1,2,3,3,4,5,6,7,8 df1= pd.DataFrame ( data , index = a , b , c ,columns = e ,f, g ) print (df1)输出的结
21、果是( )A. e f g 1 2 33 4 56 7 8B. e f ga 1 2 3b 3 4 5c 6 7 8C. a 1 2 3b 3 4 5c 6 7 8D. a b ce 1 2 3f 3 4 5g 6 7 8 5.Series和 DataFrame 是 pandas 模块中的数据结构,下列描述错误的是( )A.DataFrame 中的索引可以通过属性来显示 B.Series 的下标索引值是默认从0起递增的整数 C.Series 是二维的, DataFrame 是一维的 D.列表、字典等可以用来创建 Series 数据结构6.有如下 Python 程序段: import panda
22、s as pd data =88,89,96,95,93,92,90,87,95 df1 = pd . DataFrame ( data , index =小明,小红,小兰, columns =“语文,“数学,“英语)下列操作错误的是( )A . print ( df1英语)显示英语列的数据 B . print (df1.数学)显示数学列的数据 C . print ( df1. sort_values ( by =语文)语文列数据降序排列D . print ( df1 df1.语文90)显示小明同学的数据7.观察下列程序语句,写出 print()的结果。(字符串的 dtype 是 object )import pandas as pdS = pd.Series ( python , C 十十, JAVA , index =好,语,言)(1) for i in S : print (i)(2) for i in S.values : print (i)(3) for i in S.index : print (i)(4) print ( S )8.小明的成绩如下所示,请用 DataFrame 表示,并且将数学成绩改为90。Math 95Chinese 90English 98Physic 80Chemistry 858