数据分析基础——Python实现教学课件(第1-7章).pdf

资源描述

新编21世纪高等职业敢育精品皎材智慧财经系列数据分析基础Python实现课程结构第1章数据分析与Python语言第2章Python数据处理第3章数据可视化分析第4章数据的描述分析第5章推断分析基本方法第6章相关与回归分析第7章时间序列分析第1章数据分析与Python语言1.1 数据分析概述1.2 数据及其来源1.3 Python的初步使用第1章学习目标和思政目标数据分析与Python语言学习目标和思政目标学习目标理解变量和数据的概念，掌握数据分类了解数据来源和概率抽样方法掌握Python语言的初步使用方法思政目标数据分析是一门应用性学科。思政建设应强调数据分析方法在反映我国社会主义建设成就中的作用结合实际问题学习数据分析中的基本概念。结合数据来源和渠道，学习获取数据过程中可能存在的虚假行为，强调数据来源渠道的正当性以避免虚假数据避免收集危害社会安全的非正当来源数据2022-6-10数据分析基础一Python实现（贾俊平）1-3第1章1.1 数据分析概述数据分析与Python语言数据分析方法一什么是数据分析数据分析(datcjcincilysis)是运用统计方法对收集来的数据进行分析，从中提取有用信息并得出结论的过程数据分析的目的是把隐藏在数据中的信息有效地提炼出来，从而找出所研究对象的内在规律和特征在实际应用中，数据分析可帮助人们做出判断和决策，以便采取适当行动2022-6-10数据分析基础一Python实现（贾俊平）1-4第1章1.1 数据分析概述数据分析与Python语言数据分析方法一数据分析的分类从分析目的看可以将数据分析分为描述性分从所使用的统计分析方法看可大致可分为描述析(desc riptive analysis)、探索性分析(exploratory analysis)和验证性分析(c onfirmatoryanalysis)三大类描述性分析和是对数据进行初步的整理、展视和概括性度量，以找出数据的基本特征；探索性分析侧重于在数据之中发现新的特征,为形成某种理论或假设而对数据进行的分析;验证性分析则侧重于对已有理论或假设的证实或证伪统计(desc riptive statistic s)和推断统计(inferential statistic s)两大类描述统计主要是利用图表形式对数据进行汇总和展示，计算一些简单的统计量（诸如比例、比率、平均数、标准差等）进行分析推断统计主要是根据样本信息来推断总体的特征，内容包括参数估计和假设检验等。参数估计是利用样本信息推断所关心的总体特征，假设检验则是利用样本信息判断对总体的某个假设是否成立2022-6-10数据分析基础一Python实现（贾俊平）1-5第1章1.1 数据分析概述数据分析与Python语言数据分析方法一数据分析的分类加和案余朝粼2022-6-10数据分析基础一Python实现（贾俊平）1-6第1章1.1 数据分析概述数据分析与Python语言数据分析工具一软件分类一商业软件和非商业软件商业软件一一不推荐使用商业类软件种类繁多，较有代表性的软件有SAS、SPSS、Minitabs Stata等。多数人较熟悉的Excel虽然不是统计软件，但提供了一些常用的统计函数以及数据分析工具这类软件虽有不同的侧重点，但功能大同小异，基本上能满足大多数人做数据分析的需要。商业类软件使用相对简单，容易上手主要问题是价格不菲，多数人难以接近，此外，更新速度慢，难以提供最新方法的解决方案2022-6-10数据分析基础一Python实现（贾俊平）1-7第1章1.1 数据分析概述数据分析与Python语言数据分析工具一软件分类一商业软件和非商业软件非商业软件一一推荐使用非商业类软件则不存在价格问题。目前较为流行的软件有R语言和Python语言，二者都是免费的开源平台 R语言的一种优秀的统计软件，它是一种统计计算语言。R语言不仅支持各个主要计算机系统，还有诸多优点,比如，更新速度快，可以包含最新方法的解决方案；提供丰富的数据分析和可视化技术，功能十分强大。此外，R软件中的包（pac kage）和函数均由统计专家编写，函数中参数的设置也更符合统计和数据分析人员的思维方式和逻辑，并有强大的帮助功能和多种范例，初学者也很容易上手 Python则是一种面向对象的解释型高级编程语言，并拥有丰富而强大的开源第三方库，也具有强大的数据分析可视化功能。Python于R的侧重点略有不同，R的主要功能是数据分析和可视化，且功能强大，多数分析都可以由R提供的函数实现，不需要太多的编程，代码简单，容易上手。Python的侧重点则是编程，具有很好的普适性，但数据分析并不是其侧重点，虽然从理论上说都可以实现，但往往需要编写很长的代码，帮助功能也不够强大，这对数据分析的初学者来说可能显得麻烦，但仍然不失为一种有效的数据分析工具2022-6-10数据分析基础一Python实现（贾俊平）1-8第1章1.2数据及其来源数据分析与Python语言数据和变量数据(data)变量(variable：数据是个广义的概念，任何可观测并有记录的信息都可以称为数据，它不仅仅包括数字，也包括文本、图像等 O比如，一篇文章也可以看作数据，一幅照片也可以视为数据，等等本书使用的数据概念则是狭义的，仅仅是指统计变量的观测结果。因此，要理解数据的概念，需要先清楚变量的概念变量的观测结果观察某家电商的销售额的销售额，这个月和上个月不同；观察股票市场上涨股票的家数，今天与昨天数量不一样；观察一个班学生的生活费支出，一个人和另一个人不一样；投掷一枚骰子观察其出现的点数，这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量2022-6-10数据分析基础一Python实现（贾俊平）1-9第1章数据及其来源数据分析与Python语言数据（变量）的分类数据是变量的观测结果，因此,数据的分类与变量的分类是相同的本书混合使用变量和数据这两个概念在讲述分析方法时多使用变量的概念，在例题分析中多使用数据的概念了解变量或数据的分类十分必要，因为不同的变量或数据适用的分析方法是不同的数值变量（定量）类别变量（定性）无序类别变量（名义值）有序类别变量（顺序值）布尔变量（二值）离散变量（离散值）连续变量（连续值）时间变量（定性或定量）定性：离散值定量：连续值翱东轴鼠2022-6-10数据分析基础一Python实现（贾俊平）1-10第1章1.2 数据及其来源数据分析与Python语言间接来源和直接来源简单随机抽样A总体（population）：包含所研究的全部个体（或数据）的集合样本（sample）：从总体中抽取的一部分元素的集合从总体N个单位（元素）中随机地抽取n个单位作为样本，使得总体中每一个元素都有相同的机会（概率）被抽中抽取元素的具体方法有放回抽样和无放回抽样分层抽样IA 样本量（sample size）：构成样本的元素的数目.询目量越根据已知的概率抽取样本元素，也称随机抽样将总体单位按某种特征或规则划分为不同层，再从不同的层中随机地抽取样本系统抽样I 将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本元素整群抽样将总体中若干个单位合并为组（群），抽样时直接抽取群，再对中选群中的所有单位全部实施调查2022-6-10数据分析基础一Python实现（贾俊平）1-11第1章Python的初步使用数据分析与Python语言Python的下载与安装Python|Python是一种面向对象的解释型高级编程语言简单易学、免费、拥有丰富而强大的开源第三方库被广泛应用于系统和网络编程、数据处理、云计算、机器学习和人工智能等多个领域已成为目前广泛使用的编程语言之PythonT Customize installationChoose location and featurespython for windows0 Install launcher for all users(recommended)EljAdd Rython 3.9 to PATH)2022-6-10数据分析基础一Python实现(贾俊平)1-12第1章Python的初步使用数据分析与Python语言Anaconda的下载与安装AnacondaAnocondci的下载与安装 Anaconda是一种适合数据分析的Python开发环境,也是一个开源是Python版本 Anaconda包含了多个基本模块，如numpy,pandas,matplotlib,IPython等，安装Anaconda 时，这些模块也就一并安装好了 Anaconda还内置了 Jupyter Notebook开发环境，十分方便代码的编写和修改本书代码编写和运行使用的就是Anaconda平台的Jupyter Notebook界面，推荐初学者使用进入官网(),点击右上角Get Started”https:/ 然后选择Anaconda个人版选项,并单击在弹出的页面中选择自己的电脑系统，如果是Windows系统，需要选择电脑系统的位数,比如64位，即可以下载2022-6-10数据分析基础一Python实现(贾俊平)1-131.3 Python的初步使用第1章数据分析与Python语言Anaconda 界面Anaconda有几种不同的界面可供使用，如Jupyter Notebook,Spyder,Ipython等，使用者可根据自身偏好选择 Jupyter Notebook是一个交互式编辑器，它是以网页的形式打开程序，可以在线或非在线编写代码和运行代码，代码的运行结果可以直接在代码块下显示，对使用者这而言比较直观，易于代码的编写和修改 Jupyter Notebook还可以使用Markdown和HTML来创建包含代码块和标题或注释的文档，便于代码块的区分本书代码编写和运行均使用川pyter Notebook2022-6-10数据分析基础一Python实现（贾俊平）1-14第1章Python的初步使用数据分析与Python语言Anaconda-创建Jupyter Noteboo帔件I仓ll 建 JupyterjNotebook 文件|打开Jupyter Notebook,点击右上角的New按钮,选择Python3,即可以创建一个Python文件Noteboo编写代码在Ju 在也后的代码框（称为“c ell”）中可输入代码。点击“运行按钮或使用组合键,即可运行该代码，运行结果会在代码块的下面显示，其中。ut内的数字表示代码块的第几次运行输出要增加新的代码编辑框，可以点击在下方增加代码编辑框，点击“Insert，可以在上方或下方2022-6-10数据分析基础一Python实现（贾俊平）1-15第1章1.3Python的初步使用数据分析与python语言 Anaconda-保存Jupyter Noteboo收件要保存编写的代码，常用的有两种格式：一种是Jupyter Notebook的专属文件格式，另一种是Python 格式要保存成Jupyter Notebook格式，在文件界面中点击file菜单，选择Save and Chec kpoint,文件会自动保存在默认路径下，文件的扩展名为ipynb。如果要保存在自己的文件夹中，可以在桌面上先建立一个文件夹，比如，Python.c ode,进入Jupyter Notebook后，点击“Desktop就能显示你的文件夹 Pythorc c ode,点击该文件夹，并点击右上角的New按钮，选择Python3,即可以创建一个Python文件,这个文件就会自动保存至文件夹Python_c ode中，你可以建立多个不同名称的文件保存在该文件夹中要保存成Python文件，点击file菜单，选择Download as下的Python(.py),文件会自动保存在默认路径2022-6-10数据分析基础一Python实现(贾俊平)1-16第1章1.3Python的初步使用数据分析与Python语言 Anaconda-Spyder 界面Spyder 界面|Anac onda还有一个界面，该界面类似于 Rstudio在 Windows开始窗口找到 Anac onda,在子目录中找到Spyder,点击后即可打开Spyder界面 Spyder界面由多个窗格组成，使用者可根据需要调整位置和大小。左侧窗格是代码编辑器，右下窗格是输入的代码及代码运行结果的交互式控制台(Console),右上窗格可以查询帮助、导入数据等2022-6-10数据分析基础一Python实现(贾俊平)1-17第1章1.3Python的初步使用数据分析与Python语言模块的安装与加载模块Python中的模块（module）或称为库（pac kage）是指包含Python类、函数等信息的集合，可以看作一个工具包大部分统计分析和绘图都可以使用已有的Python模块中的函数来实现一个Python模块中可能包含多个函数，能做多种分析和绘图，对于同一问题的分析或绘图，也可以使用不同模块中的函数来实现，用户可以根据个人需要和偏好选择所用的模块。模块的下载与安装可以在Python中进行，也可以在Anac onda中进行，这取决于你使用是操作平台或环境在最初安装Python软件时,自带了一序列内置模块,如time,random,sys,os,json,pic kle,shelve,xml,re,logging等除内置模块外，Python还提供了丰富的开源的第三方模块，统计常用的模块有数值计算模块numpy,数据处理模块pandas,作图模块matplotlib,统计计算模块statistic s,统计建模模块stotsmodels 内置模块与第三方模块都需要导入这些模块才能使用其中的函数2022-6-10数据分析基础一Python实现（贾俊平）1-181.3 Python的初步使用第1章数据分析与Python语言模块的安装与加载 pip工具是Python自带的第三方安装工具，在python安装过程中已经安装完成，无需独立安装。如果安装Python时成功将其加入PATH,就可以在操作系统终端直接使用pip instc div模块名称,命令安装第三方模块。Windows系统的操作是，同时按下电脑上的win+R键，在左下角弹出的运行窗口输入“c md”即可打开终端。MqcOS直接打开Terminc d即可|使用Anaconda安装使用Anac ondo中的c ondo进行包的管理和环境管理。安装模块需要在Aondondc i Prompt中输入命令。点击Windows的“开始”按钮，在Anoc ondc i点击Aondond。Prompt,在打开的界面中输入安装命令即可完成安装。比如，要安装模块pondQS,输入c ondo instc dl V模块名称,即可完成安装2022-6-10数据分析基础一Python实现（贾俊平）1-191.3 Python的初步使用第1章数据分析与Python语言模块的安装与加载对于名称较长的模块，为方便使用，通常在导入后将其简化命名。比如，import pandas as pd表示导入模块pandas并简化命名为pd,import matpoltlib as pit表示导入模块matploylib并简化命名为pit,等等当你看到pd.read_csv时，意味着引用的是pandas模块中的read_csv函数，看到 np.average时，意味着引用的是numpy模块中的average函数，等等2022-6-10数据分析基础一Python实现（贾俊平）1-201.3 Python的初步使用第1章数据分析与Python语言查看帮助文件每个Python模块和函数都有相应的帮助说明。使用中遇到疑问时，可以随时查看帮助文件查询Python内置的模块或函数时，直接使用help(函数名)或help(模块名)即可。比如,要想了解sum函数功能及使用方法，可以使用help(sum)或?sum来查询。要了解 random模块的功能及使用方法，可使用help(random)查询，或先使用import导入该模块,使用help(random)查询要查询从第三方平台安装的模块和其中的函数时，需要先用improt导入模块，确保坏境内有这个对象2022-6-10数据分析基础一Python实现(贾俊平)1-211.3 Python的初步使用第1章数据分析与Python语言编写代码脚本 Python有一个重要的概念，即一切皆对象。在Python中，数字、字符串、元组、列表、字典、函数、方法、类、模块，包括你写的代码都是对象(object)对象是给某个变量、数据集或一组代码起一个名字。比如，d=exampleLl就是将数据框 examples赋值给了对象d,要使用该数据框，直接使用d就可以了 Python语言的标准赋值符号是“二。使用者可以给对象赋一个值、一个列表、一个矩阵或一个数据框、一个代码块等。比如，将5个数据组成的列表80,87,98,73,100赋值给对象x,将数据文件examplel赋值给对象d等2022-6-10数据分析基础一Python实现(贾俊平)1-221.3 Python的初步使用第1章数据分析与Python语言编写代码脚本在Python中，变量名是所指定的一种特定标识符（字符串）。Python的变量命名规则如下标识符可以由字母、数字、下画线（_）组成，其中数字不能打头。字母并不局限于26 个英文字母，可以包含中文字符等 Python语言区分大小写,因此abc和Abe是两个不同的标识符标识符不能包含空格另外，Python有33个关键字，如表1-1所示。这些关键字在语法中有特定的含义和功能，不能作为变量名2022-6-10数据分析基础一Python实现（贾俊平）1-231.3 Python的初步使用第1章数据分析与Python语言文件读取和保存 Python可以读取不同形式的外部数据，这里主要介绍如何读取c sv格式和Exc el格式的数据。本书使用的数据形式均为c sv格式，其他很多类型的数据也可以转换为c sv格式，比如，Exc el数据、SPSS数据等均可以转换成c sv格式使用pandas库中的read_c sv函数可以将c sv格式数据读入到Python环境中。函数默认参数headexinfer,即读取的CSV数据将第一行作为标题（即列索引）。如果数据中没有标题，可以使用Names参数手动设置，如果数据标题不是从第一行开始，可以使用header参数确定标题行读取c sv格式数据时，需要设置参数enc odingJgbk，也就是指定编码格式。因为Python的默认编码格式为“UTF-8，而将Exc el文件另存为c sv格式时，默认的编码格式为“GBK”,因此，读取c sv格式数据时需要指定编码格式为“GBK，与原文件的编码格式一致，否则系统会报错2022-6-10数据分析基础一Python实现（贾俊平）1-241.3 Python的初步使用第1章数据分析与Python语言文件读取和保存在分析数据时，如果读入的是已有的数据，并且未对数据做任何改动，就没必要保存，下次使用时，重新加载该数据即可。但是，如果在Python中录入的是新数据，或者对加载的数据做了修改，保存数据就十分必要如果在Python环境中录入新数据，或者读入的是已有的数据，想要将数据以特定的格式保存在指定的路径中，则先要确定保存成何种格式。如果想将数据框保存成csv格式，则数据文件的后缀必须是csv,可以使用数据框的to_csv方法。如果要将数据保存成Excel格式，则数据文件的后缀必须是xlsx,可以使用数据框的to_excel方法2022-6-10数据分析基础一Python实现（贾俊平）1-25第1章数据分析与Python语言本书结构描述分析思维导自推断分析其他方法F关系分折时间序列检渔方法估计方法可视化分析统计最分析理论邦础第7章时间序列分析2022-6-10数据分析基础一Python实现（贾俊平）1-26THANKS数据分析基础思政Python实现新编21世纪高等职业教育精品教材智慧财经系列贾俊平著G区中国人民大学出版社课程结构第1章数据分析与Python语言第2章Python数据处理第3章数据可视化分析第4章数据的描述分析第5章推断分析基本方法第6章相关与回归分析第7章时间序列分析第2章Python数据处理Python的基本数据结构数组、序列和数据框数值抽样和筛选2.4生成频数分布表第2章学习目标和思政目标Python数据处理学习目标和思政目标学习目标I掌握Python语言的数据类型及其处理方法掌握数据抽样、筛选和生成随机数的方法用Python语言生成频数分布表思政目标I数据处理是数据分析的前期工作。在数据处理过程中要本着实事求是的态度，避免为达到个人目的而有意加工和处理数据数值数据分组的目的是通过数据组别对实际问题进行分类，分组的应用要反映社会正能量，避免利用不合理的分组歪曲事实2022-6-10数据分析基础一Python实现（贾俊平）2-3第2章2.1Python的基本数据结构Python数据处理数字和字符串Python的6种数据结构数字 ython3中有6种基本的数据结构或称数据类型，分别是数字（number）、字符串（string）、元组（tuple）、列表（list）、字典（dictionary）、集合（set）,这6种数据类型通过不同的组成方式和定义可以产生更多的类型使用内置函数type。可以查看数据的类型向量是个一维数组，其中可以是数值型数据，也可以是字符数据或逻辑值（如TRUE或FALSE）数字用于储存数值。Python支持4种类型的数字，即int（整数类型）、float（浮点类型，即取小数的数字）、bool（布尔类型，是只取True和False两个值的逻辑型数字，也可以用0和1表示）、complex（复数类型）字符串由数值、字母、下划线组成的字符。可以使用单引号（,）、双引号（”“）或三引号（）指定字符串，使用“+”连接两个字符串2022-6-10数据分析基础一Python实现（贾俊平）2-4第2章2.1Python的基本数据结构Python数据处理元组和列表元组列表元组是一维序列，其定长是固定的、不可变的，内容不能修改通常用“（）标识，元素之间用7分隔。比如，输入（123,4,5）就生成了一个元组列表也是一维序列，与元组不同的是其长度是可变的，它所包含的内容也可以进行修改列表中的元素可以是相同类型，也可以是不同类型，元素之间用逗号分隔使用中括号“”或list类型函数可以创建列表2022-6-10数据分析基础一Python实现（贾俊平）2-5第2章2.1Python的基本数据结构Python数据处理元组和列表元组列表元组是一维序列，其定长是固定的、不可变的，内容不能修改通常用“（）标识，元素之间用7分隔。比如，输入（1,234就生成了一个元组列表也是一维序列，与元组不同的是其长度是可变的，它所包含的内容也可以进行修改列表中的元素可以是相同类型，也可以是不同类型，元素之间用逗号分隔使用中括号”或list类型函数可以创建列表列表原始的访问使用索引可以访问列表中的元素，索引的符号也是方括号。比如，访问代码框 1-4中列表b的第一个元素,输入代码,显示的结果为甲；访问列表c的第3 个元素，输入代码32,得到元素True。注意：Python的索引从左到右是从0开始的，从右到左是从-1开始的2022-6-10数据分析基础一Python实现（贾俊平）2-6第2章2.1Python的基本数据结构Python数据处理列表的操作#向列表追加或插入元素a.append(6);a#将数字6追加到列表a的尾部 2,3,4,5,6b.insert(2,戊)；b#在列表b的第3个位置插入“戊”(插入位置的范围从0到列表的长度)甲，乙，戊，丙，丁#移除列表中特定位置的元素并返回 b.pop(2);b#移除列表b中第3个位置的元素并返回甲，乙，丁#连接两个列表ab=a+b#将列表a和列表b连接成一个新列表abab2,3,4,5,甲，乙，丙，丁#列表元素的排序f=2,3,4,5,2,8#创建列表ff.sort()#列表元素的排序f 2,2,3,4,5,8 g=l?甲，乙，戊，丙，丁#创建列表gg.sort()#列表元素的排序，或写成sorted(g)g 丁，丙，乙，戊，甲注：使用Python的内置函数sorted。也可以对列表中的元素进行排序。sorted(g)返回的结果与上述相同。Python中的其他内置函数还有很多，如len()返回列表中元素的个数；min()返回列表中的最小元素；max()返回列表中的最大元素，等等2022-6-10数据分析基础一Python实现(贾俊平)2-7第2章2.1Python的基本数据结构Python数据处理字典和集合字典字典是Python最重要的内置结构之一,它是大小可变的键值对集，其中键（key）和值（value）都是Python对象。字典中的元素用大括号括起来，用“：”分割键和值，不同的键值组合之间用“，”分隔。用大括号，或diet函数可以创建字典，其形式如下：dictionary=key 1:value l,key2:value2,.或写成：dictionary=dict（keyl 二 value Lkey2=value2,）#用大括号创建字典dcl=刘文涛：68,王宇翔:85,田思雨:7 4,徐丽娜:88,丁文彬:63 数的字典 _刘文涛：68,王宇翔：85,田思雨：74,徐丽娜：88,丁文彬63#用diet函数创建字典dc2=dict（刘文涛=68,王宇翔=85,田思雨=74,徐丽娜=88,丁文彬=63）#创建5名学生考试分数的字刘文涛：68,王宇翔85,田思雨：74,徐丽娜：88,丁文彬：63#以列表的形式返回字典del中的键 del.keys（）dict_keys（刘文涛，王宇翔，田思雨，徐丽娜，丁文彬）#以列表的形式返回字典del中的值del.values（）diet values（68,8 5,7 4,8 8,63）#以列表的形式返回字典del中的键值对del.items（）dict_items（刘文涛，68）,（王宇翔，85）,（田思雨74）,（徐丽娜，88）,（丁文彬 63）#返回（查询）字典del中键k上的值dell?徐丽娜88#删除字典del中的某个键值对 del dcl，田思雨2022-6-10-4e4-数据分析基础一I刘文涛：68,王宇翔85,徐丽娜88,丁文彬63第2章2.1Python的基本数据结构Python数据处理字典和集合集合集合的操作I 集合是由唯一元素组成的无序集，可看成是只有键没有值的字典。由于集合中的元素是无序的，不记录元素的位置，因此不支持索弓I、切片等类似序列的操作，只能遍历或使用in、not in等访问或判断集合元素。使用 set。函数或大括号的方式等可以创建集合，一个空集合必须使用S6t()创建#使用set函数创建集合setl=set(2,2,2,1,8,3,3,5,5)setl1,2,3,5,8)#使用大括号创建集合 set2=2,2,2,1,4,3,3,5,6,6 set21,2,3,4,5,6)#两个集合的并集(两个集合中不同元素的集合)setl|set2#或写成setl.union(set2)1,2,3,4,5,6,8)#两个集合的交集(两个集合中同时包含的元素)setl&set2#或写成setl.intersection(set2)1,2,3,52022-6-10数据分析基础一Python实现(贾俊平)2-9第2章数组、序列和数据框Python数据处理numpy中的数组n维数组 numpy是numerical python的简称，它是Python中数值计算的最重要的基础模块。n维数组（ndarray）是numpy模块中定义的对象，它可以是一维、二维和多维，数组中元素类型是数值型。n维数组由实际数据和描述这些数据的元数据（数据维度，数据类型等）组成，一般要求所有元素类型相同，数组下标从0开始一维数组就是通常所说的向量（vector）,二维数组就是通常所说的矩阵（matrix）。可以通过构造函数array创建 n维数组，也可以使用numpy中的其他函数如arange函数、ones函数以及zeros函数等创建n维数组使用内置函数type。可以查看数据的类型#创建一维数组(向量)import numpy as np al=np.array(5,4,1,2,3)a2=np.arange(10)a3=np.arange(2,6,0.5)print(al:,al)print(a2:,a2)print(a3:,a3)颜组的操作#使用array函数创建数蛆一#用range函数生成等差数列，起始为0,步长为1#用arange函数在26之间生成步长为0.5的等差序列#输出结果al:5 4 1 2 3a2:0 12 34567 8 9a3:2.2.5 3.3.5 4.4.5 5.5.51#创建二维数组（矩阵）import numpy as npa4=np.array(El,2,3,4,5,6)#创建2 x3 的矩阵a4array(1,2,3,4,5,6)#改变数组的形状import numpy as np a5-np.arange(12)a6=a5.reshape(3,4)a6#创建一维数组#改变数组为3X4的二维数组（矩阵）array(0,1,2,3,4,5,6,71,8,9,10,11)2022-6-10数据分析基础一Python实现（贾俊平）2-10第2章数组、序列和数据框Python数据处理pandas中的序列和数据框序列import pandas as pdsi=pd.Series(2,3,4,5)#省略索3创建序列序列类似于一维数组，不同的是它由索引(index)和一维数值(values)组成序列可以储存整数、浮点数、字符、Python对象等多种类型的数据，但一个序列最好只存储一种类型的数据，若存在多种数据类型，该序列的类型会自动转换成对象使用Series函数可创建序列，使用前需要导入 pandas模块0 2 1 32 43 5dtype:int64s2=pd.Series(5,8,7,6,index=a,b,c,d)#自行指定索引a 5b 8 c 7 d 6dtype:int64#由标量生成序列时，不能省略索引s3=pd.Series(60,80,50,index，甲，2 5,True)#索引可以是不同类型元素甲 6025 8 0True 50dtype:int64#由Python字典生成序列s4=pd.Series()a:1,b:boy,c:3)#索引与数据以字典形式传入a lb boyc 3dtype:object#由其他函数生成序列s5=pd.Series(range(5)#使用range 函数，类似列表print(s5)#print函数用于标准输出(这里也可以直接运0 01 12 23 34 4dtype:int642022-6-10 数据分析基础一Pytfl?刑函第2章数组、序列和数据框Python数据处理pandas中的序列和数据框序列操作#获取系列索引、数据、类型 import pandas as pds6=pd.Series（5,8,7,6,index=，a,，b,，c,，d，）print（类型：，s6.index）#获取系列索引print（数据：,s6.values）#获取系列数据print（类型：，s6.dtype）#获取系列类型类型：Index（a,b,c,d,dtype=object）数据：5 8 7 6类型:int64#设置系列与索引的名称（name）属性s6.name=我是一个pandas的Series#设置系列名称s6.index,name=我是索引#设置系列索引名称s6#修改序列中的数据s6l,3=2,8#将序列s6中的第2个值和第4个值修改为2和8s6我是索引a5.Ob2.0c7.Od8.OName:我是一个pandas 的Series,dtype:float64#序列的对齐运算s7=pd.Series(1,2,3,index=a,c,e,dtype=float)s6+s7a 6.Ob NaNc 9.Od NaNe NaNdtype:float64注：序列的运算完全根据索引来对齐，如果两者都有自定义索引，优先使用自定义索引，如果只有一个有自定义索引，另一个是自动索引，还是会使用自定义索引，这种情况运算结果会出现大量空值（NaN）;如果两方都是自动索引，则根据自动索引进行对齐。我是索引a 5b 8 c 7 d 6Name:我是一个pandas的Series,dtype:int64#转换系列类型s6=s6.astype（float）#将整数型改为浮点数类型s6我是索引a 5.0bdtype:float648.0c7.0d6.OName:我是一个pandas 的 Series,累力:a LOb 3.0c 6.Od 10.Oe 15.Odtype:float64 总和=15.0 平#序列的一些简单计算import pandasas pds8=pd.Series(1,2,3,4,5,index=a,b,c,d,，e，,dtype=float)c=s8.cumsumO#序列s8的累加s=s8.sum()tt序列s8求和m=s8.mean()#求序列s8的平均数print（“累力口：n,c,n,总和=,s,n,平均数=,m)2022-6-10数据分析基础一Pyth3为实貌（贾俊平）242第2章2.2数组、序列和数据框Python数据处理 pandas中的序列和数据框数据框数据框是pandas中的另一个重要数据结构，它是一种表格结构的数据，类似于Excel中的数据表，也是较为常见的数据形式。数据框实际上是带标签的二维数组，一个数据框由行索引(index)、列索引(columns)和二维数据(values)组成。数据框的每一列和每一行都是一个序列。为了便于分析，一般要求数据框一列只存储一种类型的数据创建数据框使用pandas的构造函数DataFrame可创建数据框，其中的参数data为数组或字典。也可以直接读入数据框形式的csv格式或Excel数据作为pandas的框数据使用Series函数可创建序列，使用前需要导入pandas模块2022-6-10数据分析基础一Python实现(贾俊平)2-13第2章2.2数组、序列和数据框Python数据处理 pandas中的序列和数据框I数据框的操作使用tablel_l.head（）默认显示数据框tablel_l的前5行，如果只想显示前3行，则可以写成tablel_l.head（3）。使用tablel_l.tail（）默认显示数据框tablelJL的后5行，如果想显示后3行，则可以写成tablel_l,tail（3）使用type函数可以查看数据的类型使用tablelj.shape可以查看数据框tablelJL的行数和列数属性使用inf。方法查看数据的结构使用describe。方法可以对数据框的数值型变量进行简单的描述统计方法描述示例columns查看所有列名（列索引）df.columnsdtypes查看所有元素的类型df.dtypeshead查看前n行数据（默认前5行）df.head(3)index查看所有行名（行索引）df.indexinfo查看数据结构（索引、数据类型等）df.infoshape查看行数和列数（行，歹1）df.shapeT数据框

展开阅读全文