[1-5次]-Python基础.ppt_咨信网zixin.com.cn

资源描述

Python Python 与大数据分析与大数据分析对外经贸大学信息学院对外经贸大学信息学院大数据专业大数据专业 Python Python教研组教研组PythonPython与大数据分析与大数据分析 Python基础（5次课）网络爬虫（2次课）期中随堂上机考试（1次课）金融数据分析案例（2次课）文本数据分析案例（3次课）图像数据分析（3次课）自我介绍刘宁宁对外经济贸易大学信息学院讲师。专注于对图像分类(Visual Object Classification)、文本处理(Natural Language Processing)、模式识别(Pattern Recognition)等方面的研究。为什么大数据首选是Python呢？第一部分初识Python第二部分基本概念变量、注释、print函数、数据类型、算术运算符、类型转换第三部分数据的容器列表、元组、字典、集合第四部分控制结构与推导式第五部分数据的读写操作第六部分错误类型和异常捕获第七部分字符编码问题处理第八部分编写函数处理数据第九部分变量作用域第十部分Python中的模块第十一部分Python中的类第十五部分Numpy基础知识第十六部分Pandas数据分析第十三部分正则表达式第十四部分日期数据的处理第一部分第一部分初识初识PythonPythonPython语言的诞生和发展历史Python语言的特点运行环境及安装PythonPython语言的诞生和发展历史语言的诞生和发展历史Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言Python语言是数据分析师的首选数据分析语言，也是智能硬件的首选语言数据分析数据分析创建复杂的Web应用程序游戏开发游戏开发动画电影效果动画电影效果网站开发智能硬件开发智能硬件开发Python与蟒蛇有关？Guido van Rossum 于1989年在荷兰国家数学和计算机科学研究所设计出来的Python语言的诞生BBC“Monty Pythons Flying Circus”（蒙提派森的飞行马戏团）Guido van Rossum（人称“龟叔”）Python 2.0版本于2000年10月发布。在2008年12月，Python 3.0发布，此版本没有完全兼容之前的Python 2.0Python也因此分为了Python 3.5派系和Python 2.7派系两大阵营Python语言的发展历史TIOBE INDEX:编程语言流行程度排行榜Python语言的TIOBE INDEXPython曾在2007年和2010年两度被TIOBE排行榜评为“年度编程语言”现已成为了第五大流行编程语言（截至2016年10月）Python语言的TIOBE INDEXPythonPython语言的特点语言的特点优点一：优雅、简单、明确（减少花哨、晦涩或以“炫技”为目的的代码）让数据分析师们摆脱了程序本身语法规则的泥潭，更快的进行数据分析C语言Python语言优点二：强大的标准库完善的基础代码库，覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理等大量内容，被形象地称为“内置电池”（batteries included）Python使用者“调包侠”优点三：良好的可扩展性大量的第三方模块，覆盖了科学计算、Web开发、数据接口、图形系统等众多领域，开发的代码通过很好的封装，也可以作为第三方模块给别人使用。如Pandas、Numpy、Seaborn、Scikit-learn等等优点四：免费、开源缺点一：运行速度慢缺点二：加密难缺点三：缩进规则缺点四：多线程灾难Python语言的缺点Python语言与Java动态类型和静态类型Python中一切皆对象括号与缩进应用领域Python语言与R语言机器学习的一把利器可读性强，便于上手灵活性强：可与其他如Web应用程序进行整合以统计推断为导向数据分析之外的领域有所限制包凌乱且一致性较差Python语言与R语言的应用场景对比网络爬虫连接数据库内容管理系统API构建统计分析互动式图标/面板运行环境及安装运行环境及安装推荐使用Anaconda进行Python安装、环境配置及工具包管理IpythonqtconsolePyCharmJupyter NotebookSpyderIPython鼓励一种“执行-探索”（execute-explore）的工作模式输入代码之后，按下回车，便会立即得到代码运行结果交互式计算和开发环境：IPython交互式计算和开发环境：IPython输入“?”获得IPython的详细介绍输入“%quickref”获得IPython的快速参考交互式计算和开发环境：IPython输入“help()”查看IPython的帮助文档使用内省“pandas?”查看Pandas的帮助文档基于Qt框架的GUI控制台qtconsole为终端应用程序提供诸如内嵌图片、多行编辑、语法高亮之类的富文本编辑功能启动命令：jupyter qtconsole缺点：功能少、用户友好性不够Jupyter NotebookJulia+Python+R=Jupyter基于Web技术的交互式计算文档格式支持Markdown和Latex语法支持代码运行、文本输入、数学公式编辑、内嵌式画图和其他如图片文件的插入，是一个对代码友好的笔记本Jupyter NotebookJupyter支持包含R kernel（支持R语言）启动命令：jupyter notebookJupyter Notebook推荐使用Jupyter Notebook进行数据分析，并将自己数据分析的思考过程写在其中，方便之后整理思路以及向别人展示数据分析结果从左至右分别是默认Python终端、IPython和Jupyter NotebookR Notebook2016年10月，R语言的集成环境RStudio也拥有了自己的R Notebook了集成开发环境IDEPyCharm&Spyder数据科学计算平台Anaconda“leading open data science platform powered by Python自动配置Python环境，下载并安装Jupyter Notebook、qtconsole和集成开发环境Spyder包管理器 conda总结总结Python语言的特点：优雅、简单、易学Python语言的诞生与发展历史Python语言的运行环境：IPython、Jupyter Notebook、SpyderPython语言的数据科学计算平台：Anaconda实践案例 1：PyCharm下 Hello World通过例子说明Python 与其他语言的区别万物皆对象空格控制结构报错第二部分第二部分基本概念基本概念变量、注释、print函数、数据类型算术运算符、类型转换解释型语言解释型语言PythonPythonPython语言是一种解释型解释型、面向对象、动态数据类型的高级程序设计语言数据集变量及相关含义公开数据集资源UCI数据集KaggleKaggle数据集数据集Yahoo！股票价格数据用来存储一些之后可能会变化的值对科比投篮ID为 1 的一次投篮进行分析，那么我们就可以创建一个名称为 shot_id 的变量，并且将 1 值储存在变量 shot_id 中如果之后我们想要分析科比的另外一次投篮，比如投篮ID为 2 的投篮，我们只需要修改变量 shot_id 的赋值，将 shot_id 赋值为 2 即可变量和常量变量变量变量名必须是大小写英文字母、数字或下划线 _ 的组合，不能用数字开头，并且对大小写敏感关键字不能用于命名变量（31个），如and、as、assert、break、class、continue、def、del等变量命名规则通过赋值运算符=变量名和想要赋予变量的值连接起来，变量的赋值操作就完成了声明和定义的的过程，在其他语言中需要制定类型；同一变量可以反复赋值，而且可以是不同类型的变量，这也是Python语言称之为动态语言的原因变量赋值常量表示“不能变”的变量Python中是没有常量的关键字的，只是我们常常约定使用大写字母组合的变量名表示常量，也有不要对其进行赋值”的提醒作用常量如同我们在看书时做笔记一样Python语言会通过注释符号识别出注释的部分，将它们当做纯文本，并在执行代码时跳过这些纯文本在Python语言中，使用#进行行注释注释注释多行注释使用连续单个单引号或者双引号在Python 2.x版本中，同时兼容 print 和 print()在Python 3.x版本中，print 函数为带括号的 print()如果想要看变量的值，则直接在 print 后面加上变量名即可。如果是想要输出提示信息，如一句话，那我们需要将提示信息用单引号包裹起来（这使得内容构成一个字符串）print函数函数使用逗号,隔开变量与其他剩余内容，则 print 在输出时会依次打印各个字符串或变量，遇到逗号,时会输出一个空格print 函数不仅可以打印变量值，也可以打印计算结果Python语言的数据类型包括整型、浮点型、字符串、布尔型和空值整型（int）整型的取值为整数，有正有负，如 2，-666，666 等。在科比投篮数据集中，shot_id、game_event_id、game_id、loc_x、loc_y、minutes_remaining、period、playoffs、seconds_remaining、shot_distance、shot_made_flag、team_id都是整型变量数据类型数据类型浮点型的取值为小数，当计算有精度要求时被使用,由于小数点可以在相应的二进制的不同位置浮动，故而称为浮点数如 3.14，-6.66 等，但是如果是非常大或者非常小的浮点数，就需要使用科学计数法表示，用 e 代替 10。科比投篮数据集中的 lat 和lon 为浮点型变量。浮点型（float）字符串（str）字符串是以两个单引号或两个双引号包裹起来的文本字符串 Jump Shot 包括 J，u，m，p，空格，S，h，o，t 这9个字符字符串（str）转义字符：字符串里常常存在一些如换行、制表符等有特殊含义的字符，这些字符称之为转义字符比如 n 表示换行，t 表示制表符，Python还允许用 r“”表示“”内部的字符串默认不转义布尔型（bool）布尔型只有 True 和 False 两种值。比较运算和条件表达式都会产生 True 或 False 布尔型（bool）布尔型（bool）布尔值可以进行 and、or 和 not 运算，and 和 or 运算分别用&和|表示and 运算or 运算布尔型（bool）not 运算为非运算，即把 True 变成 False，False 变成 True。空值是Python里一个特殊的值，用 None 表示，一般用 None 填充表格中的缺失值使用 type()函数来获取某值的类型空值（NoneType）数据集变量的数据类型总结int64、float64分别表示64位的整型和64位的浮点型日期数据类型还有一种特殊的数据类型日期类型这种类型数据在金融、交通等领域十分常见，我们将在日期数据的处理这一部分对这一类型的数据分析进行详细讲解二元数学运算符算术运算符算术运算符Python 2.x版本与Python 3.x版本（以下简称Python 2和Python 3）的整除是不同的。函数 int()、float()、str()和 bool()分别用于将变量转换成整型、浮点型、字符串和布尔型变量类型转换类型转换某些变量无法转换成数值型变量只有在变量值为 0 时，bool 转换的结果才为 False：除了使用 type()外，我们还可以使用 isinstance()来获得数据类型总结总结数据类型、算术运算符、类型转换变量、注释、print函数第三部分第三部分数据的容器（结构）数据的容器（结构）列表、元组、字典、集合列表列表科比投篮数据集列表（list）是一个有序的有序的序列结构，序列中的元素可以是不同的数据类型列表可以进行一系列序列操作，如索引、切片、加、乘和检查成员等将列表中的各元素用逗号分隔开，并用中括号将所有元素包裹起来列表创建使用append()方法添加元素，该方法会在列表末尾位置添加数据元素使用remove()方法删除元素列表对象的增减实践练习现有一空的列表“kobe_list”用来存入科比某次投篮的信息请利用append()方法将投篮ID2、投篮类型Jump Shot、科比所在球队Los Angeles Lakers和对手POR按顺序加入到列表变量kobe_list中remove()方法适用于知道要删除的值的情况，当我们不知道具体元素值，但是知道元素的索引位置时，我们可以使用 del 函数配合列表索引，删除索引位置的元素或者使用 pop()方法列表对象的增减通过 insert()方法在指定的索引位置添加数据元素列表对象的增减实践练习 kobe_list=2,Los Angeles Lakers,Jump Shot,POR现在需要添加更多关于科比某次投篮的信息，包括投篮位置（按区域划分）、比赛日期和对阵形式（主场或者客场）在kobe_list 插入 Left Side(L)，2000-10-31，和LAL POR并删除数据元素2在Los Angeles Lakers之后加上matchup的值Python语言中所有的索引都是从 0 开始计数的，如果列表中有 n 个元素，那么最后一个元素的索引是 n-1 如果我们想要获取 kobe_list 中第 3 个元素及倒数第二个元素列表索引Python内置的用于判断列表长度的函数为 len()列表长度切片操作需要提供起始索引位置和最后索引位置，然后用冒号:将两者分开如果未输入步长，则默认步长为 1切片操作返回一系列从起始索引位置开始到最后索引位置结束的数据元素需要注意的是，起始索引位置的值包含在返回结果中，而最后索引位置的值不包含在返回结果中列表切片切片操作需要提供起始索引位置和最后索引位置，然后用冒号:将两者分开列表切片逆向切片我们可以省略起始索引位置，表示从最开始进行切片，当我们将两个索引都省略之后，我们将按原样复制一个列表，如果想要将列表的顺序颠倒，则可以使用:-1列表切片列表中的元素也可以是列表，这样可以将列表看成更高维的数组拆开很容易理解嵌套列表实践练习现有科比某次投篮信息的列表kobe_listkobe_list=Los Angeles Lakers,LAL POR,Jump Shot,POR,Left Side(L),2000-10-31请使用切片方法取出索引位置3到5的元素，并存入到列表three_five中并提取比赛日期中的年份存入变量year中提示：读取年份时，先使用索引方法将kobe_list或者three_five最后一个日期元素值2000-10-13提取出来，索引位置为-1，然后对该字符串进行切片操作，切片为0:4元组元组元组（tuple）数据结构与列表类似，其中元素可以有不同的类型但是元组中的元素是不可变元素是不可变的，即一旦初始化之后，就不能够再做修改（报错：元组对象不支持赋值）由于元组是不可变的，因此元组对象没有append()、insert()和del这样的方法。实际上，tuple的使用可以使得代码更安全，防止错误赋值导致重要对象的改变。实践练习现有科比某次投篮信息的元组kobe_tuplekobe_tuple=(2,Jump Shot,Los Angeles Lakers,POR)请将kobe_tuple中的投篮ID由2改为3，投篮类型由Jump Shot改为Slam Dunk Shot提示：通过kobe_tuple方式访问元组中的列表元素中的某一个元素字典字典字典（dict）在其他语言中被称作哈希映射（hash map）或者相关数组（associative arrays）字典是一种大小可变的键值对集，其中的键（key）和值（value）都是Python对象字典用在需要高速查找的地方字典的创建使用大括号包含键值对，并用冒号:分隔键和值，形成键:值对可以看出，字典中的数据元素是无序的，并不会按照初始化的顺序排列。不同键所对应的值可以相同，但是字典中的键必须是唯一的字典创建利用for循环和zip()函数创建字典zip()函数用于将多个序列（列表、元组等）中的元素配对，产生一个如(列表1元素,列表2元素),(,)的新的元组列表；for循环用于重复执行将值放入键中的操作。字典创建实践练习请创建关于科比投篮信息的字典kobe_dict，键为shot_id，值为shot_zone_area其中列表shot_id与列表shot_zone_area应按照顺序一一对应shot_id=1,2,3shot_zone_area=Right Side(R),Left Side(L),Left Side Center(LC)字典的元素访问（以及插入、设置）方式与列表和元组一样。不同的是，列表和元组的索引号是按照顺序自动生成，而字典的索引号是键字典索引字典中某值的索引还可以通过 get 方法，如果字典不包含某个键，可以返回 None，或者自己指定的值如果在字典中不存在索引的键，则系统会报错字典索引我们可以通过 in 判断是否存在某个键，其语法跟在列表和元组中判断是否存在某个值是相同的，也可以使用内置的 has_key()方法字典索引如果不太确定字典中有哪些键或者值，我们可以使用 keys()方法或者values()方法字典索引在有些情况下，我们需要取出字典中的键值对用于下一步的分析，此时可以使用 items()方法，该方法将返回所有键值对，并将其保存在一个元组列表（列表中的元素为元组）中字典索引字典的删减有三种方法使用 del 函数对单一元素或者整个字典进行删除使用 pop()方法删除单一元素使用 clear()方法清空词典的所有元素字典元素删减集合集合集合（set）是一种无序集，它是一组键的集合，不存储值在集合中，重复的键是不被允许的。集合可以用于去除重复值集合也可以进行数学集合运算，如并、交、差以及对称差等。应用：应用：去重。把一个列表变成集合，就自动去重了关系测试。测试两组数据之前的交集、差集、并集等关系集合的创建有两种方式：使用 set()函数或者使用大括号需要注意的是，创建空集合，必须使用 set()，而不是，因为表示创建一个空的字典集合创建集合支持数学集合运算，如并、交、差以及对称差等集合运算集合支持数学集合运算，如并、交、差以及对称差等集合运算总结总结创建、索引、增减、切片操作列表、元组、字典、集合第四部分第四部分控制结构控制结构if选择结构、for循环结构、while循环结构布尔值布尔值在这个世界上，文字和认知中有真和假的判断，而对于计算机而言，布尔值 True 和 False 就表示真和假 True、False 是比较显式的真和假,而在Python中以下值都会被看作是假（False）：=符号是判断两个值、变量之间是否相等的操作符，相等则返回布尔值 True对于字符型变量也是可以这么操作的：=符号if 选择结构选择结构判断条件为真（True）的时候才执行冒号后下面的语句比如现在我们已有一个精灵宝贝的 HP 值，而我只希望当这个 HP 值大于 20 的时候才打印出来除了 if 语句外，还有 if-else、if-elif 语句for 循环结构循环结构 for 循环是可以依次得到序列循环中每个元素，并依次处理现在有一个列表，这个列表存放的是 10 个小精灵的 HP 数值，现在希望得到里面每个数字都乘以 2 while 循环结构循环结构while循环和for循环不同的是，它的停止条件是个人自己设定的：判断条件和if语句是相同的，而什么时候用while呢？在你确定满足条件而不确定需要的循环次数时，那么while是最好的选择。现在有一个小精灵的HP数值变量，我希望它在大于20的时候，逐次变小，直到等于20为止。组合使用组合使用除了单独使用上述控制结构之外，我们还可以嵌套使用。比如说在前面的HP序列，我只希望其中的偶数乘以”2”，奇数不变。lpython作为一种简洁、直接、贴近人类自然语言的计算机语言，它对于基础的数据结构tuple、list、dict内嵌了很多十分方便的函数和操作。l在前面章节介绍的方法之外，这章将介绍在list/dict内部使用for循环来构造list/dict的方法。这些方法将让我们更加美观可读、方便简洁地实现一些功能。列表推导式列表推导式列表推导式llist是使用python过程中是一个非常常用的数据结构，无论是作为最终数据的保存结果，还是中间数据结果的临时存储，都能提供很方便的功能。使用列表推导式可以让循环在列表内完成。l以下为例子，对列表中每个数值逐个减去均值l含义解析：l关键词for循环后跟的是循环语法，这部分不变；而在for循环真正表达式部分则在列表推导式中移前，运算结果直接添加入列表中。l字典也可以用推导式，但没有列表推导式那么常用。l字典推导式多用于需要元素有一一对应关系时，比如前面谈到当变量是字符型时，需要将字符转换为一一对应的数值型。字典推导式字典推导式lUnited States Energy,Census,and GDP 2010-2014 数据集中Region变量是字符型，如现需要对其进行数值转换。lenumerate是Python的一个常用内置函数，它用在列表中时，不但会产生列表内的元素，并且会从0开始按顺序生成序号。总结总结for 循环、while 循环布尔值、if 条件判断列表推导式、字典推导式第五部分第五部分数据文件的读写操作数据文件的读写操作数据的读取数据的读取对文件操作之前需要用 open()函数打开文件 mode 参数中的 r 指读出，w 指写入打开之后将返回一个文件对象（file object），后续对文件内数据的操作都是基于这个文件对象的方法（method）来实现的数据的读取数据的读取对文件数据的读取是用的 read()方法，read()方法将返回文件中的所有内容用 print 打印所有内容会显示 Hello,world!，记得每次用完文件后，都要关闭文件 f.close()。否则，文件就会一直被Python占用，不能被其他进程使用数据的读取数据的读取也可以使用 with open()as f:在操作后自动关闭文件数据的读取数据的读取在 read()中加入数字，可指定读取的字符数数据的写入数据的写入写入的操作和读取是类似的，不过用的是 write()函数，同时需要将打开文件的 mode 参数设置为 w 文本文件的操作文本文件的操作常见的数据文件包括 txt 格式或者 csv（逗号分隔值文件格式）格式文文本文件的读取文本文件的读取通过 open()函数打开文件，返回文件对象对文件对象进行读取操作，除了前面介绍的 read()之外还有两种读取数据的方法：readline()是每次读入一条数据的方式，readlines()是一次性读入文件所有数据文本文件的读取文本文件的读取 readlines()读取后得到的是每行数据组成的列表，但是一行样本数据全部存储为一个字符串，并且数据读入后并没有将换行符去掉（windows系统的换行符是 rn，linux系统的换行符号是 n）在读入数据之后，用 for 循环对每一个元素去除换行符，并将每一个变量值用字符串处理方法.split()分隔开来文本文件的读取文本文件的读取.strip()本身是一个对字符串指定字符去除的方法，但括号里参数为空的时候，就会去除 r n t 文本文件的写入文本文件的写入设置参数 mode=w。write()、writelines()是两个对文件对象的写入数据的方法。write()是逐次写入，writelines()可对一个列表里的所有数据一次性写入文件中如果有换行需要，则要在每条数据后增加换行符，同时用字符串.join()的方法将每个变量数据联合成一个字符串并增加间隔符 t逗号分隔值文件的操作逗号分隔值文件的操作csv文件用逗号,作为分隔符逗号分隔值文件的读取逗号分隔值文件的读取利用Python内置的 csv 模块读取数据逗号分隔值文件的写入逗号分隔值文件的写入引入 csv 模块 open()打开文件，使用 csv.writer()作为写入器，writerow()方法逐行写入总结总结open()、write()、readlines()、.strip()、.join()文本文件读写操作、逗号分隔值文件读写操作csv模块、csv.reader()、csv.writer()实践案例实践案例 2 2：白葡萄酒品质探索白葡萄酒品质探索第六部分第六部分错误类型和异常捕获错误类型和异常捕获错误类型语法错误异常捕获异常assert、with语句自助控制异常爬虫HTTP异常处理错误类型语法错误（Syntax errors）代码编译编译时的错误，不符合Python语言规则的代码会停止编译并返回错误信息异常（Exceptions）相较于语法错误，异常比较难发现，因为它只在代码运行运行时才会发生，如类型错误、数值错误、索引错误和属性错误等。语法错误包含在异常基类中错误类型错误类型错误类型PythonPython与与JavaJava异常类层级区别异常类层级区别Java异常类层级Python异常类层级语法错误常见的语法错误（SyntaxError）包括：缺少起始符号或结尾符号（括号、引号等）缩进错误关键词拼写错误语法错误语法错误语法错误常见的语法错误（SyntaxError）包括：缺少起始符号或结尾符号（括号、引号等）缩进错误关键词拼写错误语法错误语法错误语法错误常见的语法错误（SyntaxError）包括：缺少起始符号或结尾符号（括号、引号等）缩进错误关键词拼写错误语法错误语法错误修改语法错误实战演练 http:/ http:/ NotebookPyCharm捕获异常捕获异常程序要遇到异常的时候，往往是直接中断，跳出执行。但是有些时候，我们需要在遇到异常的时候另外处理，而不是直接停止。解决方法：try.except.语句 try.except.else语句finally子句捕获异常捕获异常捕获异常try.except.语句 try 关键词内执行的是正常代码，当这部分代码出错的时候，会跳过错误代码后进入 except 关键词内部，执行此部分的代码try.except.else语句当在 try.except.后加入的 else 指，当程序没发生错误时执行的部分try.except.else工作原理是执行第一个匹配该异常的except子句开始执行try部分try部分执行异常否执行else部分语句，控制流通过整个try语句finally子句 finally 语句是指，无论程序运行对或错，都会执行的部分assert关键字当Expression部分为True时，则正确执行，程序继续下去；当判断为False时，则抛出后面的e错误提示。在大型的项目中，assert常被用来作为“防御性编程”assert、with语句语句with语句有时候打开了文件却忘记关闭，或者是在读取文件过程出错，那么with语句能够很好解决关于文件读取、写入的问题上面的语句等价于两种特殊的简便方法两种特殊的简便方法自主控制异常除了在代码运行出错时触发错误，我们还可以主动控制抛出异常，通过使用关键词 raise（类似Java语言中的throw）自主控制异常：抛出异常自主控制异常：抛出异常自主控制异常自定义异常的原因Python提供的内建异常不够用可以预估某个错误的产生自主控制异常：用户自定义异常自主控制异常：用户自定义异常定义异常类继承于Exception类，由它开始扩展自主定义的NotIntError异常类，捕获非整型错误ASCII编码集在编写API时，定义一个Root Exception根异常，其他异常都继承于根异常好处1：API代码层次更清晰好处2：API与调用程序代码隔离如：需要做一个链接数据库服务的模块，提供一个connect函数用于链接，链接可能出现情况：Socket连接超时Socket拒绝连接聚类分析以定义API异常为例这样精确定义多个异常，使得代码层次清晰，增强了可读性在代码的最后还捕获了Error以及Exception两个异常，这两个操作分别对应于可拓展性与健壮性的目的聚类分析调用API时异常捕获的技巧编写工具类函数时，函数处理流程会产生很多状态用返回值代表函数处理状态，调用者需要去理解每个状态码的意义，存在学习成本聚类分析使用异常代替返回状态码使用异常的方式增强代码的鲁棒性而不必影响程序的主逻辑，专注程序主逻辑，保持代码的简洁清晰异常判断是就地实时的，与代码运行是实时的一些低调用级别的代码块没有判断和处理其上级调用模块的权限或者根本无法判断，只能由其上级调用模块来决定下一步怎么做，这时当前模块可以不用处理，将错误抛出给调用者利用抛出异常并处理的优点利用抛出异常并处理的优点异常处理应该与正常流程控制分离异常处理与流程控制异常处理与流程控制异常处理搞乱了代码逻辑将异常代码块抽离到另外的函数中网络爬虫框架爬虫爬虫HTTPHTTP异常处理异常处理URL 管理模块，负责管理、调度所有URL爬虫启动的入口，通常是一组 URL下载模块，为了提高效率，Crawler 通常是并行的。解析模块，从网页中解析出有价值的信息，并将新发现的 URL 加入到 URL Queue 中。存储模块，将数据存在存储介质中，通常是文件或数据库。1.获取要访问的 URL 的 IP 地址（右图中标号为1、2）2.向 Web Server 请求资源（右图中标号为3）3.Web Server 收到请求，将响应返回给客户端（右图中标号为4）聚类分析HTTP请求过程 URLError：不能够处理一个response网络无连接，即本机无法上网连接不到特定的服务器服务器不存在聚类分析HTTP请求过程的两种常见异常 HTTPError：URLError的子类，在特定的HTTP URLs中产生每一个HTTP响应对象response包含一个数字“状态码”urllib2 会帮助处理重定向问题，不能处理则产生HTTPError状态码：404-页面无法找到，403-请求禁止，401-带验证请求捕获到HTTPError，输出code，不再处理URLError异常。如果发生的不是HTTPError，则去捕获URLError异常，输出错误原因聚类分析异常处理技巧异常处理技巧利用 hasattr 方法提前对异常的属性进行判断，以免出现属性输出报错的现象只处理你知道的异常，避免捕获所有异常然后吞掉它们抛出的异常应该说明原因，有时候你知道异常类型也猜不出所以然的不要使用异常来控制流程，那样你的程序会无比难懂和难维护如果有需要，切记使用finally来释放资源一些经验一些经验总结总结捕获异常语法错误和异常抛出异常，自定义异常类assert，with语句爬虫HTTP异常处理，URLError，HTTPError，code，reason第七部分第七部分字符编码问题处理字符编码问题处理编码和解码编码集解决乱码编码是为了让机器读懂语言。即输入的是字符“中文”，那么编码就是将“中文”编码为二进制格式让机器读懂在Python中，机器其实是不认识 unicode 的，而是接收的 str 即使输入的数据是 unicode 的，而在Python内部都会将 unicode 自动转为 str 编码和解码编码和解码电脑编码（encode）strunicode解码（decode）编码和解码编码和解码进攻编码鼓声士兵解码行为 str 通过解码函数 decode()转换为 unicode，unicode 通过编码函数 encode()转换为 str http:/ 1 二进制数值，从一开始，人们想到的方法就是赋予每一个字符唯一的一串 0 1 编码表示。这是一个ASCII编码集中对字符 A 的编码，这是一个八位 0/1 数字01000001编码集编码集在1967年出现了ASCII标准，这主要是基于拉丁字母的一套电脑编码系统ASCII标准是每个英文字母有一一对应独立的 8 位数字串，比如说字母 A，ASCII中对应的二进制值为 01000001。这样，我在输入 A 的时候，编译器会借助编码集将 A 转换为 01000001聚类分析01000001ASCII编码集ASCII总共可以存储256个字符，1967年制定这套标准的人只考虑英语世界的使用者。那么256个编码集对于使用英语和拉丁语系是够用的，但是对于中文、日文、韩文，就完全不够用了ASCII聚类分析ASCII编码集聚类分析ASCII聚类分析ASCII编码集聚类分析GB2312编码集是由中国国家标准总局发布1981年5月1日实施的一套收录了6763个汉字、拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符的标准。但是这套标准没有包含部分罕见字和繁体字，于是后面出现GBK、GB18030在GB2312的基础上进行扩充解决。GBK聚类分析Unicode是标准统一所有语言文字的标准编码集，它目前已经收录超过十万个字符Unicode包括两个方面编码方式（一个字符对应编码集中的二进制数值）实现方式（传输、存储）：UTF-8、UTF-16UnicodePython 2.x版本有两种用于字符处理的数据格式：str 和 unicodestr 字节流是以两个单引号或两个单引号“”来赋值的，访问一个元素就是一个字节PythonPython字符串字符串PythonPython字符串字符串unicode 字符串是在或“”前加 u 来赋值的，同时访问一个元素则是一个字符http:/ 3.x3.x版本中的字符串版本中的字符串Python 3.x版本有两种表示字符串的类型：bytes 和 str，str 类中包含了 unicode 字符，非 unicode 编码如 UTF-8、GBK被定义成了 bytes使用 encode()和 decode()函数进行相互转换如果出现乱码的状况，那肯定是编码转码出现了问题，这不外乎有以下几个关键点：Python解释器设置的默认编码源文件设置的编码终端编码解决乱码解决乱码Python解释器的编码指Python内部认为的字符 str 的编码，即一个 str 变量，要转换为 unicode 时，Python解释器默认的转换方式Python的默认转换方式是ASCII，sys.getdefaultencoding()函数可以获得默认编码信息聚类分析解释器编码在 ASCII 默认编码条件下对中文字符编码会出现错误，因为 ASCII 不能对中文进行编码聚类分析解释器编码通过前面介绍的 encode()函数和 decode()函数可以设置参数，指定编码方式对中文字符进行 GBK 编码和 UTF-8 编码聚类分析解释器编码中文字符 str 的解码问题聚类分析解释器编码想要得到 GBK 编码的 str：先对其进行 UTF-8 解码，再对其进行 GBK 编码聚类分析解释器编码http:/ read()读取的文件内容，得到的是 str 格式的聚类分析文件读写编码用 UTF-8 解码再用 GBK 编码打印出来的是乱码，这就是编码不同导致的乱码聚类分析文件读写编码用 write()方法写入的时候也需要是 str 格式。也就是说，如果写入的数据是 unicode 时，将会出错聚类分析文件读写编码解决办法：先将 unicode 格式编码为 str，再写入聚类分析文件读写编码如果你发现常用的 gbk、utf-8 编码解码都没办法解决乱码问题，那么有可能该文本使用了这两种之外的编码方式chardet是一个Python包，提供测试文本的编码方法，最后返回的是对编码方法的一个估计聚类分析编码检测工具chardet总结总结ASCII，GBK，Unicode编码和解码乱码问题：Python解释器设置的默认编码、源文件的编码、终端编码Python 2.x和Python 3.x版本的字符串编码检测工具chardet第八部分第八部分编写函数处理数据编写函数处理数据函数的语法

展开阅读全文