1、第6节:组合数据类型第1页字典类型计算第2页列表是存放和检索数据有序序列。当访问列表中元素时,能够经过整数索引来查找它,这个索引是元素在列表中序号,列表索引模式是“查找”。很多应用程序需要更灵活信息查找方式,比如,在检索学生或员工信息时,需要基于身份证号码进行查找,而不是信息存放序号。在编程术语中,依据一个信息查找另一个信息方式组成了“键值对”,它表示索引用键和对应值组成成对关系,即经过一个特定键(身份证号码)来访问值(学生信息)。实际应用中有很多“键值对”例子,比如:姓名和电话号码、用户名和密码、邮政编码和运输成本、国家名称和首都等。因为键不是序号,无法使用列表类型进行有效存放和索引。字典类
2、型基本概念第3页经过任意键信息查找一组数据中值信息过程叫映射,Python语言中经过字典实现映射。Python语言中字典能够经过大括号()建立,建立模式以下::,:,:其中,键和值经过冒号连接,不一样键值对经过逗号隔开。从Python设计角度考虑,因为大括号能够表示集合,所以,字典类型也含有和集合类似性质,即键值对之间没有次序且不能重复。简单说,能够把字典看成元素是键值正确集合。下面是一个简单字典,它存放国家和首都键值对:字典类型基本概念第4页注意到,字典打印出来次序与创建之初次序不一样,这不是错误。字典是集合类型延续,所以各个元素并没有次序之分。假如想保持一个集合中元素次序,需要使用列表,而
3、不是字典。字典类型基本概念第5页字典最主要使用方法是查找与特定键相对应值,这经过索引符号来实现。Dcountry中国北京普通来说,字典中键值正确访问模式以下,采取中括号格式:=字典类型基本概念第6页字典中对某个键值修改能够经过中括号访问和赋值实现,比如:Dcountry中国中国=大北京大北京print(Dcountry)中国中国:大北京大北京,法国法国:巴黎巴黎,美国美国:华盛顿华盛顿总结起来,字典是存放可变数量键值正确数据结构,键和值能够是任意数据类型,包含程序自定义类。字典类型基本概念第7页与列表相同,Python字典也有非常灵活操作方法。使用大括号能够创建字典,并指定初始值。经过中括号能
4、够增加新元素字典类型基本概念第8页直接使用大括号()能够创建一个空字典,并经过中括号()向其增加元素,比如:字典类型基本概念第9页需要注意,尽管集合类型也用大括号表示,直接使用大括号()生成一个空字典,而不是集合。生成空集合需要使用函数set()。字典在Python内部也采取面向对象方式实现,所以也有一些对应方法,采取.()格式,另外,还有一些函数能够用于操作字典,这些函数和方法如表6.5所表示。字典类型基本概念第10页函数和方法函数和方法描述描述.keys()返回全部键信息.values()返回全部值信息.items()返回全部键值对.get(,)键存在则返回对应值,不然返回默认值.pop(
5、,)键存在则返回对应值,同时删除键值对,不然返回默认值.popitem()随机从字典中取出一个键值对,以元组(key,value)形式返回.clear()删除全部键值对del删除字典中某一个键值对in假如键在字典中返回True,不然返回False函数和方法描述.keys()返回全部键信息.values()返回全部值信息.items()返回全部键值对字典类型基本概念第11页上述方法一些例子以下,假如希望keys()、values()和items()方法返回列表类型,能够采取list()函数将返回值转换成列表。字典类型基本概念第12页与其它组合类型一样,字典能够经过forin语句对其元素进行遍历,
6、基本语法结构以下:for in:语句块因为键值对中键相当于索引,所以,for循环返回变量名是字典索引值。假如需要取得键对应值,能够在语句块中经过get()方法取得。字典类型基本概念第13页字典是实现键值对映射数据结构,它采取任意类型键数据作为索引,十分灵活,含有处理任意长度、混合类型键值正确能力。为了更加好地认识和使用字典,请了解以下一些基本标准:字典是一个键值正确集合,该集合以键为索引,一个键信息只对应一个值信息字典中元素以键信息为索引访问;字典长度是可变,能够经过对键信息赋值实现增加或修改键值对。字典类型基本概念第14页jieba库使用第15页对于一段英文文本,比如Chinaisagrea
7、tcountry,假如希望提取其中单词,只需要使用字符串处理split()方法即可,以下:jieba库概述第16页然而,对于一段汉字文本,比如中国是一个伟大国家,希望取得其中单词(不是字符)则十分困难,因为英文文本能够经过空格或者标点符号分割,而汉字单词之间缺乏分隔符,这是汉字及类似语言独有“分词”问题。上例中,分词能够将中国是一个伟大国家分为中国、是、一个、伟大、国家等一系列词语。jieba库概述第17页jieba(“结巴”)是Python中一个主要第三方汉字分词函数库,例子以下。import jiebaimport jiebajieba.lcut(jieba.lcut(中国是一个伟大国家中
8、国是一个伟大国家)中国中国,是是,一个一个,伟大伟大,国家国家 jieba库是第三方库,不是安装包自带,所以,需要经过pip指令安装,详细安装方法请参考8.6节。pip安装命令以下:jieba库概述第18页jieba库分词原理是利用一个汉字词库,将待分词内容与分词词库进行比对,经过图结构和动态规划方法找到最大约率词组。除了分词,jieba还提供增加自定义汉字单词功效。jieba库支持三种分词模式:准确模式,将句子最准确地切开,适合文本分析;全模式,把句子中全部能够成词词语都扫描出来,速度非常快,不过不能处理歧义;搜索引擎模式,在准确模式基础上,对长词再次切分,提升召回率,适适用于搜索引擎分词。
9、jieba库概述第19页jieba库主要提供分词功效,能够辅助自定义分词词典。jieba库中包含主要函数如表所表示jieba库解析函数函数描述描述jieba.cut(s)准确模式,返回一个可迭代数据类型jieba.cut(s,cut_all=True)全模式,输出文本s中全部可能单词jieba.cut_for_search(s)搜索引擎模式,适合搜索引擎建立索引分词结果jieba.lcut(s)准确模式,返回一个列表类型,提议使用jieba.lcut(s,cut_all=True)全模式,返回一个列表类型,提议使用jieba.lcut_for_search(s)搜索引擎模式,返回一个列表类型,
10、提议使用jieba.add_word(w)向分词词典中增加新词向分词词典中增加新词w第20页针对上述分词函数,举比如下:importjiebajieba.lcut(中华人民共和国是一个伟大国家)中华人民共和国,是,一个,伟大,国家jieba.lcut(中华人民共和国是一个伟大国家,cut_all=True)中华,中华人民,中华人民共和国,华人,人民,人民共和国,共和,共和国,国是,一个,伟大,国家jieba.lcut_for_search(中华人民共和国是一个伟大国家)中华,华人,人民,共和,共和国,中华人民共和国,是,一个,伟大,国家jieba库解析第21页jieba.lcut()函数返回准
11、确模式,输出分词能够完整且不多出组成原始文本;jieba.lcut(,True)函数返回全模式,输出原始文本中可能产生全部问题,冗余性最大;jieba.lcut_for_search()函数返回搜索引擎模式,该模式首先执行准确模式,然后再对其中长词深入切分取得结果。因为列表类型通用且灵活,提议读者使用上述三个能够返回列表类型分词函数。jieba库解析第22页默认情况下,表6.6中jieba.cut()等6个分词函数能够较高概率识别自定义新词,比如名字或缩写,比如,下例中本书作者姓名不在词典中,但分词函数能够依据汉字字符间相关性识别为一个词。对于无法识别分词,也能够经过jieba.add_wor
12、d()函数向分词库添加,例子以下。jieba库解析第23页import jiebaimport jiebajieba.lcut(jieba.lcut(嵩天老师在努力教学嵩天老师在努力教学PythonPython语言语言)嵩天,老师,在,努力,教学,Python,语言 jieba.lcut(jieba.lcut(习大大期盼有更加好教育习大大期盼有更加好教育)习,大大,期盼,有,更加好,教育jieba.add_word(jieba.add_word(习大大习大大)jieba.lcut(jieba.lcut(习大大期盼有更加好教育习大大期盼有更加好教育)习大大,期盼,有,更加好,教育jieba库解析
13、第24页文本词频统计第25页在很多情况下,会碰到这么问题:对于一篇给定文章,希望统计其中屡次出现词语,进而概要分析文章内容。这个问题处理可用于对网络信息进行自动检索和归档。在信息爆炸时代,这种归档或分类十分有必要。这就是“词频统计”问题。从思绪上看,词频统计只是累加问题,即对文档中每个词设计一个计数器,词语每出现一次,相关计数器加1。假如以词语为键,计数器为值,组成:键值对,将很好地处理该问题。这就是字典类型优势。文本词频统计第26页下面,采取字典来处理词频统计问题。该问题IPO描述以下:输入:从文件中读取一篇文章处理:采取字典数据结构统计词语出现频率输出:输出文章中最常出现10个单词及出现次
14、数英文文本以空格或标点符号来分割词语,取得单词并统计数量相对轻易,6.6.1节介绍统计英文文本词频方法。汉字字符之间没有天然分隔符,需要对汉字文本进行分词,6.6.2节介绍统计汉字文本词频方法。文本词频统计第27页Hamlet,哈姆雷特,是莎士比亚一部经典悲剧作品,讲述了克劳狄斯叔叔谋害哈姆雷特父亲并篡取王位、哈姆雷特流浪在外并向叔叔复仇故事。哈姆雷特也叫王子复仇记,代表着整个西方文艺复兴时期文学最高成就,很多国内外电影都以这个故事为原型。获取该故事文本文件,保留为hamlet.txt。全文能够从网络上找到,或从本书提供电子资源中获取。文本词频统计第28页统计Hamlet英文词频第一步是分解并
15、提取英文文章单词。同一个单词会存在大小写不一样形式,但计数却不能区分大小写。假设Hamlet文本由变量txt表示,能够经过txt.lower()函数将字母变成小写,排除原文大小写差异对词频统计干扰。英文单词分割能够是空格、标点符号或者特殊符号。为统一分隔方式,能够将各种特殊字符和标点符号使用txt.replace()方法替换成空格,再提取单词。统计词频第二步是对每个单词进行计数。假设将单词保留在变量word中,使用一个字典类型counts=,统计单词出现次数可采取以下代码countsword=countsword+1文本词频统计第29页当碰到一个新词时,单词没有出现在字典结构中,则需要在字典中
16、新建键值对:countsnew_word=1所以,不论词是否在字典中,加入字典counts中处理逻辑能够统一表示为:ifwordincounts:countsword=countsword+1else:countsword=1或者,这个处理逻辑能够更简练表示为以下代码:countsword=counts.get(word,0)+1文本词频统计第30页字典类型counts.get(word,0)方法表示:假如word在counts中,则返回word对应值,假如word不在counts中,则返回0。该实例第三步是对单词统计值从高到低进行排序,输出前10个高频词语,并格式化打印输出。因为字典类型没有
17、次序,需要将其转换为有次序列表类型,再使用sort()方法和lambda函数配合实现依据单词次数对元素进行排序。最终输出排序结果前10位单词。items=list(counts.items()#将字典转换为统计列表items.sort(key=lambdax:x1,reverse=True)#以统计第2列排序文本词频统计第31页采取函数对获取和整理文本进行封装,下面给出该实例完整代码。文本词频统计第32页运行程序后,输出结果如右:the1138and965to754of669you550a542i542my514hamlet462in436观察输出结果能够看到,高频单词大多数是冠词、代词、连接
18、词等语法型词汇,并不能代表文章含义。深入,能够采取集合类型构建一个排除词汇库excludes,在输出结果中排除这个词汇库中内容,具备这么功效程序完整代码以下。文本词频统计第33页文本词频统计第34页运行程序后,输出结果以下to754hamlet462it416that391is340not314lord309his296this295but269文本词频统计第35页三国演义是中国古典四大名著之一,作者是元末明初小说家罗贯中。该书描写了从东汉末年到西晋初年之间近1历史风云,以描写战争为主,反应了东汉末年群雄割据混战和魏、蜀、吴三国之间政治和军事斗争。三国演义是一本鸿篇巨著,里面出现了几百个各具特
19、色人物。每次读这本经典作品都会想一个问题,全书这些人物谁出场最多呢?一起来用Python回答这个问题吧。人物出场统计包括对词汇统计。汉字文章需要分词才能进行词频统计,这需要用到jieba库。分词后词频统计方法与Hamlet英文词频统计方法类似。三国演义人物出场统计第36页三国演义文本保留为:三国演义.txt。实当代码以下:三国演义人物出场统计第37页先输出排序前15单词,运行程序后,输出结果以下:曹操953孔明836将军772却说656玄德585关公510丞相491二人469不可440荆州425玄德曰390孔明曰390不能384如此378张飞358三国演义人物出场统计第38页观察输出结果,似乎
20、“曹操”是出场次数最多人。然而,结果中出现了“玄德”、“玄德曰”,读者应该知道“玄德”名字就是“刘备”。同一个人物会有不一样名字,这种情况需要整合处理。同时,与英文词频统计类似,需要排除一些人名无关词汇,如“却说”、“将军”等。深入完善代码以下,其中,第3行增加了排除词库excludes,第10到17行增加了同一人物不一样名字处理。三国演义人物出场统计第39页三国演义人物出场统计第40页三国演义人物出场统计第41页输出排序前5单词,运行程序后,输出结果以下:曹操1451孔明1383刘备1252关羽784张飞358三国演义人物出场统计第42页请感兴趣读者能够继续完善程序,排除更多无关词汇干扰,总
21、结出场最多20个人物都有哪些。这里,给出参考答案。曹操(1451)、孔明(1383)、刘备(1252)、关羽(784)、张飞(358)吕布(300)、赵云(278)、孙权(264)、司马懿(221)、周瑜(217)袁绍(191)、马超(185)、魏延(180)、黄忠(168)、姜维(151)马岱(127)、庞德(122)、孟获(122)、刘表(120)、夏侯惇(116)三国演义人物出场统计第43页Python之禅第44页什么样程序是好?怎样编写漂亮代码?这都是学习编程一段时间最经常提出问题,却最难回答。程序设计语言如同自然语言,好代码就像文学作品,不但达意,更要优美。那什么是“好”?什么是“优
22、美”?领悟编程代码优美过程类似参禅,除了不停练习,也需要了解一些标准。Python之禅第45页Python编译器以函数库形式内置了一个有趣文件,被称为“Python之禅”(TheZenofPython)。当调用以下一行语句后,会出现一段有趣运行结果。importthisPython之禅第46页第47页Python之禅Python之禅作者:TimPeters优美胜于丑陋明了胜于隐晦简练胜于复杂复杂胜于凌乱扁平胜于嵌套间隔胜于紧凑可读性很主要即便假借特例实用性之名,也不要违反上述规则除非你确定需要,任何错误都应该有应对当存在各种可能,不要尝试去猜测只要你不是Guido,对于问题尽可能找一个,最好是
23、唯一显著处理方案做可能好过不做,但不假思索就动手还不如不做假如你无法向人描述你实现方案,那必定不是一个好方案假如实现方案轻易解释,可能是个好方案命名空间是绝妙理念,要多利用译者心得以编写优美代码为目标,不多解释优美代码应该清楚明了,规范统一优美代码应该逻辑简练,防止复杂逻辑假如必须采取复杂逻辑,接口关系也要清楚优美代码应该是扁平,防止太多层次嵌套优美代码间隔要适当,每行代码处理适度问题优美代码必须是可读且易读上述规则是至高无上捕捉异常,不让程序留有因错误退出可能不要试图给出各种方案,找到一个实现它,几乎全部些人都没有Guido那么牛编程之前要有思索能说清楚往往才是正确适合复杂程序编程第48页除
24、了Python之禅所表示Python设计理念,该程序还有另一段魅力。请读者在Python安装目录中找到Lib/this.py文件,该程序内容以下:Python之禅第49页Python之禅第50页该程序第1到23行是一个字符串s,但字符串并非是明文。将s转换成内容代码从25行到30行。在这些代码中,能够看到字典、列表和元组类型,下面逐行来阅读这个代码功效。第24行定义了一个空字典d,第26行对字典d填充了内容,这个填充将i+c对应字符替换为(i+13)%26+c,即将编号循环增加了13。chr(65)代表字符A,chr(97)代表字符a,所以,第24到27行建立了字母a到z和字母A到Z一个13位
25、循环移动对应表,以下所表示:Python之禅第51页密文:密文:ABCDEFGHIJKLMNOPQRSTUVWXYZ原文:原文:NOPQRSTUVWXYZABCDEFGHIJKLM密文:密文:abcdefghijklmnopqrstuvwxyz原文:原文:nopqrstuvwxyzabcdefghijklmPython之禅第52页这个算法能够看作是3.5节介绍凯撒密码一个扩展,相比凯撒密码,这个算法采取循环移动13个位置,直接好处是原文和密文之间相互转换能够使用同一个程序,提议读者掌握这个算法,传递个小纸条、发个小消息就不怕被他人看懂了。Python之禅第53页本章主要介绍了组合数据类型中元组、数组、列表和字典等类型及基本操作,讲解了怎样使用jieba词库对汉字文档进行分词并深入统计文档词频,最终利用Python之禅例子介绍编写好代码基本标准。本章小结本章小结第54页