财务大数据基础-技能训课后习题章节练习题带答案章末测试题复习题题库1-10章全.docx

资源描述

1、项目一财务大数据认知一、单选题1. 下列哪个选项不属于大数据的特点（B）A. 海量化的数据 B. 大数据都是有价值的数据C. 数据类型的多样化 D. 大数据的价值密度相对较低2. 关于大数据思维下列哪个描述是错误的（D）A. 大数据时代的思维方式从样本思维转向总体思维 B. 大数据思维要从精确性转向模糊性C. 大数据思维要从因果关系转向相关关系 D. 大数据时代，所有数据都是结构化数据3. 关于财务大数据，下列哪个说法是错误的（D）A. 大数据时代，大量的财报报表数据由程序自动处理，工作效率大大提升 B. 大数据时代，财务共享中心是未来的趋势C. 大数据能够使财务人员更精准地制定预算管理，为

2、领导层提供决策依据D. 大数据时代，财会人员只关注自己企业的内部数据即可，不需关注行业数据4. 下列哪个选项不属于大数据处理的环节（A）A. 数据模型 B. 数据预处理C. 数据分析 D. 数据可视化5. 下列哪个选项可以作为大数据处理工具（B）A. Google B. PythonC. Baidu D. Windows二、简答题1大数据的4个V特征分别是什么？请举例说明和解释。大数据具有Volume、Variety、Velocity、Value四个特点，简称为“4V”。（1）Volume：Volume是指海量化的数据。无论是采集数据、存储数据还是数据计算，其量都非常大。2020年全球估计有3

3、5ZB的数据量。BAT巨头百度、阿里和腾讯，他们各自拥有的数据量也已接近EB级。（2）Variety：Variety指的是数据类型的多样化。根据数据的特点把大数据分为结构化数据、半结构化数据和非结构数据两种。结构化数据是具有统一的数据结构和规范的数据访问和处理方法的数据，企业销售系统数据、客户关系管理数据、库存数据、订单数据、财务数据等都是结构化数据，这些数据多存放在关系型数据库中。非结构化数据是指不能采用预先定义好的数据模型或者没有以一个预先定义的方式来组织的数据，常见的非结构化数据有办公文档、邮件、各类报表、图像、音频、视频信息等。半结构化数据是介于结构化数据和非结构化数据之间的数据，互联

4、网中的XML文件、HTML文件就属于半结构化数据。（3）Velocity：Velocity是指大数据的时效性。大数据的时效性包含两个层面：数据生成速度高和数据处理速度高。比如搜索引擎要求几分钟前的新闻能够被用户查询到，个性化推荐引擎尽可能要求实时完成推荐。时效性是大数据区别于传统数据的显著特征。（4）Value：Value是指大数据的价值密度。与结构化数据相比，大数据的价值密度相对较低，但基于大数据得到的分析结果，其商业价值却很高。2. 列举大数据的数据来源和类型有哪些？大数据的数据来源主要有三个方面。第一，全球约有40亿人接入了互联网，每个人都是信息的接收者和产生者，每个人都是数据源；第二，

5、全球大约有1000亿个传感器，这些传感器24小时不停地产生数据。第三，人类活动的进一步扩展使数据规模急剧膨胀，数据类型越来越多，数据结构越来越复杂。根据数据的特点把大数据分为结构化数据、半结构化数据和非结构数据两种。根据大数据的数据类型把大数据分为数字、文本、图像、音频、视频、地理位置信息、网络日志等。3列举当前大数据的应用场景；思考将来还可应用在哪些方面？当前大数据的应用场景：（1）大数据+民生；（2）大数据+交通；（3）大数据+金融；（4）大数据+安全，等等。将来还可应用在哪些方面：答案略。4. 列举哪些数据是结构化数据？哪些是非结构化数据？存放在关系型数据库中的数据都是结构化数据，包括企

6、业销售系统数据、客户关系管理数据、库存数据、订单数据、财务数据等。常见的非结构化数据有办公文档、邮件、各类报表、图像、音频、视频信息等，对于计算机而言，这些非结构化信息很难理解，无论是存储、查询还是利用都需要更加智能化的信息技术。5. 谈谈你对财务大数据的理解。略。6. 数据分析的目的是什么？数据分析是采用适当的方法对收集来的大量看似杂乱无章的数据进行理解、分析和汇总，提炼数据的内在规律，以最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程，基于大数据的分析活动主要挑战的不是大数据分析的技术，而是基于对行业的深入了解和对业务的精准把

7、控，只有明确问题分析的方向才有可能准确地实现分析的目标。7. 简述数据分析的基本过程数据分析包括了狭义数据分析和数据挖掘。狭义数据分析的基本过程是：根据事先确定的分析目标，选择适当的统计分析方法或工具，对收集来的大量数据进行处理与分析，从中提取有价值的信息，形成分析结论。分析结果可以辅助企业进行管理优化、预测和决策。数据挖掘的基本过程是：采用适当的挖掘算法或工具，对收集来的海量数据进行挖掘，从中发现不为人知、无法通过人的经验或对数据的直观观察得出的规则或结论。挖掘出的规则或结论可以用于预测和决策。8. Python作为大数据处理工具的优势有哪些？首先，对于初学者来说，Python非常易学易用，

8、它的语法结构简单，通俗易懂，同时借助各种第三方库，Python能实现无所不能的数据管理和分析任务。其次，大量复杂操作的任务，在Python中只需要短短几行代码就能轻松解决，特别是当数据分析任务重复度很高的时候，只要略微改动代码即可完成任务，大大节省了时间，提高了效率。再次，Python处理数据的体量很大。最后，Python有强大的绘图功能，可以自动生成可视化图形，再复杂的绘图过程都可以一次性完成，数据结果还非常清晰直观。项目二 Python环境搭建与使用一、单选题1. 下列说法不正确的（C）A. Anaconda是一个集成环境 B. Jupyter Notebook是Anaconda中的一个组

9、件C. 安装了Anaconda还需要安装Python D. 安装了Anaconda就安装好了数据分析所用的模块2. 下列关于Jupyter Notebook，说法不正确的是（D）A. Jupyter Notebook是Anaconda集成环境中自带的代码编辑器 B. Jupyter Notebook是一个网页程序C. Jupyter Notebook页面单元格中不仅可以输入代码还可以输入文字 D. Jupyter Notebook的Markdown单元中只能输入文字3. 对于print语句的使用，下列选项正确的是（A）A. print(“欢迎进入财务大数据的学习”) B. print “欢迎进

10、入财务大数据的学习”C. print(欢迎进入财务大数据的学习) D. print(欢迎进入财务大数据的学习)4. 执行下列代码，正确的运行结果是（A）print(第二季度销售毛利率为: , end=)print(328.5/228.6)A. 第二季度销售毛利率为：1.4370078740157481 B. 第二季度销售毛利率为：1.4370078740157481C. 第二季度销售毛利率为：1.44 D. 第二季度销售毛利率为：1.445. 在Jupyter Notebook编写的文件保存后，后缀为（A）A. .ipynb B. .pyC. .class D. .conda二、实操题1练习从

11、清华大学开源软件镜像站下载适合自己计算机的Anaconda 安装程序。参考答案见教材中的视频。2. 在计算机上练习安装Anaconda环境，并检验是否安装成功。参考答案见教材中的视频。3. 在Jupyter Notebook中创建Python程序，完成北京MG公司2019年度销售毛利率的计算，并将文件命名为GrossMarginRate。参考答案见GrossMarginRate.ipynb文件。4. 将GrossMarginRate程序下载另存为HTML形式的文件，尝试把学习成果分享给亲人或好友。参考答案见GrossMarginRate.html文件。5. 在Jupyter中完成Python文

12、件的复制、移动、删除、下载、上传、重命名等操作。参考答案见教材中的视频。项目三 Python基础程序设计一、单选题1. 以下合法的Python变量名是（ B ）A1num B. num1 C. print D. num1+02. 下面哪个赋值命令是不合法的（ B ）Aaccount=123456 B. 123456=account C. account= account+1D. account= 12+156-903. 赋值语句x=(-b+ac)/2a在Python中如何表示（ C ）A. x=(-b+ac)/(2a) B. x=(-b+a*c)/2*a C. x=(-b+a*c)/(2*a)

13、 D. x=(-b+a*c)/(2a)4. 小明有个水果店，现在想通过列表管理水果品种，假如有三种水果：苹果、桃子和西瓜，那么，下面哪个语句正确定义了包含这三种水果的列表fruits（ A ）A. fruits = 苹果, 桃子, 西瓜 B. fruits = 苹果, 桃子, 西瓜C. fruits = (苹果, 桃子, 西瓜) D. fruits = (苹果, 桃子, 西瓜)5. 接第4题，如果要在桃子前插入一个草莓，则下面哪个语句正确定义了在列表中插入元素（ C ）A. fruits .insert(2,草莓) B. fruits .insert(1,草莓)C. fruits .inser

14、t(1,草莓) D. fruits .append(草莓)6. 若有字典fruits = apple:10,pear:12,orange:23，当执行fruitspear = 22后，则fruits的字典元素变为（ B ）。A. apple:10,pear:12,orange:23 B. apple: 10, pear:22,orange: 23C. apple:10, orange:23 D. apple:10,pear:12,orange:23二、实操题实操题答案见“代码”文件夹下“ch3”文件夹中的“项目三-技能训练-实操题.ipynb”。项目四 Python分支结构程序设计一、单选题1

15、. 下面哪种程序结构可以实现二选一的程序执行逻辑（C）A. 顺序结构 B. 单分支程序 C. 双分支程序 D. Pyhon程序2. 下面属于不正确的分支结构语法的是（ D ）A. if 条件表达式1: 语句块1elif 条件表达式2: 语句块2else: 语句块nB. if 条件表达式: 语句块1else: 语句块2C.if 条件表达式: 语句块D.if 条件表达式1: 语句块1else: 语句块23. if的条件表达式是假值的选项为（B）。A. if (12+9) B. if (12-12) C. if (true) D. if (3=2) 4. if的条件表达式是假值的选项为（ C ）。A

16、. if (32 and 122 or 1213) C. if (not true) D. if (not 32)5. 下面哪个分支程序的语法和程序逻辑不正确的为（ B ）A. if xy: print(x小于y) B. if xy: print(x小于y)else: print(x大于y) C. if xy: print(x小于y)D. if xy: print(x小于y)else: print(x不小于y)6. 根据表4-1给出的2018年和2019年中国软件的资产负债率，完成下面的程序填空，if后填（ A ），elif后填（ C ）。表4-1 中国软件的资产负债率单位：元项目2018年2

17、019年资产负债率54%59%程序段：ROA18=float(input(请输入中国软件2018年的资产负债率：)ROA19=float(input(请输入中国软件2019年的资产负债率：)if( ): print(2018年的资产负债率低于2019的资产负债率。)elif( ): print(2018年的资产负债率等于2019的资产负债率。)else: print(2018年的资产负债率高于2019的资产负债率。)A. ROA18 ROA19 C. ROA18 = ROA19 D. ROA18 = ROA19二、实操题实操题答案见“代码”文件夹下“ch4”文件夹中的“项目四-技能训练-实操题

18、.ipynb”。项目五 Python循环结构程序设计一、单选题1.若有字典fruits = apple:10,26,pear:12,68,orange:23,32，当执行print(fruitspear1)语句后，结果为（ B ）A. 12 B. 68 C. 26 D.322. 下列哪个选项不属于循环语句的关键字（D）A. for.in B. continueC. while D. exit3. 下面的代码用于计算各个资产的年折旧额，请问哪个选项的结果是正确的程序输出（ A ）# asserts中各值含义：资产名称、资产原值、报废时净残值、预计使用年限asserts =房屋, 10000000

19、, 1000000, 50, 服务器, 900000, 90000, 20, 大型空调机, 100000, 10000, 10depreciation= # 折旧额列表for i in range(0,len(asserts): depreciation.append(assertsi1-assertsi2)/assertsi3) print(各个资产的年折旧额为：)for i in range(0,len(asserts): print(assertsi0 + :, end = ) print(depreciationi,元)A. 各个资产的年折旧额为：房屋:180000.0元服务器:405

20、00.0元大型空调机:9000.0元 B. 各个资产的年折旧额为：房屋:180000.0元服务器:40500.0元大型空调机:9000.0 C. 各个资产的年折旧额为：房屋:180000.0元服务器:40500.0元大型空调机:9000.0元 D. 各个资产的年折旧额为：房屋:180000.0元end 服务器:40500.0元end 大型空调机:9000.0 end4. 下列代码求1至100（包括100）中所有偶数的和，while后面的条件应该为（A）sum=0i=1while （）: if i%2=0: sum=sum+i i=i+1print(sum=, sum)A. i = 100

21、 B. i = 100 D. i 1005. 下列代码将1到10（包括10）范围内、所有不能被3整除的数输出，那么，if语句下划线的位置应填入哪个选项（ A ）for i in range(1,10+1): if i % 3 =0: print(i,end= )A. continue B. break C. exit D. end二、实操题实操题答案见“代码”文件夹下“ch5”文件夹中的“项目五-技能训练-实操题.ipynb”。项目六数据分析工具Pandas入门一、单选题1. 下列选项中，描述不正确的是（ A ）A. Pandas只有Series和DataFrame 这两种数据结构 B. S

22、eries是一维的数据结构C. DataFrame是二维的数据结构 D. Series和DataFrame都可以重置索引2. 下列选项中，描述正确的是（B ）A. Series是一维的数据结构，其索引在由，数据在左 B. DataFrame是二维的数据结构，并且该结构具有行索引和列索引C. Series结构中的数据不可以进行算术运算 D. Series对象只提供了index属性3. 下列选项中，描述不正确的是（ A ）A. Pandas只提供了读取文本文件、Excel文件的函数 B. 从excel文件中读入的数据系统自动转换成DataFrame对象C. read_excel()函数用来读取Ex

23、cel文件 D. Pandas提供了将数据写入到外部文件中的方法4. 阅读下面的程序，该程序执行后的输出结果为（ B ） import pandas as pddata = 68,56,88,86,52,71,88,79,89df = pd.DataFrame(data,columns=语文,数学,英语)df语文1A. 68 B. 86C. 88 D. 报错5. 使用上一题的数据集df，语句df.loc1:2,语文执行后的结果是（ A ）A. 1 862 88Name: 语文, dtype: int64 B. 0 681 86Name: 语文, dtype: int64C. 1 522 79N

24、ame: 语文, dtype: int64 D. 0 561 52Name: 语文, dtype: int64二、实操题实操题答案见“代码”文件夹下“ch6”文件夹中的“项目六-技能训练-实操题.ipynb”。项目七统计计算与分组运算一、单选题1. 下列哪个函数不是Pandas的统计计算函数（D）A. mean()函数 B. sum()函数C. max()函数 D. print()函数2. 下列选项中，哪个方法可以一次性输出多个统计指标？（C）A. mean() B. median()C. describe() D.sum()3. 下列选项中，描述不正确的是（C）A. sort_index(

25、)函数专门用于按数据集的索引标签名进行排序 B. Pandas支持按行或列的索引名排序和按实际值排序C. sort函数既可以按索引名排序又可以按实际值排序 D. sort_values()函数用于将数据集按值进行排序4. 下列选项中，关于groupby()的操作不正确的是（D）A. list(df.groupby(系部) B. df.groupby(by=系部)C. df.groupby(系部,sort=True) D. df.groupby( 系部,性别) 5. 对于如下数据集df的分组运算，对代码的解释下列哪个选项是错误的？（D）系部姓名性别比赛得分1会计系李彦斌男892信息系赵科男793

26、金融系章丽丽女684会计系王静女775会计系彭伟男676信息系金子轩女82A. df.groupby(系部) ，表示按“系部” 进行分组 B. df.groupby( 系部,性别) ，表示按“系部” 和“性别”进行分组C. df.groupby(系部).sum()，表示按“系部“分组并求每个系部的比赛总分 D. df.groupby( 性别).sum()，表示按“性别“分组并求男生和女生的总数二、实操题实操题答案见“代码”文件夹下“ch7”文件夹中的“项目七-技能训练-实操题.ipynb”。项目八数据清洗一、单选题1. 下列选项中，描述不正确的是（ B ）A. 数据清洗的目的是为了提高数据

27、质量 B. 空值一定要删除C. 数据预处理包括数据的清洗、合并、重塑与转换 D. 在Pandas中，缺失值使用NaN表示2. 下列选项中，用于删除缺失值或空值的方法是（ B ）A. isnull() B. dropna()C. notnull() D. fillna()3. 下列选项中，说法不正确的选项是（ A ）A. fillna()函数不能通过inplace参数来确定是否对原始数据集进行填充更改B. 使用位于空值前面的数据进行填充的代码是df.fillna(method=bfill)C. 使用位于空值后面的数据进行填充的代码是df.fillna(method=ffill) D. 用平均值填

28、充空值的代码是df.fillna(df.mean()4. 对于下列代码生成的数据集df，下列哪个选项的结果和其他三个选项不一样（ C ）import pandas as pddata = 姓名:李彦,赵科,章丽,王静,彭伟,金子,性别:男,男,女,女,男,女df = pd.DataFrame(data)A. df.duplicated(subset=性别) B. df.duplicated(subset=性别)C. df.duplicated(subset=性别,keep=last) D. df.duplicated(subset=性别,keep=first)5. 下列选择项中，用于删除重复值

29、的函数是（ A ）A. drop_duplicates()函数 B. drop()函数C. dropna()函数 D. del()函数二、实操题实操题答案见“代码”文件夹下“ch8”文件夹中的“项目八-技能训练-实操题.ipynb”。项目九数据规整一、单选题1. 下列选项中，描述不正确的是（D）A. concat()函数默认是行拼接 B. concat()函数要实现列拼接，要指定axis=1C. 行拼接是指上下多行进行拼接 D. 列拼接操作后，两个数据集中相同列信息只保留一列2. 关于匿名函数，描述不正确的是（D ）A. 使用匿名函数可以省去定义函数的过程，让代码更加精简 B. 匿名函数有

30、个限制，就是只能有一个表达式C. 匿名函数也是一个函数对象，把匿名函数赋值给一个变量，再利用变量来调用该函数 D. 匿名函数也可以实现复杂的编程逻辑3. func=lambda x: x*2语句定义了一个匿名函数，计算一个数的平方，现在要计算2的平方，正确的调用是（A）A. func(2) B. func2 C. func D. func=24. 下列选项中，关于apply()方法正确的说法是（C）A. apply()方法是对DataFrame每一个元素应用某个函数 B. apply()方法只能对行列进行操作C. apply()方法可以对数据进行分组 D. apply()方法返回的结果一定与原

31、数据的形状相同5. 下列代码生成数据集df，现在要求每一行的数据总和，正确的代码为（A）import numpy as npdata=1,2,3,4,5,6,7,8,9,10,11,12df=pd.DataFrame(data,columns=list(abcd)dfA. df.apply(lambda x:x.sum(),axis=1) B. df.apply(lambda x:x.sum()C. df.apply(lambda x:x.add(),axis=1) D. df.apply(lambda x:x.add()二、实操题实操题答案见“代码”文件夹下“ch9”文件夹中的“项目九-技能

32、训练-实操题.ipynb”。项目十数据分析与可视化一、单选题1. 有如下数据集df，要对该数据集进行转置，下列哪个选项不正确（C）abcd012341567829101112A. df1 = pd.DataFrame(df.T) B. df1 = pd.DataFrame(df.values.T)C. df1 = pd.DataFrame(T) D. df1 = pd.DataFrame(df.T,index=df.columns,columns=df.index)2. 在第1题的数据集df中增加一列e列，正确的代码是（A ）A. dfe=8,8,8 B. dfe=8,8,8C. dfe=8

33、,8,8 D. e=8,8,83.下列选项中，关于Matplotlib库说法不正确的是（D）A. Matplotlib是当前用于数据可视化的最流行的Python包之一 B. Matplotlib提供了绘制散点图、条形图、折线图、饼图、直方图的方法C. 渐进、交互的方式实现数据可视化 D. Matplotlib不能支持中文显示4. Matplotlib中用于绘制饼图的函数是（B）A. plot() B. pie() C.hist() D.scatter()5. 下列哪个选项描述不正确（A）A. 添加图例的函数是plt.title() B. 添加图表标题的函数是plt.title() C. 添加x轴标签的函数是plt.xlabel() D. 添加y轴标签的函数是plt.ylabel() 二、实操题实操题答案见“代码”文件夹下“ch10”文件夹中的“项目十-技能训练-实操题.ipynb”。

展开阅读全文