1、自测试卷1一、选择题1下面关于数据分析说法正确的是( )。A数据分析是数学、统计学理论结合科学的统计分析方法B数据分析是一种数学分析方法C数据分析是统计学分析方法D数据分析是大数据分析方法2下面不是数据分析方法的是( )。A同比分析B环比分析C大数据D帕累托法则3. 下面哪个是同比分析公式( )。A同比增长速度=(本期-同期)/同期100%B同比增长速度=(上期-下期)/上期100%C同比增长速度=上期-下期D同比增长速度=本期-下期4下面哪个是环比分析公式( )。A环比增长速度=(本期-下期)/下期100%B环比增长速度=本期-上期C环比增长速度=(本期-上期)/上期100%D环比增长速度=
2、(本期-上期)/上期5关于80/20分析说法不正确的是( )。A二八法则B帕累托法则C帕累托定律D不规则定律6类比到头条的收益,头条投放广告预测收益,你选择用哪种方法预测()A聚类B一元线性回归C时间序列D多元线性回归7分析客户价值一般使用哪种分析方法?( )A聚类B一元线性回归C时间序列D多元线性回归8分析股票你选择用哪种分析方法( )A聚类B一元线性回归C时间序列D多元线性回归9在现实世界的数据中,缺失值是常有的,一般的处理方法有(多选):A忽略B删除C平均值填充D最大值填充10Pandas模块用于做什么?(多选)( )A数据挖掘B数据处理C数据分析D数据可视化二、填空题1数据分析方法一般
3、分为_、_、_。2聚类分析多用于_、_。3数据分析的一般流程是_、_、_、_、_、_、_。4数据处理主要包括_、_和_。5常用的回归有_和_。三、简答题1.简单描述什么是数据分析。2. 简述数据处理的作用。自测试卷2一、选择题1下面哪个属性不是NumPy中数组的属性( )。 AndimBsizeCshapeDadd2一个简单的Series是由( )的数据组成的。 A两个数组B三个数组C一个数组D四个数组3.在NumPy中使用下面( )函数,可以实现将数组转换为矩阵。 Aasarray()Basmatrix()4. 以下( )函数可以在绘制图表时,设置x轴的名称。 A. xlim()B. xla
4、bel()C. xticks()5.在pandas中可以使用以下哪三种函数实现合并数据( )。 A. agg()函数B. concat()函数C. join()方法D. merge()函数6. 在pandas中以下哪个方法用于实现去除重复数据?( ) A. join()B. drop_duplicates()C. count()7.以下哪个函数用于绘制折线图?( ) A. scatter()B. plot()C. pie()8.在NumPy 模块中,以下哪个函数不是算数函数?( ) A. subtract()B. divide()C. hypot()9.在pandas中以下哪个方法用于向csv
5、文件中实现写入工作?( ) A. to_excel()B. read_csv()C. to_csv()10.以下哪个函数可以生成一个指定范围的随机数组?( ) A. randint()B. rand()C. random()二、填空题1NumPy中_函数可以创建一个通过shape参数指定数组形状与元素均为0的数组。2pandas提供了三个函数用于实现数据库信息的读取操作分别是_、_、_3 Matplotlib模块中可以绘制比较常见的六种图表分别是_、_、_、_、_、_4sklearn模块的_子模块提供了多种自带的数据集,可以通过这些数据集进行数据的预处理、建模等操作,从而练习使用sklearn
6、模块实现数据分析的处理流程和建模流程。5Matplotlib模块不仅仅只能绘制2D图表,实际上在Matplotlib模块中还内置了一个_的子模块,通过该子模块即可实现绘制3D图表。三、简答题1. sklearn模块提供了多种用于数据分析测试的本都数据集,请列举三种数据集的导入方法以及对应数据集的名称?2. 在Matplotlib模块中需要使用哪两种子模块才可以实现3d图表的绘制,并说一下为什么?自测试卷1一、选择题1NumPy中可以获取数组长度的属性是以下的哪个答案( )。 AdtypeBshapeCndimDsize2在NumPy中创建一个元素均为0的数组可以使用( )函数。 Azeros(
7、)Barange()Clinspace()Dlogspace()3.在NumPy中创建一个全为0的矩阵可以使用( )函数。 Aempty()Barange()Czeros()Dones()4. 在NumPy中下面( )函数是获取正弦弧度的 A. cos()B. tan()C. hypot()D. sin()5. 正确的导入pandas模块的方式有哪些( )。 A. import sysB. import pandas as npC. import matplotlibD. import pandas6. 以下哪项不属于pandas的数据结构?( ) A. Series对象B. DataFram
8、e对象C. dtype对象7.在pandas中以下哪个函数可以读取csv文件?( ) A. read_excel()B. read_csv()C. read_sql_query()8.以下哪个函数是一个读取数据库的全能函数?( ) A. read_sql_query()函数B. read_sql_table()函数C.read_sql()函数9.在matplotlib中以下哪个子模块用于实现普通图表的绘制工作?( ) A. mpl_toolkits.mplot3dB. matplotlib.tickerC. matplotlib.pyplot10.以下哪个函数可以实现画布的创建?( ) A.
9、subplots()B. add_subplot()C. figure()D. subplot2grid()二、填空题1数组有一个比较重要的属性是_,数组的维数与元素的数量就是通过_来确定的。 2pandas的数据结构中有两大核心,分别是_与_。3使用pyplot子模块实现图表的绘制时,首先可以先创建一个_,如果需要将整个画布划分成多个部分时,就可以使用_的方式来实现。4数组的形状(shape)是由_,组成的_来指定的,元组的每个元素对应每一维的_。5Series是_和Numpy中的_类似。三、简答题1.简单描述一下NumPy模块的用途。2. pandas的数据结构中的两大核心分别是什么?自测
10、试卷6一、选择题1下面关于线性回归的说法不正确的是( )。A. 相关关系的两个变量是非确定关系B. 散点图能直观地反映数据的相关程度C. 回归直线最能代表线性相关的两个变量之间的关系D. 散点图中的点越集中,两个变量的相关性越强2下列关于一元线性回归分析的说法中,不正确的是( )。A.最小二乘法基本原则是对于确定的方程,使观察值对估算值偏差的平方和最小B.利用回归模型进行预测,需要对回归系数、回归方程进行检验,以判定预测模型的合理性和适用性C.检验方法有方差分析、相关检验、t检验等D.对于一元线性回归,各种检验方法的检验结果是不一致的3回归分析中通常采用最小二乘法,下列关于最小二乘法的说法错误
11、的是()。A从理论上讲,最小二乘法可获得最佳估计值B最小二乘法通过平方后计算得出的较大误差赋予了更大的权重C计算平方偏差和要比计算绝对偏差和难度大D最小二乘法提供了更有效的检验方法4获取2017至2018年的数据,下列代码正确的是( )Adf12017:2018Bdf12017,2018Cdf12017-2018Ddf12017+20185按日期显示数据,使用下列哪种方法( )Ato_excel()Bto_period()Cread_excel()Dset_index()6按季度统计数据,下列正确的是( )A. df1.resample(w).sum()B. df1.resample(m).s
12、um()C. df1.resample(A).sum()D. df1.resample(Q).sum()7设置索引使用哪种方法。( )A、merge()方法B、concat()方法C、to_datetime()方法D、set_index()方法8关于散点图,下列说法正确的是( )A . 可呈现变量的频数分布B . 可表示两种现象问的相关关系C . 可描述变量的变化趋势D . 可直观表示出各指标的位置9fit方法的作用是( )A获取回归系数B获取截距C预测y值D拟合线性模型10当你遇到下面的问题时,你如何处理?( )A调试程序B修改size参数值C逗号修改为英文逗号D修改family参数二、填空
13、题1线性回归包括_和_。2回归分析一般使用_。3线性回归公式是_。4df1.resample(AS).sum(),这段代码中,“AS”是_。5每个季度第一天作为开始日期,resample()方法中的参数应该是_三、简答题1.统计2018年1月1日至2018年5月1日广告费用支出情况2.假如7月份投入7.8万元广告费,现预测7月份的销售收入。自测试卷5一、选择题1下面关于RFM模型说法正确的是( )。A是衡量客户价值和客户潜在价值的重要工具和手段B一种分析销售数据的方法C统计客户的方法D一种营销方法2关于R值描述正确的是( )。A最近消费时间间隔B最后一次消费C消费最多的一次D第一次消费3简单地
14、将数据集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类4一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级众数是:( )A 一年级B二年级C 三年级D 四年级5当不知道数据所带标签时,可以使用哪种技术使带同类标签的数据与带其他标签的数据相分离?( )A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6将原始数据进行日期处理、变换、数据规约是在以下哪个步骤的任务?A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据挖掘7在基本K均值算法里,当邻近度函数采用(
15、)的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离 B、平方欧几里德距离 C、余弦距离 D、Bregman散度 8. 以下哪些学科和数据挖掘有密切联系?多选( )A. 统计 B. 计算机组成原理 C. 矿产挖掘 D. 人工智能9Sklearn模块对常用的机器学习算法进行了封装,主要包括:(多选)A回归B分类C降维D聚类10下面哪些情况属于数据异常?(多选)( )A性别无B身高5米C年龄18D体重99斤二、填空题1RFM模型是_、_、_3个指标首字母的组合。2聚类算法包括五类:_、_、_、_和_。3Sklearn模块包括_、_、_、_四大机器学习算法。4安装Sklearn模块前应首先安装_和
16、_模块。5导入Excel文件主要使用Pandas的_方法。三、简答题1.简单描述什么是RFM模型。2.导入TB201812.xls抽取“买家会员名”。自测题库参考答案自测试卷1一、选择题答案1A 2C 3A 4C 5. D 6. B 7. A 8.C 9.A、B、C 10.B、C二、填空题答案1、描述性数据分析、探索性数据分析、验证性数据分析2、人群分类,客户分类3、明确目的、获取数据、数据处理、数据分析、验证结果、数据展示、数据应用4、数据规约、数据清洗、数据加工5、一元线性回归、多元线性回归三、简答题答案1、简单描述什么是数据分析数据分析是数学、统计学理论结合科学的统计分析方法(例如线性回
17、归分析、聚类分析、方差分析、时间序列分析等)对数据库中的数据、Excel数据、收集的大量数据、网页抓取等数据进行分析,从中提取有价值的信息形成结论并进行展示的过程。2、简述数据处理的作用数据处理是从大量的、杂乱无章、难以理解的、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。自测试卷2一、选择题答案1D 2C 3B 4B 5.B、C、D 6.B 7 B 8.C 9.C 10.A二、填空题答案1、zeros()2、read_sql_query()函数、read_sql_table()函数、read_sql()函数3、条形图、折线图、散点图、饼图、箱形图、多面板图表4、datasets5
18、、mplot3d三、简答题答案1. sklearn模块提供了多种用于数据分析测试的本都数据集,比较常用的有datasets.load_iris()、datasets.load_breast_cancer()、datasets.load_digits()、datasets.load_diabetes()、datasets.load_boston()、datasets.load_linnerud(),对应的数据名称为,尾花数据集、乳腺癌数据集、手写数字数据集、糖尿病数据集、波士顿房价数据集、体能训练数据集。2. 在Matplotlib模块中需要使用pyplot与mplot3d这两个子模块才能实现3
19、d图表的绘制,因为mplot3d需要通过pyplot 子模块中的figure()图形画布进行展示,所以pyplot 子模块还是需要导入的。自测试卷3一、选择题答案1D 2A 3C 4D 5.B、D 6.C 7.B 8.C 9.C 10.C二、填空题答案1、shape、shape2、Series、DataFrame3、空白的画布、添加子图4、N个正整数、元组、大小5、一维数组、一维数组三、简答题答案1.NumPy模块是一个用于实现科学计算的库, NumPy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数库。2. pandas的数据结构中有两大核心,分别是Series与Dat
20、aFrame。自测试卷4一、选择题答案1D 2D 3C 4A 5. B 6. D 7.D 8. B 9.D 10 .C二、填空题答案1、一元线性回归、多元线性回归2、最小二乘法3、y=bx+k4、每年第一天为开始日期5、AS三、简答题答案1.统计2018年1月1日至2018年5月1日广告费用支出情况主要代码如下:bb=r.dataJDcar.xlsdf=pd.DataFrame(pd.read_excel(bb)df投放日期 = pd.to_datetime(df投放日期)df1=df投放日期,支出df1=df1.set_index(投放日期,drop=True)df2=df12018-01-
21、01:2018-05-01# 按月度统计并显示广告费支出金额dfCar_month=df2.resample(M).sum().to_period(M)print(dfCar_month)2.假如7月份投入7.8万元广告费,现预测7月份的销售收入。主要代码如下:x0=78000y0=b+x0*kprint(y0)自测试卷5一、选择题答案1A 2B 3B 4A 5. B 6. C 7 A 8. AD 9.ABCD 10.AB二、填空题答案1、R(最近消费时间间隔Recency)、F(消费频率Frequency)和M(消费金额Monetary)2、划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法3、回归、降维、分类和聚类4、NumPy和SciPy5、read_excel()三、简答题答案1什么是RFM模型?RFM模型是衡量客户价值和客户潜在价值的重要工具和手段,大部分运营人员都会接触到该模型。RFM模型是国际上最成熟、最为容易的客户价值分析方法,它是R(最近消费时间间隔Recency)、F(消费频率Frequency)和M(消费金额Monetary)3个指标首字母的组合。2导入TB201812.xls数据抽取“买家会员名”。data = pd.read_excel(TB201812.xls, encoding = utf-8)data=data买家会员名