资源描述
自测试卷1
一、选择题
1.下面关于数据分析说法正确的是( )。
A.数据分析是数学、统计学理论结合科学的统计分析方法
B.数据分析是一种数学分析方法
C.数据分析是统计学分析方法
D.数据分析是大数据分析方法
2.下面不是数据分析方法的是( )。
A.同比分析 B.环比分析 C.大数据 D.帕累托法则
3. 下面哪个是同比分析公式( )。
A.同比增长速度=(本期-同期)/同期×100%
B.同比增长速度=(上期-下期)/上期×100%
C.同比增长速度=上期-下期
D.同比增长速度=本期-下期
4.下面哪个是环比分析公式( )。
A.环比增长速度=(本期-下期)/下期×100%
B.环比增长速度=本期-上期
C.环比增长速度=(本期-上期)/上期×100%
D.环比增长速度=(本期-上期)/上期
5.关于80/20分析说法不正确的是( )。
A.二八法则
B.帕累托法则
C.帕累托定律
D.不规则定律
6.类比到头条的收益,头条投放广告预测收益,你选择用哪种方法预测()
A.聚类
B.一元线性回归
C.时间序列
D.多元线性回归
7.分析客户价值一般使用哪种分析方法?( )
A.聚类
B.一元线性回归
C.时间序列
D.多元线性回归
8.分析股票你选择用哪种分析方法( )
A.聚类
B.一元线性回归
C.时间序列
D.多元线性回归
9.在现实世界的数据中,缺失值是常有的,一般的处理方法有(多选):
A.忽略
B.删除
C.平均值填充
D.最大值填充
10.Pandas模块用于做什么?(多选)( )
A.数据挖掘
B.数据处理
C.数据分析
D.数据可视化
二、填空题
1.数据分析方法一般分为_________、__________、__________。
2.聚类分析多用于_________、__________。
3.数据分析的一般流程是_________、__________、_________、___________、__________、__________、__________。
4.数据处理主要包括_________、__________和__________。
5.常用的回归有__________和__________。
三、简答题
1.简单描述什么是数据分析。
2. 简述数据处理的作用。
自测试卷2
一、选择题
1.下面哪个属性不是NumPy中数组的属性( )。
A.ndim
B.size
C.shape
D.add
2.一个简单的Series是由( )的数据组成的。
A.两个数组 B.三个数组 C.一个数组 D.四个数组
3.在NumPy中使用下面( )函数,可以实现将数组转换为矩阵。
A.asarray() B.asmatrix()
4. 以下( )函数可以在绘制图表时,设置x轴的名称。
A. xlim()
B. xlabel()
C. xticks()
5.在pandas中可以使用以下哪三种函数实现合并数据( )。
A. agg()函数
B. concat()函数
C. join()方法
D. merge()函数
6. 在pandas中以下哪个方法用于实现去除重复数据?( )
A. join()
B. drop_duplicates()
C. count()
7.以下哪个函数用于绘制折线图?( )
A. scatter()
B. plot()
C. pie()
8.在NumPy 模块中,以下哪个函数不是算数函数?( )
A. subtract()
B. divide()
C. hypot()
9.在pandas中以下哪个方法用于向csv文件中实现写入工作?( )
A. to_excel()
B. read_csv()
C. to_csv()
10.以下哪个函数可以生成一个指定范围的随机数组?( )
A. randint()
B. rand()
C. random()
二、填空题
1.NumPy中_________函数可以创建一个通过shape参数指定数组形状与元素均为0的数组。
2.pandas提供了三个函数用于实现数据库信息的读取操作分别是_________、_________、_________
3. Matplotlib模块中可以绘制比较常见的六种图表分别是_________、_________、_________、_________、_________、_________
4.sklearn模块的_________子模块提供了多种自带的数据集,可以通过这些数据集进行数据的预处理、建模等操作,从而练习使用sklearn模块实现数据分析的处理流程和建模流程。
5.Matplotlib模块不仅仅只能绘制2D图表,实际上在Matplotlib模块中还内置了一个_________的子模块,通过该子模块即可实现绘制3D图表。
三、简答题
1. sklearn模块提供了多种用于数据分析测试的本都数据集,请列举三种数据集的导入方法以及对应数据集的名称?
2. 在Matplotlib模块中需要使用哪两种子模块才可以实现3d图表的绘制,并说一下为什么?
自测试卷1
一、选择题
1.NumPy中可以获取数组长度的属性是以下的哪个答案( )。
A.dtype
B.shape
C.ndim
D.size
2.在NumPy中创建一个元素均为0的数组可以使用( )函数。
A.zeros() B.arange() C.linspace() D.logspace()
3.在NumPy中创建一个全为0的矩阵可以使用( )函数。
A.empty() B.arange() C.zeros() D.ones()
4. 在NumPy中下面( )函数是获取正弦弧度的
A. cos()
B. tan()
C. hypot()
D. sin()
5. 正确的导入pandas模块的方式有哪些( )。
A. import sys
B. import pandas as np
C. import matplotlib
D. import pandas
6. 以下哪项不属于pandas的数据结构?( )
A. Series对象
B. DataFrame对象
C. dtype对象
7.在pandas中以下哪个函数可以读取csv文件?( )
A. read_excel()
B. read_csv()
C. read_sql_query()
8.以下哪个函数是一个读取数据库的全能函数?( )
A. read_sql_query()函数
B. read_sql_table()函数
C.read_sql()函数
9.在matplotlib中以下哪个子模块用于实现普通图表的绘制工作?( )
A. mpl_toolkits.mplot3d
B. matplotlib.ticker
C. matplotlib.pyplot
10.以下哪个函数可以实现画布的创建?( )
A. subplots()
B. add_subplot()
C. figure()
D. subplot2grid()
二、填空题
1.数组有一个比较重要的属性是_________,数组的维数与元素的数量就是通过__________来确定的。
2.pandas的数据结构中有两大核心,分别是_________与__________。
3.使用pyplot子模块实现图表的绘制时,首先可以先创建一个_________,如果需要将整个画布划分成多个部分时,就可以使用_________的方式来实现。
4.数组的形状(shape)是由_________,组成的__________来指定的,元组的每个元素对应每一维的__________。
5.Series是_________和Numpy中的_________类似。
三、简答题
1.简单描述一下NumPy模块的用途。
2. pandas的数据结构中的两大核心分别是什么?
自测试卷6
一、选择题
1.下面关于线性回归的说法不正确的是( )。
A. 相关关系的两个变量是非确定关系
B. 散点图能直观地反映数据的相关程度
C. 回归直线最能代表线性相关的两个变量之间的关系
D. 散点图中的点越集中,两个变量的相关性越强
2.下列关于一元线性回归分析的说法中,不正确的是( )。
A.最小二乘法基本原则是对于确定的方程,使观察值对估算值偏差的平方和最小
B.利用回归模型进行预测,需要对回归系数、回归方程进行检验,以判定预测模型的合理性和适用性
C.检验方法有方差分析、相关检验、t检验等
D.对于一元线性回归,各种检验方法的检验结果是不一致的
3.回归分析中通常采用最小二乘法,下列关于最小二乘法的说法错误的是()。
A.从理论上讲,最小二乘法可获得最佳估计值
B.最小二乘法通过平方后计算得出的较大误差赋予了更大的权重
C.计算平方偏差和要比计算绝对偏差和难度大
D.最小二乘法提供了更有效的检验方法
4.获取2017至2018年的数据,下列代码正确的是( )
A.df1['2017':'2018']
B.df1['2017','2018']
C.df1['2017'-'2018']
D.df1['2017'+'2018']
5.按日期显示数据,使用下列哪种方法( )
A.to_excel()
B.to_period()
C.read_excel()
D.set_index()
6.按季度统计数据,下列正确的是( )
A. df1.resample('w').sum()
B. df1.resample('m').sum()
C. df1.resample('A').sum()
D. df1.resample('Q').sum()
7.设置索引使用哪种方法。( )
A、merge()方法
B、concat()方法
C、to_datetime()方法
D、set_index()方法
8.关于散点图,下列说法正确的是( )
A . 可呈现变量的频数分布
B . 可表示两种现象问的相关关系
C . 可描述变量的变化趋势
D . 可直观表示出各指标的位置
9.fit方法的作用是( )
A.获取回归系数
B.获取截距
C.预测y值
D.拟合线性模型
10.当你遇到下面的问题时,你如何处理?( )
A.调试程序
B.修改size参数值
C.逗号修改为英文逗号
D.修改family参数
二、填空题
1.线性回归包括_________和__________。
2.回归分析一般使用_________。
3.线性回归公式是_________。
4.df1.resample('AS').sum(),这段代码中,“AS”是_________。
5.每个季度第一天作为开始日期,resample()方法中的参数应该是_________
三、简答题
1.统计2018年1月1日至2018年5月1日广告费用支出情况
2.假如7月份投入7.8万元广告费,现预测7月份的销售收入。
自测试卷5
一、选择题
1.下面关于RFM模型说法正确的是( )。
A.是衡量客户价值和客户潜在价值的重要工具和手段
B.一种分析销售数据的方法
C.统计客户的方法
D.一种营销方法
2.关于R值描述正确的是( )。
A.最近消费时间间隔 B.最后一次消费 C.消费最多的一次 D.第一次消费
3.简单地将数据集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类
4.一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级众数是:( )
A 一年级
B二年级
C 三年级
D 四年级
5.当不知道数据所带标签时,可以使用哪种技术使带同类标签的数据与带其他标签的数据相分离?( )
A. 分类
B. 聚类
C. 关联分析
D. 隐马尔可夫链
6.将原始数据进行日期处理、变换、数据规约是在以下哪个步骤的任务?
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据挖掘
7.在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。
A、曼哈顿距离
B、平方欧几里德距离
C、余弦距离
D、Bregman散度
8. 以下哪些学科和数据挖掘有密切联系?多选( )
A. 统计
B. 计算机组成原理
C. 矿产挖掘
D. 人工智能
9.Sklearn模块对常用的机器学习算法进行了封装,主要包括:(多选)
A.回归
B.分类
C.降维
D.聚类
10.下面哪些情况属于数据异常?(多选)( )
A.性别无
B.身高5米
C.年龄18
D.体重99斤
二、填空题
1.RFM模型是_________、__________、__________3个指标首字母的组合。
2.聚类算法包括五类:_________、__________、_________、___________和__________。
3.Sklearn模块包括_________、__________、_________、___________四大机器学习算法。
4.安装Sklearn模块前应首先安装_________和__________模块。
5.导入Excel文件主要使用Pandas的__________方法。
三、简答题
1.简单描述什么是RFM模型。
2.导入TB201812.xls抽取“买家会员名”。
自测题库参考答案
自测试卷1
一、选择题答案
1.A 2.C 3.A 4.C 5. D 6. B 7. A 8.C 9.A、B、C 10.B、C
二、填空题答案
1、描述性数据分析、探索性数据分析、验证性数据分析
2、人群分类,客户分类
3、明确目的、获取数据、数据处理、数据分析、验证结果、数据展示、数据应用
4、数据规约、数据清洗、数据加工
5、一元线性回归、多元线性回归
三、简答题答案
1、简单描述什么是数据分析
数据分析是数学、统计学理论结合科学的统计分析方法(例如线性回归分析、聚类分析、方差分析、时间序列分析等)对数据库中的数据、Excel数据、收集的大量数据、网页抓取等数据进行分析,从中提取有价值的信息形成结论并进行展示的过程。
2、简述数据处理的作用
数据处理是从大量的、杂乱无章、难以理解的、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。
自测试卷2
一、选择题答案
1.D 2.C 3.B 4.B 5.B、C、D 6.B 7 B 8.C 9.C 10.A
二、填空题答案
1、zeros()
2、read_sql_query()函数、read_sql_table()函数、read_sql()函数
3、条形图、折线图、散点图、饼图、箱形图、多面板图表
4、datasets
5、mplot3d
三、简答题答案
1. sklearn模块提供了多种用于数据分析测试的本都数据集,比较常用的有datasets.load_iris()、datasets.load_breast_cancer()、datasets.load_digits()、datasets.load_diabetes()、datasets.load_boston()、datasets.load_linnerud(),对应的数据名称为,尾花数据集、乳腺癌数据集、手写数字数据集、糖尿病数据集、波士顿房价数据集、体能训练数据集。
2. 在Matplotlib模块中需要使用pyplot与mplot3d这两个子模块才能实现3d图表的绘制,因为mplot3d需要通过pyplot 子模块中的figure()图形画布进行展示,所以pyplot 子模块还是需要导入的。
自测试卷3
一、选择题答案
1.D 2.A 3.C 4.D 5.B、D 6.C 7.B 8.C 9.C 10.C
二、填空题答案
1、shape、shape
2、Series、DataFrame
3、空白的画布、添加子图
4、N个正整数、元组、大小
5、一维数组、一维数组
三、简答题答案
1.NumPy模块是一个用于实现科学计算的库, NumPy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数库。
2. pandas的数据结构中有两大核心,分别是Series与DataFrame。
自测试卷4
一、选择题答案
1.D 2.D 3.C 4.A 5. B 6. D 7.D 8. B 9.D 10 .C
二、填空题答案
1、一元线性回归、多元线性回归
2、最小二乘法
3、y=bx+k
4、每年第一天为开始日期
5、AS
三、简答题答案
1.统计2018年1月1日至2018年5月1日广告费用支出情况
主要代码如下:
bb=r'.\data\JDcar.xls'
df=pd.DataFrame(pd.read_excel(bb))
df['投放日期'] = pd.to_datetime(df['投放日期'])
df1=df[['投放日期','支出']]
df1=df1.set_index('投放日期',drop=True)
df2=df1['2018-01-01':'2018-05-01']
# 按月度统计并显示广告费支出金额
dfCar_month=df2.resample('M').sum().to_period('M')
print(dfCar_month)
2.假如7月份投入7.8万元广告费,现预测7月份的销售收入。
主要代码如下:
x0=78000
y0=b+x0*k
print(y0)
自测试卷5
一、选择题答案
1.A 2.B 3.B 4.A 5. B 6. C 7 A 8. AD 9.ABCD 10.AB
二、填空题答案
1、R(最近消费时间间隔Recency)、F(消费频率Frequency)和M(消费金额Monetary)
2、划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法
3、回归、降维、分类和聚类
4、NumPy和SciPy
5、read_excel()
三、简答题答案
1.什么是RFM模型?
RFM模型是衡量客户价值和客户潜在价值的重要工具和手段,大部分运营人员都会接触到该模型。RFM模型是国际上最成熟、最为容易的客户价值分析方法,它是R(最近消费时间间隔Recency)、F(消费频率Frequency)和M(消费金额Monetary)3个指标首字母的组合。
2.导入TB201812.xls数据抽取“买家会员名”。
data = pd.read_excel('TB201812.xls', encoding = 'utf-8')
data=data[['买家会员名']]
展开阅读全文