1、站名: 年级专业: 姓名: 学号: 凡年级专业、姓名、学号错写、漏写或字迹不清者,成绩按零分记。 …………………………密………………………………封………………………………线………………………… 广西理工职业技术学院 《大数据分析的数学基础》2023-2024学年第一学期期末试卷 题号 一 二 三 四 总分 得分 批阅人 一、单选题(本大题共20个小题,每小题2分,共40分.在每小题给出的
2、四个选项中,只有一项是符合题目要求的.) 1、对于一个不平衡的数据集(即不同类别的样本数量差异较大),在建模时应该注意什么?( ) A. 采用合适的采样方法 B. 选择对不平衡数据不敏感的算法 C. 评估指标的选择 D. 以上都是 2、某研究收集了多个城市的气温和湿度数据,若要分析气温和湿度之间的线性关系是否在不同城市存在差异,应采用以下哪种方法?( ) A. 分层回归 B. 交互效应分析 C. 分组回归 D. 以上都可以 3、对某商场的销售额进行统计,1 月销售额为 10 万元,2 月销售额为 12 万元,3 月销售额为 15 万元。若采用指数平滑法进行预测,平滑系数
3、为 0.3,预测 4 月销售额约为( ) A. 13.1 万元 B. 13.5 万元 C. 13.9 万元 D. 14.3 万元 4、在对一家超市的销售额进行预测时,收集了过去 5 年每个月的销售额数据。如果采用季节指数法,需要首先计算每个月的季节指数。已知 1 月份的平均销售额为 10 万元,总平均销售额为 8 万元,那么 1 月份的季节指数约为多少?( ) A. 1.25 B. 0.8 C. 1.5 D. 0.67 5、在对时间序列进行预测时,如果数据呈现出明显的线性趋势,适合使用的预测方法是( ) A. 移动平均法 B. 指数平滑法 C. 线性回归法 D. 季节指数法
4、 6、某地区的房价近年来持续上涨,为了研究房价与房屋面积、地理位置等因素的关系。收集了 500 套房屋的相关数据,若要建立房价的预测模型,以下哪种统计方法最为合适?( ) A. 线性回归 B. 逻辑回归 C. 聚类分析 D. 判别分析 7、在一个多元回归模型中,如果某个自变量的系数在统计上不显著,这意味着什么?( ) A. 该自变量对因变量没有影响 B. 该自变量对因变量的影响不明显 C. 模型存在多重共线性 D. 样本量太小 8、某研究人员想了解某种药物在不同剂量下的疗效差异,同时考虑患者的年龄和性别因素。应采用哪种统计设计?( ) A. 完全随机设计 B. 随
5、机区组设计 C. 析因设计 D. 拉丁方设计 9、在一项市场调查中,要了解消费者对不同品牌的偏好程度,收集的数据是顺序数据。应选用哪种统计量来描述数据的集中趋势?( ) A. 均值 B. 中位数 C. 众数 D. 以上都可以 10、在进行方差分析时,如果发现组间差异显著,接下来通常会进行什么操作?( ) A. 多重比较 B. 相关分析 C. 回归分析 D. 以上都不是 11、某班级进行了一次数学考试,全班 50 人的平均成绩为 80 分,标准差为 10 分。若将成绩转换为标准正态分布,那么成绩在 70 分到 90 分之间的学生大约占比多少?( ) A.
6、68% B. 75% C. 81.5% D. 95% 12、对于一个包含多个分类变量的数据集,想要了解不同分类变量之间的相关性,应该使用哪种统计方法?( ) A. 卡方检验 B. 相关系数 C. 方差分析 D. 以上都不是 13、已知一组数据的均值为 50 ,标准差为 10 。现将每个数据都加上 10 ,则新数据的均值和标准差分别为( ) A. 60 , 10 B. 60 , 20 C. 50 , 10 D. 50 , 20 14、在构建统计模型时,如果存在多重共线性问题,会对模型产生以下哪种影响?( ) A. 系数估计不准确 B. 方差增大 C. 模型不稳定 D
7、 以上都是 15、某研究人员想要比较三种不同教学方法对学生成绩的影响,每个学生只接受一种教学方法。在分析数据时,以下哪种方法更合适?( ) A. 单因素方差分析 B. 双因素方差分析 C. 多因素方差分析 D. 以上都不是 16、已知两个变量 X 和 Y 之间存在线性关系,通过样本数据计算得到回归方程为 Y = 2X + 1。若 X 的值增加 2,那么 Y 的估计值会增加多少?( ) A. 2 B. 4 C. 5 D. 无法确定 17、在一次对大学生消费习惯的调查中,随机抽取了 300 名学生。发现每月生活费在 1000 元以下的有 50 人,1000 - 200
8、0 元的有 180 人,2000 元以上的有 70 人。如果要以 95%的置信水平估计全校学生每月生活费的均值,应该采用哪种抽样分布?( ) A. 正态分布 B. t 分布 C. 卡方分布 D. F 分布 18、在一项关于某种药物疗效的临床试验中,将患者随机分为实验组和对照组。实验组采用新药物治疗,对照组采用传统药物治疗。经过一段时间后,比较两组患者的康复情况。这种研究方法属于?( ) A. 完全随机设计 B. 随机区组设计 C. 配对设计 D. 析因设计 19、对某城市的交通流量进行监测,连续记录了 30 天的数据。发现每天的平均车流量服从正态分布,均值为 5000 辆
9、标准差为 800 辆。若要以 90%的置信区间估计该城市的日平均车流量,其区间宽度大约是多少?( ) A. 300 辆 B. 400 辆 C. 500 辆 D. 600 辆 20、在进行聚类分析时,常用的距离度量方法有欧氏距离和曼哈顿距离等。它们的主要区别在于?( ) A. 计算方式不同 B. 对数据的敏感度不同 C. 适用场景不同 D. 以上都是 二、简答题(本大题共3个小题,共15分) 1、(本题5分)详细阐述如何运用统计方法进行数据的预处理,包括数据清洗、异常值处理和数据标准化等? 2、(本题5分)对于一个大型数据集,如何进行数据清洗和预处理
10、以确保数据的准确性和完整性?讨论常见的数据质量问题和解决方法。 3、(本题5分)请详细说明如何使用判别分析来对样本进行分类,解释判别函数的构建和评估方法,并举例应用。 三、案例分析题(本大题共5个小题,共25分) 1、(本题5分)某直播带货平台统计了不同主播的带货数据、商品品类销售情况和用户消费行为等,分析应怎样利用统计方法提升平台的商业价值和用户粘性。 2、(本题5分)某智能家居企业统计了不同产品的销售趋势、用户使用习惯和技术更新需求等,分析怎样运用这些数据进行产品研发和市场拓展。 3、
11、本题5分)某电信运营商为了解用户的流量使用习惯与套餐选择之间的关系,对 800 名用户进行了调查分析。设计更合理的套餐方案。 4、(本题5分)某电商平台想了解不同年龄段消费者的购买行为和消费金额差异。收集了大量数据,包括年龄、购买品类、消费金额等,如何进行数据分析并得出有效结论? 5、(本题5分)某互联网金融平台对用户的投资行为和风险偏好数据进行分析,包括投资金额、投资期限、风险承受能力等。请提供个性化的投资建议。 四、计算题(本大题共2个小题,共20分) 1、(本题10分)某商场对顾客的购物金额进行统计,随机抽取了 120 位顾客的购物记录。样本平均购物金额为 200 元,标准差为 40 元。假设购物金额服从正态分布,求该商场顾客平均购物金额的 90%置信区间。 2、(本题10分)对某品牌的一种电子产品进行质量检测,随机抽取了 50 件产品,发现有 5 件不合格。求该品牌电子产品的不合格率,并构建 95%置信区间。 第3页,共3页






