收藏 分销(赏)

R语言在概率统计直观教学中的应用.pdf

上传人:自信****多点 文档编号:887162 上传时间:2024-04-02 格式:PDF 页数:6 大小:2.89MB
下载 相关 举报
R语言在概率统计直观教学中的应用.pdf_第1页
第1页 / 共6页
R语言在概率统计直观教学中的应用.pdf_第2页
第2页 / 共6页
R语言在概率统计直观教学中的应用.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年9 月第2 3卷第3期廊坊师范学院学报(自然科学版)Journal of Langfang Normal University(Natural Science Edition)Sep.2023Vol.23 No.3R语言在概率统计直观教学中的应用胡学平(安庆师范大学,安徽安庆2 4 6 133)【摘要】为了提高学生对概率统计中基本概念和定理的直观理解,基于R语言选取概率统计中比较抽象且难以理解的内容进行直观教学设计,转变传统教学方式。一方面,能使抽象的概念、定理生动直观,展现课程的魅力,学生易于理解并激发其学习兴趣;另一方面,利用R语言进行模拟教学,把统计软件与统计理论方法相结合,强

2、调实际应用,提高学生分析和解决实际问题的能力。【关键词】R语言;概率统计;随机模拟;直观教学Application about Visual Teaching of Probability and StatisticsBased on R LanguageHu Xueping(Anqing Normal University,Anqing 246133,China)Abstract In order to improve students intuitive understanding of the basic concepts and theorems in probability and

3、sta-tistics,some abstract and difficult to understand content in probability statistics is selected for intuitive teaching design basedon R language,which changes the traditional teaching method.On the one hand,it can make abstract concepts and theoremsvivid and intuitive,show the charm of the cours

4、e,and make students easy to understand and stimulate their interest in learn-ing;on the other hand,it uses R language to simulate teaching,combines statistical software with statistical theory and meth-ods,emphasizes practical application,and improves students ability to analyze and solve practical

5、problems.Key words R language;probability and statistics;random simulation;visual teaching【中图分类号】G642【文献标识码】A【文章编号】16 7 4-32 2 9(2 0 2 3)0 3-0 115-0 6实验和实践教学之中,突出直观教学和学生动手能力的培养,将统计知识、数学建模与计算机应用0引言概率论与数理统计是对随机现象的统计规律进行演绎和归纳的科学,是高等院校理工科专业学生的必修课程之一。但是大多数学生在学习这门课程的时候感到概念抽象、思维难以展开、问题难以入手、方法难以掌握,教学内容与实际联系

6、不紧密,缺乏对此门课的学习兴趣和动力。如何提高这门课程的教学质量和学习效果是教学过程中迫切需要解决的问题。本文根据概率论与数理统计课程广泛应用性、概念抽象的特点,结合多年的教学实践经验,把统计软件R语言融入到概率统计收稿日期 12022-10-12基金项目概率统计省级教学团队项目(2 0 2 1jxtd169);“六卓越一拔尖”应用统计学专业卓越工程师培养创新项目(2 0 2 0 z y r c 0 8 9);概率论与数理统计省级示范课程(15 0 5)作者简介】胡学平(19 7 2-),男,硕士,安庆师范大学数理学院教授,研究方向:随机极限理论与非参数统计。三者融为一体,使学生深入理解概率统

7、计的基本概念和基本理论,熟悉常用的统计软件,培养学生运用所学知识建立统计模型以及计算机解决实际问题的能力。随着大数据时代的到来,为统计学的发展带来机遇和挑战,要求对概率统计思想有更深刻的理解,具备更强的数据处理能力。R语言是语法自由、简洁易学、完全面向对象且命名自由的函数式语言。R语言的免费、开源、图形化使得其有别于SAS,盛行于高等院校和研究机构2-3。R语言涉及115.2023年9 月的领域极其广泛,从互联网到统计分析,从金融风险到数据挖掘,从生物信息到地球物理,从生物制药到数据可视化等4 。因此在概率统计教学过程中,如何利用R软件,结合案例进行直观教学,培养学生的学习兴趣,增强学生对相关

8、概念理论的直观认识和理解,提高学习效果,让学生掌握利用统计软件处理实际数据的能力,是教学中值得探究的问题5 。本文结合概率统计中一些难以理解的概念、定理与统计方法,讲解R语言在概率统计直观教学廊坊师范学院学报(自然科学版)34201483第2 3卷第3期HistogramofAHistogramofB核估计密度正态密度2255320406080100中的一些具体应用。A图2 A、B 班考试成绩的直方图1R语言在概率统计直观教学中的应用1.2在随机试验模拟中的应用1.17在描述性统计中的应用R语言提供了概率统计中丰富的描述性统计作图函数2-3。在学习描述性统计内容时,利用统计图表更能简洁直观地说

9、明问题。如比较两个班概率统计期末考试成绩,利用R中作图函数对成绩进行分析教学直观性强,分析更加细微具体。从图1的箱线图可以直观发现,A班的平均成绩稍高于B班,但A班最高分和最低分都比B班低,两个班1/4 分位点和3/4 分位点比较接近。从Q-Q图分析看,A班成绩在直线附近基本上服从正态分布,而B班成绩则可能不服从正态分布。从图2 的直方图容易发现A班成绩大体中间大两头小,正态密度曲线和核密度曲线基本接近,而B班成绩明显有尖峰现象,且两条估计曲线误差较大。通过利用R语言中作图函数的直观分析,可以深入了解学生的学习情况和教学效果。A班NormalQ-QPlot8888seagueno apdues

10、88A图1A、B 班考试成绩的箱线图和Q-Q图116.30概率论与数理统计是研究和揭示随机现象统计规律性的一门学科,是从数量上研究随机现象的统计规律性6 。历史上,有一些学者曾亲自做过掷硬币、投针等随机试验7 来验证频率的稳定性或获得对圆周率的近似值(见表1和表2)。随着计算机的发展,蒙特卡洛方法可以实现对大量随机试验的统计模拟,且广泛应用于自然科学与社会科学领域。表1投掷硬币试验投掷出现正试验者次数D.Mogen2048Buffon4040K.Pearson24000Feller10000Romanovsky80640B班NormalQ-QPlot表2 蒲丰投针试验投掷相交8-试验者。8se

11、pueno adues8:8B-2-1TheoreticalQuantiles50B出现正面次数面频率10610.518120480.5069120120.500549790.4979396990.4923圆周率T次数次数Wolf5000Smith3204Lazzerini34088-Reina课堂教学中通过R随机模拟投掷硬币试验从100次、2 0 0 次,一直到10 0 0 0 次,得到模拟结果如图3,从中可以发现,开始波动较大,但随着试验次数1270的近似值25323.159612183.155418083.14152520859-2-11TheoreticalQuantiles903.1

12、795的增多,出现正面的频率在0.5 的上下波动,让学生从直观上感受到频率的稳定性。第2 3卷第3期关于蒲丰投针试验在许多概率论教材6-7 上都有介绍。通过对该试验的模拟可计算圆周率的近似值,其中几为投针次数,为针与平行dm线相交次数,l为针的长度,d为平行线之间的距离。针对这一试验教学中选取d=2,l=1.5和d=10,l=2两种情形分别模拟10 0 0 0 次、2 0 0 0 0 次,一直到2 0 万次,得到两种情形的近似值如图4,发现随着试验次数的增加,其近似值在的附近波动,且d=2,l=1.5近似效果比d=10,l=2好,估计误差较小。8胡学平:R语言在概率统计直观教学中的应用(ap)

13、K!-,=0,1,近似效果较好,误差e限控制在0.0 0 5 之内,而(c)图则表明,当n充分大而p接近于1时,由b(k;n,p)=b(n-k;n,1-p),从而b(k;n,p)n(l-p)-,(n-)!e-近似效果较好,图(d)表明当n较大,但p居中时,估计效果不理想,误差明显偏大。投挪硬币试验B(10,0.2)2023年9 月两个。由泊松定理,从图6 中(a)(b)可以发现,当n充分大而p很小,np适中(0.1 np 0,有limP(2x-a.|0,当n充分大时,都有X.-a.0,存在m=2000,n=500,p=0.2三种情况进行模拟获得其2X-a.1-m;直方图如图8,从(a)图中可以

14、发现,当p和N(e,n),当nN时,有 Pn=即当n充分大时,事件Zx,-a.的概率接ni=1近于1,为一个实际上的必然事件。关于随机模拟大数定律已有一些教学研究8-10 。本文为了让学生从直观上理解大数定律,通过R语言模拟了泊松大数定律加以说明。其他大数定律学生课后可以类似模拟,以加强R语言的实际操作和应用能力。设(X)为一列相互独立的随机变量,且X,b(l,pn),P,=(0,1),取样本容量n=5000,P,为来自均匀分布U(0,1)的5 0 0 0 个随机数,模拟结果如图7。从图7(a)可以发现当样本量较小时,样本均值(X)曲线与期望平均(p)曲线波动较大,随着样本量的增加,两曲线逐渐

15、融合趋于稳定。从图7(b)可以看出:随着样本量的增加,误差曲线基本控制在图中两条虚线之内,即X,-p,s,(s=0.01)几乎为必然事件,从而 P(IX,-,|3,估计效果明显改进,从(c)图可以直观发现,当p适中且/np(l1-p)3时,随着模拟次数增加估计效果显著提高,且核密度曲线与正态密度曲线基本吻合。对于连续型分布类似模拟也可直观发现类似结果。m=10,n=100,p=0.02m=100,n=500 p=0.0288832-1232-1误差232误差限(a)图8 二项分布独立和的直方图1.6在经验分布函数模拟中的应用在数理统计中总体X的分布函数F(s)通常都是未知的,常用其经验分布函数

16、F,()来估计其理论分布函数F()。根据贝努利大数定律有01002000300040005000n=5000,epsilon=0.01(b)误差变化趋势图第2 3卷第3期m=200,n=500,p=0.28(b)F,(a)一F(a),(n),且进一步有 F,(a)依概率 1 一致收敛于F(s)。在教学过程中学生很难理解,特别是当总体X为连续型分布时,而其经验分布函数为阶梯型函数。为此在教学中通过正态分布模拟来加以直观教学说明,分别随机生成5 0 个和10 0 0 个标准正态随机数,根据它们可得其相应经验分布函(c)第2 3 卷第3 期数(图9),从中可以发现随着随机点数的增加,两分布曲线几乎重

17、合在一起,让学生直观感受和接受估计的合理性。轻验分布正态分布8(uO(a)经验分布函数,m=50图9 经验分布函数正态模拟1.7在回归分析直观教学中的应用回归分析是统计学中一种分析数据的非常重要的方法,其目的在于了解两个或多个变量之间是否相关、相关的方向和强弱,并建立数学模型来进行预测与控制。在进行线性回归学习过程中,首先要建立数据的散点图,根据散点图大致判别是否存在线性相关性,否则会建立不合理或错误的数学模型。Anscombe于1 9 7 3 年构造了四组完全不同的数据 2 ,得到了各自的回归方程,且通过了t检验,其线性关系非常显著,四组数据得到的回归系数的估计值、标准差、t值、P值、R和调

18、整R几乎一致,具体数据见表3。但通过R语言做出各自散点图和回归直线如图10,很容易发现第一组数据适应于线性回归模型,第二组和第四组拟合线性回归模型不合理,第三组可能有异常点,作回归时要进行分析处理。这就要求在作回归分析时,首先要结合散点图进行直观判断,不能盲目根据统计检验结果来做判断。5Anscombe32:8064胡学平:R语言在概率统计直观教学中的应用8(Xu2-12023年9 月线性回归中对回归系数的估计方法较多,当满足Gauss-Markov条件且随机误差服从正态分布时,利用最小二乘估计获得回归系数的估计量是其最好线性无偏估计(BLUE)。由于最小二乘估计是为了达到最小化残差平方和的目

19、的,从而异常值对参数估计非常敏感,且当随机误差不服从正态分布,稳健回归估计要比最小二乘估计效果要好得多 2 。为了直观说明这些问题,选取A、B 两组数据作回归分析,B组数据是把A组第六个数据横坐标进行修改使得变为异常值,其他数据不变而得。对A组数234(b)经验分布函数,m=1000Anscombe1286425210151015图1 0 Anscombe数据散点图与回归直线据利用最小二乘法估计回归系数,对B组数据分别利用R语言中最小二乘估计lm函数、稳健估计rlm()函数,选取M估计法和MM估计法、抗干扰回归lqs()函数,选取LQS估计法、LMS估计法和S估计法进行分析说明,画出它们的散点

20、图和各自回归直线如图1 1,回归系数具体结果见表4。从图1 1 可以发现B组第六个数据远离数据群体,对B组数据采用最小二乘估计得到的回归直线(图1 1 中LSEE)与对A组数据进行最小二乘估计得到的回归直线(图1 1 中LSE)相差较大,可见异常值对最小二乘估计的影响较大。为了克服这种现象,一种方法是排除异常点,对剩下数据作最小二乘估计,另一种方法是寻找其他估计方法,如最小一乘估计、M估计法等。从表4 发现对B组数据采用六种回归估计法所得结果中LMS估计和MM估计法所得回归系数与LSE估计的结果比较接近,从图1 1 也可直观看出这三条回归直线基本重合。让学生直观地认识到回归分析中各种估计的稳健

21、性,从而在做数据分析和处理实际问题时,合理选择估计的统计方法。Anscombe22864645Anscombe4510101515119.2023年9 月数据系数截距1X截距2X截距3X截距4X数据集ABBBBBB8LSEP6LSEEMMMLQSLMSS1012图1 1回归的稳健性分析2结语概率统计是高校理工科学生必修的专业课程,在传统教学过程中普遍存在的问题是重理论、轻应用;重运算技巧、轻统计思想;重逻辑推理、轻直观教学。这使学生学完该课程后,只会考试,不会解决实际应用问题,偏离了学以致用的教学理念,因而变革传统的教学模式是教学改革的重要研究内容之一 。在大数据时代的背景下,统计软件这门课程

22、对统计学人才的培养起到非常重要的作用。本文在实践教学经验总结的基础上,利用图形化的R软件选取概率统计中难以理解的一些概念和定理,通过统计模拟进行直观教学,改变传统的教学120廊坊师范学院学报(自然科学版)表3 Anscombe数据分析表估计值标准误3.00011.12470.50010.11793.00101.12500.50000.11803.00751.12440.49940.11793.00171.12390.49990.1178表4 各种估计的回归系数估计方法截距LSE18.6746LSEE4.7946M15.1207MM18.3993LQS17.3559LMS18.5722S17.5

23、333.61416第2 3 卷第3 期t-valuep-value2.6670.025734.2410.002172.6670.025764.2390.002182.6750.025424.2370.002182.6710.025594.2430.00216标准误回归系数0.9847-0.89401.6480-0.13960.5830-0.70280.4670-0.8798-0.8235-0.8889-0.8333方式,既展现概率统计内容的魅力,又培养学生分析和处理问题的能力,使学生逐步适应当今大数据时代统计学的发展和社会需求。参考文献1孟生旺,袁卫.大数据时代的统计教育 J.统计研究,201

24、5(4):21-24.2薛毅,陈立萍.R统计建模与R软件 M.北京:清华大学出版社,2 0 0 7.3】汤银才.R语言与统计分析 M.北京:高等教育出版社,1820R20.66650.66620.66600.66672008.4李顺勇,张晓琴,史峻平.威廉玛丽学院生物数学课程的特点及其启示 J.高等理科教育,2 0 1 6(3):7 5-7 8.5徐付霞,李亚威.基于统计软件R的数理统计实验教学案例 J.高等数学研究,2 0 1 8(1):6 1-6 4.6何书元.概率引论 M.北京:高等教育出版社,2 0 1 1.7盛骤,谢式千.概率论与数理统计 M.北京:高等教育出版社,2 0 1 5.8李晶晶,魏立力.基于随机模拟的大数定律教学研究 J.高师理科学刊,2 0 1 9,3 0(8):7 4-7 8.9邱志平.大数定律教学设计探究 J.教育教学论坛,2 0 1 6(3):153-155.10】林小萍,吴文杰.用MATLAB模拟大数定律和中心极限定理 J.汕头大学学报(自然科学版),2 0 0 5,2 0(2):12-18.11高珊.混合式教学模式在概率论与统计课程中的应用探究 J.廊坊师范学院学报(自然科学版),2 0 2 0,20(3):101-103.调整R?0.62950.62920.62890.6297标准误0.05370.09140.03230.0259

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服