资源描述
R 软件在概率统计教学中的应用羊关彦辉(中叮大学数学与计算科学学院,广州5 1 0 2 7 5)摘要:尝试在概率统计)课程教学应用R 软件,一方面力豢兼顾基础理论、基础知识的系统性、完整性与应用的广泛、多样性;另一方面在教学形式上力求灵活多样,充分利用R 软件以及多媒体教学工具,增强学生的兴趣和爱好提高学习积极性。达到掌握处理随机现象的基本思想和方法的同时。运用概率统计方法以及统计分析软件。解决实际问题。关键词:概率;统计;R1概率统计课程 q I I o 珊(o 0 2 5)【l 卜1 9 5 9 9“q I l o 珊(o 9 7 5)-一【l】1 9 5 9 9“对于同_ 个检验的单侧临界值根据备择假设的形式使用q n o 砷(o 0 5)或1 一q f I o 珊(0 9 5)。例2t 分布的双侧D 值 2+p t(-2 5,d f=l2)3 2 统计函数对于数据分析而言无疑要用到各种统计量。例如关于数据的描述性分析,考虑如下几点:(1)集中趋势与离中趋势;(2)数据中心位置的测度种类;计算平均数:算术平均数、调和平均数、几何平均数:位置平均数:中位数、众数、分位数。(3)变异性的测度:全距、平均差、方差、标准差、变异系数:(4)相对位置的测度:Z 分数、切贝雪夫定理、经验法则。于是就要用到R 中提供的大量的统计函数。3 3 统计作图图形工具是R 环境里面一个非常重要和多用途的组成部分。可以用这些图形工具显示各种各样的统8 8计图并且创建一些全新的图。绘图命令可以分成了3个基本的类:高级绘图命令在图形设备上产生一个新的图区它可能包括坐标轴、标签、标题,等等;低级画图命令会在一个已经存在的图上加上更多的图形元素例如额外的点、线和标签;交互式图形命令允许你交互式地用定点设备(例如鼠标)在一个已经存在的图上添加图形信息或者提取图形信息。表2R 软件中的常用统计函数s u-(x)对x 中的元素求和D r o d(x)对x I 的,L 素求连乘积a x(x)x 中凡素的最J、值-i n(x)x I|n 寨的最小值,-h i c h a x(x)返叫x 巾最人元素的下标-h i c h-i n(x)返叫z 巾最小元素的下标r a f 培e(x)与c“i n(x)-a x(对)作用相同l e 饱t h(x)x 中兀紊的数日e m(x)x 中n 索的均值e d i a n(x)x 中元素的中何数x 巾元素的的方差:如果x 是一个矩阵或者一个数据框,将计算协方差v B r(x)o rc o y(z)阵c o r(x),如粜x 是。个矩陪或者一个数据框。则计算相关系数矩阵(如果x 是一个向帚则结粜足1)x 和y 的协方差,如粜是矩阡或数据v a r(x,y)o rc o v(x,y)框,则计算x 和y 对应列的协方差x 和v 的线性桐关系数,如果是砸阵c o r(x,y)或者数据框。则计算相关系数矩阵高级图形显示函数是用来产生输入数据的完整图片。其中适当的坐标轴、标签和标题会自动产生。高级图形显示命令会开始一个新的图区必要时会清空当前的图区。例3 一个简单的1 0 0 对随机值的二维图形的例子。这些值用以下命令生成:x y p 1 0 t(x,y)3 4 统计分析所有的R 函数和数据集是保存在包(P a c k a g e s)里面的。只有当一个包被载入时,它的内容才可以被访问。完整的列表会耗去大量的内存并且增加搜索的时间同时开发者防止命名和其他代码中的名字冲突。标准包构成R 原代码的一个重要部分包括允许R工作的基本函数和本文档中描述的数据集标准统计和图形工具。更多的包可以从C R A N(I l t t p:,C R A N R-p m j e c t o 叫和它的镜像)下载。万方数据表3R 软件中的高级绘图函教猢p l o t(I)以I 的元素值为纵坐标、以序号为横坐标绘图p l o t(z,y)I(在x 轴f:)与y(在y 一轴上)的元作圈同上但是以相似坐标的点作为花朵其花瓣s m f l o-e r p l o t(I y)数目为点的个数D i e(z)饼图b 1 0 t(x)盘形图把x 的值厕在一条线段上,样本量较小时可作s 廿i p c h a r t(I)为盒形阁的替代关于z 的每个数值(或数值区间)绘制i 与y 的c 印1 0 t(z yl z)二元圈如果f l 和f 2 是因子,作y 的均值图,以f l 的不同值作为z 轴,而f 2 的不同值对应不同曲线;可以i I I t e r t i p l o t(f 1,挖一用选项f I Ir 指定y 的其他的统计量(缺省计算均值f u n 铀咀n)二元图,其中x 的第一列对戌y 的第一列,I 的第_ 砒p l o t(五y)二列对应y 的第一二列依次类推。d o t c h a r t(x)如果x 是数据 仨,作c l e v e l a n d 点图用四个四分之圆显示2 x 2 列联表情况(I 必须f m r f o l 却l o t(1 是d i m=c(Z2,k)的数组,或者是d i 旷c(2 2)的矩阵,如舶:1)c o h e n P r e n d l y 罔,显示在二维列联表中行、a 整对c p l o t(I)列变量偏离独立性的程度m a i c p l o t(x)列联袁的埘数线性【l 归残差的马赛克圈如果x 是矩阵或是数据框作x 的各列之间的二p a i r s(x)元图如果I 是类。t s 的对象作x 的时间序列曲p】o t t 暑(x)线,z 可以是多元的,但是序列必须有相同的频率和时日】同上但如果x 是多元的,序列可有不同的时间t i p l o t(I)但须有相同的频率h i s t(x)x 的额牢直力图b a r D l o t(x)x 的债的条形图q q n o r m(t)正态分位效一分付数罔q 事l o t(x y)y 对x 的分位数一分位敛圈等商线图(面曲线时用内插补充空白的值),z和y 必须为向量z 必须为矩阵使得c t o u r(I,z)d i m(z):(1 e n I t h(x),l 螂t h(y)(x 和,可以省略)同上,等高线之问的区域是彩色的,并且绘制f i l l e d c o n t o u r(I y,z)彩色对应的值的图例i 崛g e(I,y,z)同上但是实白数据大小用不同色彩表示p 盯s p(x,y,z)同上,仉为透视图s t a r s(z)如果x 足婚阵或者数据幄。用星形和缝段画出在由x 和y 给定坐杯|l 丑I 符号(四。正方形长方S,曲o l 曩(1 y)形星温度计式或翕形图),符号的类型、大小、颜色等由另外的变量指定t e r m p l o t(d o b J)回归模型(啪d o b j)的(偏)影响图例4 为了了解每周三次的无人监督的减肥训练效果在性别中的差别分别抽取了1 3 个和1 0 个参加训练的男子与女子。一年后测量了他们的身体脂肪含量如下:男子组:1 3 31 92 081 82 22 03 l 2 l 1 21 61 22 4女子组:2 22 61 61 22 1 72 3 1 22 l2 83 02 3问:男子与女子的减肥效果是否有差别?(1)盒状图(B 唧l o t)为这两组数据提供了简单的图形比较。A t t 明t(A,B)W e k h T w oS a m p l e t-呦td 出:A 明dBt=一1 7 3 3 6,d f=2 0 5 3 9,p-v a l u e=O 0 9 7 9 8a l t e m 砒i v eh y p 口t l l e 8 i 8:仃I 惦d i 矗b 砖n c ei nm e 删i 8n o te q I l a l 幻O9 5p e m e n tc 帅f i d e 眦ei 呻哪a l:_ 9 0 5 3 8 7 7 4O 8 2 7 7 2 3 5舶I p l e 枷I I 嵋t:m 嘲o f x m e 舳o f y1 8 1 7 6 9 22 2 2 0 0 0结果表明在正态前提下。两者的差异无统计学意义。现代计算枫尊第三一:期v 万方数据例5 用R 自带数据集“I m e c t S p m y 8”研究响应变量c o 蚰t(昆虫的个数)关于叩r a y(杀虫剂种类)的简单方差分析。首先对数据进行平方根转换,然后再进行分析:d a t a(I n s e c t s p r a y 8)r e g c 饿诹南g)(I n t e m e p t)s p m y B叩m y C8 p r a y D叩r a y Es p m y F3 7 6 0 6 7 8 4O 1 1 5 9 5 3 0一2 5 1 5 8 2 1 71 5 9 6 3 2 4 5一1 9 5 1 2 1 7 4O 2 5 7 9 3 8 8 8 u m m 舢f y DD fs u mS qM 啪s qFv a l P r(n8 p 随y5髓4 3 81 7 6 8 7 64 4 7 9 92 2 e 1 6 R e B i d u a l s 酌2 6 0 5 80 3 9 4 8S i 印迁c o d:0+O l O o l+O 0 5 0 1上述方差分析也可通过回归实现:r e g s 叫删皿锄y g)C a U:l m(f o 嘲u l a=s q I n(c o u l l t)一叩r a y,协=l n c t s p 飓y s)R 髓i d 啪1 1 8:M i nl QM e d i 蜘3 QM 弧一1 2 4 4 8 6 _ o 3 9 9 7 0 旬0 1 9 0 2O 4 2 6 6 l1 枷8 9C 湖i c i e n 协:E s t i m a t es t d E 肿r tv 8 J u eP 呤I t I)(h l t e r c e p t)3 7 6 c r 7O 1 8 1 42 0 7 3 3 2 e 1 6+。s p m y B8 p r a y c8 p m y D8 p 哪E8 p m y F0 1 1 6 0一2 5 1 5 8一1 5 9 6 3一1 9 5 1 2O 2 5 7 90 2 5 6 5O 2 5 6 5O。2 5 6 5O 2 5 6 5O 2 5 6 50 4 5 20 6 5 39 8 0 71 6 4 e 1 4 -6 2 2 33 8 0 e _ 0 8 一7 6 0 61 3 4 e l O 1 0 0 60 3 1 8表4R 软件中回归分析的返回值p r i n t返同简单的”:总信息S U a r V返同较为详细的汇总信息d r e s i d u a l返回残差的自由度返回被估计的系数(有时还包括c o e f它们的标准差)r e s i d u a l 8返回残差d e r i a n c e返回方差f“t e d返同拟台值计算对数似然值和返回参数数1 锯L i k目计算A k a i k e 信息准则(A k a i k e l ci n f o r a t i o nc r i t e r i o n A I c)(依赖于l o g L i k()参考文献【l】RD e v e l o p m n tC 哦T e 锄R:Al 柚g u a g e 粕dE n v 岫啪e mf o rS 州s t i c a lC o m p 嘶n r R 商啪n c eI l l d e x),2 0 0 8【2】W N V e n a b l 黯,D M S n l i t l l 明dt h eRD 凹e l o p m e mC o 坤T e 锄。A nI I I h D d u c 由nt o 凡2 0 0 9【3】E e l d i s Rf o rB 蟛衄e r s 2 0 0 5(中译本,2 2 1,2 0 0 6 1【4 mC 啪p 砒e 玛i v eRA 尬h i v eN e t w o r k h t t p:,c 姗r-p 舻j e c t o 叫【5】h t I p:,m 砒8 y 鲫e d u c I l,A p p l i C a t i O nO fRS O f t w a r ei nP r O b a b I I i t y&S t a t i S t i C ST e a C h i n gG U A NY a n h u i(s c h lo fM g t l l e m a t i c s8 n dc o m p u t“o r l a ls c i e 眦,S U NY 砒一s e nU I I i v e 坞i t y,G u a n 耐m u5 1 0 2 7 5)A b s t 限c t:W e 仃yRf o r 印p l i c a t i o n8 k i l l 8i nt l I eP r o b a b i l i t y S t a t i s t i c 8,1 1 l e r e f j 陀t ob a l a 眦et l 圮i n t e g r a t i o no fb 船i ck n o w l e d g e 蚰dt l l ed i v e 璐时o f 印p l i c 撕o n I I Io r d e rt os t r e n g 山e ns t I l d e n t 8 7i n t e 陀咖鲫di m p r o v et l e i rl e a r I l i n gp 0 8 i t i“t y,t l l et e a c h i n g8 t)r l ew i l lb ed i v e 啪,删山i I l gm Uu 靶o fs B t i c 8,t e a c h i I l g f h a r ea n do t l I e rm u l t i m e d i at e a c h i n gt 1 8 K l,y、n d s:P I o b a b i h t y;S t 8 t i 8 t i c 8;R9 0曩玩毋h丌t畀佃仉凸口昂一二-一一研v 万方数据R软件在概率统计教学中的应用R软件在概率统计教学中的应用作者:关彦辉,GUAN Yan-hui作者单位:中山大学数学与计算科学学院,广州,510275刊名:现代计算机(专业版)英文刊名:MODERN COMPUTER年,卷(期):2009(12)参考文献(5条)参考文献(5条)1.查看详情2.The Comprehersive R Archive Network3.Emmanuel Paradis R for Beginners 20054.W N Venables;D M Smith;the R Development Core Team An Introduction to R 20095.R Development Core Team R:A language and Environment for Statistical Computing-Reference Index)2008 本文链接:
展开阅读全文