1、四川师范大学经济与管理学院统计分析实训报告册课程名称 统计分析软件应用实训 专 业 国际经济与贸易 班 级 2015级4班 学生姓名 杨 冬 梅 学 号 2015120429 指导老师 张 谦 实训一一、实训目的利用Excel掌握建立数据文件、数据整理、数据描述与显示等操作.能计算各种平均指标、离散指标,会应用基本统计函数,会使用Excel描述统计工具进行统计分析.二、实训内容、步骤、结果分析(一)基本函数使用1. 实训内容(1) 计算个人平均成绩,按平均分从大到小进行排序,挑选出学习成绩最好、最差的3个同学;(2) 求这3门课的平均分和标准差、最大值、最小值、峰度、偏度;表1 某班学生期末成
2、绩单学号性别数学语文外语学号性别数学语文外语0301女8886720311男5665720302男7588900312男8278880303男8076630313女7276630304男7592780314男7880860305女6570580315男8077660306女7250800316女6578810307女9188950317男9876800308男6876810318男6077660309女7277790319女7067680310女9588960320男8278752. 实训步骤(1) 先使用AVERAGE函数,计算出学号为301的平均分,然后使用填充柄计算出其他同学的平均分。选
3、中A1:F21,选择自定义排序,按“平均分”降序排序,再突出显示单元格,分别筛选出排名最靠前和靠后的三名同学,用红色字体突出显示成绩最好的三位同学,用蓝色字体显示成绩最差的三名同学。(2) 用AVERAGE函数计算出全班数学、语文、外语的平均数;用STDEV函数计算出全班数学、语文、外语的标准差;用MAX函数计算出全班数学、语文、外语的最大值;用MIN函数计算出全班数学、语文、外语的最小值;用KURT函数计算出全班数学、语文、外语的峰度系数;用SKEW函数计算出全班数学、语文、外语的偏度系数.3. 实验结果分析(1) 计算出全班每位同学的平均分,降序排序后,筛选出成绩最好的三名同学为310,3
4、07,317;成绩最差的三名同学306,305,311。(2) 用AVERAGE函数计算出全班数学、语文、外语平均分分别为76.2,77。15,76.85;用STDEV函数计算出全班数学、语文、外语标准差分别为11.16667976,9。477258098;10。8592672;用MAX函数计算出全班数学、语文、外语最大值分别为98,92,96;用MAN函数计算出全班数学、语文、外语最小值分别为56,50,58;用KURT函数计算出全班数学、语文、外语峰度系数分别为-0.312074338,2。503166848,-0。780748813,分别为平峰、尖峰、平峰分布; 用SKEW函数计算出全班
5、数学、语文、外语偏度系数分别为0。255195107,-1。057909963,0.098244068,分别为右偏、左偏、右偏分布。(二)计算各种平均指标1. 实训内容(1) (算术平均数)中国股市中的10种股票在2014年9月1日收盘价如表,求该10种股票价格当日的平均价格。股票代码证券名称价格股票代码证券名称价格600519贵州茅台165.21300002神州泰岳124002310东方园林116。5002304洋河股份110300026红日药业100.89002294信立泰94。5600547山东黄金79。02600150中国船舶76.8300024机器人76。38300011鼎汉技术73
6、(2) (加权平均数)某公司员工工资情况如下表,计算平均工资。按工资分组频数组中值xxf1600以下41600-17006170018001218001900151900-20003合计40(3) (调和平均数)成都某小区菜市芹菜的价格,早上3.8元/kg,中午3。5元/kg,晚上2。9元/kg。如果早、中、晚各买1KG,求平均价格。(4) (几何平均数)孙女士到中国银行存入一笔资金,按复利计算,10年的年利率分别是2.88有3年,2。79有2年,3.6有2年,5%有3年.计算其平均存款利率。(5) (中位数、众数)根据上面(1)的股票价格求中位数。根据上面(2)员工工资表计算众数。2. 实训
7、步骤(1) 在EXCEL中依次输入当天十只股票的价格,用AVERAGE函数计算当天十支股票平均价格。(2) 输入各组组中值,计算出各组xf值和合计xf值,再用合计xf值除以权数40,得到加权平均数,即该公司的平均工资.(3) 用HARMEAN函数计算出调和平均数。(4) 在EXCEL中输入十年的年利率,用GEOMEAN函数计算出十年的几何平均数利率。(5) 先排序,再用MEDIAN函数计算出当日十支股票的中位数。筛选工资频数的最大值,用黄色填充该单元格,则该频数对应的工资水平计算为众数。3. 实训结果分析(1) 计算出当天十支股票平均价格结果为101.63。(2) 计算出该公司的平均工资为17
8、67.50。(3) 计算出调和平均数结果为3.36。(4) 计算出十年的平均利率为3.53(5) 计算出中位数为97。695,计算出众数为1850。(三)计算各种离散指标1. 实训内容(1) (极差)景经理在2013年度工资收入分别是5280、6421、7345、4888、7243、6896、5889、7124、7586、9200、7854、8455,计算其工资收入的极差.(2) (标准差和方差)根据(二)(2)题的员工工资表计算员工工资收入的方差和标准差。(3) (离散系数)根据(二)(2)题的员工工资表计算员工工资收入的离散系数.2. 实训步骤(1) 在EXCEL表格中输入2013年度每个
9、月的工资,用MAX(B1:B12)MIN(B1:B12)函数,得到其工资极差。(2) 先计算出所有工资的加权平均数平均数,在组中值后一列,计算出“=B20*(C20-$C25)2”的值,即每个分组与均值的的加权离差平方和,然后在D25单元格用SUM函数求和D20:D24的值,即所有分组的加权离差平方和之和,在D26单元格计算“=D25/(B251)”的值,得到方差,在D27单元格用SQRT函数计算出标准差。(3) 先计算出工资的加权平均数,再用STDEV函数计算出标准差,再用标准差除以加权平均数,得到离散系数.3. 实训结果分析(1) 如图,得到其工资极差为4312元,这说明其月收入差距较大。
10、(2) 计算得到员工工资的方差为12250,标准差为110。67972。(3) 计算得到工资的离散系数为0。0626194,说明员工工资分布较集中。(四)利用描述统计工具进行指标分析(1) 实训内容现有300名员工,从中随机抽取30名员工的工资进行统计,具体资料为3569、3107、3013、2187、1848、1689、1368、1342、1256、1133、1157、1082、1088、2874、2310、1762、3172、1939、1851、1480、1424、1354、1700、1097、2003、3133、3176、1459、1097、1396,使用描述统计工具对工资进行统计.(2
11、) 实训步骤在EXCEL表中输入数据,选择数据分析中的描述统计,选择计算区域为A1:A30单元格,选中汇总统计和平均数置信度,点击确定,得到描述统计的结果。(3) 实训结果分析如图所示,得到描述统计结果:平均数为1902。2;标准误差为141.7646;中位数为1694。5;众数为1097;标准差为776.4767;方差为602916;峰度为0.6732,即平峰分布;偏度为0。832503,即右偏分布;最小值为1082,最大值为3569;区域为2487,即极差为2487;工资总和为57066;由平均数和置信度可计算得到,在95%的置信度度水平下的区间估计为2192。14-1612.26.三、实
12、训总结1. 我通过利用Excel掌握了建立数据文件、数据整理、数据描述与显示等操作.能熟练计算各种平均指标、离散指标,会应用基本统计函数,会使用Excel描述统计工具进行统计分析。2. 我学会了利用众数、中位数、分位数、均值、几何平均数等来测度数据的集中趋势,利用极差、方差、标准差、离散系数.偏度和峰度系数等来测度数据的离散程度,进而更好的把握和分析数据。实训二一、实训目的掌握用Excel进行统计分组.掌握频数分布表和直方图数据分析基本技巧和操作方法。利用统计图表工具进行数据直观分析。掌握Excel柱形图、条形图、折线图、饼图、散点图、面积图、环形图等各种图形工具的使用方法和统计作用。二、实训
13、内容、步骤及结果分析1. 函数法进行统计分组、编制频数分布表、绘制直方图(1) 实训内容在Excel中利用函数进行统计分组和编制频数分布表可利用COUNTIF()和FREQUENCY()等函数,但要根据变量值的类型不同而选择不同的函数。某区共有30家企业,他们类型情况如下表,试编制此区企业类型的频数分布表,并生成直方图和拆线图(要求合并在一张图上)。企业编号企业类型企业编号企业类型1中型企业16中型企业2大型企业17大型企业3大型企业18小型企业4小型企业19小型企业5小型企业20中型企业6小型企业21小型企业7中型企业22小型企业8大型企业23中型企业9中型企业24小型企业10小型企业25中
14、型企业11中型企业26大型企业12小型企业27中型企业13小型企业28大型企业14大型企业29小型企业15中型企业30小型企业(2) 实训步骤a) 先在EXCEL中分别输入该地区30家企业的类型,用COUNTIF函数计算大型企业、中型企业和小型企业的数量,制作出该地区企业类型情况的频率分布表.b) 利用数据分析工具,选择直方图,选择数据区域,点击确定,得到直方图,再把直方图的分类间距调整为0。c) 选中该地区企业类型情况的频率分布表,点击插入图表,制作出折线图,调整横纵轴距离。(3) 实训结果分析如图,得到该地区企业类型情况的频率分布表、直方图和折线图,可以看出该地区的企业以大中型企业为主。2
15、. 其他图形(1) 实训内容根据某地三大产业情况基本数据,绘制该地三个产业的条形图、饼图、折线图。年份第一产业第二产业第三产业199053.229。81719954433。722。3200035。635.429200426。143.630。3200524.545.130.4200622.645。831。6200720.146。833。1200819.247.633。2(2) 实训步骤a) 在EXCEL中输入该地三大产业情况基本数据,选中输入的数据,插入条形图,编辑条形图横纵轴坐标序列,横轴为各产业所占比率,纵轴为年份。b) 选中该地区2008年三大产业分布数据,插入饼状图。c) 选中所输入的数
16、据,插入折线图。(3) 实训结果分析如图所示,得到该地区三大产业分布情况的条形图、饼图和折线图.从折线图和条形图可以看出,该地区近二十年来产业结构发生了巨大的变化。第一产业比重持续下降,第二产业持续增大,第三产业比重总体上也不断增大;其中,第二产业比重最大.第二、三产业比重的变化,反映了该地区产业结构在逐步优化。从饼图可以看出,2008年该地区的第二产业所占比最大,达到了48,第三产业次之,说明了该地区的产业结构仍以第二产业为主导,第三产业水平还不够高,仍需转变发展方式,促进产业结构调整。三、实训总结1. 通过本节实训练习,我学会了频数分布表和直方图数据分析基本技巧和操作方法,学会了利用统计图
17、表工具进行数据直观分析。2. 我掌握了Excel柱形图、条形图、折线图、饼图、散点图、面积图、环形图等各种图形工具的使用方法和统计作用。3. 通过折线图能直观看出数据的发展趋势;直方图应用比较广泛,但可能造成数据丢失;饼图可以形象直观地看出各组成部分所占比例,便于比较等。实训三一、实训目的掌握Excel软件中假设检验方法(单样本t检验)及置信区间应用。二、实训内容在正常生产情况下,某厂生产的一种无缝钢管服从正态分布。从某日生产的钢管中随机抽取10根,测得其内径分别为:53。8、54.0、55。1、54.2、52。1、54.2、55.0、55。8、55.4、55。5(单位:mm)(一)区间估计建
18、立该批无缝钢管平均内径95%的置信区间。(二)假设检验若该日无缝钢管的内径服从均值为54mm的正态分布。试在5的显著性水平下检验该日产品的生产是否正常?(三)用P值检验对第(二)题的假设检验采用P值检验方法进行检验三、实训步骤(一)区间估计(1) 在EXCEL中输入10个样本数据,利用AVERAGE函数计算出其均值,再利用STDEV函数得到其标准差。(2) 查t分布表,得到显著性水平a=0。05下自由度为9的t值(3) 根据公式写出置信区间(二) 假设检验(1)、提出原假设和备择假设.(2)、根据(一)得到样本均值和样本标准差,计算出检验统计量t.(3)、用t和相比得出结论。(三) 用P值检验
19、(1) 进入EXCEL界面,插入函数f(x),在函数分类中点击“统计”,并在函数名单下选择“TDIST”,然后点击确定。(2) 在弹出的对话框的“X”栏中输入计算出的t的绝对值“1.4728”。在“Deg_freedom(自由度)栏中,输入自由度“9”。在“Tails栏中,输入“2”。四、实训结果及分析(一)区间估计:由于样本数据为10,为小于30的小样本,且其总体方差未知,则用样本方差代替总体方差,故样本经过标准化的随机变量服从自由度为(n1)的t分布.由抽样结果计算得到,根据a=0。05查t分布表得到,则平均内径的置信区间为即(53.73,55.29),该批无缝钢管平均内径95%的置信区间
20、为53。7355.29mm。(二)假设检验依题意建立如下原假设与备择假设:H0:u=54 该日产品的生产是正常的 该日产品的生产不正常的根据样本数据得到:,由于n0.05,所以不拒绝原假设,样本提供的数据还不足以推翻原假设,即该日产品的生产正常。五、实训总结1. 在进行区间估计时,应首先分析题目条件,看原总体是否服从正态分布、总体方差是否已知、用于构造估计量的样本是大样本还是小样本等几种情况,不同的条件下样本数据服从不同的分布形态。在写出置信区间后,注意结合题目分析其现实意义。2. 在进行假设检验时,同样要考察所抽取的样本是否为大样本、是否服从正态分布、总体方差是否已知等几种情况。不用的假设条
21、件下,在对总体进行假设检验时,所采用的检验步骤和检验统计量不同.此外,在提出假设时,主义原假设和备择假设的选取。3. 在利用P值进行决策时,P值越小,说明观测到的数据与H0之间不一致的程度就越大,检验的结果也就越显著.不论是单侧检验,还是双侧检验,用P值进行决策的原则为:如果P值,拒绝H0;如果P值,不拒绝H0。实训四一、目的要求掌握Excel软件中方差分析应用(单因素方差分析和双因素方差分析)二、实训内容(一)单因素方差分析某城市东西南北5个地区发生交通事故的次数如下表所示。由于是随机抽样,有一些地区的汽车密度高、发生事故多(如南部和西部),而有些地区汽车密度低、发生事故少(如东部)。试以=
22、5的显著水平检验各地区平均每天交通事故次数是否相等?表1 某城市5个地区交通事故发生次数东部北部中部南部西部15171411-12101317141014131512-149710871312914109(二)双因素方差分析某农科所实训在水溶液中种植西红柿,采用了3种施肥方式和4种不同的水温。3种施肥方式一开始就给可溶性的肥料;每两个月给1/2的溶液;每月给以1/4的溶液。水温分别为4、10、16、20。实验结果的产量如下表所示。表2 不同水温水平不同施肥方式下的西红柿产量水温施肥方式一次施肥二次施肥四次施肥冷(4)凉(10)温(16)热(20)20169819151072114116问施肥的
23、方式和水温对产量的影响是否显著(=5%)?三、实训步骤(一)单因素方差分析在EXCEL中输入数据,点击数据分析,选择方差分析,在弹出的对话框中的“输入区域”选择样本数据所在的单元格,在“”方框中输入“0.05”,点击确定,得到方差分析结果。(二)双因素方差分析在EXCEL中输入数据,点击数据分析,选择无重复因素方差分析,在弹出的对话框中的“输入区域”选择样本数据所在的单元格,在“”方框中输入“0.05,点击确定,得到方差分析结果,如下图所示。四、实训结果及分析(一)单因素方差分析1. 提出假设: 各地区平均每天交通事故次数相等H1:ui(i=1,2,3,4,5)不完全相等 各地区平均每天交通事
24、故次数不相等用Excel给出单因素方差分析的计算结果,如下图:根据方差分析表得出如下结论:由于,所以拒绝原假设,即不成立,表明之间的差异是显著的,即各地区平均每天交通事故次数不相等。(二) 双因素方差分析首先对两个因素分别提出如下假设:对行因素提出假设: 气温对产量没有影响 H1:ui(i=1,2,3,4)不完全相等 气温对产量有影响对列因素提出假设: 施肥方式对产量没有显著影响H1:ui (i=1,2,3)不完全相等 施肥方式对产量有显著影响用Excel给出无重复双因素方差分析的计算结果,如下图:根据方差分析表得出如下结论:由于,所以拒绝原假设,表明之间的差异是显著的,即气温对产量有影响。由
25、于,所以不拒绝原假设,表明之间的差异是不显著的,即施肥方式对产量没有显著影响。五、实训总结通过本章实训,我学会了用方差分析来检验总体均值是否相等.根据所涉及到的变量的多少,方差分析主要有单因素方差分析和双因素方差分析.单因素方差分析是研究一个分类的自变量与一个数值的因变量之间的关系,双因素方差分析则是研究两个分类的自变量同因变量之间的关系.对于双因素方差分析,当研究的两个因素之间无交互作用时,称为无交互作用的双因素方差分析或无重复双因素方差分析,当所研究的两个因素之间有交互作用时,称为有交互作用的双因素方差分析或可重复双因素方差分析。实训五一、实训目的掌握Excel软件中回归分析及相关分析应用
26、二、实训内容零售商要了解每周的广告费X及消费额Y之间的关系,记录如表所示。表1 每周广告费X与消费额Y数据表X402025185045402255483852Y385400395365475440490420560525480510(1) 画出散点图;(2) 计算相关系数,并进行相关系数的显著性检验(=5%);(3) 求出线性回归方程,并评价其拟合程度;(4) 请对回归系数作统计检验。(=5%)。三、实训步骤(1) 画出散点图:在Excel中输入表格数据,插入散点图,点击“设计”的“选择数据,然后点击左栏添加,选中横纵坐标所在单元格,单击确定.如图所示:(2) 计算相关系数:点击数据,选择数据
27、分析,在弹出的对话框中下拉选中“相关系数”,点击确定,然后在弹出的对话框中,输入输入区域数据和输出区域单元格,点击确定,得到相关系数分析表。(3) 求出线性回归方程:点击数据,选择数据分析,在弹出的对话框中下拉选中“回归,点击确定,然后在弹出的对话框中,分别在X和Y值的输入区域输入X和Y值,选择输出区域单元格,点击确定,得到回归分析表。(4)题同(3)题步骤。四、实训结果及分析(1) 画出散点图:如图所示为每周广告费X与消费额Y的散点图。(2) 计算相关系数:如图,用回归方法得到相关系数。a) 求出相关系数为:b) 根据Excel进行显著性检验:提出假设: 检验统计量由上得:r=0。82364
28、由题知:n=12 解得又由显著性水平,得到得到结论:因为,所以拒绝原假设。(3) 求出线性回归方程:如图得到回归分析表,从表中可得到,估计的截距项,估计的斜率系数,即估计出的样本回归函数为:这说明广告费每增加一个单位,消费额将增加3。8497个单位。从表中可得到标准误差为36.865,数值较小,说明回归方程的拟合程度较好。(4) 对回归系数作统计检验:提出原假设与备择假设为: 原假设: 备择假设:显著性水平,查t分布表得由3题中的图可得:的,表明拒绝,即说明每周的广告费X对消费额Y有显著性影响。又由表上得到Significance F=0.000991224,相当于计算后所得到的P值,与显著性水平a比较,Significance F=0.000991224a=0.05,所以拒绝原假设,表明X和Y之间存在显著的线性关系。五、实训总结1. 现代意义的回归是关于一个变量对另一个或者多个变量依存关系的研究,其目的是要根据已知的或固定的自变量的数值,去估计因变量的总体平均值。回归函数分为总体回归函数和样本回归函数。回归分析的母的是用样本回归函数去估计总体回归函数。2. 回归系数的检验可用t检验.整个回归方程的检验,需要在方差分析的基础上作F检验。利用估计的线性回归模型对因变量可以做点估测,也可以做区间内预测。相关分析和回归分析的实际计算和图形的描绘可以应用Excel来完成。13