收藏 分销(赏)

管理定量分析方法教学文案.ppt

上传人:快乐****生活 文档编号:7805046 上传时间:2025-01-18 格式:PPT 页数:381 大小:3.62MB
下载 相关 举报
管理定量分析方法教学文案.ppt_第1页
第1页 / 共381页
管理定量分析方法教学文案.ppt_第2页
第2页 / 共381页
管理定量分析方法教学文案.ppt_第3页
第3页 / 共381页
管理定量分析方法教学文案.ppt_第4页
第4页 / 共381页
管理定量分析方法教学文案.ppt_第5页
第5页 / 共381页
点击查看更多>>
资源描述

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,管理定量分析方法,本讲主要内容,1课程性质与内容,2课程学习方法,3管理学研究和定量分析,4定量分析在管理实务中的应用,5本课程的日程安排,6本课程的考试方法,7课外作业,1 课程性质与内容,管理定量分析是一门,工具性课程,,主要讲授广泛应用于管理研究与管理实务中的各种定量分析工具,是一门,应用性,很强的课程。,管理定量分析主要包括两个领域:,优化方法,(或系统工程)与,应用统计学,。,由于学时和大家数学基础所限,本课程主要讲授应用统计学中的,基础统计学,。,2 课程学习方法,1)不要试图去证明相关的定理,

2、而是,要懂得这些定理后面的逻辑或原理,。,2)不要死记相关的计算公式和方法,而,要懂得这些方法和公式后面的逻辑和适用条件,。,3)也不要去手工计算,要学会用计算机去完成相关的计算工作。你的精力,要集中在计算结果的解释,以及就结果对你研究的问题的意义进行判断,。(,注:为了熟悉原理而进行的简单计算例外,),“把证明留给数学家,把计算留给计算机,把原理与逻辑留给自己”,3 管理学研究与定量分析,31,梅奥的霍桑实验,3-2 定量分析在管理学研究中的地位,31,梅奥的霍桑实验,梅奥的霍桑实验(,Hawthorne,Experiments,)中有关非正式组织的研究。,George Elton Mayo

3、,18801949,目的是要证实,在工人当中存在着一种非正式的组织,,而且这种,非正式的组织对工人的态度有着极其重要的影响,实验条件:,(1),人员:14名男职工,其中9名绕线工,3名是焊接工,2名检验工;(2)计件工作制度。,实验结果:工人每天只完成了60006600个焊接点(标准每个工人应该完成7312个焊接点),且天天如此。,为什么?,解释1:可能是这些工人的智力或者动作协调性有问题。研究测试结果否定了这一解释。,合理的解释:,工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以群体会迫使其中的个体进行一致限产。,也就是工

4、人会受到非正式组织的影响。,让我们总结一下该研究的研究过程,不支持,支持,提出假设,数据分析,假设成为一种假说,进而为理论,数据支持假设么?,理论研究(产生方式)2,通过实验或其他方式收集数据,3-2 定量分析在管理学研究中的地位,管理学研究的一般程序,(1)提出和形成问题,(2)文献综述,(3)假设的提出,(4)概念定义及其变量操作化,(5)数据收集,(6)数据分析,(7)结论及其分析,(8)研究报告写作,从上面可以看到,在(6)中定量分析具有重要的地位,它是数据分析的主要方法,4,定量分析在管理实务中的应用,估计出租车数量(第二讲 数据收集、描述性统计与SPSS简单应用),估计某中濒危动物

5、的数量(第三讲中的概率知识),假设你是劳动人事局的项目评估人员,要对一项针对下岗职工的就业培训项目进行评估,你发现参加了这个培训项目的下岗职工中有60%找到了工作,而没参加这个项目的下岗职工中只有45%找到了工作.你如何对这项目的有效性加以评估?(第三讲,假设检验),如何判断几个政府部门的绩效是否确实存在差异(第四讲方差分析),如何估计盗窃数量?(第五讲 回归分析),其他:,聚类:社会阶层的划分,经济区域的划分.红学中的作者研究,主成分分析:地区生产率的排序.制衣业中规格的确定,判别分析:信用等级判定,是否偷税漏税?企业是否会破产?,5 课外作业,课外作业,1)随机找N个同学,让他们在O/V两

6、个字母中任选一个(不要思考),并用纸笔记录下每个人的选择。,2)随机找N个同学,让他们从110十个数字任意选择一个数字(不要思考),并用纸笔记录下每个人的选择。,第二讲 数据获取、描述性统计与SPSS简单应用,本讲内容,1 统计学的主要思想,2 数据获取,3.单变量描述性统计,1 统计学的主要思想,11 随机性中的规律性,12 规律性中的随机性,13 概率(probability),14 变量(Random Variable),15 总体与样本(Population and Sample),11 随机性中的规律性,1)随机性是指不能预测某一特定事件的结果。,2)规律性是指我们从许多随机事件中收

7、集数据时发现的模式。,统计可以看着是对,随机中的规律,进行研究的学科。,12 规律性中的随机性,1)在进行统计观察的时候,大部分时候我们都得不到完全一模一样的观察结果。所以,规律也表现出某中随机性,,这是统计的一个重要的本质特征。,2)所以任何两次数据收集过程中,得到的结果一般都有差异。关键是这种差异是可以用数据本身的随机性进行解释,还是差异达到了无法用随机性进行解释?,当两种规律的差异超出了随机性本身的范围的时候,变化趋势就发生了。,所以统计也是对,数据中的偏差问题,进行研究的学科。统计把单独的、随机事件置于规律中,并,揭示出其变化的趋势。,研究随机性和规律性的例子,20世纪50年代,小儿麻

8、痹症育苗的研究。,实验组(疫苗),20万,56,对照组(安慰剂),20万,138,问题是:,56和138之间的差别是否超过了随机性所能解释的范围。,思考题,拧松水龙头,让其刚好到只有水滴下来,计算并记录15分钟内每个20秒里的水滴数。利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?,13 概率(Probability),在讨论随机性的时候,统计学的大部分内容根基于一个很重要的概念概率。,概率是一个取值介于0到1之间的数,告诉我们某一特定的事件以多大的机会发生。,对于两个数字的差别是否超出了随机性本身所能解释的范围,我们可能永远无法肯定。但是我们可以确定,这种差别超出随机性能

9、解释的范围发生的概率是大还是小。,14 变量(variable),统计的又一块较大的基石是变量。,变量简单的说就是事物的特征或者属性。,研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。,变量的值(value),通常是对某一个特定单位的度量,这种单位常常被视为,一个个体(element),。什么是个体取决于你的研究问题。,思考题:指出下面研究中的变量、变量的值、个体是什么?,1)研究淮海工学院男生的身高和体重之间的关系。,2)研究连云港市居民对打的加收燃油税这项政策的满意程度。,3)统计江苏省个县市的工业生产总值。,15 总体与样本,参数:,统计量,思考题:请判别下面研究问题中的总

10、体与个体是什么?,(1)如果你对淮海工学院女生的身高感兴趣,想研究下其分布。,(2)如果你想研究连云港市的高新技术企业的盈利情况。,总结一下,1),随机性,和,规律性,是统计学的两个重要概念。,规律性本身包含着随机性,。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。,2)概率为我们从数据中得出结论提供了基础,,统计学家利用概率判断数据间的差异是否超出了随机性本身的影响,。,3)变量可定义为一个特征或属性,,我们的数据收集都是针对一个个变量进行的,。,4)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的

11、信息进行推断。,2 数据收集,21 定义变量,22 变量的测量层次,23,观察数据抽样调查:问题和可能性,24 问卷设计中常出现的问题,25 数据文件的格式,21 定义变量,数据收集的第一个工作,就是要清楚测量和收集什么。,你要将你的研究问题转化为用变量的语言来描述,,并且要对变量进行,清楚的定义,。,例如:思考一下,假设你想了解一个家庭孩子的数量,你设计的问题为:,“在你家庭中有多少个孩子?”,该问题存在什么问题?,(C),至少存在以下问题:,(1)孩子是否应该小于18周岁?,(2)孩子是仅仅指亲生子女,还是包括养子养女?过继的算不算?对于不和亲生父母生活在一起的孩子算不算?父母离了婚而共同

12、抚养的孩子怎么算?,所以要对“孩子”这个变量做清楚的界定,。,思考:,这个调查问题存在什么问题:,“请问贵企业的销售收入是多少?_”,22 变量的测量层次,1)思考题:,请回答以下收集到的数据,可以进行“”,“、”,“,”中的哪些运算?,(1)五个人的性别:1,0,0,1,1(1:男性;0:女性),(2)五个人的身高:170,173,165,180,161(单位:厘米),(3)七天的气温(摄氏温度,):15,24,27,18,34,30,19。,(4)五个人对一项政策满意程度的评分:,5,3,3,4,2,(1:十分不满意;2:不满意;3:一般或中立;4:满意;5:十分满意),2)按照数据适合的

13、运算规则,统计学将数据(或变量)划分为四个层次:,(1)定类数据(nominal sale)(变量)。,它仅仅是一种标志,取数值仅仅是用以区分变量中的类型名称。,不适合任何四则运算和大小运算。,(2)定序数据(ordinal scale)。,定序数据值,能够比较大小,,,不能够,做加减乘除运算,它表示一种次序。,(3)定距数据(interval scale)。,这类数据可以做大小比较以及,加减运算,,,不能做乘除运算,。,数据之间的距离是相等的。其根本特征是,,数据中的0不是物理客观存在的,而是人为设定的,。例如:温度测量值就是定距。,(4)定比数据(ratio scale)。,定比数据是数据

14、中最高层次的测度等级。这类数据可以做大小比较和加减运算外,,还可以做乘除运算,。这时的,0值不是人为确定的,而是物理客观存在,的。例如:人的身高数据、体重数据。,思考题:,1)我们用一个量表测量人们对一项法律的态度,如果1表示不赞成,2表示无所谓,3表示赞成,对于3个人我们测得的值分别为:3、1、2,这些数据为_数据。,2)测量10个大学生所在的年级,如果用1表示大一、2表示大二、3表示大三、4表示大四、5表示其他。测量的值为:1、3、4、1、2、3、2、1、1、4,这些数据为_数据。,3)测得5个人的第一次结婚年龄(单位:周岁)为:20、22、24、30和26,这些数据为_数据。,注意三点:

15、,1),SPSS中将定距数据和定比数据合并为一类,叫刻度级数据,。所以SPSS的数据测量层次只有三种。,2),一项统计方法适合低级别的数据,也适用于高级别的数据。但反过来不成立。,例如我们可以计算身高数据的均值,但不能计算五个人性别的均值。,3)在社会科学研究对定序数据的处理有两种方式:一是将其作为定类数据看待;另一是将其作为刻度级数据看待。,23 观察数据抽样调查,定义:,凡是在获得数据的过程中,,不对被调查对象数据产生的条件施加任何控制,所得到的数据,称为观察数据,。,两种方式:普查与抽样调查。,普查(Census):就是收集总体中的所有个体的数据。,抽样调查(Sampling):是在总体

16、中选择出一个样本,然后对样本中的个体进行调查,从所了解的样本数据来推断总体情况。,抽样调查的优点,:,(1)经济性。,(2)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。,(3)准确性高。,抽样调查的一个原则:,“,确信锅里的汤被搅拌均匀,”。,抽样调查的方法,:概率抽样(Probability sampling)非概率抽样(Nonprobability sampling),概率抽样(Probability sampling),(1),简单随机抽样(simple random sampling),:,就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复抽样两种形式。

17、,(2),分层抽样(Stratified sampling),:,在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。,分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。,(3),等距离抽样(systematic sampling,系统抽样),:,首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满n个元素形成一个样本为止。,(4),整群抽样(Cluster sampling),:,就是首先将总体划分为若干个群,然后以这些群为抽样单位从

18、中抽出部分群,在对抽选出的群中的所有元素进行观察。,思考题:假如你要调查连云港市市区内的居民月收入,假设抽样容量为1000。你如何展开抽样?,非概率抽样(Nonprobability sampling),(1)便利抽样(Convenience sampling):研究者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如:街头访谈、电话访谈、向自己的亲朋好友收集数据。,这种样本数据收集过程都加入了某中人为的干扰和选择,,所以从方便样本中得出的结果对于总体信息的推论程度是有限的,。,思考题:,有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。请问这个样本能不能代表读者群总体?为什

19、么?,(2)判断抽样(Judgment sampling):是指经过专家考虑后,以适当的方式进行抽样。例如:研究青少年吸毒问题。,24收集观察数据过程中常出现的误差,两大类,:,(1)未响应误差(nonresponse error),。没办法,现在的响应率确实太低了。据估计:一次好的电话调查,响应率8590;一次邮寄调查的响应率很少有达到50的;即使是名声比较好的调查组织的响应率也经常不超过60。,(2)响应误差(response error)。,即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是它们实际上做的、感觉的或所想的。影响响应误差的因素很多,常常有:,(A)

20、问卷的长度。,(B)问题的措词。要通俗易懂;要准确而不笼统;,避免双重否定形式的提问,。,1992 Roper协会做的调查:“在你看来,纳粹对犹太人的灭绝从未发生过是可能的还是不可能的”(22怀疑),1994“在你看来,纳粹对犹太人的灭绝从未发生过可能吗?还是你确信它发生过?”(1),避免诱导性提问,一方面的观点,你是否同意下述观点:联邦政府应该确保所有的人民都有足够的住房。,同意:政府有责任,不同意:政府无责任,55%,45%,两种观点,政府负责观点在前,有些人认为联邦政府应该确保所有的人民都有足够的住房,,而另一些人认为每个人应该自己解决住房问题。你认为哪一种意见与你的看法最接近?,政府有

21、责任,政府无责任,44.6%,55.4%,两种观点,政府负责观点在后,有些人认为每个人应该自己解决住房问题,,,而另一些人认为联邦政府应该确保所有的人民都有足够的住房。你认为哪一种意见与你的看法最接近?,政府有责任,政府无责任,29.5%,70.5%,(C)问题所在的位置。不要将敏感性问题放在问卷的前面,要结束调查时的问题要短且简单。,(D)调查员的影响。调查设计者要尽量让调查员和被调查者在人口统计特征上相近,如:年龄、性别、种族等。特别是在调查一些敏感问题时尤其如此。例如你要调查女性对化妆品的看法,找男性去就不合适。,最后要提醒大家的是:,(1)任何一种抽样程序的一个普遍困难是,,很少有一份

22、完全包括属于总体的所有个体的名单,。即使存在这份名单,这份名单也往往是不完全的。,(2),要总是对你的数据采取一种怀疑态度,这样收集到的数据才可能尽量可靠,(3)仅仅使用观察数据来进行因果关系的判断是十分困难的。,25 数据文件的格式,个体编号,年龄,性别,年收入(万元),态度,1,20,0,3,3,2,27,1,6,2,3,38,1,5,3,3.描述性统计,31样本数据的基本特征:频次和频率,32刻度级数据的数据结构:茎叶图和直方图,33 数据中心描述,34离散趋势描述:点描述和区间描述。,35 综合表述:箱形图,31样本数据的基本特征:频次(Frequency)和频率(Percentage

23、,),所谓频次,就是一个特定数据值在整个数据集合中出现的次数。,频率,就是某个特定数据值出现的频次与数据集合的数据总数之比。,一个延伸的概念是,累积频率,,当数据的测量层次在定序级以上时,,设x,1,x,2,x,m,,是样本数据集合中的不重复的样本值(mn样本个数)。,若把样本值,小于等于某个样本数据x,i,的频率值,都累加起来,就得到“小于等于x,i,”的累积频率,思考题:,累积频率适合于何种测量层次的数据?,条形图(Bar Chart),女性结婚年龄,30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30,33,30,31,26,29,25,2

24、4,31,46,23,26,24,25,60,23,19,34,25,27,25,经济,10%,管理,25%,会计,65%,饼状图 Pie Chart,1.,表示出总量的分类,2.是表示相对差异的有效办法,3.角度大小,360(百分数),专业,(360)(10%)=36,36,0,1,2,3,4,5,3-2 直 方 图Histogram,频数,频率,百分数,01525354555,下界,柱条接触,计数,类别,频数,15 25,3,25 35,5,35 45,2,直方图的注意点,对于直方图的形状我们关心,:(1),是否为单峰(unimodal),?如果是单峰的,则说明观测中只有一组是主要的;否则

25、呢?(2),是否对称(symmetric)?,值得注意的是,,有时由于人为的构造,对同一个数据集的直方图会让人产生错觉。(1)区间的划分数目可能产生差别;(2)纵轴的刻度选择。,一般来说,区间划分数为510个比较好,33 数据中心描述,常用的有三个:,“样本中位数(Median)”、“样本众数(Mode)”和“样本均值(Mean)”,。,中位数:就是将,资料排序(从大到小,从小到大都可)后,,居于,中间位置,的那个数称为中位数。用 表示。,当n为奇数的时候:,当n为偶数的时候,:,众数、中位数与均值之间的区别:,1),一般来说,,众数适合于定类数据;中位数适合于定序数据及其以上的数据;均值适合

26、于样本均值,;,2),中位数只与位置有关,它只利用了数据集中的少数几个数据(最多两个数据)的信息,对极端值不敏感。,而均值则利用了数据集中所有数据的信息,极容易受到极端值的影响。,3)对于刻度级数据,很少用众数来代表其集中趋势的;,如果存在极端值的时候,要用中位数来代表数据集的集中趋势,。,思考题1,:一般来说,最适合代表定类数据的集中趋势的是:_.,(A)中位数;(B)众数;(C)平均数;(D)方差。,2)6个人的身高数据为:173cm、173cm、178cm、176cm、171cm和226cm,请你选择代表这个数据集集中趋势,最适合的是:_.,A、中位数;B、众数;C、平均数;D、方差。,

27、案例:估计一个城市的出租车数量,某城市的出租车数量少,某位统计学家等了几辆车,发现都是满载的。这位统计学家就怀疑这城市到底有多少出租车,以至于不够用。如何进行估计?,他开始记下满载的出租车号,依次为:,405,280,73,440,179,。你如何根据这些资料推断这个城市的出租车数量?,上车一问该城市一共 550辆出租车。,图1:平均差距法,相对误差为,|,550 527|/550=0.04,图2:中位数法,(M+1)/2=280,也就是说,M=559,,相对误差为:,|,559 550|/550=0.02,思考题:1)你还能想出其它方法吗?,2)我们这样做的时候有什么假设,其他方法:,利用均

28、值:,(M+1)/2=(73+179+280+405+440)/5=275,也就是说,M=549,,相对误差为:,|,549 550|/550=1/550 0.002。,34(1)离散趋势点描述,(1)极值,两个极值:最大值(Maximum)和最小值(Minimum),适合于定序级以上的数据,(2)下四分点(lower quartile)与上四分点(upper quartile)Q1,下四分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了25%的样本总个数,使其右边部分包含了75%的样本总个数。上四分点则刚好相反。,(3)上下十分位点(percentile)Q3,下十分点把排序后的

29、样本数据集合分成了左右两部分,使其左边部分包含了10%的样本总个数,使其右边部分包含了90%的样本总个数。上十分点则相反。,44(2)离散趋势区间描述,1),极差(,Range,也称为全距,),极差极大值极小值,用R,n,表示,它反映了样本数据在数轴上的分布范围。,2.)四分位距(Interquartile range),四分位距(,Iqr,),Q,3,Q,1,它反映了样本数据集合中样本值处于中间大小的,1/2,的数据的分布范围。,全距和四份位距的适用范围,。,思考题:请问下列两个数据集用全距来代表该数据集的离散趋势,适不适合?为什么?,A)72,70,68,74,75,65,69,71,73

30、,74,R,n,7565,B)96,70,68,74,75,65,69,71,73,74,R,n,966531,3),样本离差(Deviations)与离差平方和(Sum of squared deviations),样本离差,被定义为每个,样本,与,样本均值,之差:,x,i,,,i,1,2,n,样本离差又称为样本,中心化,数据。,反映数据集对均值的,总偏差指标,:离差平方和。离差平方和,被定义为:,4)离散状况的统计值描述:样本方差(,Sample variance,),s,2,=,为什么用,离差平方和,除以,,而不是除以样本个数。,样本,标准差,(,Standard Deviation,)

31、的定义是,S=,注意:,1)对于,单峰对称分布,的变量,有经验法则:,A)大约有68的数据在均值的正负1个标准差的范围之内;,B)大约有95的数据在均值的正负2个标准差的范围之内。,(至少75),C)大约有99的数据在均值的正负3个标准差的范围之内。,(至少89),(正负4,至少94),所以观察值的极差大致上等于4个标准差,。,5)变异系数(CV,Coefficient of variation),方差的缺点:受度量单位的影响。,所以定义样本变异系数定义为:,样本标准差,与,样本均值,之比:,CV经常作为金融研究中的投资风险度量指标。另外,CV还可以用于比较不同事物之间的离散程度比较。,例:两

32、种投资组合:甲、乙,表中是9笔过去半年期投资报酬率,请问哪种投资组合的风险大?,甲(),9,17,2,6,19,10,4,13,8,乙(),6,15,3,1,16,3,2,8,2,注意,两者的标准差相同:0.05696。但是,CV甲58.25%,CV乙91.45%,所以乙的风险较大。,6)标准得分(Standardized Score),30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30,33,30,31,26,29,25,24,31,46,23,26,24,25,60,23,19,34,25,27,25,定义:一个原始值的标准得分,表示原始得

33、分与均值的距离的新得分,这个得分用标准差为单位来衡量。,(30-19)/9=11/9=1.22,-1.22,21,39,19,0,1,-1,假设男性结婚年龄的均值为32.4,标准差为11.2;同样可以求得,17岁的新郎的标准分为,-1.38,。,所以,新郎的结婚年龄更反常。,思考题:,如果变量的观测值是单峰对称分布,那么标准得分的值大部分(95)在那个区间范围内?,35 综合表述:箱形图(Box Plots),箱形图法是综合表达数据的中心特征和离散特征的图形方法。,极大值,极小值,下四份位点,上四份位点,中位数,刻度尺,第三讲 概率论基础知识回顾,本讲内容,1 概率论发展简史,2 概率论专有名

34、词,3 概率的含义,4 获得概率的基本方法,5 概率的加法法则,6 联合概率、条件概率和独立事件,7 贝叶斯公式,8 相关的概念优势,9 离散变量的概率分布,10 连续变量的随机分布,1 概率论发展简史,11 概率论的起源,Pascal(16231662),Fermat,(16011665),1654年,赌金分配问题,赌金分配问题,梅雷说:有一次他与某赌友(代称为A先生)掷骰子时,各押32个金币为赌注,双方约定如果谁先赢得3局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得2局,而A先生只赢1局,,如何公平分配赌金?,起点,费马,:,情况,1,2,3,4,胜

35、者,梅雷、梅雷,梅雷、A,A、梅雷,A、A,帕斯卡尔:,1655年,荷兰数学家惠更斯(Christopher Huygens)访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,他撰写骰子游戏(Dice Game,1657)来探讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。,提出了期望的概念,。,1713年,瑞士数学家伯努利(Jacob Bernoulli,1654 1705)出版了猜度术一书,,提出了大数定理,。,1765年,法国数学家棣莫弗(A.DeMoivre,16671754)的机会的学说一书出版,,1733年就发现了正态曲线,,以及论述了不

36、存在运气。,蒲丰(G.L.LBuffon,17071788)于1777年提出了投针问题的几何概率,:h/n=(2r/).,-,1933年,俄罗斯数学家科尔莫戈罗夫(19031987)以德文出版的经典性著作概率论基础,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。,2,概率论专有名词,随机实验:满足如下三个条件就可以称之为随机实验:(1)在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(3)事前不知实验结果(outcome)。抛硬币,基本事件:一次随机实验的可能结果,称为基本事件或者基本随机事件。,若随机实验E是“抛两次硬币”,其基本事件就是“+、”,“+、+”,“,”,

37、“,+”。,样本空间:所有基本事件所组成的集合,称为样本空间或基本空间。,接上例,其样本空间就是集合“+、”,“+、+”,“,”,“,+”。,随机事件:,简称事件,指一些由基本事件所组成的集合。,例如,接上例,事件“两次出现相同面”,就有两个基本事件组成:+、+”,“,”。,不相容事件:,在随机试验中,不能同时发生或其交集为空集的几个事件,称为不相容事件。反之为相容事件,接上例,事件“两次同时出现正面”和“两次同时出现反面”就是不相容事件。“至少出现一次正面”和“至少出现反面”就是两个相容事件,3,概率的含义,概率,是一个0到1之间的数,描述了一个事件发生的经常程度,。小概率(接近于0)的事件

38、很少发生,而大概率(接近于1)的事件则经常发生。,概率对统计的意义。对于统计,概率告诉我们,,在样本数据的基础上,如果试验重复多次,各种结果发生的经常程度,是多大,。,.5,0,1,不可能,必然,4 获得概率的基本方法,41,利用等可能性事件,42 使用相对频率的方法,43 利用主观概率,41 利用等可能性事件,如果试验有n种可能的结果,使某特定事件出现的结果数量为k,那么(k/n)就是出现该事件的概率,。,k,n,思考题,:,一副扑克52张(大、小王去掉),洗均匀,随机取一张牌,那么该张牌是梅花的概率是多少?,要注意两点,:,(1)分清楚你求解问题中什么是你的n,什么是你的k。,如,得胜的同

39、学是A班男生,的概率,A班男生得胜,的概率。,(2),其实我们在这样做的时候,就已经接受了,两个前提假设,:a)实验的可能结果是已知的;b)由于对称性,每一个结果的可能性都是相同的。往往这两个前提假设不一定满足.,42 使用相对频率的方法,基于,大量重复,实验中某个特定事件出现的次数的比例接近于该事件的概率真值。,此时,概率是一个长期的比率,是长期观察某一事件的结果,这种概率的准确数值我们是永远得不到的,但是大量观察值使估计概率的数值(即相对频率)无限接近于真值。,试验者,抛掷次数,正面向上的次数,正面出现的频率,D.Moivr,2048,1061,0.5180,L.Buffon,4040,2

40、048,0.5069,K.person,12000,6019,0.5016,K.person,24000,12012,0.5005,Wiener,30000,14994,0.4998,43 利用主观概率,一次性事件的概率叫主观概率(subjective probability),主观概率是贝叶斯(Bayes)统计推断的基础。,5 概率的加法法则,51概率的加法公式,52 概率计算的工具联列表,53 加法法则示例,51 概率的加法公式,(,Addition Rule,),复合事件(Compound Event)的概率,2)P(A 或 B)=P(A,B)=P(A)+P(B)-P(A,B),3)对于

41、互斥事件:P(A 或 B)=P(A,B)=P(A)+P(B),A,B,A,B,A,B,事件,事件,B,1,B,2,总计,A,1,P(A,1,B,1,),P(A,1,B,2,),P(A,1,),A,2,P(A,2,B,1,),P(A,2,B,2,),P(A,2,),总计,P(B,1,),P(B,2,),1,52 概率计算的工具联列表,联合事件,Joint Probability,边际(简单)概率,Marginal(Simple)Probability,53 加法法则示例,复合事件:抽一张牌.注意种类,颜色,颜色,类型,红,黑,总计,A牌,2,2,4,非A牌,24,24,48,总计,26,26,5

42、2,P(A牌 或者,黑色),=,P(A牌),+,P(黑色),-,P(A牌,黑色),6 联合概率、条件概率和独立事件,61 联合概率、条件概率的定义,62 用联列表表示条件概率,63 用树形图表示条件概率,64 乘法公式和事件的独立性,65 事件独立性的应用,61 联合概率、条件概率的定义,联合概率就是两个事件A与B同时发生的概率,记为P(AB)。,条件概率:在B发生的条件下A发生的概率,就是B发生的条件下A发生的条件概率,记为P(A,B)。,P(AB)=P(AB)/P(B),B,A,假定出现B,排除所有其他结果,事件(A 且 B),B,颜色,类型,红色,黑色,总计,A牌,2,2,4,非A牌,2

43、4,24,48,总计,26,26,52,62 用列联表表示条件概率,条件事件:抽一张牌.注意种类,颜色,修正后的样本空间,A牌,黑色,P(A牌 且 黑色),黑色,63 树形图表示条件概率,P(FA),P(FBA),P(FBFA),P(BFA),P(BA),P(A),FA,A,B,FB,FB,B,(AB),(AFB),(FAB),(FAFB),例1:条件事件:有14支蓝笔和6支红笔,从这20支选出两支钢笔,不可替换.,不独立!,蓝,红,蓝,红,蓝,红,P(红)=6/20,P(红|红)=5/19,P(蓝|红)=14/19,P(蓝)=14/20,P(红|蓝)=6/19,P(蓝|蓝)=13/19,64

44、 乘法公式和事件的独立性,乘法公式:设 P(B)0,有 P(AB)=P(A,B)P(B),一个事件的发生不会影响另一个事件的发生,就称这两个时间相互独立。两个事件A与B,如果P(A,B)P(A),则A与B为两个独立事件。此时P(AB)=P(A)P(B)。,两个事件独立的测试条件:,P(,A,|B)=P(,A,),P(A 且 B)=P(A)*P(B),65 事件独立性的应用,问:1)抽烟与肺癌是否为独立事件?,2)计算肺癌的概率,以及在抽烟的前提下肺癌的条件概率,是否患肺癌,总数,肺癌患者(C),非肺癌患者(FC),是否抽烟,抽烟(S),600,200,800,不抽烟(FS),150,450,6

45、00,总数,750,650,1400,例1,:胸腔科医生根据1400名病患者资料,整理出了肺癌与抽烟的联列表资料:,P(SC)=600/1400,P(S)P(C)=800/1400*750/1400,所以,不是独立事件。,P(C)=75/1400.53;,P(CS)=P(S,C)/P(S)=,(600/1400)/(800/1400)0.75。,所以抽烟行为让你的肺癌概率大幅度提高。,例2(估计野生动物数量),。,我们经常听到有关野生动物数量的报道,比如海洋中的鲸鱼的数量,问题是:我们是如何得到这些数字的?,方法1(标记法),:,我们首先捕捉一批鲸鱼,假设100头,做上记号后放回去,过一段时间

46、后我们再捕捉一批鲸鱼,假如有1000头,其中这次的1000头中有10头是有记号的,也就说有10头是前一次抓到的。,第二次捕捉,总数,捕捉到(B),未捕捉到(FB),第一次捕捉,捕捉到(A),10,90,100,未捕捉到(FA),990,总数,1000,N,由于两次的捕捉是独立的,所以有:,方法2(捕捉捕捉法),:,我们假设这一期捕捉了1000头鲸鱼,发现比上一次捕捉到的数目少了10,,假定鲸鱼被捕捉到的概率是固定的,同时两次捕捉期间没有鲸鱼出生和死亡,。,设前一期有 x条鲸,且鲸被捕的概率为 p,则这一期,应有(xxp)条鲸(不考虑自然死亡与新生的鲸),再由,已知条件,得下列联立方程式,这一期

47、原有的鲸鱼数就为:,那么,可求得,如果要你估计连云港市流浪儿童的数目、连云港市吸毒人数的数目、犯罪人数。以上两种解法对你有何启示?,7 贝叶斯定理(,Bayes Theorem,),7-1 全概率公式,7-2 全概率公式的应用敏感问题的答案,7-3 贝叶斯公式,7-4 贝叶斯公式的应用艾滋病普查,71 全概率公式,假设样本空间为S,,B,1,B,2,B,3,-B,n,为两两不相容的事件,且有:,B,1,B,2,B,3,-B,n,S,则对于任意事件A,有全概率公式:,B,1,B,2,B,3,B,5,B,4,A,7-2 全概率公式的应用敏感问题的答案,1965年,Stanley L.Warner发

48、现了一种应用全概率公式来得到敏感问题答案的方法。,实验:请大家抛一次硬币,如果硬币国徽面朝上则回答问题 a),如果是字面朝上则回答问题 b)。,问题a):,你学生证(或者学号)的最后一位数是奇数吗?是不是,问题b):,成为华科学生后,你是否曾非法买或卖过自行车,?是不是,定义下列事件:,A 回答“是”的学生;E,1,回答问题 a)的学生;E,2,回答问题 b)的学生,我们还可以得出:P(E,1,)=0.5,P(E,2,)=0.5,和 P(A|E,1,)=0.5,我们想要知道P(A|E,2,),即回答第二个问题的学生中答“是”的概率。,因为事件E,1,和E2为互斥完备事件组,所以,P(A)=P(

49、E,1,A)+P(E,2,A),=P(A|E,1,)P(E,1,)+P(A|E,2,)P(E,2,),0.5*0.5+P(A|E,2,)*0.5,我们如果知道了P(A),当然就知道了P(A|E,2,),73 贝叶斯公式,新的信息,修正后概率,应用,贝叶斯定理,先前的概率,特别的,当将样本空间划分为两个事件 和,7-4贝叶斯公式的应用艾滋病普查,确切的艾滋病病毒携带者的数目是不知道的,但是据估计为10,-6,。,假设艾滋病的检验方法血液试验(ELISA,酶连接免疫吸附测定)。其检验精度为:一个艾滋病者,检验结果为阳性的概率为95,也就是说假阴性的概率为5;一个非艾滋病者,检验结果为阴性的概率为9

50、9,即假阳性的概率为1。,假若某人做了血液实验且结果为阳性,他真正得了艾滋病的可能性有多大?,假设事件HIV代表一个随机选择的中国人患有艾滋病,,事件FHIV代表一个随机选择的中国人未患有艾滋病,;RP代表测试的反应为阳性,。,(HIVRP,),(HIVFRP),(FHIVFRP),(FHIVRP),HIV,FHIV,RP,FRP,RP,FRP,P(FHIV)=110,6,P(HIV)=10,6,P(RP|HIV)0.95,假阴性P(FRP|HIV)0.05,假阳性P(RP|FHIV)0.01,P(RP|FHIV)0.99,如何改进?,方法1:提高敏感度,也就是降低假阴性的比率,希望真的有病的

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服