收藏 分销(赏)

数据背后1.ppt

上传人:精*** 文档编号:10295563 上传时间:2025-05-18 格式:PPT 页数:57 大小:822KB
下载 相关 举报
数据背后1.ppt_第1页
第1页 / 共57页
数据背后1.ppt_第2页
第2页 / 共57页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,定量分析 陆立强 复旦大学数学系,*,对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要,H.G.Wells(1866-1946),英国著名(科幻)小说家,社会活动家,2025/5/18 周日,1,定量分析 陆立强 复旦大学数学系,前言,目的,培养科学精神,了解数据分析方法,内容,数据的获取,数据的展示,不确定性和概率,数据的解读,2025/5/18 周日,2,定量分析 陆立强 复旦大学数学系,前言,教材,让数据告诉你,陆立强编著 复旦大学出版社,2008,年,参考书,统计学,基本概念和方法,G.R.Iversen,、,M.Gergen,著 吴喜之等译,高等教育出版社,施普林格出版社,2000,年,2025/5/18 周日,3,定量分析 陆立强 复旦大学数学系,定义,简体版:有目的的数据采集和处理行为,完整版:决策过程中获取和处理信息的步骤和规则,例,:医学统计,例,:社会统计,例,:,生活统计,2025/5/18 周日,6,定量分析 陆立强 复旦大学数学系,数字和数据,统计离不开数字,数字不等于数据,数据:有意义的数字,例,1,(成绩表),2025/5/18 周日,7,定量分析 陆立强 复旦大学数学系,统计的历史,早期:统治者了解居民人数和纳税土地数量,17,、,18,世纪:物理学对精确测量的需要,19,世纪:农学、生命科学、行为科学对于数据的需要,20,世纪:经济学、管理学、日常生活,2025/5/18 周日,8,定量分析 陆立强 复旦大学数学系,统计的作用,获得信息,帮助决策,人口:人口普查,就业:失业率调查,物价:,CPI,2025/5/18 周日,9,定量分析 陆立强 复旦大学数学系,统计的作用,探索新知,科学发现,案例,1,:心脏与情感,观察:,初次、再次、辨析,猜想:,抱在左胸对新生儿有利,实验:,心跳声播放对比,结论:,成人的正常心跳对新生婴儿有安抚作用,.,2025/5/18 周日,10,定量分析 陆立强 复旦大学数学系,可靠,的统计,可信的数据,正确的方法,科学的解读,2025/5/18 周日,11,定量分析 陆立强 复旦大学数学系,常用数据获取方法,普查:针对全部对象的调查,人口普查:,是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记,是提供全国基本人口数据的主要来源。当今世界上许多国家已规定,每隔五年或十年举行一次人口普查。,中国:,1953,年第一次,,2010,年第六次,经济普查:,二、三产业,中国:,2004,年第一次,,2008,年第二次,特点:全面、代价高,2025/5/18 周日,12,定量分析 陆立强 复旦大学数学系,常用数据获取方法,案例研究(解剖麻雀):获得特定对象数据,具体,准确,无法,立即,推广,观察研究:获得部分对象的数据,无人为干预,无法排除其他因素,不能,确定,因果关系,实验研究:有目的的观察研究,人为干预,有助于,确定,因果关系,2025/5/18 周日,13,定量分析 陆立强 复旦大学数学系,影响数据可信度的因素,发起人和资助方,工作人员行为,工作时点,提问方式,问题的叙述,2025/5/18 周日,14,定量分析 陆立强 复旦大学数学系,发起人和资助方,拿人钱财,替人,“,消灾,”,工作人员的行为,第六次人口普查,工作时点,虚拟新闻,一位四年级心理学专业女生调查,“,心理学专业的同学是否比化学专业的学生要聪明一些,”,。调查分别在,5,个心理学专业高年级班级和,5,个化学专业高年级实验室进行,要求在场的学生分别写下他们的平均绩点和所在专业,整理后心理学专业学生的平均绩点为,3.05,,化学只有,2.91,。这项调查是在星期三,(,学生回家享受国庆节大餐的前一天,),进行的,2025/5/18 周日,15,定量分析 陆立强 复旦大学数学系,提问方式,封,闭式问题:选择题,封闭式问题的局限,可能不能反映真实的情况,例:,政,府满意度网络调查,例:社会问题调查(1987年),封闭式,能源短缺 5.6%,公立学校质量 32%,堕胎合法 8.4%,污染 14%,开放式,提及上述回答只占了2.4%,2025/5/18 周日,16,定量分析 陆立强 复旦大学数学系,提问方式,开放式问题:问答题,开放式问题的局限,难于归纳整理,提问方式影响被调查者思路,例:,50年内重要事件和变化调查(1987),开放式问题的结果,二次大战:,14.1%,太空探索,:6.9%,肯尼迪遇刺:,4.6%,越南战争:,10.1%,不知道:,10.6%,2025/5/18 周日,17,定量分析 陆立强 复旦大学数学系,封闭式问题的结果,二次大战:,22.9%,太空探索,:15.8%,肯尼迪遇刺:,11.6%,越南战争:,14.1%,不知道:,0.3%,电脑的诞生:,29.9%,修正方法,小范围开放式,+,大规模封闭,2025/5/18 周日,18,定量分析 陆立强 复旦大学数学系,问题的叙述,无意偏向:问题中的某些词汇含义不清,请你回忆一生中最重要的一天?,你是否吃早餐,?,有意偏向,你是否同意谋杀无辜生命的堕胎行为是合法的?,你是否同意在某些情况下为了维护母亲权益,堕胎是一种合法行为?,投,其所好:,在敏感问题上,被调查者通常按大多数人喜欢的答案回答.,问学生:你吸烟吗?,问学生:你,谈过恋爱吗?,2025/5/18 周日,19,定量分析 陆立强 复旦大学数学系,问题的叙述,对牛弹琴:,对自己不懂(或者没想过)的问题,被调查者往往不愿表现出自己无知,你参加过投票吗?,请君入瓮,你认为目前青少年中存在的酗酒问题严重到何种程度了?,请你列出五项目前青少年面临的社会问题?,引人撒谎,2025/5/18 周日,20,定量分析 陆立强 复旦大学数学系,有,关数据的术语,个体,:一个人或者对象(事件),对应数据表中的一行,某个人的成绩,某一天的天气情况,变量:,数据表中的一列,对应对象的一个属性或者特征,单科成绩,最高气温,总体,:全部个体,样本:,被关注的个体,2025/5/18 周日,21,定量分析 陆立强 复旦大学数学系,有,关数据的术语,分类变量:,无需进行数值计算,的变量,度量变量:,可以进行数值计算的变量,离散度量变量,连续度量变量(理论意义),例:天气情况表:,天气、温度,例:学生成绩表:,姓名、年级、成绩,注:主观愿望和情感的度量,2025/5/18 周日,22,定量分析 陆立强 复旦大学数学系,变异,:,同一,对象的同一个变量经,重复,测量所得值的差异,成绩和排名,钢轨长度,自然变异,:,不同,对象的同一个变量在,一次,测量所得值的差异,成,绩,气候差异,2025/5/18 周日,23,定量分析 陆立强 复旦大学数学系,有效变量:,可验证,房价,:,可靠变量:,变异小,智商,测量值,偏差变量,:系统偏向性,未校正量器的测量值,2025/5/18 周日,24,定量分析 陆立强 复旦大学数学系,轻信统计,后患无穷,数据,工资被增长,方法,中国人真的富了吗?,解读,吸烟的危害,2025/5/18 周日,25,定量分析 陆立强 复旦大学数学系,轻信统计,后患无穷,案例,2,中国知识分子真的短命吗?,数据,指标,平均期望寿命,2025/5/18 周日,26,定量分析 陆立强 复旦大学数学系,第一部分 数据的获取,2025/5/18 周日,27,定量分析 陆立强 复旦大学数学系,第二章 抽样调查,2025/5/18 周日,28,定量分析 陆立强 复旦大学数学系,抽样调查,定义:,针对样本的观察,属于观察研究的一种,特点:,可行:质量检验;普查登记质量检验,可用(及时):,CPI,我国,CPI,统计中包括:食品、烟酒及用品、衣着、家庭设备用品和维修、医疗保健、交通通讯、娱乐教育、居住。,根据抽样选出近,13,万户城乡居民家庭的消费习惯,在,8,大类中确定,262,个基本分类,并选出,600,种左右具体商品和服务。,可信:民意调查,关键:样本的代表性,2025/5/18 周日,29,定量分析 陆立强 复旦大学数学系,抽样范围:,可以抽取样本的个体集合,例:美国就业率调查,个体,:,有劳动能力者(不包括不愿就业者),总体:全体成年劳动力,样本,:,经抽样得到的近,11,万,6,千名成年人,抽样范围:登记在册的家庭,中国,登记失业率,调查失业率,案例,3.,例,:,中国房价数据,2025/5/18 周日,30,定量分析 陆立强 复旦大学数学系,简单随机抽样,抽样范围中的个体成为样本成员的概率相等,步骤,每个个体编号,用抽签或计算机摇号方法随机生成入选个体编号,例:,以,Excel,为例,分层随机抽样,抽样范围按相似程度分,层,每层随机抽样,各层样本组成总样本,优点:降低成本、便于沟通、减少变异性,城镇居民人均可支配收入,调查,2025/5/18 周日,31,定量分析 陆立强 复旦大学数学系,随机拨号,抽样范围:装电话家庭,步骤,1,按用户比例确定样本地区入选的局号,步骤,2,按每个地段占样本局用户的比例确定样本地段入选的两位分支号,步骤,3,随机生成最后,2,位号码,2025/5/18 周日,32,定量分析 陆立强 复旦大学数学系,分组抽样,抽样范围分组,以组为个体随机抽样,抽中的小组普查,系统抽样,抽样范围分组(等长),小组编号,随机选号,各组同号作为样本,2025/5/18 周日,33,定量分析 陆立强 复旦大学数学系,综合抽样,适合:全国范围的抽样调查,步骤,分层确定单元:以省,(,市,)/,区,(,县,)/,街道,(,乡镇,),为单元,分层选取若干单元,分层确定小区:将入选单元按社区(村)分层选取若干小区,例:我国于,2005,年底开展了全国,1%,人口抽样调查工作。这次调查以全国为总体,以各省、自治区、直辖市为次总体,采取综合抽样方法。最终样本单位为,调查小区,。这次调查的样本量为,1705,万人,占全国总人口的,1.31%,。,2025/5/18 周日,34,定量分析 陆立强 复旦大学数学系,抽样中的常见错误,采用错误的抽样范围,过覆盖:超过总体(不常见),欠覆盖:不达总体(较常见),电话调查,入室调查,路边调查,采用志愿者样本,志愿者样本:通过广告等宣传手段征集到的个体,网络调查的最大问题,2025/5/18 周日,35,定量分析 陆立强 复旦大学数学系,抽样中的常见错误,响应率不足,响应率:提供有效信息的个体在样本中所占比例,响应者不能代表未响应者的意见,原因,1,:没有和样本中成员直接接触,原因,2,:被调查者不配合或者不在家,案例,4 1936,年美国大选结果预测,文摘,预测失败,盖洛普一举成名,2025/5/18 周日,36,定量分析 陆立强 复旦大学数学系,第三章,实验和观察,2025/5/18 周日,37,定量分析 陆立强 复旦大学数学系,从数据中探寻规律,实验性科学规律的发现离不开数据处理,解释量和响应量,定义:,研究者关注的变量中,其自身的变化可以导致(或部分导致)其他变量变化发生的变量称为,解释量(因),,其他的量称为,响应量(果),例:新生儿体重变化研究,案例,5,:阿司匹林和心脏病研究,解释量不唯一,响应量唯一,宏观经济受投资、出口、消费三个因素影响,解释量和响应量不易鉴别,秃顶和心脏病,2025/5/18 周日,38,定量分析 陆立强 复旦大学数学系,混淆量,对响应量有作用并且和已有解释量无法区别的因素,例:吸烟孕妇所生子女智商较低,响应量:子女智商,解释量:孕妇吸烟,混淆量:营养、受教育程度,例:学历越高和收入越高,响应量:收入,解释量:受教育年限,混淆量:能力、家庭背景,发现和确认混淆量是推动科学进步和社会发展的一大动力,2025/5/18 周日,39,定量分析 陆立强 复旦大学数学系,交互量,解释量,A,的作用依赖于解释量,B,的作用,称,B,是,A,的交互量,吸烟孕妇所生子女智商较低,交互量:吸烟数量、运动量,关系:坚持运动的吸烟孕妇的子女智商没有降低,吸烟数量和运动量有相互作用,实验和观察,观察研究:除了解释量、响应量外,无法保持其他因素相同。因而,无法排除混淆量的存在也无法确认交互量的作用,实验研究:除了解释量、响应量外,保持其他因素相同,理,论上,实验研究的结果可信度高于观察研究。,实际上,实验研究不是万能的,某些人为处理的解释量不人道,某些人为处理的解释量不可行,观察研究是不可缺的,是实验的基础,2025/5/18 周日,40,定量分析 陆立强 复旦大学数学系,关于实验的,基本术语,实验对象:,实验中的个体,实验主体:,实验对象中的人,实验因素,:实验中的解释量,水平:,实验因素的不同取值,处理方式:,对实验对象所施加的人为影响,即各种实验因素水平的一种组合,试验组:,接受真正处理的实验对象,对照组:,不接受真正处理的实验对象,2025/5/18 周日,41,定量分析 陆立强 复旦大学数学系,如何设计一个好的实验,安慰剂:,外观和实验药物相同但没有效果也无副作用的食物,一般用于对照组,使用安慰剂可以避免实验对象的心理作用对实验效果的影响。即将心理作用从混淆量中排除,是否具有对照组是检验医学实验科学性的重要指标,2025/5/18 周日,42,定量分析 陆立强 复旦大学数学系,如何设计一个好的实验,事前准备:,明确解释量和响应量,确定处理方式,例,:广告对购买行为的影响,例:麻醉物品对驾驶能力的影响,例:小班化教学,小班化教学的实验,2025/5/18 周日,43,定量分析 陆立强 复旦大学数学系,如何设计一个好的实验,实施方法,(完全)随机比较实验,为实验对象随机指派处理方式,例:是否服用阿司匹林、新生儿是否听心跳声,逻辑基础,通过随机指派,实验组和对照组除了处理方式不同外,其他未知因素,在平均意义上,是相同的。如果实验结果表明两组的响应量呈现某种差异,那么可以认为处理方式的不同是导致差异发生的原因。,2025/5/18 周日,44,定量分析 陆立强 复旦大学数学系,如何设计一个好的实验,完全随机指派不总是可行的,实验对象数量不够,存在混淆量,例:性别对于药物疗效的影响,例:家庭生活对病人康复的作用,配对实验,要求实验对象在某些条件上相同或者相似,处理方式随机指派给实验对象。常见的一种配对实验是以随机的顺序对,同一,实验对象施以不同的处理方式,这时,实验组和对照组相同。,例:麻醉物品对驾驶能力的影响,2025/5/18 周日,45,定量分析 陆立强 复旦大学数学系,如何设计一个好的实验,分块设计,将实验对象按已知的混淆量(如:性别、年龄、社会地位、收入等)分块(组),对块中对象分别施以,随机处理。,例,:农田耕作试验,分块试验可以对不同的块得到更加确切的结论,弥补了随机试验因无法区别实验对象自然差异而招致对其结论普遍性的怀疑。,研究结果必须指出其来源,即所在的块,否则也会误导读者。,2025/5/18 周日,46,定量分析 陆立强 复旦大学数学系,实验中的问题及其处置方法,霍索恩效应,定义:心理作用对实验结果的影响,解决方法:采用双盲试验,单盲实验:实验人员或者实验对象知道处理方式的实验,例,:,打坐是否有助于减肥,双盲实验:实验人员和实验对象不知道处理方式的实验,例:药物临床试验,2025/5/18 周日,47,定量分析 陆立强 复旦大学数学系,实验中的问题及其处置方法,混淆量被提升为解释量,解决方式:通过随机方式使混淆量有相同的机会同时出现在实验组和对照组,例:是否有家庭成员吸烟对戒烟的作用,忽略了交互量的作用,解决办法:同,时研究相关的交互量,并在研究报告中加以披露,例:家庭成员吸烟的多少,真实性和普遍性,增强实验环境的真实性,2025/5/18 周日,48,定量分析 陆立强 复旦大学数学系,案例,6,:尼古丁膏药的功效,志愿者:,240名,20-65岁,健康,最近一年中每天吸烟至少20支,想戒烟.,实验过程:,实验组:每天一张含,22,毫克尼古丁膏药,,对照组:安慰剂,时间:八周,方法:双盲,结果:,实验组有46%戒烟;对照组则为20%.,一年后,这个数字有所降低,但实验组的比率还是高于对照组,2025/5/18 周日,49,定量分析 陆立强 复旦大学数学系,观察研究,案例:脱发和心脏病,观察,665,名因心脏病首次发作而住院的男性,脱发约有,42%,772,名患其他疾病的男性住院病人,比例为,34%,。,初步结论:脱发男性患心脏病的可能性比只有少许脱发或者不脱发的男性要高,进一步研究:研究人员利用可靠的统计实验手段发现不管男性的典型性脱发程度如何,都会使其患心脏病的风险增加。,推测:脱发和心脏病如此密切可能源于第三个因素,比如男性荷尔蒙,。,2025/5/18 周日,50,定量分析 陆立强 复旦大学数学系,最常见的观察研究:病,例对照研究,方法,分组:病例组、对照组,病例对照研究,VS,配对设计,分组得当,则效果相似,只是处理方式不是随机指派,优点,自然,设计得当可,以排除混淆量,2025/5/18 周日,51,定量分析 陆立强 复旦大学数学系,观察研究中的问题及其处置方法,把两种变量间的联系当成因果关系,地震和井水水位上升,解决方法,1:,列举出所有可能的混淆量,解决方法,2:,病例组和对照组的条件相似,不适当地扩大结论的适用范围,扩大采样范围,明示样本范围,过分依赖历史数据,回溯式观察,展望式观察,2025/5/18 周日,52,定量分析 陆立强 复旦大学数学系,如何判断因果关系,科学的实验方法,但实验绝非万能,自由贸易是贫富分化的根源?,某种药物会导致先天缺陷?,一般判断准则,较强的关联,普遍的关联,响应量效应和解释量大小成正比,解释量先于响应量而存在,关联是可以解释的,2025/5/18 周日,53,定量分析 陆立强 复旦大学数学系,第四章,如何解读研究性报道,2025/5/18 周日,54,定量分析 陆立强 复旦大学数学系,判断研究的类型,判别数据的可信度(第二章),根据,1,确定的研究类型,判断研究过程、研究方法是否存在某些不足,数据所表示的效应或区别的重要程度,判断结论的有效范围,自己是否可以对此现象找到另外的解释,2025/5/18 周日,55,定量分析 陆立强 复旦大学数学系,案例,7:,统计与法律,表,6.1 1973,年,9,月,-,12,月因酒后驾驶被捕人数统计,男性,女性,18-21,岁,21,岁,合计,18-21,岁,21,岁,合计,酒后,427,4973,5400,24,475,499,酒醉,966,13747,14713,102,1176,1278,合计,1393,18720,20133,126,1651,1777,表,6.2,驾驶员血液酒精含量随机调查,男性,女性,=21,合计,=21,岁,合计,含量,0.01,55,357,412,13,52,65,总数,481,1926,2407,138,565,703,比例,11.40%,18.50%,17.10%,9.40%,9.20%,9.20%,2025/5/18 周日,56,定量分析 陆立强 复旦大学数学系,案例:统计与法律,类型:观察+抽样调查,数据的可信度:路边随机抽样如何进行,不足问题处置:,表一 男性驾驶更易被检查;,表二 检查地点靠近体育场,那里刚打完一场比赛;,显著性不够:,信息完整性:,实际意义:有意义,1973年美国法定饮酒年龄不到21岁,解释:,表一:男性驾驶员更容易被检查;,表二:含量超标者为11.4%,VS 9.4%,结论:最高法院认为:在青少年饮酒问题上没有证据表明两性间有明显的差别,俄克拉荷玛州的法律无效.,2025/5/18 周日,57,定量分析 陆立强 复旦大学数学系,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服