1、计量资料也称数值变量资料,是定量数据;其特点是能用数值大小衡量其水平的高低;可分为连续性和离散型数据;一般用度量衡单位表示,如身高(cm)、体重(kg)、浓度(mmol)、脉搏(次/分)、血磷(mmol/L)、血红蛋白(g/L)等如:如调查儿童生长发育状况时,以人为观察单位,每个人的身高(cm)、体重(kg)和血压(kPa)等数值为计量资料。计数资料也称无序分类变量资料,是定性数据;是先将观察对象的观察指标按性质或类别进行分组,然后计数各组观察指标的数目所得的资料;各类别之间有性质上不同,而无程度上差别;如调查某人群性别分布,计数所得该人群的男女人数;调查血型分布,按照A、B、AB、O四型分组
2、,计数所得该人群的各血型组的人数。等级资料也称为半定量数据或有序数据;将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数;各类别之间有程度上的差别,兼有计数资料的特性,同时又兼有半定量的性质;如,疗效分为治愈、显效、好转、无效;临床化验中,将化验结果按、+、+、+分组,计数得到每组病人数。4计量、计数、等级资料的相互转化如每个人的血红蛋白数据属计量资料;若按血红蛋白正常与异常分为两组,得出各组的人数属计数资料;若按血红蛋白含量的多少分为5个等级:160 g/L(增高)。同质(homogeneity)是指根据研究目的所确定的性质相同的观察单位(研究个体)或指观察单位(研究个体)间
3、被研究指标的影响因素相同。案例调查2005年杭州地区60岁以上男性老人糖尿病的患病率同质:杭州地区、到2005年调查时满60岁以上的男性老人变异(variation)由于生物个体的各种指标所受影响因素复杂,同质的个体间各种指标观察值不同,存在差异。同质基础上的各观察单位(亦称为个体)之间的差异为变异同种族、同年龄、同性别的健康人,在相同的条件测其脉搏、呼吸、体温等生理指标可以有很大差异在临床治疗中,用同样的药物治疗病情相同的病人,疗效也不尽相同。总体(population)根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。总体可分为无限和有限的总体研究华北地区成年人的
4、血液红细胞的正常值,则华北地区成年人为研究总体(有限总体)研究人体衰老状态时进行肾虚辨证,则所有正常人为研究总体(无限总体)样本(sample)从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。医学研究的对象,一般都是数量巨大的群体,在实际工作中,我们不可能对所有正常人进行观察,只能抽取其中的一部分进行研究,所抽得的部分就是样本。根据样本的结果,利用机率来推断总体的情况。如:从人体抽取少量血液进行化验分析,根据抽取的血液化验的结果来推论机体血液的情况。因此,样本的代表性是一很重要问题。样本包含的个体数目称为样本含量(sample size)总体与样本总体与样本 popula
5、tion and sample总体总体:根据研究目的确:根据研究目的确定的定的同质同质研究对象的研究对象的全全体体(集合),分为有限(集合),分为有限总体与无限总体总体与无限总体.样本样本:从总体中随机抽:从总体中随机抽取的部分研究对象取的部分研究对象.参数(parameter)根据总体分布的特征而计算的总体数值,即总体的统计指标。如研究某年某地50岁以上的男子慢性支气管炎的患病情况,该地所有50岁以上男子慢性支气管的患病率即为总体参数。总体参数用希腊字母代表,如总体均数()、总体率()、总体标准差()统计量(statistic)由总体中随机抽取样本计算的相应指标,即样本的统计指标。如用随机方
6、法从该地抽取一部分50岁以上男子来调查其患病情况,计算的患病率即为统计量。样本统计量用拉丁字母表示,如样本均数()、样本率(p)、样本标准差(s)等。参数与统计量参数与统计量总体总体样本样本抽取部分观察单位抽取部分观察单位 统计量统计量 参参 数数 统计推断统计推断误差(error)泛指研究所测得值与真实值值差。测量值测量值=真值真值+随机误差随机误差+非随机误差非随机误差非随机误差:受确定因素影响,大小变化有方向性,是偏差(bias),应尽量避免,包括系统误差、过失误差随机误差:影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析,包括随机测量误差、随机抽样误差误差(error)系统
7、误差(system error)在收集资料的过程中,由于仪器设备、标准试剂、疗效判定标准等不准确,使测定结果呈倾向性的偏大或偏小,这种误差称为系统误差。可直接影响原始资料的准确性,必须予以校正,尽可能避免。误差(error)随机测量误差(random measurement error)由于随机误差的形成取决于测定过程中一系列随机因素,这些随机因素是实验者无法严格控制的,因此,随机误差一般是不可避免的,往往无固定的大小和方向,但有一定的统计规律,分析工作者设法将它减小,控制在允许范围内,但不可能完全消除它。如,可以通过多次测量获得的均数,对真实值进行准确的估计。误差(error)抽样误差(sa
8、mple error)由抽样引起的,样本的数据构成的统计指标与总体的该统计指标有误差,这种差异称为抽样误差。由于个体之间变异客观存在,抽样时只抽取了总体的一部分,因此,抽样误差不可避免。抽样误差有一定的规律,一般来说,样本含量越大,抽样误差越小,样本的观察指标越与总体的该指标接近,即越能说明总体规律。误差(误差(error)系统误差(系统误差(system error)随机测量误差(随机测量误差(random measurement error)抽样误差抽样误差(sampling error)必须克服必须克服 应采取措施,尽最大可能在一定的允许范围内应采取措施,尽最大可能在一定的允许范围内 用
9、统计方法进行正确分析用统计方法进行正确分析 18概率(probability)是描述随机事件发生的可能性大小的量值。常用符号P表示,范围在0与1之间,取值0,1。随机事件(偶然事件):可能发生也可能不发生的事件,其概率介于0到1之间。必然事件:肯定发生的事件,其概率为1。不可能事件:肯定不发生的事件,概率为0。小概率事件:统计学上,习惯上把P0.05或P0.01的事件称为小概率事件,表示某事件发生的可能性很小。P P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1)称为称为小概率小概率事件事件(习惯习惯),统计学上认为不大可能发生。,统计学上认为不大可能发生。小概率事件小
10、概率事件CertainImpossible0.501必然事件必然事件 P P=1=1随机事件随机事件 0 0 P P 14.6;该单位炊事员高与正常人的平均血清总胆固醇=0.05假设检验步骤II步骤2本例中已知 n=25,=5.1(mmol/l),s=0.88(mmol/l),0=4.6(g/l),则检验统计量t:=4.695%X=5.1假设检验步骤III步骤3=25-1=24,查自由度为24的t界值表(单侧),t0.05,24=1.711,P(|t|2.841)0.00250.05P P0.05,0.05,按按 =0.05=0.05的水准,拒绝的水准,拒绝H H0 0,接受接受H H1 1,差别有统计学意义,认为该,差别有统计学意义,认为该单位炊事员血清总胆固醇平均水平单位炊事员血清总胆固醇平均水平高于正常人。高于正常人。