ImageVerifierCode 换一换
格式:PPT , 页数:63 ,大小:2.91MB ,
资源ID:10296061      下载积分:16 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10296061.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(第七讲差异表达分析.ppt)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第七讲差异表达分析.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七讲,Quantile Normalization,使每张芯片/通道的强度值有相同的分布(intensity distribution),Quantile normalization,Before,After,Quantile normalization,差异表达基因分析,单张cDNA芯片差异表达基因,差异表达基因分析,基因表达谱芯片实验的主要目的之一是发现两个样本间差异表达基因。,通常采用基因在实验组和对照组中信号的比值作为衡量基因在两种状态下基因的表达差异,在双色荧光系统中,用Cy5/Cy3的比值来衡

2、量基因的表达差异,也称表达差异值。在Affymetrix等短的寡核苷酸芯片中,采用单色荧光标记的方式,实验组和对照组分别用两张芯片进行检测,表达差异值即为两张芯片的信号比值。,噪声和芯片本身的一些因素以及生物学本身的特点给筛选差异表达基因带来了很大的麻烦。必须设定一个差异表达基因的判定标准。这个筛选的标准就称为差异表达基因的阈值。,倍数法,倍数法,倍数法是比较常用的一种方法,因为比较简单和直接。,但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别域值为2倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断域值,又有可能增大假阳性率。

3、这一方法没有考虑到差异表达的统计显著性。,Z值法,在一张cDNA芯片上一般都点了很多基因,其实这些基因中只有很小一部分表达有差异,所以一般都假设表达的比率值满足正态分布。,Z=(X-)/,.|Z|=1.96,在寡核苷酸芯片中,芯片上的基因在相应实验条件下或相应组织中也只是有很小一部分基因有表达,可以假定强度满足对数正态分布,同样可以对其作Z变换,使其具有统计意义。,如果实验体系中没有一条差异表达的基因,Z值法还是会挑选出5的差异表达基因。这是因为在芯片实验中,总有一些由于背景噪声产生的假阳性点。如果实际上实验中有大量的基因发生表达改变,Z值法还是机械的找出5的差异表达基因,丢失了一部分真阳性

4、点。,一般性的方法,选择一个统计量给基因排秩来证明表达有差异,为排秩统计量选择一个判别值,在它之上的值将被认为是显著的,前面一个部分更为重要,所以研究的较多,方法也更多,后面那部分的方法稍微简单,重复芯片(replicates)M值,根据比率平均值或 对基因排序。M值为信号强度比值的log2值,是任一特定基因在重复序列中M值的均值。,这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度。例如,可能某一个基因在某一张芯片上M值很大,但在其他芯片上M值很小,其实这条基因并没有差异表达,但由于个别M值的影响,从而显示出一个差异表达的特性,造成假阳性。,T值排序,假如一个基因在几张重复芯

5、片的M值都很小,但是这些M值非常接近,所以s值也非常小,这样可能会导致t值很大,从而会把这个本没有差异表达的基因误认为差异表达。,修正的T值,修正值由样本方差的均数和标准差估计而得。结果显示:在一个模拟的数据集中,虽然带有一些经验性质,但用修正t-统计量给基因排秩比用均数和一般的t-统计量效果要好。,单通道寡核苷酸芯片差异基因(两个样本直接比较),Affymetrix,illumina芯片由于有探针重复,可以利用统计方法计算出一个统计性的P值或者score值,筛选差异表达基因,不同类样本差异基因识别,评价一组数的统计量,平均值 标准差,232.7,198.2,137.7,84.3,218.6,

6、181.5,216.7,87,比较多组数的方法,T检验:平均值,F检验:方差,SAM(significance analysis of microarrays),单通道Oligo芯片,尤其是affymetrix芯片数据分析用得较多,双通道cDNA芯片数据分析用得较多,False Discovery Rate(FDR),错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者P值,使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控制错误发现率(False Discovery Rate)的

7、方法来判断差异基因。,Multiple test(Pvalue adjustment),火山图(volcano plot),Statistical test:Pvalue,Fold change:Ratio,其他方法,B-statistics(Smyth,2004),Bayes T-test(Baldi and Long,2001),SAMROC(Broberg,2002),Zhao-Pan method(Zhao and Pan,2003),Improved Detection of Differentially Expressed Genes,Time series microarray

8、dataset,聚类分析,基因表达数据矩阵,(Affymetrix GeneChip oligonucleotide arrays),sam/ref,基因表达数据矩阵,(glass slides),数据矩阵具体形式,数据形式,数据矩阵,基因数远大于样品数,对任意一个基因来说,样本值是特征值,数据的维数是M,对任意一个样本来说,基因值是特征值,数据的维数是N,聚类时考虑基因之间的相似性,从数学上讲就是看对应的M维数据之间的相似性,Cluster&Treeview软件,Cluster&Treeview软件,Genesis软件,预分析(Pre-Analysis),重复值合并(replicate ha

9、ndling),数据转换和标准化(data transformation and standardization),缺失数据处理(missing value management),基因筛选(pattern selection),重复值合并,基因不同命名,重复值合并,Gene ID converter,重复值合并,在特定条件下把所有的重复值合并成一个数值可能更为方便,而这一个值是给定基因/条件的代表。,通常的合并是指计算这些重复值的集中趋势指标,如均数、中位数或众数。然而,使用一个集中趋势指标代替一组数值意味着信息的丢失,因此数据的合并应谨慎。,去除奇异值。可以通过计算原始数据的均数和标准差,

10、去除位于给定区间外的数据(如均数加减3个标准差外的数据)。剩余的数据重新计算均数和标准差,并消除给定区间外的数据。,数据转换和标准化,数据变换的目的是在尽量保证原始数据特征不变的前提下,使变换后的数据更适于进行统计分析。,对数转化(log-transformation),中心化处理(center),单位圆化,正态化(均值为0,方差为1),缺失数据处理,芯片上的某些点可能因为芯片的缺陷、点像素强度达到饱和、点像素强度非常小等因素而产生异常的数据点,在数据的预处理阶段把这些数据点删除。,未观测点,若后续的统计分析要求数据满足完整性,如特征基因提取的奇异值分解、某些基因的聚类分析方法等,则需要对含有

11、缺失值的数据进行处理,删除含有缺失值的整条记录,这种方法操作简单,但却因为个别值的缺失而删除整个记录,可能丢失大量有价值的信息,填充或修补缺失数据,缺失数据的处理,固定值法,比如0或者1,行平均法,使用重复数据点对缺失数据进行填充。对于生物学重复中缺失数据的填充应慎重,应当使用尽量同质的样品对缺失值进行估计。,使用基因间的相关性对缺失数据进行填充。奇异值分解法,KNN法。,其他方法,最小二乘法拟合修补,方差迭代分析,最大可能性分析,KNN法,K最近邻法(K-nearest neighborhood method):假定某个基因在某个指标上含有缺失值,计算此包含缺失值的基因与在该指标上无缺失的基

12、因间的相似性指标或距离指标(相似性或距离的计算中不包括欲估计的指标),与该基因相似性最大的K个基因称为该基因的K个最近邻(k nearest neighborhoods),这K个基因在该观测指标上的数据就是估计缺失基因数据的基础,估计值可以是这K个基因在该指标上的均数,也可以是这K个基因的加权均数。在加权均数中,权重为上面计算的基因间的相似性。K值的确定具有一定的经验性,但不宜太大和太小。,基因筛选(gene selection),在进行分析之前,要先选择用来分析的基因。不然所有的基因有上万条,也就是数据矩阵有上万行时,既增加了运算的难度,又引入了不必要的基因,也增加了解释结果的难度,要预先进

13、行基因的滤取。,当一条基因表达谱数据中的无效数据个数超过一定的范围时,这条基因就认为是一条无效基因,在以后的聚类分析中不把这条基因考虑在内。,一条基因表达谱数据的波动很小,也就是说,数据的方差小于一定的范围,意味着这条基因与所要研究的生物过程或对象关联很小,也被滤掉,不进行聚类分析。,差异表达次数,基因筛选,针对特别目的选取,比如选取不同类之间差异表达基因。常用的方法,假设检验,比如t检验,F检验等,不改变整体数据矩阵的数据结构,去除数据的冗余性。常用方法,主成分分析等。,发展,新算法,新角度,合并多种方法,主成分分析(Principle Component Analysis),降维概述,降维

14、是指将样本从输入空间通过线性或非线性映射到一个低维空间。,降维可以减少无用信息和冗余信息,将高维数据转换为易于处理的低维数据,减少了后续步骤处理的计算量,当降至三维以下时还可用于可视化技术,,,从而发挥人在低维空间感知上的优点,发现数据集的空间分布、聚类性质等结构特征,。,主成分分析,(PCA,principal component analysis),对于一组原始随机变量为X,1,X,p,,寻找一个新的变量Z,1,,这个新的变量是原始变量的线性组合,Z,1,=a,11,X,1,+a,21,X,2,+a,p1,X,p,,并使得Z,1,的变异最大化,Z1即为原始变量的最大主成分,它使用一个变量试图最大化地包含一组变量的变异。通常一个变量还不足够,因此,需要寻找第二个主成分Z2,Z2与Z1不相关,且是除Z1外具有最大方差的原始变量的线性组合。,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服