收藏 分销(赏)

NGSv1.0(FBAT部分).doc

上传人:xrp****65 文档编号:7015048 上传时间:2024-12-24 格式:DOC 页数:9 大小:172.30KB
下载 相关 举报
NGSv1.0(FBAT部分).doc_第1页
第1页 / 共9页
NGSv1.0(FBAT部分).doc_第2页
第2页 / 共9页
点击查看更多>>
资源描述
FBAT软件 1. 背景 目前,人们对单基因病以及复杂疾病的关联研究主要是采用基于人群的GWAS分析(case-control study)。但是,GWAS分析往往价格昂贵,而且对于一些稀有的疾病来说,很难找到足够的病人样本来进行GWAS分析。而这些疾病往往具有家族遗传性,因此,基于家系的关联研究关联分析技术在这个时候就显得尤为重要。由哈佛大学和Golden Helix INC 联合开发的FBAT软件是目前应用最为广泛的基于家系的统计分析工具。[1]它可以将病人的家系信息应用到关联分析中来,而且可以处理父母基因型丢失、多重性状、数量性状等复杂情况。 下载地址:http://biosun1.harvard.edu/~fbat/fbat.htm 从上面可以选择不同的操作系统版本下载软件。下面的几个文件是软件说明,比较长,但提供信息很详实。 2. 基本原理 2.1 传递不平衡检验(Transmission Disequilibrium Test, TDT) 本质上,TDT检验的是病患子女某个位点的基因型频率和按照孟德尔遗传规律的预期值之间的差异。举例说明,父亲的基因型是,母亲的基因型是,则子女的基因频率预期为,。观察值和预期值之间就可以运用不同模型做统计检验。 TDT 分析的优势在于可以排除人群混杂对于关联分析的影响, 其弱点在于其发现阳性关联的检验效能低于相同样本量的病例对照研究。 2.2 FBAT/PBAT FBAT是基于TDT原理的一个升级版分析软件。将多家系和大家族等因素考虑到模型之中,大大增强了实用性。假设我们有个家系,以下标来编号,家系中有个后代,以编号。 对于某个位点有,零假设:本家系中,该位点和疾病没有关联。 以代表基因型(0/1/2编码;如果是多碱基杂合的情况,转换成向量;下面统一以向量处理),根据父母的基因型,基于零假设,我们可以推断出病患子女在这个位点基因型的概率,记为;代表性状(,代表原始的性状信息,可以是数量也可以是0/1编码;为一参数,数量性状是应取各样品的平均值),定义 [2] 在样品量足够大的时候,近似地[3],由此我们就可以做统计检验,并计算p-value,再根据p值去判断某个位点是否与疾病相关。而PBAT相当是FBAT的升级版本,除了提供质量性状(Qualitative trait)和数量性状(Quantitative trait)的关联分析,也能提供相关的功效计算。 3. 使用方法及其实例 以下以windows版本的FBAT软件 (v2.0.3) 为例说明一下它的使用方法。 3.1 输入文件 一般输入文件为*.ped格式,具体格式如下: 格式说明:第一行是SNP位点编号。从第二行开始,每一行代表一个样本的信息。每一列的内容分别代表的意思是:家庭编号,样本编号,父亲编号,母亲编号(这两个如果没有就用0表示),性别(1=男,2=女),患病程度(2 = affected, 1 = unaffected, 0 = unknown),第一个marker基因型(1、2表示显、隐性,0表示missing,每个marker的基因型占两个数字,比如1 1表示显性纯合) 格式英文版: pid id fid mid sex aff A11 A12 A21 A22 … Pid pedigree ID Id Individual ID Fid father ID Use 0 (zero) for founders or marry-ins (parents not specified) in a pedigree Mid mother ID Use 0 (zero) for founders or marry-ins (parents not specified) in a pedigree Sex 1 = male, 2 = female Aff affection status 2 = affected, 1 = unaffected, 0 = unknown Aij allele j of marker i (j=1,2; i=1, 2,…) Alleles are represented by positive integers. Use 0 (zero) for missing alleles. 3.2使用界面 FBAT设计了一个命令行界面,所有操作都由命令完成。 3.3 设置输出文件 (log) 通过这个设置,所有屏幕显示内容将被保存在screensave.txt这个文件里面。 3.4 输入文件 (load) 通过这个操作,可以输入CAMP.ped文件,下面是系统读取的文件信息。 3.5开始分析 (fbat) 输入fbat命令开始分析。 屏幕显示的就是分析结果,输出结果会将每个位点的显、隐性等位基因分别显示。fam#指的是在这个位点能提供有效数据的家庭数。 3.6 帮助 (?) 这里将显示所有命令及其意义。 3.7 退出 (quit) 退出,程序窗口将自动关闭。 4. 参数 4.1 默认参数 Displayp 1.0 (implying that no test result is suppressed) Minsize 10 (implying that the test statistic is not computed when less than 10 informative families are available) Model Additive Mode Bi-allelic (implying that one allele is tested against all other alleles) Trait Dichotomous affection status 4.2 参数意义及修改 Displayp (默认p值) p值高于这个值的位点将不予显示 Minsize (最小家庭数) 提供信息的家庭数小于这个值的位点将不予显示 Model (?) &……%¥ Mode (模式选择) ***** Trait (&&&) ((&*(&*( 修改参数方法:输入命令——参数名,空格,新参数值。 修改参数后,再次输入fbat即可用新的参数重新计算。 5. 影响因素 5.1. 数据规模 理论上,可以提供信息的父母子三角大于10,就能满足[3],但是在统计学上,不清楚具体分布的情况下,使用中心极限定理,通常要求抽样超过30次[4],此处应理解为可以提供信息的父母子三角数大于30。 而数据规模会对家系分析的效率(Power)有所影响。 下面是一个模拟的实验,观察可以提供信息的家庭的数目(假设每个家庭都是由父母子组成的trio)对基于家系的关联分析效率的影响。 假设在理想状态,即遗传标记于致病基因上,流行病的流行率,致病等位基因频率,相乘模型,贡献度;罕见病的流行率,致病等位基因频率,相乘模型,贡献度。 我们可以看到,随着家庭数目的增加,FBAT/PBAT的功效有一个比较明显的提高。另一方面,我们可以看出基于家系的关联分析对罕见疾病的功效相对明显。如果以Power=0.8作为标准,我们不难看出FBAT/PBAT分析对于样本量大小的要求分别为:90 Families (Common Disease), 70 Families (Rare Disease). 5.2. 家系成员 每个家系的组成成分对基于家系的关联分析有着潜在的影响,因为当父母缺失的时候,我们需要多子女来弥补这个缺失,下面我们的power估算将会围绕这一因素展开。 罕见疾病:流行率,相乘模型,致病等位基因频率,贡献,(相对风险,)。显著限。[5] 流行疾病:流行率,相乘模型,致病等位基因频率,贡献,(相对风险,)。显著限。[5][3] 三种家系类型分别为,经典的核心家庭(trio, 病患后代以及其父母),患病兄弟对(DSP,兄弟姐妹俩,没有父母,必须其中一人患病,另一人无病),三患病后代无父母,三小孩无父母(一人患病)。 我们利用PBAT自带的0/1性状功效计算器,使用Monte-Carlo模拟得到功效值。 我们可以看到,如果一个家庭有三个小孩患病而没有父母信息,我们可以从中得到很高功效的结果。但是这种情况往往并不常见,更多的三口之家的家庭结构功效略低于前者。而如果有三个小孩中,其中只有一个患病,通过对这三个小孩的测序,也可以达到与trio相仿的功效。值得一提的是,如果父母的基因型缺失,如果我们能够得到患病兄弟对的基因型,通过FBAT/PBAT的分析也仍然可以得到具有相当功效的结果,只是对兄弟对的数量有一定的要求。 5.3. 特殊家系 医学上,一些非常罕见的遗传疾病,如Schinzel-Giedion Syndrome等疾病,无法进行大规模的人群研究,那么就只能着眼于几个情况比较特殊的家庭,例如父母无病而后代得病的情况。由于取样的特殊性,可以大大地提高TDT检验的功效,在较小样本量的情况下也能有效地检测出高风险的基因。[7] 6. 讨论 2006年4月,由Alan Herbert等人通过基于家系的关联分析,轰动一时的肥胖基因INSIG2得以被发现。[8]从此之后关于这个基因的争论也从未停息。2007年Smith等人,已经证明了INSIG2在高加索人、加勒比黑人、印度人与肥胖无关。[9]至于INSIG2是否与肥胖有关,还有待进一步的验证。 基于家系的关联分析所得到的SNP位点在人群无法被验证,已经是屡见不鲜。 疾病的成因有很多,包括遗传因素和环境因素。SNP得不到验证,本质问题不在基于家系还是人群,而是在于GWAS。关联分析是基于CVCD[10]假说,根据连锁不平衡原理。所以关联分析环境和条件控制不好也可以得到一些荒谬的结论。[11] 6. 参考文献 [1]复杂疾病全基因组关联研究进展——遗传统计分析; 严卫丽; DOI: 10.3724/SP.J.1005.2008.00543 [2] The family based association test method: computing means and variances for general statistics; Steve Horvath, Xin Xu, Nan M. Laird [3] Family-based designs in the age of large-scale gene-association studies; Nan M. Laird, Christoph Lange; Nature Reviews Genetics, May 2006, Vol 7, 385-194 [4] 统计学(第三版);贾俊平,何晓群,金勇进;ISBN 7-300-07751-X/F·2635 [5]Power Calculations for a General Class of Family-Based Association Tests: Dichotomous Traits;Christoph Lange, Nan M. Laird; American Journey Human Genetics 71:575–584, 2002 模拟实验参数 [6]http://pngu.mgh.harvard.edu/~purcell/gpc/dtdt.html 功效计算器 [7] De novo mutations of SETBP1 cause Schinzel-Giedion syndrome; Nature Genetics: Published online 2 May 2010; doi:10.1038/ng.581 [8] A Common Genetic Variant Is Associated with Adult and Childhood Obesity; Alan Herbert, Michael F. Christman; SCIENCE VOL 312 14 APRIL 2006 P279-283 [9] INSIG2 gene polymorphism is not associated with obesity in Caucasian, Afro-Caribbean and Indian subjects; A J P Smith, J A Cooper, L K Li and S E Humphries; International Journal of Obesity (2007) 31, 1753–1755; doi:10.1038/sj.ijo.0803645 [10] CVCD=common variation, common disease [11]遗传学中的统计方法;李照海,覃红,张洪;
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 百科休闲 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服