第3讲基因-环境交互作用研究概况 联系客服

发布时间 : 星期六 文章第3讲基因-环境交互作用研究概况更新完毕开始阅读6f334e5ec5da50e2524d7fa0

尽管Logistic回归可以采用逐步回归的方法从大量的自变量中筛选出一部分有统计学意义的自变量,然后再建立回归模型,但是这种筛选的方法也存在一定缺陷:如果采用前进法筛选自变量,模型中只能引入有主效应的自变量以及这些自变量的交互作用,从而忽视了只有微弱主效应但存在交互作用的自变量;如果采用后退法,由于需要估计的参数太多,则会导致估计偏差。采用最小的绝对缩减和变量选择算子(LASSO)来筛选自变量可能比以上的筛选方法更为有效。该方法是将自变量中那些很小的回归系数缩减为零,从大量的自变量中筛选出一个集。但LASSO并不一定能实质性地减少预测因子的数量[15]。因此,为了运用Logistic回归模型来分析自变量与疾病之间的关联,需要考虑采用其他方法来筛选重要的自变量子集。

2.多因子降维法

Ritchie等于2001年提出多因子降维法MDR[16],现已被广泛用于识别乳腺癌、2型糖尿病、风湿性关节炎等复杂疾病的潜在交互作用位点[17,18]。

MDR是一种构造性归纳方法,其分析过程如下:(1)将所有观测数据随机分成10个等份,其中9份数据(训练集)用于构造模型,剩余的1份数据(测试集)用于评价模型的拟合效果,即十折交叉验证(ten-fold cross-validation)。(2)在训练集的数据中,从全部的预测因子中选择n个因子(n=l,2…)。(3) n个因子观察值的组合被呈现在n维空间中。例如,假设每个SNP有3种可能的基因型,则对于2个SNP的2因子组合将有9种可能的基因型组合。(4)估计每种基因型组合中病例数与对照数的比值,当比值达到或超过预先确定的某一阈值(如≥1)时,该组合被标记为高危组;当比值小于阈值时,则被标记为低危组。这样就可以将原来的n维模型的维度降低为一维(1个变量2个水平:高危组和低危组)。(5)考虑每一种可能有n因子的组合,重复第2~4步的过程。在所有的组合中,能够使高危组中病例数与对照数的比值达到最大(即训练集中分类误差最小)的n因子组合被选择为最佳的因子组合。对这个最佳的n因子组合,进一步用测试集来验证其预测的准确性。(6)对于第1步中的任一个9/10和1/10的样本,重复第2~5步的过程。最终的最佳n因子组合是所有n因子组合中平均预测准确性最高(平均预测误差最小)且交叉验证一致性(10次交叉验证中,该n因子组合作为第5步中最佳的因子组合而重复出现的次数)最大的一个。(7)通过置换检验确定经验P值,进一步评估该模型是否有统计学意义。

与Logistic回归模型相比,MDR的优点主要有:(1)在单个SNP位点缺乏主效应时,可以同时检测位点间的交互作用;(2)将研究中的多因子组合以疾病易感性的方式分为高危和低危,把高维结构降低到一维两水平,降低了建模所需的自由度,从而可以分析多个位点间的高阶交互作用。

MDR的缺点主要是:(1)如果使用穷尽搜索的方式检测最佳n因子组合,由于该搜索方式非常耗时,MDR只能用于分析中小规模预测变量数的交互作用,而不能用于处理大规模数据(如全基因组关联研究的多个位点)。(2)当数据中存在遗传异质性和拟表型时,MDR的检验效能大大降低。(3)MDR将基因型组合简单地根据病例与对照的比值分为高风险组和

- 9 -

低风险组,当某种组合中病例数和对照数的比值接近于全部观测数据中的比值,或者该组合中病例数和对照数都很少时,MDR很容易发生分类错误,导致假阳性率或假阴性率增高;另外,有些n因子组合的n维列联表的观测数可能为零,此时就很难准确地将该组合归类为高风险组或是低风险组。因此,有必要对MDR进行改进。

3.分类回归树(CART)

CART方法是由Breiman等在1984年提出的一种决策树分类方法[19],可用于发现大规模自变量与分类或连续性结局变量的关系。作为传统回归方法的补充,CART已被广泛用于遗传关联研究中检测基因-基因、基因-环境交互作用。CART包括分类树和回归树,分类树用于分类结局变量,而回归树用于连续性结局变量。两者的构建方法是相同的,均采用递归算法将研究对象划分为不同的组别,使得组内研究对象的异质性达到最小。

分类树是一个二叉树,由根结点、内部结点和叶结点(即终结点)组成。最佳分类树的产生包含两个过程:(1)树的构建:从包含全部观测对象的根结点开始采用自上而下的递归方式在每个结点上对样本集按照分支规则选择分支属性(预测因子),然后按照相应属性的所有可能取值向下建立二分支的子结点、划分训练样本,直到一个结点上的所有样本都被划分到同一个类,或者某一结点中的样本数量低于给定值时为止(叶结点)。分支规则是指根据某一属性进行分支时,该属性能最大限度地区分出两个子结点的结局变量状态。例如,一个子节点的病例所占比例较高,而另一个子结点的对照所占比例较高。CART中最常用的分支规则是基尼指数,用于度量某个节点及根据某属性进行分支得到的子结点的基尼不纯度。根据某属性进行分支时,应使该分支节点基尼不纯度的减少量达到最大;另外,熵函数也是常用的分支规则。(2)树的剪枝:上述过程建立的分类树是根据全部观测对象建立的,树的结点数庞大,容易造成过度拟合的问题。因此,需要对其进行剪枝,去除一些不重要的结点,以增加预测的泛化能力。CART算法采用交叉验证的后剪枝法,并根据复杂度参数来确定最佳树的构建。Cp值综合考虑了被修剪后树的预测误差和树的大小(即复杂度),能使复杂度达到最小的Cp值所对应的树就是所要构建的最佳树。

CART的优点主要是:(1)从根结点到叶结点由许多预测因子组成的每一条路径对应于结局变量的值(即分类规则)。因此这些分类规则包含着预测因子间潜在的交互作用,即高阶交互作用。(2)采用了与传统统计学完全不同的方式构建预测准则,它所构建的预测准则以二叉决策树的形式给出,非常容易理解、解释和使用。

CART的缺点主要是:(1)根结点的初始分支是在预测因子有主效应的条件下进行的;后续内部结点的分支也是在有主效应的条件下,并且依赖于上部结点分支的基础上进行的。因此,当预测因子缺乏主效应时,CART不能检测出纯粹的交互作用。(2)CART的结果非常不稳定,当样本中的数据有很小的变动时,构建的树就有较大的变动,会导致不同的预测结果。

4.随机森林

- 10 -

随机森林是Breiman于2001年提出的一种集成算法[20],它是CART的扩展,是一种利用多个分类树对数据进行判别或分类的方法。随机森林克服了CART中分类结果不稳定的缺点。与CART不同的是,随机森林产生的是大量的分类树,而不是唯一的具有清晰结构的可用于解释基因型一表型之间关联特征的分类树。随机森林在对数据进行分类的同时,还能够计算出各个预测因子对分类影响的重要性评分。研究者可以根据评分大小筛选出相对重要的变量,这些重要的变量很可能就是真正具有主效应、或是与其他变量有交互作用的因子。目前,随机森林已用于哮喘、围产期并发症、老年性黄斑变性等的遗传关联研究中。

随机森林的分析过程如下:(1)从原始样本中进行有放回的抽样,抽取B个自助样本。每个自助样本含量均与原始数据的样本量相同,自助样本中无重复的观察对象约为原始样本的2/3,作为训练样本;剩余1/3的袋外样本作为测试样本。(2)对于每个自助样本,从所有的P个预测因子中随机选择一部分预测因子的子集作为每个结点潜在的分支变量。按这种方式,产生B个未经过剪枝的分类树(即为随机森林)。使用随机森林用于预测时,则根据所有分类树中预测比例最大(投票数最多)的某个分类作为最终分类。(3)对于任意第b个自助样本,采用对应的测试样本对第b棵树进行测试,记录整棵树的不纯性(错误分类率)为,πb;然后,对测试样本的P个预测因子中第j个预测因子进行置换后,用于测试第b棵树,记录其不纯性为πbj。此时第b个样本中第j个预测因子的重要性即为δbj=πbj—πb。(4)对所有的b=1,2…B,计算出第j个预测因子的重要性δbj。(5)最后,第j个预测因子的重要性评分θj以即为上述B个重要性的平均值。在R软件中的random Forest程序包中,可以计算变量重要性的标准化度量,即以θj与δbj标准差的比值。

随机森林的优点主要是:(1)通过随机选取部分预测因子的子集构建随机森林,因此它克服了维度困扰的问题,也克服了数据中预测因子间的共线性问题。同时随机森林不会发生过度拟合的问题。(2)随机森林能够对各个预测因子或成对的预测因子对分类影响的重要性进行评分,有利于筛选重要变量进行进一步的研究。(3)随机森林能检测出只有微弱主效应但有交互作用的SNPs。(4)随机森林还能够处理遗传异质性的问题。

随机森林的缺点主要是:(1)因为随机森林的结果是综合许多不同的分类树而得出的,所以重要变量是如何单独或通过交互作用对疾病产生影响的真实模型对研究者来说是不明确的,即随机森林对交互作用的解释比较困难。(2)当预测因子子集较大时,检测预测因子的联合重要性以获得高阶交互作用,目前在计算上还难以实现。

5.贝叶斯上位效应关联图谱

BEAM是近年来发展的检测有交互作用和无交互作用位点的贝叶斯统计方法[21]。在BEAM方法中,遗传标记位点被分成3组:第0组包含与疾病无关联的位点,第1组包含只有主效应的位点,第2组包含通过交互作用与疾病关联的位点。在给出每组中每个位点及相应参数先验分布的条件下,所有参数的后验分布可以从马尔科夫链蒙特卡洛法(MCMC)模拟中计算得到。BEAM除了给出贝叶斯推断的框架外,还可以进一步计算B统计量,以检验每一个标记位点或一系列标记位点是否与疾病有显著关联。

- 11 -

相对于MDR和Logic回归等方法,BEAM能够处理全基因组关联研究中大规模的标记位点,且检验效能更高。

上述这些方法均有各自的优缺点。随着基因分型技术的发展,可检测的单核苷酸多态性( single nucleotide polymorphism, SNP)位点规模逐渐增大,使得非参数方法的应用越来越广,研究也更加深入。目前,国内已开展了多种复杂疾病的候选基因关联研究,如肿瘤、心脑血管疾病等。随着候选基因SNPs的增多,Logistic回归等参数法在分析交互作用时其局限性显得更为突出。因此,非参数法在候选基因关联研究中的应用前景非常广阔。总之,研究者应根据研究目的和实验设计类型,恰当地选择相应的统计分析方法;同时,应根据统计学交互作用的提示,紧密结合已有的生物学专业知识,进一步合理解释生物学交互作用。

五、在疾病研究中的应用

研究单核苷酸多态性(SNP)与复杂疾病的关联是遗传流行病学研究者工作的主要目标之一。某个 SNP 对复杂疾病的影响主要是与其他的 SNP 发生交互作用的结果。单个SNP 对复杂疾病的影响是非常微弱的,用单个位点的分析方法经常不能检测出两者的关联。因此,研究 SNP 与疾病的关联需要进一步分析SNP 之间的交互作用及SNP与环境因素的交互作用。

针对于此研究,目前应用较多的方法即候选基因关联研究,它是根据已知证据表明某个基因序列的变异可能与表型的变异有关(如连锁分析的结果或者基因表达产物的功能信息等)来选定候选基因,并借助于直接测序或等位基因特异性扩增等实验方法,通过比较病例和对照中候选基因的序列差异来确定候选基因与患病状态或数量性状间是否存在关联。候选基因关联研究能识别出微效基因,其检验效能要高于连锁分析,因此被广泛应用于遗传流行病学研究。

此外,随着全基因组关联研究(Genome-wide association study, GWAS)的应用发展,成为复杂疾病遗传学研究的有效方法之一,利用有效的统计方法对其分型数据进行挖掘,可以更为全面的分析和利用这些庞大的数据来更好的解释复杂疾病的群体遗传效应和环境效应、全面揭示复杂疾病的遗传机制,是后续研究的主要方向之一。

基因-环境交互作用的应用主要针对以下几大类疾病: 1.肿瘤 如乳腺癌、肺癌、胃癌、原发性肝癌及直肠癌等 2.免疫系统 如系统性红斑狼疮、强直性脊柱炎、风湿性关节炎等 3.神经系统 如抑郁症等

4.代谢相关 如高血压、糖尿病及高血脂等

下面以目前研究比较成熟的几种疾病为例,阐述基因-环境交互作用的应用。

- 12 -