有参考基因组的转录组生物信息分析模板南京廖华

有参考基因组的转录组生物信息分析模板联系客服

发布时间 : 2024/5/16 16:38:51 星期四文章有参考基因组的转录组生物信息分析模板更新完毕开始阅读d145286eee06eff9aef807d9

9.2 差异表达基因列表

基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品，分析我们采用DESeq（Anders et al, 2010）进行分析：该分析方法基于的模型是负二项分布，第 i 个基因在第 j 个样本中的 read count 值为Kij，则有

Kij ～ NB(μij,σ

2ij

)

对于无生物学重复的样品，先采用TMM对read count数据进行标准化处理，之后用DEGseq进行差异分析。差异表达基因列表如下：

表9.2 差异基因列表

gene_id readcount_HS readcount_HT 2835.13040784994 3.08090973423561 872.135924228591 143.509885523625 log2FoldChange -9.4224 9.0233 -4.5455 3.295 pval padj Novel05868 4.13191705589116 Novel05608 1603.13964277834 Novel08190 37.3477675965147 Novel05435 1408.60468719178 4.6547e-140 1.139e-135 8.0171e-124 9.8089e-120 1.1332e-40 1.0151e-31 9.2435e-37 6.21e-28 差异基因列表主要包括的内容：

(1) Gene_id: 基因编号

(2) readcount_Sample1：校正后样品1的readcount值 (3) readcount_Sample2：校正后样品2的readcount值 (4) log2FoldChange: log2(Sample1/Sample2) (5) pvalue(pval): 统计学差异显著性检验指标

(6) qvalue(padj): 校正后的pvalue。qvalue越小，表示基因表达差异越显著

9.3 差异表达基因筛选

用火山图可以推断差异基因的整体分布情况，对于无生物学重复的实验，为消除生物学变异，我们从差异倍数和显著水平两个水平进行评估，对差异基因进行筛选，阈值设定一般为: |log2(FoldChange)| > 1 且 qvalue < 0.005。对于有生物学重复的实验，由于DESeq已经进行了生物学变异的消除，我们对差异基因筛选的标准一般为: padj < 0.05。

图9.3 差异基因火山图

有显著性差异表达的基因用红色点表示；横坐标代表基因在不同样本中表达倍数变化；纵

坐标代表基因表达量变化差异的统计学显著性

9.4 差异基因聚类分析

聚类分析用于判断差异基因在不同实验条件下的表达模式；通过将表达模式相同或相近的基因聚集成类，从而识别未知基因的功能或已知基因的未知功能；因为这些同类的基因可能具有相似的功能，或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异基因的RPKM值为表达水平，做层次聚类(hierarchical clustering)分析，不同的颜色的区域代表不同的聚类分组信息，同组内的基因表达模式相近，可能具有相似的功能或参与相同的生物学过程。除了差异基因表达量rpkm层次聚类分析，我们对还分别用H-cluster、

K-means和SOM等三种方法对差异基因的相对表达水平值log2(ratios)进行聚类。不同的聚类算法分别将差异基因分为若干cluster，同一cluster中的基因在不同的处理条件下具有相似的表达水平变化趋势。

图6.4 差异基因聚类图

左图为整体rpkm层次聚类图，以log10RPKM值进行聚类，红色表示高表达基因，蓝色表示低表达基因。颜色从红到蓝，表示log10(RPKM)从大到小；右图为log2(ratios)折线图，每个子图中的灰色线条表示一个cluster中的基因在不同实验条件下相对表达量的折线图，蓝色线条表示这个cluster中的所有基因在不同实验条件下相对表达量的平均值的折

线图，x轴表示实验条件，y轴表示相对表达量

Word文档下载：有参考基因组的转录组生物信息分析模板.doc

搜索更多:有参考基因组的转录组生物信息分析模板