生物信息学

表达谱芯片数据分析

1、数据预处理及归一化

根据不同的芯片平台、芯片类型以及实验设计选择合适的方法进行数据预处理和归一化,常用的方法有RMA,Lowess,percentile等,其目的是消除片内或片间的系统误差,保证芯片内不同点阵间或芯片间具有可比性。归一化前(左)与归一化后(右)的图片展示

归一化前(左)与归一化后(右)的图片展示

2、样品比较 

筛选方法适用条件差异表达基因筛选标准
倍数筛选方法单组样品量小于3的实验图片2
方差分析或T检验单组样品量大于等于3的实验

统计检验得到的P value < 0.05且符合倍数筛选规则,并用火山图展示差异基因。

火山图示例

SAM分析单组样品量大于等于3的实验

FDR<5%且结合倍数筛选方法,用散点图和SAM Plot展示差异表达基因。

散点图和SAM Plot

3、聚类分析

聚类分析包括监督聚类和非监督聚类,是数据建模和数据挖掘中普遍使用的一种方法,同时也是数据展示的一种手段。它根据数据的数学特征进行分类,并得到样品和基因在表达模式上的关系,从而得出具有生物学意义的结论。聚类分析主要有层次聚类、K 均值聚类等,下图展示了一个层次聚类的结果。

聚类图

4、趋势分析

趋势分析(时间依赖性基因分析和浓度依赖性基因分析)是一种寻找具有某种表达模式的基因群的分析方法,一般适用于不同时间点或药物浓度梯度等逻辑序列的实验。采用统计检验得到的FDR并结合倍数进行筛选,得到在两组样品中,随时间或浓度梯度而变化的趋势有显著差别的基因群。

梯度趋势图

梯度趋势图

5、组织特异性基因分析

组织特异性基因是指仅在某种组织中特异高表达的基因,寻找组织特异性基因可以结合p-value和Fold change筛选出每个组织中特异表达的基因。

组织特异性表达基因层次聚类图

组织特异性表达基因层次聚类图

6、主成分分析(PCA)

主成分分析是一种多元统计分析方法,采取降维的方式找到各个变量的特征指标,从而对变量进行分类,例如用PCA对组织起源,不同化合物的作用机制或者病理组织类进行分类。

PCA分析散点图,颜色代表组织,大小代表样品种类[1]

PCA分析散点图,颜色代表组织,大小代表样品种类(引自:Partek Tutorial and Data Repository