生物信息学Biological

人类全基因组关联研究和eQTL关联分析

一、全基因组关联分析

全基因组关联研究(Genome-Wide Association Studies, GWAS)是一种基于一般人群的关联分析,它利用全基因组SNP(Single-nucleotide polymorphism)分型技术,通过在全基因组水平筛查与疾病或性状关联的SNP,利用连锁不平衡来确定影响疾病或性状的区域,为疾病或性状的遗传 病因研究提供线索。常见的病例对照研究需要两类样本,一是疾病或特殊性状类样本,二是未患所研究疾病或性状的对照样本。对于特殊性状,可以利用一组样本开展相关研究。博奥生物根据目前国内外GWAS发展趋势,特推出GWAS相关的生物信息学分析服务,主要服务内容有:

1)根据疾病类型和样本储备情况,提供研究设计相关的咨询服务;

2)基因分型:基于cel文件或idat文件的分型;

3)样本质控:根据样本的call Rate、分型一致率等对样本进行质量控制。剔除分型失败样本、重复样本和可能具有亲缘关系的样本,观察样本是否污染,检验样品性别等。

4)SNP 质控:通过相关分型聚类指标、SNP call rate、最小等位基因频率(MAF)、Hardy-Weinberg 平衡(HWE)检验、非孟德尔遗传错误等指标对SNP进行筛选。

1

5)基因型填补(Imputation):基于已有检测位点信息对未进行基因分型的位点进行基因型预测的方法。通过基因型填补,可以整合不同芯片的数据,用于GWAS数据的meta分析;另外,结合高密度SNP芯片数据,通过基因型填补,可将低密度分布的SNP芯片数据填充成高密度的SNP芯片数据。

6)群体分层分析:通过多种统计学方法检查人群遗传结构,并识别离群个体;并选择使用合适方法对关联分析的结果进行校正,减少人群分层带来的假阳性;

2

7)单位点关联分析:针对定性表型或定量性状,采用Allelic、Genotypic、Dominant、Recessive等多种遗传模型进行关联检验;3

 A:GWAS分析结果的Manhattan图;B:Q-Q图;C:区域关联分析图(http://csg.sph.umich.edu/locuszoom/

8)显著位点综合评价:根据单点关联分析的结果,同时参考分型质量、MAF和HWE检验结果,对位点进行综合评分,在全基因组上筛选与疾病关联的位点,并计算各个SNP等位基因的频数;

9)显著位点注释:对显著位点进行功能注释;

10)精确定位(Fine mapping)分析:针对候选区域挑选tagSNP,构建单体型等;

4

11)单体型分析:基于单体型数据,用相应统计学方法进行关联分析;

此外,博奥生物还可以提供基于家系样本的TDT(Transmission/disequilibrium test)分析、FBAT(Family Based Associated Test)分析等服务。

二、基于生物学通路和基因的GWAS

单位点GWAS分析一般只列出符合P阈值标准的显著SNPs以及邻近的基因,有可能会错失一些效应较小或虽然效应较大,但由于样本量所限等因素不能被检测到的风险SNPs;作为这种最显著SNPs/Genes策略的一种有益补充,博奥生物还提供基于生物学通路和基因的GWAS分析服务。

三、eQTL关联定位

将高通量基因分型和基因表达谱数据整合到一起,以mRNA或miRNA表达水平为数量性状,定位与基因表达变异相关联的遗传变异位点, 进而建立相关的基因调控网络。 

5

左图依次为miR-134表达水平的全基因组关联分析结果、不同eQTL基因型表达水平箱式图;右图分别为单核细胞、B细胞中mRNA表达水平的全基因组关联分析结果(Borel C. et al. Fairfax BP. et al. )

四、参考文献

Borel C. et al. Identification of cis-and trans-regulatory variation modulating microRNA expression levels in human fibroblasts. Genome Research, 2011, 21(1):68-73.

Fairfax BP. et al. Genetics of gene expression in primary immune cells identifies cell type-specific master regulators and roles of HLA alleles. Nature Genetics, 2012, 44(5):502-510.