日前,复旦大学类脑智能科学与技术研究院杨禹丞等DNA元件百科全书计划国际合作团队,首次绘制迄今全球最大规模个人表观基因组图谱。作为人类基因组计划以来最大的基因组学协作计划,“DNA元件百科全书计划”(Encyclopedia of DNA Elements)从2003年启动至今整整20周年;本研究作为“DNA元件百科全书计划”的子项目,历经上百位合作者逾6年的艰辛努力得以顺利完成,为研究人员在个性化水平上深入认识基因组中精细化的调控机制提供了重要依据,堪称“DNA元件百科全书计划”里程碑式成果。2023年3月30日,相关研究成果在《细胞》(Cell)杂志上发表。复旦大学类脑智能科学与技术研究院青年副研究员杨禹丞为共同第一作者。
20多年前,规模宏大、跨国界跨学科的人类基因组计划(Human Genome Project)完成了具有代表性的参考基因组(reference genome)序列。随着近年来测序技术的快速发展,人类个体基因组测序日趋成熟。与参考基因组相比,个体基因组通常包含数百万个遗传变异,并且绝大多数遗传变异位于基因组内的非编码区域。基因组学的终极目标之一是评估这些遗传变异对诸如表观遗传活性、RNA或蛋白质表达水平等分子性状,以及对包括细胞、组织发育状态和疾病表型等生物性状的影响。
然而,目前大多数功能基因组学研究都是基于通行的参考基因组序列进行的,而非直接在个体的二倍体基因组(diploid genome)中分析变异。通过使用二倍体基因组,有可能在多组学数据中观察到两个单倍型(即父本和母本)上有差异的分子信号,例如基因表达、组蛋白修饰、DNA甲基化或转录因子结合等;如果这种差异在统计学上显著,可称之为等位基因特异性(allele-specific)的差异。尽管等位基因特异性现象早已被发现,并且证明在早期胚胎发育和复杂疾病的发生中发挥重要作用。然而,在人类基因组中究竟存在多少个等位基因特异性活性的基因和调控元件,以及这些调控元件的生物学功能,我们依然缺乏全面了解。
针对以上问题,“DNA元件百科全书计划”(EncyclopediaofDNAElements)启动了大型协作计划EN-TEx项目,旨在利用个体表观基因组图谱对基因表达调控进行了细致分析,该项目由美国耶鲁大学领衔,全球31个机构超过100位合作者共同参与,美国耶鲁大学、中国复旦大学、美国Broad研究所等单位的11位科学家作为主要贡献者并列论文共同第一作者。
EN-TEx项目涵盖了来自4位成人捐赠者合计超过30个不同的身体组织,利用约15种多组学测序技术(包括基因分型阵列芯片、DNA长读段测序、RNA-seq、组蛋白ChIP-seq、转录因子ChIP-seq、DNA甲基化测序、染色质开放区域测序等),对每位捐赠者的每种组织类型产生了一套多组学图谱,合计超过1600套多组学数据集。杨禹丞和研究者们首先整合基因组长读段和短读段测序数据构建了捐赠者的个人二倍体基因组,共计鉴定出超过100万个杂合遗传位点。接下来,研究人员将多组学数据直接映射到相应的二倍体基因组上,并根据杂合遗传位点系统鉴定基因组中所有的等位基因特异性的遗传变异位点和表观遗传信号。与普通做法相比,将测序数据映射到二倍体基因组上能够更精确地量化父本和母本不同来源的调控元件活性,以及杂合遗传变异对表观遗传修饰和基因表达的影响。
图1 等位基因特异性调控元件的注释及其与GWAS遗传变异位点的富集分析
EN-TEx数据集使得研究人员能够系统地确定个体之间与组织之间等位基因特异性的基因表达与表观遗传修饰。例如,H19基因只在来源于母本的单倍型中活跃表达,而与之临近的IGF2基因只在来源于父本的单倍型中活跃表达,而这种等位基因特异性正是由于IGF2基因上游处的一个调控区域在父本、母本单倍型中DNA甲基化的差异性所导致的。杨禹丞博士作为EN-TEx项目的核心研究人员,主要负责将等位基因特异性的多组学表观遗传信号与已知的增强子、启动子等潜在非编码调控元件进行整合注释,从而系统构建人类基因组中的等位基因特异性的非编码调控元件目录,并深入研究了其活性与组织特异性以及进化保守性之间的复杂联系;此外,他还将鉴定出的等位基因特异性的非编码调控元件与多种外部数据做整合,包括表达定量性状位点(eQTLs)和疾病的全基因组关联分析位点(GWAS),阐明等位基因特异性的非编码调控元件参与基因表达调控以及与疾病风险之间的潜在关联。可以预期,这个新的表观基因调控元件目录将会对未来个性化功能基因组分析产生重大影响,能更好地支持个性化医疗、基因编辑等。
EN-TEx项目产生的所有原始数据[https://www.encodeproject.org/entex-matrix/?type=Experiment&status=released&internal_tags=ENTEx]和最终结果[http://entex.gersteinlab.org],均可以通过网站公开获取。
图2 来自EN-TEx的多组学数据集
杨禹丞在2020年底从海外引进正式入职复旦大学类脑智能科学与技术研究院生物医学人工智能团队,主要从事利用高通量功能基因组学测序数据的计算基因组学研究,致力于通过大数据整合挖掘以及数据库构建等手段研究基因表达调控机制。同时,他将国际合作大科学计划的成功经验运用到科研合作和跨学科研究中,基于EN-TEx数据集缺乏大脑等重要人体组织类型以及缺乏在单细胞水平上研究等不足,进一步深入研究非编码调控元件在大脑发育与疾病过程中的作用。
“计算基因组学研究是生命医学领域重大学术前沿,对于更好地了解人类的进化和生物学特性意义重大,我所在的类脑研究院是生物、信息、医学等多学科交叉平台,拥有与国际一流实验室同等的研究科研条件,期望与同事一起,将这些前沿的组学方法运用于与衰老、癌症、神经退行性疾病等领域相关的临床研究中去,真正对人类健康有所贡献。”杨禹丞对未来研究充满信心。
原文链接:https://doi.org/10.1016/j.cell.2023.02.018