encode数据库(Nature - 颠覆“增强子-启动子”二元论:ENCODE4系统鉴定基因组沉默子与“双重身份”调控元件)

encode数据库(Nature - 颠覆“增强子-启动子”二元论:ENCODE4系统鉴定基因组沉默子与“双重身份”调控元件)
Nature | 颠覆“增强子-启动子”二元论:ENCODE4系统鉴定基因组沉默子与“双重身份”调控元件

引言

当我们提到基因组时,常常会陷入一种错觉:似乎只要读懂了那2%的蛋白编码基因,我们就掌握了生命的源代码。然而,真正的生命复杂性,往往隐藏在剩下98%的非编码区域中。这些曾经被视为“垃圾DNA”的广袤荒原,实则布满了控制基因开关的精密元件。

1月7日,著名的ENCODE(DNA元件百科全书)计划再次抛出了一枚重磅炸弹,在 《 Nature 》杂志发表了“An expanded registry of candidate cis-regulatory elements”的研究,研究人员展示了ENCODE第四阶段(ENCODE4)的宏大成果。这不仅仅是一个数据库的更新,更是对基因组调控逻辑的一次认知重塑。

这项研究不仅将我们已知的调控元件版图扩大了三倍,更重要的是,它通过数百万次的功能实验,向我们展示了基因组中那些“沉默者”和“潜伏者”的真实面目,重新定义了我们对“增强子”(Enhancer)和“沉默子”(Silencer)的理解。

并不是所有的“荒原”都只是背景:重绘基因组的调控地图

长久以来,我们在基因组中寻找调控元件(Regulatory Elements)如同大海捞针。在之前的ENCODE3阶段,研究人员虽然已经建立了一个包含90万个人类候选顺式调控元件(candidate cis-regulatory elements, cCREs)的注册表,但面对拥有数百种细胞类型和组织的人体,这显然只是冰山一角。

在此次ENCODE4的更新中,数据的规模经历了指数级的跃升。研究人员整合了来自1679个生物样本(Biosamples)的数据,这不仅包括了传统的组织样本,还囊括了原代细胞、类器官以及体外分化的细胞。这种样本的多样性至关重要,因为许多调控元件只在特定的发育阶段或特定的细胞状态下才会“苏醒”。

这一努力的结果是惊人的:新的注册表现在包含了 237万 个人类cCREs和 96.7万 个小鼠cCREs。

这组数据意味着什么?它意味着人类基因组中约 21% 的序列,以及小鼠基因组中约9%的序列,现在被赋予了潜在的调控功能标签。这比上一代图谱的覆盖范围增加了整整三倍。

为了构建这张地图,研究人员并没有只依赖单一的指标。他们采用了一种巧妙的锚定策略:首先利用DNase I超敏感位点(DNase hypersensitivity sites, DHSs)作为核心锚点,因为染色体开放是调控发生的前提;同时,他们辅以转录因子(Transcription Factor)的结合簇。在这两大锚点的基础上,研究人员进一步叠加了组蛋白修饰的信号——H3K4me3(通常标记启动子)、H3K27ac(通常标记活跃的增强子)以及CTCF(与染色质三维结构相关)。

走出“启动子-增强子”的二元论:八大阵营的重新划分

在教科书式的认知中,我们习惯将调控元件简单地划分为启动子(Promoter)和增强子(Enhancer)。但ENCODE4的研究结果告诉我们,生物学的现实远比二元分类要复杂得多。

研究人员根据转录起始位点(TSS)的距离以及生化信号的组合,将这237万个元件精细地划分为八个类别。除了我们熟悉的启动子和典型的近端/远端增强子外,这一版本引入了三个极具深意的新类别,它们挑战了我们对“活跃”元件的定义:

01 | CA-TF cCREs这类元件染色质高度开放(Chromatin Accessibility, CA),结合了转录因子,但却奇怪地缺乏H3K4me3或H3K27ac这些典型的组蛋白修饰信号。

02 | CA cCREs单纯的染色质开放区域,既没有组蛋白修饰,也没有明显的转录因子富集。

03 | TF cCREs这是最令人困惑的一类,它们的染色质几乎没有开放迹象,组蛋白修饰也很少,但却实实在在地结合着转录因子。

这三个新类别并非仅仅是分类学上的扩充,它们暗示了基因组中存在着大量的“中间状态”或“预备状态”。随后的分析证明,这些非典型类别中隐藏着大量的沉默子和动态增强子,它们构成了基因调控中更为微妙的阴暗面。

值得注意的是,这种分类并不是一成不变的。正如研究人员所展示的,同一个DNA序列,在一种细胞中可能是活跃的远端增强子,而在另一种细胞中则可能退化为仅有染色质开放的CA类元件。这种动态的身份转换,正是细胞分化和命运决定的分子基础。

97%的实证:从“预测”到“功能确证”的跨越

绘制地图是一回事,验证地图的准确性则是另一回事。ENCODE4最大的成就之一,在于它不再满足于生物化学信号的预测,而是大规模地引入了功能性实验。

研究人员利用全基因组STARR-seq(Self-Transcribing Active Regulatory Region sequencing)、大规模并行报告分析(MPRA)、CRISPR扰动筛选以及转基因小鼠实验等多种高通量手段,对注册表中的元件进行了地毯式的轰炸测试。数据显示,超过97% 的人类cCREs在至少一种细胞类型中接受了功能测试。这不仅是数量上的胜利,更是质量上的飞跃。

在针对K562(一种红白血病细胞系)和HepG2(一种肝癌细胞系)的对比分析中,STARR-seq数据揭示了一个有趣的现象:启动子类元件在不同细胞间的活性相对保守,而远端增强子则表现出极强的细胞特异性。这与我们长期的认知相符,即增强子是定义细胞身份的关键。

为了从海量的测序数据中提炼出真实的调控活性,研究人员开发了一种名为 CAPRA(CRE-centric Analysis and Prediction of Reporter Assays)的新算法。通过计算RNA与DNA的比例,CAPRA能够精准地给每个元件打分。结果显示,在K562细胞中,91% 的启动子cCREs和 65% 的增强子cCREs显示出了显著的活性。

更重要的是,这些功能数据反过来验证了生化分类的有效性。那些带有活跃染色质标记(如H3K27ac)的元件,在报告基因实验中确实更有可能驱动基因表达。这种生化信号与功能活性之间的高度一致性,为我们利用表观遗传标记预测基因调控网络提供了坚实的证据支持。

沉默的真相:双重身份的调控元件

如果我们把增强子比作油门,那么沉默子(Silencer)就是刹车。长期以来,关于沉默子的研究一直受限于缺乏系统的鉴定方法。在此次研究中,研究人员不仅大规模鉴定了沉默子,还揭示了它们令人惊讶的“双重人格”。

研究人员首先关注了一类经典的沉默子——NRSEs(神经元限制性沉默元件)。这些元件结合转录抑制因子REST,其功能是确保非神经元细胞不会错误地表达神经元特有的基因。通过分析29个REST ChIP-seq实验数据,研究人员定义了两类REST结合的cCREs:一类是数量约2,534个的“REST+ 增强子/沉默子”,另一类是数量约2,253个的“REST+ 纯沉默子”。

令人震惊的发现来自于转基因小鼠实验。当研究人员将这些所谓的“沉默子”注射到小鼠胚胎中时,那些被归类为“增强子/沉默子”双重功能的元件,在神经组织(如后脑和中脑)中竟然表现出了强烈的增强子活性!

具体数据极具说服力:在转基因小鼠实验中,双重功能的REST+元件有 59%至61% 被验证具有增强子活性,且主要集中在神经组织中。相比之下,纯粹的REST+沉默子只有 8% 表现出增强子活性。

这揭示了一个精巧的调控机制:这些DNA序列在神经元中(那里没有REST蛋白)充当增强子,驱动神经基因表达;而在非神经元细胞中(那里存在REST蛋白),REST蛋白结合上来,将它们强行关闭,使其转变为沉默子。

这种 “情境依赖性”(Context-dependence) 是基因调控的高级逻辑。通过CAPRA分析,研究人员发现这些元件在K562细胞(表达REST)中的STARR评分为负值(中位数为-0.10,显著低于背景值的-0.02,P -16),证明了它们在非神经环境下的沉默活性。

此外,研究人员还发现这两类沉默子在进化历史上截然不同。双重功能的元件在进化上更为古老,序列保守性更高;而纯粹的沉默子则更多地与 L1反转录转座子(LINE-1)有关。这暗示了基因组可能通过驯化古老的转座子序列,将其改造为纯粹的抑制元件,以应对进化过程中产生的新调控需求。

潜伏的危机与生机:MAFF和MAFK标记的动态增强子

在ENCODE4新定义的“TF cCREs”类别中(即那些没有开放染色质信号但结合转录因子的“幽灵”元件),研究人员发现了一个特殊的亚群——结合MAFF和MAFK蛋白的元件。

通常情况下,我们认为一个活跃的增强子必须位于开放的染色质区域,并伴有H3K27ac修饰。然而,这些MAFF/MAFK结合元件在基线状态下,染色质紧闭,缺乏活性标记。但在功能上,它们并不像沉默子那样抑制基因表达。那么,它们究竟是什么?

证据链指向了一个令人兴奋的概念:潜伏增强子(Latent Enhancers)。

首先,这些元件显著富集在与发育、形态发生和信号转导相关的基因附近。其次,当研究人员观察不同类型的生物样本时,发现这些元件在某些特定的、往往与压力应激相关的细胞(如髓系来源的原代细胞)中,会突然展现出高水平的DNase敏感性和H3K27ac信号。

最引人入胜的例子是元件 EH38E1328964。在K562细胞中,它是一个典型的超强增强子,结合了超过100种转录因子;但在HepG2细胞中,它被归类为TF cCRE,仅结合MAFF、MAFK等少数几种因子,处于“休眠”状态。三维染色质分析显示,它可能调控 CLIC4 基因,这是一个著名的应激反应基因。

这表明,MAFF和MAFK可能充当了某种“分子书签”。它们在染色质尚未完全开放时就预先占据位置,标记出这些区域。一旦细胞受到特定的环境刺激(如氧化应激),这些潜伏者就会迅速招募其他因子,打开染色质,瞬间转化为活跃的增强子,启动防御程序。这种机制赋予了细胞极快的反应速度,无需从头开始组装调控复合物。

从全基因组关联到精准医疗:解开GWAS的死结

全基因组关联分析(GWAS)已经发现了成千上万个与疾病相关的遗传变异,但其中绝大多数位于非编码区,主要面临两大难题:一是连锁不平衡(Linkage Disequilibrium)导致“真凶”隐藏在数十个相关变异中;二是不知道这些非编码变异到底调控了哪个基因。

ENCODE4的注册表为解决这两个难题提供了一把利刃。研究人员以红细胞(RBC)相关性状的GWAS位点——RTBDN-MAST1区域为例,展示了如何利用新图谱进行精准“破案”。

这个区域长达65kb,包含3个GWAS报告的先导变异和60个紧密连锁的变异,涉及8个基因,情况错综复杂。研究人员采用了一套多步走的策略:

步骤一:筛选活性区域。利用注册表,锁定那些在红白血病细胞系K562中活跃的红细胞特异性cCREs。这一下子将范围缩小到了与10个变异重叠的9个cCREs。

步骤二:链接靶基因。利用三维基因组数据(Hi-C, ChIA-PET)和CRISPRi-FlowFISH数据,找出这些cCREs物理接触或功能调节的基因。这产生了一份包含12个候选基因的名单。

步骤三:证据整合与排序。研究人员没有止步于此,他们引入了一种“排序平均”(Rank-averaging)的方法,整合了编码区破坏预测、等位基因特异性结合、染色质开放性等多种证据。

最终的嫌疑人锁定在 KLF1 基因上。尽管该区域还有另一个在K562中高表达的基因 PRDX2,但表达谱数据显示,只有 KLF1 表现出严格的红细胞特异性。

更关键的是,注册表帮助锁定了具体的致病变异——rs2072597。这是一个位于近端增强子cCRE内的错义变异。同时,另一个变异 rs2290688 位于一个CA-CTCF类型的cCRE中,被证明能通过三维环路同时影响 KLF1 和 PRDX2 的表达。

encode数据库(Nature - 颠覆“增强子-启动子”二元论:ENCODE4系统鉴定基因组沉默子与“双重身份”调控元件)

这个案例完美地演示了ENCODE4注册表如何将统计学上的相关性转化为具体的分子机制。它告诉我们,疾病的根源往往不在基因本身,而在控制基因的“开关”上;而要找到那个坏掉的开关,我们需要一张足够精细的地图。

基因组逻辑的深层探索

ENCODE4带来的不仅仅是数据的增量,更是维度的提升。从237万个元件的宏大目录,到STARR-seq对数百万片段的逐一测试;从REST蛋白在神经与非神经细胞间的角色转换,到MAFF/MAFK标记的应激预案,我们看到的是一个高度动态、情境依赖且进化保守的调控网络。

这项研究强调了一个核心观点:没有所谓的“垃圾DNA”,只有我们尚未读懂的逻辑。

随着单细胞技术的进一步融合(虽然目前注册表主要基于大块组织数据,但在单细胞层面的验证已显示出良好的一致性),未来的基因组图谱将更加精细。但在当下,ENCODE4为我们提供了一个前所未有的工具箱。对研究人员而言,无论是研究发育、癌症还是遗传病,这张扩展的注册表都将是不可或缺的导航图。

基因组的暗物质正在觉醒,而我们,终于有了看清它们的眼睛。

参考文献

Moore JE, Pratt HE, Fan K, Phalke N, Fisher J, Elhajjajy SI, Andrews G, Gao M, Shedd N, Fu Y, Lacadie MC, Meza J, Khandpekar M, Ganna M, Choudhury E, Swofford R, Phan H, Ramirez CC, Campbell M, Likhite M, Farrell NP, Weimer AK, Pampari A, Ramalingam V, Reese F, Borsari B, Yu X, Wattenberg E, Ruiz-Romero M, Razavi-Mohseni M, Xu J, Galeev T, Colubri A, Beer MA, Guigó R, Gerstein MB, Engreitz JM, Ljungman M, Reddy TE, Snyder MP, Epstein CB, Gaskell E, Bernstein BE, Dickel DE, Visel A, Pennacchio LA, Mortazavi A, Kundaje A, Weng Z. An expanded registry of candidate cis-regulatory elements. Nature. 2026 Jan 7. doi: 10.1038/s41586-025-09909-9. Epub ahead of print. PMID: 41501460.

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

文章版权声明:除非注明,否则均为边学边练网络文章,版权归原作者所有

相关阅读