摘要
在多种孟德尔疾病中,有多达50%-75% 的患者通过外显子组测序没有得到遗传方面的诊断,这表示引起疾病的变异在非编码区。尽管全基因组测序在原则上揭示了所有的遗传变异,但它们的数量庞大且较差的注释质量,给变异的优先性排序带来了挑战。在这里,我们证明了转录组测序能对10% (48例中的5例)的线粒体疾病患者在分子水平上做出诊断,其余的则能够确定候选基因。我们在病人来源的成纤维细胞中发现了中位数为1个的异常表达基因,中位数为5个的异常剪接事件和中位数为6个的单等位基因表达的罕见变异,并探讨了每一种事件的致病作用。私有外显子通常来自神秘的剪接位点,为不同突变的优先级排序提供了重要线索。在建立复合物I组装因子(TIMMDC1)作为新的疾病相关基因时就发现了这样一个事件。总之,我们的研究扩展了检测非外显子变异的诊断工具,并提供了与病理相关的内含子功能丧失变异的例子。
引言
WES的不足之处在于会检测到许多VUS(意义不明的变异),或者由于优先性排序时将某些变异忽略,但是这些变异可能影响RNA序列和丰度。而利用 RNA 测序技术(RNA-seq) ,可以直接探测 RNA 丰度和 RNA 序列的变异,包括等位基因特异表达和剪接异构体,从而弥补检测DNA的局限性。RNA测序可以至少可以通过3种情况来考虑一种罕见疾病的候选致病基因:第一,超出其生理范围的基因表达水平;第二,单等位基因表达(MAE) ;第三,基因发生了可变剪接。
以线粒体疾病作为该研究的模型出于三个原因:第一,线粒体疾病是常见的遗传性代谢缺陷之一;第二,线粒体疾病非特异性临床症状和遗传多样性的广泛存在使得分子诊断变得困难,WES 的检测常常出现 VUS;第三是关于选择表皮成纤维细胞的合理性,有研究证实即便疾病是发生在不同组织种,但是可以在表皮成纤维细胞中检测疾病的发生机制。
结果
病人成纤维细胞的 RNA 测序
我们对来自疑似线粒体疾病患者的105个成纤维细胞系进行了 RNA-seq 检测,其中包括48例通过WES不能做出遗传诊断的患者(图1)。去除低表达基因后,RNA-seq 鉴定出12,680个转录基因(5% 的样本中至少有10个reads)。我们系统地按照以下三种策略对基因进行优先排序:(1)表达水平异常的基因,(2)剪接异常的基因和(3)罕见变异的 MAE,以评估它们与疾病的联系(图1)。所有的策略都是基于一个病人和其他病人的比较(将其他病人的样本作为阳性对照)。
异常表达
在RNA-seq中,2个编码线粒体蛋白的基因 MGST1(1例)和TIMMDC1(2例)显著下调(图2b-d 和补充图2)。对于这两个基因,WES 没有在各自的患者中发现任何变异,没有报告变异与疾病相关,也没有潜在的双等位基因罕见变异在我们的内部数据库中列出(该数据库包括来自线粒体患者的超过1,200个完整的外显子和来自不同正在进行的研究项目的超过15,000个完整的外显子)。在蛋白表达水平上,患者#73804表现为相对于对照组2%的MGST1水平,而两例患者(# 35791和 # 66744)均未检测到 TIMMDC1,证实对蛋白功能的丧失(图2e 和图4补充)。MGST1是一种微体的谷胱甘肽S-转移酶,参与了氧化应激的防御。因此,MGST1表达的缺失不仅表明这可能是该患者的患病原因(这个患者患有婴儿发作的神经退行性疾病),同时还表明可以建议用抗氧化剂治疗。TIMMDC1患者均出现肌张力减退、发育迟缓及神经功能退化,并于出生后3年内死亡(附注1)。与所描述的 TIMMDC1作为呼吸链复合体I组装因子的功能相一致,我们通过定量蛋白质组学(图2e 和图2)和蛋白印迹(图2f,图10)发现肌肉中分离的复合体I缺乏,成纤维细胞中复合体I亚单位水平的全面下降。TIMMDC1在这些细胞中的再表达增加了复合I亚单位水平(图2f)。
异常剪接
在未诊断的175个异常剪接基因中,最丰富的事件是外显子跳跃后产生新的外显子(图3b)。结果中有两个编码线粒体蛋白的基因,TIMMDC1和 CLPP比较突出(补充数据6)。来自于患者#58955,在与CLPP 第6个外显子重叠的136个外显子连接reads中,82个reads跳过了第5个外显子,14个reads显示了3′端截断的5号外显子,与其他样本形成了鲜明的对比(图3c)。引起这两种剪接缺陷的可能遗传原因是 CLPP 第5号外显子中一个罕见的纯合子变异,影响了该外显子的最后一个核苷酸(c.661G>A,p.Glu221Lys)。两个检测到的剪接缺陷导致了截断的 CLPP,同时WB证实了完全丢失全长的 CLPP (补充图5和11)。WES 变异筛选报告此变异为 VUS,并将 CLPP 归类为其他30个潜在的双等位基因候选基因中的一个(补充数据7)。由于该变异具有未知的意义,病人仍然没有得到遗传诊断结果。而RNA-seq发现的基因功能丧失,并经WB证实表明了发生在CLPP中的这个突变具有很重要的临床相关性。CLPP 编码一个线粒体ATP依赖性内肽酶,同时 CLPP缺乏会导致 Perrault 综合征(OMIM # 601119)。此外,最近的一项研究表明,Clpp-/-小鼠缺乏复合物IV表达,与该患者的复合物IV 缺乏的症状相符(补充图5)。
Sashimi图显示两个TIMMDC1缺乏患者几乎只表达一类TIMMDC1,即5号内含子中产生了一个新外显子(图3d)。这个新的外显子引入了一个移码突变从而产生了一个提前终止的密码子(图3e,p.Gly199Thr200ins5*)。此外,这个新的外显子包含一个罕见的突变(c.596+2146A>G),这个突变没有列在千人基因组项目中。WGS证明这个变异在两个病人中都是纯合的(图3e,补充方法7) ,这是这个内含子中唯一的罕见突变,且靠近剪接位点(新外显子的+6)。我们未能在TIMMDC1的启动子区或内含子-外显子边界上发现任何罕见的突变。进一步,在我们的内部 WGS 数据库(包括36名疑似线粒体疾病患者和232名无关疾病患者)中发现了另外一个家庭,携带相同的纯合的内含子变异。在这个家庭中三个孩子表现了相似的临床症状,但没有被诊断出线粒体疾病(图3e,补充图2)。其中两个孩子在10岁之前去世了,另外一个现年6岁的小男孩(#96687)出现肌张力减退、发育停滞和神经功能障碍(附注1),这与上述患者类似。WB分析证实了TIMMDC1的缺乏(图2f,补充图10)和受损的复合体I组装,后者在重新表达TIMMDC1后恢复(图2g,补充图10)。在来自三个不同种族的三个不相关的家族中发现同一种TIMMDC1的内含子突变,这个事实为该突变能导致 TIMMDC1功能丧失提供了令人信服的证据。
在几乎所有非TIMMDC1缺乏的样本中,我们注意到一些显示新外显子被包含进来的reads(图3d) ,这与之前的报道一致,即许多神秘剪接位点并非完全抑制,而是在活跃在一个低水平的状态。我们开始量化这种现象,并计算起源于弱剪接外显子的私有外显子的频率,同时判断它们与疾病的联系。因此,我们为在105个样本中检测到的1,603,042个剪接事件模拟了 ψ 的分布,它们是三个组分的混合物。该模型将每个拼接位点的拼接频率分为强(20% ,ψ > 5.3%)、弱(16% ,ψ< 5.3%)和背景(64% ,ψ < 0.16%,方法部分,图3f 和补充图6)。引人注目的是,在17个发现的私有外显子中,绝大多数(70% ,4.4倍)来自弱剪接位点(图3f,底部)。这些数据证实弱剪接外显子比其他内含子区更容易转化为强剪接位点。这些弱拼接事件通常作为“噪音”而被忽略,因为它们只被给定样本中的少量读操作所支持。我们的分析表明,它们可以作为多个个体之间的积累点被检测到。因此,这些结果表明,通过注释弱剪接位点及其产生的隐性外显子,可以改进通过 WGS 获得的深内含子 VUSs 的优先级排序。
单等位基因表达
在中位数水平上,在每个样本中,WES 检测到35,521个杂合子 SNVs,其中7,622个已被 RNA-seq 充分覆盖,20个显示MAE,其中6个是罕见变异。在患者 # 80256的18个罕见的单等位基因变异中有一个ALDH18A1中的VUS (c.1864C>T,p.Arg622Trp,图4b),该基因编码参与线粒体脯氨酸代谢的酶。WES中有这个 VUS,并伴随着一个无义变异(c. 1988C>A,p.Ser663*,图4b和补充图7)。ALDH18A1的变异已被报道与皮肤松弛 III (OMIM # 138250)相关,但患者并未出现皮肤松弛。由于这种不一致的表型和非同义变异的未知意义,ALDH18A1的变异不被认为是致病的。然而,基于RNA-seq 的异常表达(补充图7)和MAE分析,ALDH18A1再次被优先考虑。定量蛋白质组学的验证显示ALDH18A1严重降低到原有表达的2% (图4c) ,表明这种稀有的MAE 变异影响了翻译或蛋白质的稳定性。血浆代谢组学图谱与脯氨酸代谢缺陷(图4d,补充方法8)及尿素循环中的变化一致。病人的成纤维细胞表现出生长缺陷,通过补充脯氨酸而得以拯救,证实脯氨酸代谢受损是潜在的分子病因(图4e)。我们的实验证据有力地表明,这两个观察到的变异是致病性的。最后,最近一个关于 ALDH18A1患者的报告将表型扩展到无皮肤松弛的痉挛性截瘫(OMIM #138250)。痉挛性截瘫类似于我们的病人的症状(补充说明1),这证明这些 ALDH18A1突变是致病的。
在另一个病人(# 62346) ,我们发现了MCOLN1的临界无意义的低表达。该基因11个reads中的10个都展示了一个内含子VUS (c.681-19A>C,图4f)。这个被保留的内含子突变中包含一个无义突变(p.Lys227_leu228ins16*,图4f 和补充图8)。在 WES 数据中,我们还可以发现一个杂合无义变体(c.832C>T,p.Gln278*)。带有外显子无义突变的等位基因没有表达,很可能就是由于该无义突变。MCOLN1的突变与粘脂沉积症有关(OMIM #605248)。病人的症状最初暗示为粘脂沉积症,但没有粘脂沉积症类型的酶学试验显示血白细胞酶缺乏(补充说明1)。此外,因为内含子变异没有被优先化,MCOLN1被WES忽略。因此,WES数据不能作为结论。与此相反,RNA-seq 数据显示了两个功能缺失等位基因在 MCOLN1,从而建立了遗传诊断。
外显子组诊断患者的 RNA 缺陷
在这里,我们将基因诊断的患者纳入我们的 RNA-seq 分析中,以提高检测成纤维细胞系异常表达和异常剪接的能力。然而,当评价40例 WES 和 RNA-seq 可用的诊断病例的结果时(补充表1) ,我们在8例有致病的剪接变异中检测到7例异常剪接;6例诊断为杂合错义突变(伴随着终止或移码突变)中,MAE恢复了其中的3例;4例纯合无义突变中,异常表达恢复了其中的3例。与直觉相反的是,9个移码突变中只有一个确实导致了可检测的 RNA 缺陷(在被保留的内含子中近剪接位点内含子变异发生了MAE)。停止和移码变异的部分恢复可能反映了不完全无义突变介导的衰变。在错义突变为导致疾病原因的14个基因中没有一个通过我们的RNA-seq检测出来。这是可以预料的,因为错义变异更可能影响蛋白质功能而不是 RNA 表达(补充表2)。
讨论
总之,我们的研究证明了 RNA-seq 结合生物信息学筛选分子诊断标准的效用: (i)发现了一个新的疾病相关基因,(ii)为10% (48例中的5例)的未确诊病例提供了诊断,(iii)鉴定了数量有限的强候选病例。我们建立了一个检测罕见变异异常表达、异常剪接和MAE 的流水线,能够检测出显著的异常值,其中位数分别为1、5和6。总的来说,我们的分析方法为36名患者提供了一个强大的候选基因,即一个已知的致病基因或线粒体蛋白质编码基因,如 MGST1(图5a,补充数据7)。这个可控的数量,类似于 WES 检测到的16个罕见潜在双等位基因变异基因的中位数,允许疾病专家进行人工检查和确认。
我们重点分析了一个样品制备流程,这具有一些优点。根据我们的经验,表达异常值只有经过大量的归一化处理才能可靠地检测出来。这需要所有技术细节的信息,从活检,细胞生长,到 RNA 提取和文库准备。通常并非所有这些信息都可以在已发布的数据集中获得。为了检测异常剪接,如新的外显子,我们建议不要混合不同的组织,因为剪接可以是组织特异性的。在这方面,MAE 是所有标准中最健壮的,因为它只依赖于样本中的读数。总的来说,我们建议不要依赖单一样本与公共 RNA-seq 数据集进行比较。相反,RNA-seq 应该包含在诊断中心的流程中
令我们惊讶的是,许多新诊断的病例是由缺陷性剪接事件引起的,这导致了功能的丧失(图5b) ,证实了人们越来越认识到剪接缺陷在孟德尔疾病和常见疾病中的作用。在TIMMDC1的例子中,导致疾病的变异是在内含子中,不包括在 WES 中。即使被 WGS 检测到,这样深的内含子变体也很难仅从序列信息进行优先排序。在这里,我们展示了大群体的 RNA-seq 可以提供关于内含子位置的重要信息,这些位置在突变时特别容易影响剪接。我们发现,私有外显子通常出现在具有弱剪接的位点。这表明,影响这种神秘剪接位点的罕见变异更有可能影响剪接,而且这些位点可以作为低但一致的剪接位点检测到。
遗传性疾病通常对某些组织表现出特异性,其中一些组织可能不容易进行RNA测序。因此,对未受影响组织的转录组测序是否有助于诊断是很自然的问题。在这里,我们对患者来源的皮肤成纤维细胞系进行了 RNA-seq。成纤维细胞系是临床常规肌肉活检的副产品,用于通过酶检测对线粒体疾病进行生物化学诊断。尽管线粒体疾病通常发生在具有高的能量需求的组织中,如大脑、心脏、骨骼肌或肝脏,但许多具有线粒体功能的基因在大多数组织中表达,包括成纤维细胞。因此,尽管线粒体蛋白基因对成纤维细胞的生理影响可能微不足道,但在成纤维细胞中可以检测到线粒体蛋白基因表达缺失或异常剪接等严重的调控缺陷。这一特性可能适用于其他疾病:突变的组织特异性生理后果不一定来自携带变异基因的组织特异性表达。在许多情况下,组织特异性可能是由于环境或细胞背景,或由于进一步基因的组织特异性表达。因此,组织特异性这个特定不能阻止我们通过未受感染的组织进行RNA-seq来揭示大范围人群的某些缺陷。此外,未受感染组织的优势在于,其他基因的调节是有限的,因此,可致病的缺陷更容易被筛选出来。
在我们努力的同时,另一项研究系统地调查了 RNA-seq 在类似样本大小的分子诊断中的应用,使用来自原发性肌肉疾病患者的肌肉活检。与我们的方法类似,不仅验证了基于外显子组测序的 VUS 候选基因,而且还验证了使用 RNA-seq 数据确定的新的致病机制。尽管在方法上存在一些差异(没有寻找表达异常值,只考虑了受影响组织的样本,并以健康捐赠者的样本作为对照) ,但结果与我们的研究结果一致,异常剪接也是一种常见的致病事件。它的成功率更高(35%) ,可能是因为原发性肌肉疾病的诊断率高于线粒体疾病。此外,该研究中,受影响的组织更加容易得到并进行研究。因此,受影响的基因表达的几率较高。总而言之,这项补充研究证实了使用RNA-seq与孟德尔疾病诊断之间的相关性。