人类拥有数万个基因,它们储存于DNA分子中,基因信息以4种碱基(C、G、T和A)的形式存在,两个碱基相互配对形成碱基对。
科学家于1990年启动了人类基因组测序项目,并于2001年公布了首个人类基因组草图。但当时不得不将基因组分成小段读取,然后重新组装在一起,而这样无法将一些高度重复的片段放回原位。随后遗传学家继续改进,但重点还是放在提高现有序列的精确度,而非增加新序列,仍有约8%的序列缺失或错误。
新版本基因组由“端粒到端粒”(T2T)联盟绘制。该联盟由加州大学圣克鲁斯分校的卡伦·米加和国家人类基因组研究所的亚当·菲利皮领导。
研究人员选择从一个被称为CHM13的细胞系中读取DNA。该细胞系来自水泡状胎块——一种妊娠失败情况,可以在实验室中培养这种细胞。菲利皮说:“CHM13的独特之处在于,它不是任何人的基因组。”
普通人类细胞的每段DNA都有两个副本,往往存在重大差异,一个来自母亲,另一个来自父亲,这使得对DNA精确测序变得更加困难,因为要搞清楚什么是测序过程中的失误、什么是真正的差异非常棘手。使用CHM13避免了这个问题,因为两个副本几乎完全相同。
为组装基因组序列,研究团队利用了两种技术:一种是能读取非常长(超过100万个碱基对)片段的测序技术;另一种是精确度极高、能处理差别极小的片段(比如同一个基因的多个副本)的技术。
2020年7月,该团队公布了完整的决定性别的人类X染色体。现在,他们公布了完整的人类基因组,新版本比上一个版本增加了近2亿个碱基对以及2226个新基因,是自人类参考基因组首次发布以来进行的最大改进。