二代测序技术加速遗传致病突变的鉴定,促进个性化医疗发展。与全基因组测序相比,覆盖基因组编码区的全外显子组测序(whole-exome sequencing, WES) 成本更低。可在高测序深度情况下,更准确检测出临床致病的罕见变异。
现有大型公共WES数据库,如ExAC, gnomAD等,其样本大多由高加索、非洲裔美国人或拉丁美洲人组成,汉族样本数量有限。而汉族是世界上人口最多的民族,具有较高遗传多样性。因此,建立一个高质量且有代表性的汉族人群WES数据库对于遗传疾病研究具有重要价值。
该研究通过对5000个来自华北郑州、华东泰州和华南南宁汉族人群个体进行深度测序,构建了“华表”中国汉族外显子组数据库。数据库共包含207万个遗传变异,其中46.4%的遗传变异为该研究首次发现。为推动数据库资源共享,项目组同时构建了“华表”中国汉族外显子组数据库网站(https://www.biosino.org/wepd),研究人员可以从该网站快速检索相关遗传变异频率信息。
为获得高质量遗传变异信息,该研究首先保证高质量原始测序数据和对测序区域的高深度覆盖。基于标准生物信息学流程,该研究对得到的遗传变异信息进行多方面验证。首先与中华家系标准品 (http://chinese-quartet.org/)相比,“华表”标准品遗传数据精度达到96.8%;之后与全基因组芯片数据进行比较,一致率达到99.8%;华表数据库与gnomAD(东亚人群)中共有遗传位点相比,两者频率高度一致 (R2 > 0.99)。上述结果均证明“华表”外显子数据库变异数据的准确性。
复旦大学博士研究生郝萌、博士后濮伟霖、李轶和青年副研究员文少卿为该论文的共同第一作者,金力院士、王久存教授、李辉教授和王一青年副研究员为共同通讯作者。相关工作得到上海市科技重大专项、中国医学科学院医学科学创新基金和国家重点基础研究发展计划的支持。