遗传病简介以及诊疗现状
遗传病是指由遗传物质发生改变而引起的或者是由致病基因所控制的疾病,常为先天性的,也可后天发病,如先天愚型、多指(趾)、先天性聋哑、血友病等。约50%的遗传病患者在出生时或儿童时期发病,约30%的遗传病儿童寿命不超过5岁。也有的遗传病要经过几年甚至几十年后才能出现明显症状。遗传病主要可以分为染色体病、单基因病和多基因病。
染色体病(chromosomal disorders)是由于各种原因引起的染色体数目和(或)结构异常的疾病。由于染色体上基因众多,加上基因的多效性,因此染色体病常涉及多个器官、系统的形态和功能异常,临床表现多种多样,常表现为综合征,故染色体病是一大类严重的遗传病。染色体畸变严重者在胚胎早期死亡并自然流产,少数染色体畸变者能存活至出生,常造成机体多发畸形、智力低下、生长发育迟缓和多系统功能障碍。染色体病无有效治疗方法,因此通过染色体病的遗传咨询和产前诊断预防染色体病尤为重要。
单基因遗传病是指受一对等位基因控制的遗传病,据OMIM数据库(人类孟德尔病数据库)数据,单基因遗传病的病种数量有7000多种,其中约4000多种致病基因和发病机制比较明确。单基因遗传病单个发病率低,但单基因病种类极多,累积起来可达到这个全球出生人口数的1%,所以总体发病率高,且具有先天性、致死致残性的特点。另外,一些单基因遗传病,其本身的发病率就很高,比如马凡综合征、药物性耳聋等。由于染色体异常发生率低且通常能在产前被检测出来,因此新生儿/儿童发病的通常是单基因遗传病。
就诊断而言,单基因遗传病涉及多个学科,临床症状复杂,且由于基因的突变具有多样性,每种突变都可能导致不一样的临床症状,而突变的临床意义也相当复杂,具有高度遗传异质性和临床异质性,故临床诊断困难。而且,许多遗传病都及其罕见,属于罕见病(中国没有明确的罕见病定义,根据WHO的定义,罕见病是患病人数占总人口的0.65‰到1‰的疾病。80%的罕见病是单基因遗传病)。对于一名医生来说,诊断经验不足,根据症状极易误诊。所以对于临床医生而言,这些问题显得颇有挑战性:比如如何根据患者症状快速鉴别其是否为遗传病;患者表现为某些特定症状时,哪种基因突变的概率最大?
如今,随着基因测序成本的大幅下降,随之而来的是基因大数据的出现,在这种形势下,基于基因型和表型的关系,建立辅助诊断系统和临床知识库是一条容易且有效的路径。我们目前了解比较清楚、遗传关系和疾病关联很明确的是染色体病和单基因病,基因检测也多半在这个领域,多基因病目前还停留在科研阶段。
基因检测主要针对样本在染色体、DNA、RNA和(或)基因产物等层面进行分析。明确的遗传诊断对遗传病的早期诊断、早期干预、遗传咨询和生育指导具有重要意义。
02
常用遗传病检测技术
不同的遗传病由于遗传物质的缺陷不同,采用的检测技术可能不同,医生要结合实际情况综合考虑检测阳性率、费用和检测时效等因素进行选择。鉴于遗传病的复杂性且不同的技术有各自的局限性,应充分考虑到各技术的优势和互补性,合理选择适宜的检测方法。
对于具有典型特征性的临床表型、疾病候选基因单一或致病变异位点已明确的疾病病例,可选择PCR和 Sanger 测序;对于基因不明确的遗传病,可权衡选择高通量测序技术,包括基因包(panel)、全外显子组测序 (whole exome sequencing,WES)、全基因组测序 (whole genome sequencing,WGS)等二代测序(next generation sequencing,NGS)技术进行检测。怀疑以拷贝数变异为主要遗传特征的遗传病,可根据实际情况,选择多重连接探针扩增技术(multiplex ligation⁃dependent probe amplification,MLPA)等进行检测。
(1)Sanger 测序:广泛应用于已知单基因遗传病致病基因或热点致病位点的遗传检测。但Sanger测序的通量有限,适合检测已知基因的变异,常作为致病基因或致病位点明确的单基因遗传病的检测手段或作为NGS结果的验证技术。
(2)NGS:是一种大规模平行测序技术,能在短时间内完成上百亿碱基的测序,解决了一代测序每次只能测一条序列的不足,又称为高通量测序技术。NGS 主要包括目标区域捕获测序的靶向测序,具有较高的灵敏度和准确度。越来越多的疑难罕见病病例通过父母及先证者一家三口的 WES(trio⁃WES),发现了致病基因,Trio⁃WES也逐渐成为最后选择的遗传检测手段。另外,由于 WGS不需要进行捕获,已有尝试采用 WGS 寻找疑难病的病因。CNV—seq采用NGS技术对样本DNA进行低深度全基因组测序,将测序结果与人类参考基因组碱基序列进行比对,通过生物信息分析以发现受检样本存在的CNVs。与核型分析、染色体微阵列分析等其他技术相比,CNV-seq技术具有检测范围广、通量高、操作简便、兼容性好、所需DNA样本量低等优点。NGS 测序和生物信息分析技术已经可以同时检测基因的致病变异和拷贝数异常。
(3)MLPA 技术:主要用于目标片段基因拷贝数改变的检测,也可用于单核苷酸多态性(single nucleotide polymorphism,SNP)分析或者单碱基变异分析,如诊断杜兴肌肉营养不良症(Duchenne muscular dystrophy,DMD)、脊髓性肌萎缩症(spinal muscular atrophy,SMA)、猫叫综合征(5p缺失)、 DiGeorge 综合征(22q11 缺失)等。
03
遗传病基因检测应用场景举例
3.1 癫痫分子诊断
以癫痫为例,癫痫是除头痛外神经系统第二大常见慢性疾病,严重影响患者的认知及生活质量。我国癫痫患病率为千分之七,约有900万癫痫患者,每年约有40万新发病的患者。导致癫痫的致病因素众多,包括结构性、遗传性、感染性、代谢性、免疫性等来源因素。癫痫综合征类型繁多、表型复杂,尤其是遗传因素导致的癫痫综合征通过传统方法难以鉴别诊断。癫痫10岁前始发者占37%~51.8%,70%~80%与遗传因素有关。按检测费用5000/人计算,新发癫痫基因检测市场容量约为10亿元/年。
提示线索:
除外结构性、免疫性、感染性、代谢病(血尿代谢筛查)等致病因素导致的癫痫发作;
未找到其他明确病因的癫痫发作;
有家族史、发作有热敏感性特点的患儿遗传因素致病可能性大;
早发癫痫性脑病、发育落后患者遗传因素致病可能性大;
通过MRI检测额颞区发育不良、脑白质发育落后、胼胝体发育不良时遗传因素致病可能性大。
相关基因:近年来与癫痫相关的基因被迅速发现,目前文献报道与癫痫相关的基因超过一千个,以儿童癫痫性脑病为例,其基因变异导致的致病机制涉及到DNA 修复、转录调控、轴突髓鞘化、代谢物和离子转运、过氧化物酶体功能等多个生物学过程。其遗传复杂性体现在:一种癫痫综合征对应多个变异基因和多种变异形式;同一基因不同的变异位点、变异形式对应多种综合征。
通过基因检测,可以在分子水平上寻找病因,明确诊断疾病;寻找发病机制,指导针对性治疗,如婴幼儿癫痫性脑病SCN1A基因变异,卡马西平、拉莫三嗪等钠离子通道抑制剂可加重病情,司替戊醇有效;询问患者家族史、进行家系分析,给予个性化优生优育咨询。
3.2 新生儿筛查
新生儿疾病筛查是在新生儿早期对遗传代谢缺陷、先天性内分泌异常及某些严重危害身体健康的疾病进行筛查的总称。其目的是在新生儿期筛查并明确诊断以上疾病,使这些患儿能够及时得到治疗,防止或减轻其体格和智力发育障碍,降低死亡率。
对于新生儿遗传疾病筛查,基因检测相比传统检测方法(PCR、放免、酶免、时间分辨荧光、串联质谱检测等)优势明显,具体表现在以下几个方面:①传统筛查技术筛查的病种较少,基因检测技术一次可筛查上千种遗传病;②基因检测技术应用于新生儿疾病筛查时,在新生儿出生时采用血片采集脐带血即可,无需等待新生儿出生72小时后扎足跟取血,传统筛查技术是有创取血,而基因检测是无创取血;③传统筛查技术筛查结果显示阳性时,需再采一次新生儿足跟血,第二次还是阳性的,需要进行基因检测;若出生后直接选择基因检测,可一步到位,筛查价钱也相差不大;④传统筛查技术检测的是新生儿血液中代谢物的产量,检测结果易受生理状态的影响,容易出现假阳性。而基因检测查的是基因,检测准确性高,无需重复检测。
目前,国家已经启动实施了免费孕前优生健康检查、增补叶酸预防神经管缺陷、地中海贫血防控、贫困地区新生儿疾病筛查等重大公共卫生项目,广泛开展出生缺陷防治社会宣传和健康教育,逐步将儿童先天性心脏病等出生缺陷治疗纳入大病保障,着力推进出生缺陷综合防治,神经管缺陷、重型地中海贫血等出生缺陷的发生率明显下降。但从整体来看,出生缺陷防治服务能力与群众日益增长的优生需求仍有较大差距,出生缺陷防治工作任重道远。
04
NGS检测流程介绍
NGS测序数据量大,数据分析流程复杂,整个过程涉及数据生产、分析比对、变异注释、变异筛选和变异分类等,需要建立一个专业的、系统的数据分析流程,形成统一的数据解读与报告规范。一份遗传检测报告内容涉及样本和数据的质量控制、数据分析的标准流程、基因变异的专业解读、临床表型与基因型的对应关系分析、检测报告的规范化格式以及相关的社会伦理问题等。
主要检测流程为:遗传检测前流程(临床信息采集、拟定检测方案)—样本采集处理与检测、数据分析流程、检测报告解读和遗传咨询。
4.1 样本采集处理与测序
目前国内已有许多二代测序公司试水临床遗传病的检测,而对于涉及临床检测的实验室操作尚无统一的标准。临床实验室规范化与标准化的检测与质控是非常重要的。质量控制包括核酸质控、文库质控、测序数据质控,特别是文库构建需评估试剂有效性,测序需评估不同试剂批次和固定时间间隔下的仪器损耗的稳定性;NGS 测序质量参数应能满足基本要求,如测序数据的单碱基质量评估指数(Q30)>=70%,对于目标区域捕获测序的靶向测序,建议95%以上的目标序列区域测序覆盖深度不小于 20X,测序目标区域平均测序深度不低100X。
4.2 生物信息学分析流程
生物信息学分析是将测序获得的碱基序列转换为遗传学语言的过程。生物信息学分析的核心工具是软件和数据库。遗传病基因检测的生物信息学分析流程主要包括数据过滤、序列比对、变异检测、变异注释和相关质控统计等步骤。
数据分析流程必须包含测序数据质控计算的步骤,需根据比对文件计算目标区域的覆盖度、平均深度、重复序列比例、比对到目标区域的读句比例、目标区域每个碱基的测序深度等指标来评价测序的质量。基于探针捕获的测序数据还需要计算捕获效率。这一步的分析流程多为实验室自主编写。测序数据质量将直接影响检测结果的准确性。
变异检测分为两大类,一类是单碱基变异(single nucleotide variant,SNV)和小插入缺失变异(insertion and deletion,INDEL);另一类是染色体水平的结构变异(structure variant,SV),其中拷贝数变异(copy number variation,CNV)指较大片段的重复或缺失变异,而SV一般指除CNV以外的结构变异如序列倒位、易位等。常用于检测SNV和INDEL的软件是GATK和SMAtools等。
由于检测策略的差异,不同软件的检测结果往往存在一定的差别,相同软件不同的参数设置同样会导致检测结果的差异。检测CNV和SV可根据实际应用目的采取不同的流程,目前常用的检测策略包括基于深度差别、断点检测、基于PE关系的读句距离统计和重组装策略,对于高深度测序还可以通过计算SNP的支持读句比例来检测CNV。常用的检测软件包括CNVkit、XHMM、CNVnator等,检测SV的软件包括LUMPY、BreakDancer等。
4.3 检测报告解读
遗传分析的输入为信息分析注释数据,输出为报告,其遗传分析环节涉及变异初筛、表型匹配和变异致病性判读等3个步骤。因二代测序产生的变异多,遗传分析环节涉及较多的人工判断,因此各实验室需根据ACMG指南的原则编写数据解读的SOP,相关人员在充分的培训和考核后方可进行数据解读和报告出具。
美国ACMG建议使用正常人群频率>常见的遗传病发病率制定默认筛选频率,如次等位基因频率(minor allele frequency,MAF)>1%。自动化筛选流程的条件需进行保存。但需注意由于个体偏差和外显不全等因素,有些致病突变的人群频率较高,甚至在特定人群中频率超过5%。
针对患者的基因检测的首要诉求是找到分子水平的致病原因,因此需结合受检者的临床表型对样品进行分析和解读。在表型匹配环节,需将患者的表型与检测到的变异基因所致疾病的表型进行比对分析,因此需借助数据库和文献检索来完成。因此构建自主的基因-疾病-疾病表型数据库以提高表型匹配的效率是非常必要的。需注意基因、疾病和疾病表型的关联并不是固定不变的,随着科研和临床的发展与进步会不断扩增更新,内部数据库也要根据最新研究进展,不断更新、优化和矫正。
表型匹配由于人工参与度高,已成为数据解读的限速环节,因此可借助自动化的表型匹配软件来提高效率。目前有多种软件可流程化实现表型匹配和关联,常用的表型匹配软件包括Phenolyzer、Exomiser、Xrare及商业软件TGex等,也可使用自主开发的表型匹配软件进行辅助解读。这些软件能够根据患者的表型,将检出的突变按相关性进行排序,作为解读结果的参考,但并不能完全替代人工得出结论。
判断位点致病性的证据有一些可以进行自动化分析(如人群频率、软件预测等),而有些只能通过人工阅读文献或验证实验获取,辅助解读软件可自动在ACMG指南框架下对变异进行致病性判断(如InterVar),但均需要人工进行校正,才可获取足够的证据项,得到准确的结论。
4.4 数据解读价值分析
遗传病临床检测的面临的挑战在于,检测数据量大及解读准难度大。检测报告解读由于人工参与度高,已成为数据解读的限速环节,如果一个月处理10个、100个样本,人力尚可以解决,但如果样本量增加到1000个、10000个,人力就很难保证检测速度和解读的精度了。况且,我国现具备医学遗传学临床诊断能力的的医师十分有限。
因此,生物信息分析能力是国内基因相关企业的最大竞争力。如何利用AI和大数据的研究进展,开发先进的生物信息算法和技术,去准确、高效地解读序列,识别和标识疾病相关的突变的同时,最大限度的实现流程自动化,减少人为误差,提高工作效率,对基因检测公司提出了非常高的要求。
另外,随着测序生产成本和生物信息基于云平台的分析成本不断降低,基因数据解读在基因检测服务中的成本比例将逐渐提高。根据Frost&Sullivan的NGS测序服务成本构成数据,从2013年到2020年,在超摩尔定律下测序仪在整个测序服务的成本占比下降了83.3%,而数据解读成本占比翻了一倍,占整体成本的30%。
笔者认为遗传咨询及数据解读是细分领域的蓝海市场,且商业化价值高,但其服务体系的标准化建立、数据积累与共享局限性以及目前我国专业遗传咨询师人才奇缺,导致其商业化周期较长,因此迫切需要有数据积累、技术沉淀和临床资源的企业领航,促进行业发展。
05
遗传病基因检测市场容量
5.1 遗传病/罕见病市场容量
根据FDA的统计,全球已知的罕见病约有7,000 多种,其中约80%属于遗传性疾病。全球罕见病患者已超过2.5 亿,约50%的罕见病患者在出生时或儿童时期发病,约30%的罕见病儿童寿命不超过5岁。已知的7,000 多种罕见病中,大部分罕见病威胁患者生命或严重影响生存质量,但在有药物治疗的情况下,部分罕见病的疾病进程可逐渐得到控制,直至被管理成为慢性疾病。
根据中国罕见病定义(患病率<1/500000或新生儿发病率<1/10000),以 14亿人口为基数,则中国罕见病总患病人数为1960万人,遗传性疾病患者约为1570万人。明确诊断的患者不足40%,仅有不到 10% 的疾病有已批准的治疗药物或方案,尚有将近1000万的遗传病患者有待基因确诊。
以平均检测费用5000元计,总市场存量5000x1000万=500亿元;按照目前渗透率5%~10%计算,目前市场容量为25~50亿元。
5.2 新生儿筛查市场容量
国家统计局数据,2019年我国出生人口为1465万人,假设渗透率20%,即有约300万新生儿选择遗传病基因筛查,单次检测价格1500元,潜在市场容量45亿元/年。遗传病基因筛查,相较于质谱筛查,在遗传病种类、准确性等方面,均具有明显优势。耳聋单病种基因筛查,目前也有约10亿/年市场规模。
5.3 遗传病辅助诊断增量市场
以2012年原卫生部公布的5.6%出生缺陷率计算,每年新发生出生缺陷患儿约80万人。遗传性缺陷约占总出生缺陷的30%,即每年新生遗传病患儿达25万人。按平均检测费用5000元计算,遗传病辅助诊断增量市场25亿/年。
06
NGS&精准医疗相关政策
2014年2月,原国家食品药品监督管理总局办公厅、国家卫生和计划生育委员会办公厅发布联合叫停了基因检测产品,约半年后解禁。2015年,基因产业上升为国家战略,基因检测技术被列入“新型健康技术惠民工程”。同年1月,原国家卫计委正式批准了109家医疗机构开展NIPT高通量测序临床试点。
在此后连续多年包括“十三五”等生物产业和科技创新规范文件中,明确提出要把基因检测作为重点发展的新兴产业,快速推进基因检测在重大疾病早期筛查、个体化治疗等方面的临床应用。政府到2030年前拟投入600元发展精准医疗,基因检测是实现精准医疗的基础路径。笔者预计,至少在未来10年里,基因检测行业将得到政府资金、科研成果转化等多方面支持。
07
遗传病基因检测主要企业
遗传病NGS检测主要企业整理如下:
目前遗传病领域的诊断和治疗都非常落后,诊断结果并不准确,遗传病领域对于精准医疗的需求非常迫切,因此中国遗传病基因检测领域潜在市场巨大(上文推算约500亿)。但是遗传病种类繁多、复杂并且临床解读的困难性等特点使得绝大多数基因检测厂家望而却步。能够在癫痫等神经系统疾病和遗传代谢病等患者基数大且部分可诊可治的细分应用场景下提高科研服务和综合测序&解读能力的企业,将会在巨大的遗传病潜在市场机会下获得更多的机会和商业价值。
在上游测序仪器和设备被垄断的情况下,企业的核心竞争力集中在基因数据分析环节,可重点关注数据挖掘和遗传解读细分领域的企业,目前国内少有专注该领域的企业;初创企业可考虑进入该领域,并借助人工智能技术实现该环节非标准化服务的突破。同时,传统的生物信息软件和数据库商业化值得投入,临床表现出较强对完整基因测序报告与遗传解读的需求,将带来未来的产业生态加速。