当前位置:首页 > 技术交流 > 最新应用



技术交流

扫描二维码
或添加“GeneGroup003
获取更多更新资讯

商城订购

扫描二维码
或添加“基因商城(GeneMart)
手机下单,快人一步

售后服务

扫描二维码
或添加“GeneGroup005
获取更快速售后支持

高精准长读长HiFi测序解析高度相似的旁系同源基因

版权所有,转载请联系基因市场部
2025-06-18

图片

Background

基于短读长测序的全基因组测序(WGS)研究已经能够对绝大多数人类基因组中的变异(特别是小变异)进行全面表征。然而,还有一些困难区域和变异类别仍然无法通过短读长测序技术获得。这些困难区域中的很大一部分发生在片段重复(SDs)内,因为SDs拷贝之间的高序列相似性会导致短读reads的模糊映射。除了难以在SDs内定位reads外,高序列相似性也会促进不平等交叉,导致拷贝数变异(CNVs)及高基因转换率。虽然已经开发了基于短读reads的计算方法来提高SDs中的基因分型能力,但这些区域中的全面变异识别仍然是一个挑战。

许多医学相关基因都属于SDs,如SMN1/SMN2CYP21A2/CYP21A1POPN1LW/OPN1MW等。迄今为止,这些医学上重要的SDs编码基因是通过多步分析进行研究的,如多重连接依赖性探针扩增(MLPA)、扩增子测序或长距离PCR,然后进行Sanger测序,以检测拷贝数变异或个体变异。这些检测一般仅限于几个已知的变异,如果患者具有未知的致病性变异,则可能出现假阴性。因此仍然需要充分表征这些基因以用于研究和临床检测。长读长测序技术可以为许多样品生成高质量的定相组装,揭示SDs的序列,然而具有高度相似区域的多个拷贝的SDs容易发生组装错误,特别是在高度同源区域。本文开发了一种定相方法,Paraphase用于识别基因及其旁系同源物的单倍型

图片
图片
图片
图片

具体表现

图片
图片

1.利用Paraphase分析160个基因编码的旁系同源区域

Paraphase通过将HiFi reads与一个最相关的基因重新对齐来解析高度相似的基因,该基因被选择来代表基因及其旁系同源区域的所有拷贝(图1a)。例如,将所有与SMN1SMN2对齐的reads重新对齐到SMN1,因为SMN1是完全功能的拷贝。研究共鉴定了160个长度>10 kb、序列相似性>99%的旁系同源区域,共编码316个基因。其中149个基因位于同一染色体上,16个基因串联。如图1b所示,短读长数据在旁系同源区域的映射质量(MAPQ) 极低,表明将短读长比对到这些区域存在很大困难。即使对于长读长数据,仍有44.1% 的区域总结 MAPQ ≤ 20。而在高 MAPQ 区域,Paraphase仍能提升性能,由于参考基因组缺陷、拷贝数变异以及基因转换率高而容易出现错误比对,以及基因融合难以检测。

图片

图1.Paraphase的设计及其所分析的区域


研究人员首先在 21 个通过 MLPA 和 Sanger 测序等方法鉴定出的患病或携带者样本的 8 个医学相关基因中验证了 Paraphase 的变异检测结果(表 1 )。在此次验证中,Paraphase 正确识别了这些样本中的全部 30 个临床变异。而对36 个三联体的Paraphase 验证表明,在先证者中调用的 14734 个全长单倍型中,有 14679 个(99.6%)与父母中观察到的单倍型完全一致。在检查 55 个不一致的案例时,发现 43 个(0.29%)没有得到reads的完全支持,因此被确定为 Paraphase 错误(父母中的单倍型交换错误或遗漏)。其余 12 个(0.081%)不一致的单倍型得到了reads的完全支持,因此是真正的重组或新生事件。另外,与 47 个人类泛基因组参考中心 (HPRC) 样本中的高质量二倍体组装结果进行对比发现,Paraphase 在82.4% 的旁系同源基因组中具有>95% 的召回率和>95% 的准确率,差异主要是由于组装错误。

表1.用医学相关基因验证Paraphase

图片

Paraphase 的性能将取决于单倍型之间的序列差异、读长以及测序深度。只要读长至少为 10 千碱基对,每个单倍型的测序深度为 10 倍,且序列差异不超过 0.05%时,Paraphase 能保持较高的单倍型分型准确性。

图片

2.旁系同源基因的拷贝数变异

研究人员计算了在五个祖先群体的259个无关个体中的旁系同源基因组的总拷贝数(CN)分布。通过具有众数CN值的个体的百分比来评估总CN的变异性,超过90%为低,80%-90%为中,小于80%则CN变异性为高。结果表明,79个基因组的CN变异性为低,17个中等,64个高。此外,25.6%(41/160)的基因组在祖先群体之间具有显著偏差。

CN变异性可以反映参考基因组(GRCh38)的群体水平“准确性”。例如,如果参考基因组是正确的,并且这种变异在整个人群中具有普遍性,那么在分析中,具有两个同源区域的变异体总是会具有 CN 值为 4。同样,如果每个个体在该群体中都具有 CN 值为 2 的同源组,那么这个同源组很可能是参考基因组中的错误。研究确定了 22 个同源组,其中超过 95% 的个体总 CN 值为 2(图 2b)。这表明对于这些基因,人群中重复事件是罕见的,而这些变异可能代表了参考基因组中的错误。其中 19 个同源组与基于 CHM13 T2T 组装分类为假重复的区域重叠。

相反,三个旁系同源组(CTAGE8/CTAGE9OR2A1/OR2A42,和RIMBP3/RIMBP3B/RIMBP3C)确实是群体中的拷贝数变异区域(图2a),但在GRCh38中归因于假重复,这是由于CHM13 T2T组装中缺失相关基因所致。群体CN分析比单个个体分析更能准确评估参考基因组中的假重复。

图片

图2.各旁系同源基因组的总CN在人群中的分布

图片

3.群内多样性极低的旁系同源基因组

Paraphase从259个样本中的160个旁系同源基因组中鉴定出159795个单倍型。广泛的基因转换和不平等的交换可以导致高度相似的基因拷贝,这些拷贝不再能够单独基于序列被分成不同的基因。例如,SMN1SMN2在外显子7-8中的序列不同,但在外显子1-6中不可区分。研究基于单倍型间的差异指标确定了23个低多样性旁系同源基因组,其中4个位于chrY,11个位于chrX,8个位于常染色体(表2)。这些基因组在其基因组结构、CN变异性和进化历史上显示出两种不同的模式:常染色体上的基因组具有高CN变异性,并且许多是人类特异性重复;相反地,性染色体上的基因组大多具有低CN变异性,以回文结构排列并且在进化上保守。

表2.低组内多样性的旁系同源基因组

图片
图片

4.解析医学相关旁系同源基因

研究人员最后使用Paraphase分析了三个已知的医学相关旁系同源基因组(CYP21A2/CYP21A1PPMS2/PMS2CLOPN1LW/OPNMW)。

CYP21A2变异导致21-羟化酶缺陷型先天性肾上腺增生。CYP21A2位于RCCX模块的30 kb串联重复序列中,该模块包括其假基因CYP21A1P以及另外两对旁系同源物C4A/C4BTNXB/TNXA(图3a)。该区域易受基因转换以及RCCX模块的缺失和复制的影响,导致CN变异和致病杂合基因。利用Paraphase软件分析了RCCX的单倍型序列,揭示了RCCX的遗传多样性(图3b),38.2%的个体具有CNV。

PMS2基因中的致病性变异会导致林奇综合征。PMS2与其假基因PMS2CL在外显子12-15上具有高序列相似性,并且基因转换和不等交换突变已被证实会促进这两个基因之间的序列交换 。对人群中的PMS2PMS2CL单倍型进行检测发现,在第 15 外显子中,PMS2和 PMS2CL的序列彼此无法区分,没有任何变异(图 3c)。PMS2PMS2CL之间的基因转换偶尔发生在外显子12,而频繁发生在外显子13-14。有趣的是,分析显示了非洲血统个体中基因转换的更多证据,并且超过75%的非洲PMS2/PMS2CL单倍型部分或完全转换(图3d)。

OPN1LWOPN1MW负责红绿色觉缺陷和其他视觉疾病。该区域以基因阵列排列,并且仅表达阵列中的前两个基因。Paraphase能够识别重复序列的所有拷贝,将基因分配给OPN1LWOPN1MW,并识别每个阵列中的前两个拷贝。图3e显示了具有OPN1LWOPN1MW各一个拷贝的等位基因(上图),和仅具有OPN1LW的等位基因(下图),这会导致色觉缺陷。分析表明,这个同源组的总拷贝数在不同人群之间变化很大(图 3f)。

除此之外,研究还总结了其他医学相关基因,包括SMN1/SMN2(脊髓性肌萎缩)、STRC(遗传性听力损失和耳聋)、HBA1/HBA2(α地中海贫血)等,在不同人群中存在的广泛的医学相关变异。

图片

图3.CYP21A2、PMS2OPN1LW/OPN1MW的群体结果

图片
图片
图片

Summary

图片

在本文中,研究人员将Paraphase应用于160个片段重复区域,Paraphase可以恢复未对齐的reads,并正确解析基因及其高度相似的旁系同源物/假基因。

Paraphase结合HiFi长读长测序技术,为解析旁系同源基因提供了一个单一的框架。在受到假基因或旁系同源基因挑战的医学重要基因中,Paraphase有助于实现更准确的致病性变异检测,从而使我们以一种单一的检测方式替代目前提供的众多基因检测方式。此外,在以前难以获得和研究较少的基因中,用Paraphase进行的基于全人群测序的分析将有助于发现新的基因与疾病的关联。

如果各位老师对Paraphase感兴趣,更多有关Paraphase的安装运行介绍请参考:https://github.com/PacificBiosciences/paraphase

图片

基因有限公司作为PacBio公司中国区合作伙伴,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。


图片

关于基因

基因有限公司成立于1992年,是一家提供生命科学科研仪器、试剂耗材和技术服务的综合服务商。基于“Gene Brightens Every Life • BioTech Connects the World”——“基因燃亮生命 • 生物技术连接世界”的愿景,专注于生命科学领域前沿技术的引进和推广,致力于推动该领域国内科研机构硬件水平及实验方案的革新与升级。同时,公司也一直致力于自主品牌的科研设备的研发与生产,拥有一系列通用性强、互补性高的自主品牌产品。

基因的服务网络遍及全国各地十多个大中城市,拥有包括仪器销售,试剂销售,市场与技术支持,维修,客服,物流等多个部门组成的完整服务体系。

我们希望通过不懈努力,为您的成功铺路搭桥,也为中国的生命科学事业赶超世界先进水平尽一己之力。欲了解更多信息,请访问www.genecompany.cn

图片




欢迎关注我司“基因快讯”与“基因售后服务”官方微信

沪公网安备 31011202014103号

沪ICP备2022000693号-1