当前位置:首页 > 技术交流 > 最新应用



技术交流

扫描二维码
或添加“GeneGroup003
获取更多更新资讯

商城订购

扫描二维码
或添加“基因商城(GeneMart)
手机下单,快人一步

售后服务

扫描二维码
或添加“GeneGroup005
获取更快速售后支持

文献解析 | 从Y染色体的完全组装到中国人的泛基因组,HiFi测序给您答案!

版权所有,转载请联系基因市场部
2023-03-16

ONE

HiFi测序

— 引领基因组学新时代 —

随着科学家们对测序准确度和长度的要求,人类基因组学研究已进入T2T(Telomere-to-Telomere)时代。而HiFi测序在长读长测序领域无疑是既长(10-25 kb)且准(>99.9%)的存在,在基因组的研究上具有以下显著优势:

  • 无GC偏好,能够对基因组进行均匀且完整的覆盖;

  • 检测包括SNP、InDel、SV、拷贝数变异、串联重复等在内的所有变异类型;

  • 定相Phasing区分单倍型;

  • 同时检测5mC甲基化信息。

基于以上优势,HiFi测序已被T2T联盟及人类泛基因组联盟(Human Pangenome Reference Consortium, HPRC)用来进行人类基因组的T2T组装和泛基因组组装等。



TWO

人类Y染色体的完整序列

— 无GAP参考基因组 —


随着题为“The complete sequence of a human Y chromosome”的研究在预印本平台bioRxiv上发表,人类Y染色体终于揭开了它的神秘面纱。

图片


Y染色体在生育力中起着关键作用,包含精子发生相关的重要基因以及哺乳动物性别决定位点SRY。但众所周知,人类Y染色体难以测序和组装,因为它具有复杂的重复结构,包括长回文、串联重复和片段重复。因此人类参考基因组GRCh38中最后一条待完成的Y染色体缺失了一半以上的序列。而HiFi测序技术的出现以其长读长(10-25 kb),高准确度(Q30),无GC偏好,可跨越重复序列,可实现单倍型分型的特点使得染色体的完全组装成为可能。

在这里,T2T联盟使用HiFi测序(30×)组装了Y染色体的框架,并辅以其它测序技术进行抛光和验证。最终向我们展示了来自HG002基因组(T2T-Y)的人类Y染色体的62,460,029个碱基对的完整序列。该序列纠正了GRCh38-Y中的多个错误并添加了超过3000万个碱基对的序列:

  • 揭示了Y染色体上特异基因TSPYDAZRBMY的完整结构;

  • 检测到42个额外的蛋白质编码基因,主要来自TSPY基因家族;

  • 补齐了GRCh38-Y组装结果中最大的单个Gap——异染色质Yq12区域,它几乎完全由两个分散的卫星序列DYZ1(22Mb)和DYZ2(14Mb)组成。

表1. GRCh38-Y和T2T-Y的比较

最后将T2T-Y与46/XX核型的CHM13基因组的组装结合起来,将所有染色体组装都提升到T2T级别,并绘制了可用的人群变异、临床变异和功能基因组学数据,产生所有24条人类染色体的完整和全面的参考序列。

综上,Y染色体的完全组装证实了HiFi测序在T2T基因组组装的实力


THREE

36个中国人群的泛参考基因组

— 中国泛基因组联盟会 —


至此,人类参考基因组T2T-CHM13+Y已完成,奠定了遗传和医学研究的基础。但单一的人类参考基因组对于群体的研究还很受限,无法代表全球人口的基因组多样性。人类基因组学正在见证从单一参考序列到泛基因组形式的持续转变,但亚裔人群的代表性不足。不仅目前已有的参考基因组GRCh38和T2T-CHM13+Y均为欧洲谱系,HPRC初步构建的47个全球人口样本中东亚人口样本也仅有4个,不足以代表拥有汉族和55个官方承认的少数民族的中国人群的遗传多样性。

因此,我们迫切需要建立一个高质量的参考泛基因组。中国泛基因组联盟会(Chinese Pangenome Consortium, CPC)率先出场,预计使用三代测序技术对至少500个个体进行从头测序,以更好地检测中国人群的序列变异。

近日,复旦大学、西安交通大学和中国科学院的徐书华、杨晓飞、叶凯等多个研究团队共同完成了来自36个少数民族和6个汉族群体的58个核心样本的CPC 116个(单倍型)高质量从头组装的第一次测序工作(第一阶段),提出了CPC参考泛基因组。

图片
图片



采用了以HiFi测序为主,ONT、Hi-C和Illumina多种测序技术并行的方法,第一阶段完成的CPC参考泛基因组进行了测序深度>30.65×的HiFi测序,获得了58个核心样本的116个单倍型基因组,平均连续性N50>35.63 Mb,平均基因组大小为3.01 Gb(图1A),平均组装质量为52.84(图1B)。CPC参考泛基因组覆盖了最新参考序列GRCh3的96.54%以及端粒到端粒的单倍体组装的T2T-CHM13的93.59%,这表明CPC参考泛基因组是与HPRC参考泛基因组相当的高质量、染色体水平的单倍型序列。

另外,CPC参考泛基因组中平均约24.34 Mb不能对比到T2T-CHM13参考基因组上,平均约69 Mb不能对比到GRCh38参考基因组上,表明CPC样本的基因组未被两个参考基因组完全覆盖(图1C)。CPC第一阶段的数据为GRCh38增加了1.89亿个碱基对的常染色体多态性序列和1,367个蛋白质编码基因重复。

图片

图1. CPC泛基因组中58个样本的组装连续性(A),组装质量(B)和组装完整性(C)。


为了研究CPC参考泛基因组中东亚人群特有的变异类型,将CPC泛基因组与HPRC泛基因组进行了比较。从CPC泛基因组中识别出约1,590万个小变异和约78,000个结构变异 (SV),其中约610(38.0%)个小变异和约25,000(32.4%)个SV在人类泛基因组参考联盟(HPRC)最近发布的泛基因组中并未被报告(图2)。

图片

图2. CPC和HPRC泛基因组图之间特有和共有的变异类型的数量


例如,6号染色体的MHC区的BTN基因家族在佤族中出现了一个新的缺失事件,而在布朗族中则发现了一个新的重复事件(图3A-B)。7号染色体上的RASA4基因则是呈现复杂的CNV高度多样性(图3C)。这两个基因都与免疫反应密切相关:BTN基因编码免疫球蛋白(Ig),在淋巴细胞激活的负调节中发挥重要作用,RASA4编码的RAS p21蛋白激活剂-4的异常表达也已被广泛报道与多种人类癌症的发展密切相关。


图片

图3. CPC泛基因组图中复杂的新型结构变异。


因此,这些分析显示了CPC泛基因组在少数民族群体中发现新序列或缺失序列的巨大潜力,无疑为亚洲人群,尤其是中国血统人群的基因组变异提供了更全面的理解。总之,CPC和HPRC应该进行更全面的采样,有必要增加多样性和人口代表性。

图片
图片
图片

结语

图片

长读长高准确度的HiFi测序可以最大限度地还原基因组的“原始面貌”,组装出高质量的单倍型基因组,覆盖SNV、InDel和SV在内的所有变异类型。不仅可以助力完全分型的T2T二倍体参考基因组的组装,也为群体水平基因组研究奠定基础。


参考文献:

[1].Arang Rhie, Sergey Nurk, Monika Cechova et al. The complete sequence of a human Y chromosome. 2022, bioRxiv. https://doi.org/10.1101/2022.12.01.518724

[2].Shuhua Xu, Yang Gao, Xiaofei Yang et al. A Pangenome Reference of 36 Chinese populations. 2022, PREPRINT available at Research Square. https://doi.org/10.21203/rs.3.rs-2097264/v1


如果您对HiFi测序技术感兴趣,

欢迎您与您身边的基因人联系!

基因有限公司作为PacBio公司中国区代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

图片





欢迎关注我司“基因快讯”与“基因售后服务”官方微信

沪公网安备 31011202014103号

沪ICP备2022000693号-1