A pangenome reference of 36 Chinese populations

36가지 중국 민족을 대상으로 한 범유전체 레퍼런스

[EzV] A pangenome reference of 36 Chinese populations

Abstract

인간 게놈학은 단일 참조 시퀀스(single reference sequence)에서 범유전체(pangenome)의 형태로 진행 중인 패러다임 변화를 겪고 있지만, 아시아계 조상의 인구는 이러한 트렌드에 제대로 표현되지 않았습니다.

이 논문에서는 36개의 소수 중국 민족을 대표하는 58개의 핵심 샘플을 기반으로 116개의 고품질 haplotype 단계의 de novo assembly를 포함한 Chinese Pangenome Consortium의 첫 단계 데이터를 제시합니다. CPC core assemblies는 평균 30.65배의 높은 원본 유사성의 long-read sequence coverage 및 평균 35.63Mb 이상의 contiguity N50 및 평균 3.01휴의 총 길이로, GRCh38에 1억 8900만 base pair(bp)의 euchromatic polymorphic sequence와 1,367개의 단백질 코딩 유전자 duplicates를 추가합니다. 연구진들은 1590만 개의 small variants 및 78,072개의 structural variants를 확인했으며, 그 중 590만 개의 small variants 과 34,223개의 structural variants는 최근 발표된 범유전체 레퍼런스에서 보고되지 않았습니다. Chinese Pangenome Consortium 데이터는 대표성이 낮은 소수 민족 집단에서 개인이 포함될 때, 기존과 비교하여 새롭고 누락된 염기 서열의 발견이 현저하게 증가했음을 보여줍니다.

누락된 reference sequence는 keratinization, 자외선에 대한 반응, DNA 복구, 면역학적 반응 및 수명과 관련된 필수 기능을 부여하는, 고대에서 파생된 대립 유전자와 유전자로 가득했습니다. 인간의 진화에 새로운 빛을 비추고 복잡한 질병 지도에서 missing heritability를 회복할 수 있는 큰 잠재력을 암시합니다.

Figure

[Fig1] A pangenome reference of 36 Chinese populations

[Figure 1] 58개의 핵심 샘플로 구성된 diploid assemblies가 있는 CPC panel
a. (왼쪽) CPC에 의해 시퀀싱된 샘플들의 지리학적 위치 및 민족, 언어 및 유전적 관련성입니다. 오른쪽 위) 동아시아 인구 기반, CPC의 전체 게놈 데이터에 기반한 principal component(PC) 분석 결과입니다.
b. 116개 CPC core assemblies의 연속성을 보여주는 NGx plot입니다.
c. 116개 CPC core assemblies의 조립 퀄리티입니다.
d. 116개 CPC core assemblies의 조립 완성도입니다.
e. 116개 CPC core assemblies의 small-scale 조립의 오류 분포를 보이는 density plot입니다.
f. 116개 CPC core assemblies의 duplication ratio입니다.

[Fig2] A pangenome reference of 36 Chinese populations

[Figure 2] CPC assemblies에서 식별된 CNV
a. GRCh38 기준과 비교한 CPC genome assembly당 중복 단백질 코딩 유전자 수입니다.
b. CPC, HPRC에서 복제된 유전자의 수를 보여주는 Venn diagram입니다.
c. HPRC 어셈블리와 비교했을 때 상위 20개의 CPC-specific CNV 관련 유전자입니다.
d. 5개의 중첩되는 CNV 유전자는 HPRC assemblies(오렌지)보다 CPC assemblies(파란색)에서 더 높은 빈도(≥5%)를 보여줍니다.

[Fig3] A pangenome reference of 36 Chinese populations

[Figure 3] HPRC assembly와 비교한 CPC 범유전체 그래프 및 CPC-specific variants
a. CHM13을 표현하는 variation graph의 예시입니다.
b. CPC 범유전체 그래프의 범유전체 누적 성장 곡선
c. 공동 판게놈 그래프에서 CPC와 HPRC assemblies 사이의 CPC-specific 및 일반적 variant의 수입니다.
d. 서로 다른 모집단에서 식별된 CPC-specific small variants 및 SV의 수입니다.
e. 상염색체에 대한 공동 판게놈 그래프의 CPC-specific SV 분포입니다.

[Fig4] A pangenome reference of 36 Chinese populations

[Figure 4] CPC pangenome graph 내 새롭고 복잡한 SV의 시각화
a. CPC 범유전체 하위 그래프에서 α-글로빈 유전자의 위치입니다.
b. 116개의 CPC haploid assemblies와 94개의 HPRC haploid assemblies 중 Minigraph-Cactus 그래프에서 모든 structural haplotype의 대립 유전자 수 및 선형 구조 시각화 결과입니다.
c. Joint subgraph를 통한 서로 다른 α-글로빈 유전자 haplotype 경로입니다.
d. CPC 하위 그래프에서 RASA4 region에 있는 유전자들의 위치입니다.
e. RASA4B의 다양한 copy numbers를 가진 서로 다른 structural haplotype 경로입니다.

Disscussion

이 연구에서, 연구진들은 PacBio HiFi long-read sequencing 기술을 사용하여 58개의 CPC core sample을 평균 30.65배 depth로 시퀀싱했습니다. 평균 연속성이 N50 > 35.63Mb이고 평균 총 크기가 3.01Gb인 116개의 고품질 haplotype-phase의 de novo assembly는 Telomere-to-Telomere Consortium haploid assembly T2T-CHM13에 대한 좋은 적용 범위를 가지고 있습니다. 이들의 분석에 따르면, CPC assembly는 현재 reference human genome sequence (GRCh38)의 연속성 및 기본 수준 정확도와 대체로 일치하거나 초과했습니다. CPC core assembly는 또한 GRCh38의 coverage가 좋으며, 1억 8900만 개의 유색 다형성 염기쌍과 1,367개의 단백질 코딩 유전자 복제를 GRCh38에 추가했습니다. 따라서 CPC Phase I 데이터는 중국 인구의 포괄적인 게놈 참조 역할을 하며 아시아계 조상 인구의 게놈 다양성을 더 잘 포착할 것으로 예상됩니다. 연구진들의 추가 분석을 통해 유전적 및 의학적 응용을 위한 고품질 모집단별 assembly의 필요성을 확인했습니다. 실제로, 이들은 다양한 조상의 배경에서 비롯되는 다양한 인종 집단 간의 상당한 차이를 보여주는 variation을 확인했습니다. 이들의 결과는 또한 시퀀스 정렬에서 모집단별 참조의 사용이 정렬 품질을 향상시켰다는 것을 시사합니다. HPRC 그래프 참조와 비교하여 CPC 그래프 참조를 사용하면 동아시아 샘플에서 short reads의 perfect alignment rate이 향상되었습니다.

CPC 범유전체 레퍼런스는 의심할 여지없이 아시아 인구, 특히 중국계 조상의 게놈 변화에 대한 보다 포괄적인 이해를 제공합니다. 예를 들어, CPC-specific SV의 대부분이 염색체의 중심체 및 텔로머 영역에 위치했지만 HPRC 데이터와 비교하여 확인된 small variants의 약 18.4% 및 SV의 17.1%가 CPC assemblies에 특이적이었습니다. Variants의 절반 이상이 singleton 또는 doubleton과 같이 극히 낮은 빈도를 보였고 CPC 또는 HPRC 데이터에서 구체적으로 식별되었습니다. 따라서, 연구진들의 결과는 CPC와 HPRC 모두에 대한 보다 포괄적인 샘플링 노력의 필요성을 나타냈습니다. 또한 CPC 및 HPRC assemblies와 공동으로 CPC-HPRC 범유전체 레퍼런스를 생성하여 다양한 기업에 보다 광범위하게 적용할 수 있도록 하였습니다.

CPC 데이터는 또한 유전적으로 다른 인종 집단에서 개인을 포함했을 때 새로운 서열의 발견이 현저하게 증가했음을 보여주었습니다. 주목할 만한 예는 α-글로빈 유전자 클러스터로, 특히 중국 남부와 동남아시아 인구에서 빈혈의 원인으로 널리 보고된 20kb의 결실과 CPC 어셈블리에 특화된 10kb의 복제를 확인했습니다. 따라서, 이들의 분석은 대표성이 낮은 아시아 인구, 특히 소수 민족 집단에서 새로운 또는 누락된 시퀀스를 발견하는 데 큰 잠재력을 보여주었습니다.

연구진들 스스로 언급하기에 놀라운 결과라고 할 순 없지만, 연구진들은 고대 기원의 시퀀스의 상당한 비율을 확인했습니다. 특히, 모든 민족 집단은 평균적으로 약 15Mb를 기여했고 모든 샘플은 약 9.5Mb의 고대 조상 시퀀스를 기여했으며, 이는 이전 연구에서 누락된 새로운 고대 시퀀스를 발견할 수 있는 가능성을 나타냅니다. 또한 CPC 어셈블리에서 식별된 새로운 고대 시퀀스는 HPRC 데이터에 크게 표현되지 않았으며, 이는 HPRC의 추가 노력에 아시아 조상의 더 다양한 샘플을 포함할 필요성을 다시 한번 시사합니다. 흥미로운 관찰은 북서 중국(예를 들어, 위구르, 카자흐, 키르기스)에서 온 튀르크어를 사용하는 인구와 다른 동아시아 인구 사이에 알타이 네안데르탈인과 유사한 서열이 공유되었다는 것인데, 아마도 서유라시아 인구와의 유전적 혼합 때문일 것입니다, 이것은 중국 북서부 인구에서 알타이 네안데르탈인과 유사한 조상을 희석시켰습니다.

연구진들은 이전에 중국 또는 아시아계 조상의 개인이 큰 게놈 다양성을 가지고 있다는 것을 보여주었습니다. 중국은 한족 다수 외에 공식적으로 인정된 55개의 소수 민족과 상당수의 인정받지 못한 소수 민족을 포함하여 문화적, 언어적 다양성이 높은 다수 민족이 거주하고 있습니다. CPC의 첫 번째 노력(1단계)으로, 현재 CPC에 의해 구성된 범유전체 레퍼런스는 55개 소수민족 집단 중 36개와 8개 언어 집단을 대표하는 58개의 CPC 핵심 샘플을 기반으로 했습니다. 계획에서, CPC는 500명의 고품질 단계별 염색체 수준 haplotype 시퀀스를 생산하는 것을 목표로 하고 있습니다. 이는 공식적으로 정의된 56개 민족뿐만 아니라 셰르파, 돌란, 케리얀, 덩, 롭 누르와 같은 이전 연구에서 잘 다루지 못한 다수의 미확인 민족을 포함할 것입니다. 완전한 단계의 T2T diploid 게놈은 인구 수준 게놈 연구에서 패러다임 변화와 새로운 표준을 나타낼 것입니다. 게놈 다양성을 문서화하려는 노력과 병행하여 유전자, 제어 요소 및 전사 등식과 같은 기능을 부여하는 CPC 게놈의 요소를 포괄적으로 주석을 달기 위해 상당한 노력이 투자되었습니다. CPC 게놈에 주석을 다는 것은 본질적인 기능을 부여하는 유전자와 기본적인 자연 선택을 발견하는 결과를 낳았는데, 이는 아마도 아시아 인구에 특정한 질병 감수성의 표현형 다양성과 관련이 있을 것입니다. 특히, CPC 서열의 상당 부분은 오래된 기원을 가지고 있으며 각질화, 염증 및 자가 면역 질환과 관련된 유전자가 풍부합니다. 더욱이, 6,426개의 단백질 코딩 유전자를 포함하는 CPC 판게놈에서 구체적으로 발견된 새로운 서열은 면역학적 기능을 포함하여 표현형 다양성 또는 질병 감수성을 제공합니다. 종합하면, CPC 1단계 데이터는 이미 인간의 진화를 새롭게 조명하고 복잡한 특성 및 질병 매핑에서 누락된 유전성을 복구할 수 있는 큰 잠재력을 보여주었습니다. 연구진들은 인간 게놈학의 세계적인 힘의 중요한 부분으로서 CPC가 고품질의 범유전체 레퍼런스를 구축하고 다양한 기초 및 임상 연구 프로젝트에 적용하는 데 상당한 기여를 할 것으로 기대합니다.

REF