적응성 염기서열 변화를 통해 인간의 새로운 신경 발달 촉진제를 만들다
고유한 인간 특성의 유전적 기반에 대한 탐색은 기존 기능 요소의 적응적 수정을 반영하는 보존된 게놈 영역에서 인간 고유의 다양성에 초점을 맞추고 있습니다. 그러나 염기서열의 conserved region에 대한 연구는 이전에 중립적인 지역에서 내려온 기능적 요소를 배제한 채 진행되었습니다.
이 논문에서는 인간 게놈 중 가장 빠르게 진화한 영역인 “Human Ancestor Quickly Evolved Regions” (HAQERs)이 인간-네안데르탈인 사이의 분할 전에 일시적인 directional positive selection에서 빠르게 분기된 후 hominins 내의 제약으로 전환되었음을 보여줍니다. HAQER는 특히 위장 및 신경 발달 조직에서 2가 크로마틴 상태 및 신경 발달 질환 관련 유전적 변형에 대해 풍부하게 발현되었습니다.
이 논문에서는 HAQERs의 빠른 sequence divergence가 발달 과정에 있는 대뇌피질에서 hominin-고유의 enhancer를 생성한다는 것을 발견하기 위해, 다중 단일 세포 생체 내 증강제 분석 방법을 개발했습니다. 이들은 다방향성 제약 조건이 부족한 것과 높은 돌연변이율이 HAQER의 신속한 적응 및 그에 따르는 질병의 취약성에 대비시킬 것을 제안합니다.
[Figure 1] HAQERs는 인간 게놈 내 가장 빠르게 진화한 지역입니다.
(a) 최근 인간 진화의 계통 발생학적 맥락에서 속도(v), 초기 속도(v0), 가속(a) 값을 표시했습니다.
(b, c) (b) 가속도 또는 (c) 속도로 결합된 500bp 게놈 영역에 대한 mean selection parameter estimates입니다. (Error bar: 상위 95% density 보유하는 credible interval / 가속도와 속도는 모두 인간 모집단의 선택 경향과 상관관계가 있습니다.)
(d) HAQERS는 500bp의 범위에서 최소 29개의 변이를 보유하는 지역으로 판별되었습니다. (P < 10-6) 이는 인간과 침팬지의 조상을 가르는 게놈 간 차이입니다. 길이에 상관 없이 insertion 및 deletion을 하나의 mutation으로 간주합니다.
(e) 인간 게놈 상에 존재하는 1,581개의 HAQER의 위치입니다(파란색). 마커의 진폭은 각 영역에서 관찰된 최대 divergence density를 반영합니다. HAQER는 모든 인간 염색체에 분포하며 염색체 말단 근처에서 풍부한 것으로 밝혀졌습니다.
(f) HAQER, human accelerated regions(HAR) 및 random neutral proxy region(RAND)에서 관측된 속도, 초기 속도 및 가속도의 누적 분포입니다. 영역은 최소 50 bp로 필터링 되었습니다 (Bonferroni-adjusted Wilcoxon; **** p < 0.0001).
[Figure 2] HAQER sequence divergence는 인간-네안데르탈인 간 분할 전 positive selection으로 인해 촉진되었습니다.
(a) Allele frequency의 범위를 구하여 아프리카 인구 501명의(Allele 1,002개) 특징을 추출하였습니다. HAQERs, RAND, ENCODE candidate cis-regulatory elements (cCREs), missense variants (MISSENSE), ultraconserved elements (UCEs)에 대한 allele frequency spectra입니다.
(b) 각 영역의 집단 내 segregating sites에 작용하는 mean selection parameter에 대한 대표 MCMC 추적 결과입니다.
(c) 아프리카 내 5개의 독립적인 인구 집단에서 site를 분리하여 추론한, 각 지역에 대한 mean selection parameter를 설명하는 posterior mean 및 95% 최고 밀도 신뢰 구간입니다.
(d) High derived allele frequency (DAF > 0.99, 왼쪽), low frequency(DAF < 0.01, 중앙), rare minor allele (DAF < 0.01 혹은 DAF > 0.99, 오른쪽)에 대해 RAND와 관련된 segregating sites의 enrichment 정보입니다 (∗ p < 0.05; Bonferroni-adjusted Mann-Whitney U).
(e) 고대 hominins 대 침팬지(왼쪽), 현대인 대 고대 hominins(중앙), 현대인 대 침팬지(오른쪽)의 cluster separation(기준: Dunn index)의 분포입니다. HAQERs, RAND, HARs에 대한 비교를 진행했습니다(Bonferroni-adjusted Mann-Whitney U; ∗ p < 0.05; ∗∗ p < 0.01; and ∗∗∗∗ p < 0.0001).
[Figure 3] HAQERs는 2가 크로마틴에서 발현이 증가하였습니다.
(a) 총 127개의 reference genome(열) 중 HAQERs(위), HARs(아래)에서 15개의 chromatin states(행)에 대한 overlap enrichment/depletion 행렬입니다. 이 결과에서는 HAQERs가 2가 크로마틴에 대해 발현이 증가하였지만, active enhancer & promoter states에 대해서는 그렇지 않은 것으로 나왔습니다.
(b) 여러 조직에서의 HAQERs 및 2가 enhancer chromatin state에 대한 유의한 overlap enrichment를 volcano plot을 통해 나타냈습니다.
(c) 배양된 세포 및 초기 조직로부터의 2가 chromatin states 대 reference epigenomics의 HAQER overlap enrichment를 비교했습니다. (t test; ∗ p < 0.05 and ∗∗ p < 0.01)
[Figure 4] HAQERs의 빠른 sequence divergence를 통한 hominin 특이적인 신경 발달 관련 enhancer 생성
(a) 실험 디자인입니다. 후보 HAQERs는 epigenomic dataset 에 대한 overlap을 토대로 우선시 되었습니다. 그 후 STARR-seq vector에 클로닝 된 후, 발달 과정 중에 있는 쥐의 두뇌에 pCAG-GFP transfection reporter를 통해 electroporation되었습니다. 해부 및 GFP+ 세포의 FACS enrichment 이후 단일 세포 시퀀싱을 진행했습니다.
(b) scSTARR-seq 실험을 통해 얻은 7,170개의 단일 세포에 대한 UMAP 시각화입니다. 세포들은 metacluster identities로 라벨링되었습니다. GFP transcfection reporter 및 human HAQER0169를 발현하는 세포들이 두드러지게 됩니다.
(c) Enhancer activity score(1,000개의 reporter UMI 및 13개의 HAQERs에 걸쳐 존재하는 모든 세포input에 대해 정규화된 unique molecular identifier(UMI) 수로 정의)입니다. 각 HAQER의 ID마다 가장 가까운 유전자를 함께 붙여 놓았습니다. 이 결과를 통해 hominin계열(인간, 네안데르탈인, 데니소바) 및 non-hominin 계열(침팬지, human-chimpanzee ancestor[HCA])의 염기서열 간 enhancer activity의 확연한 차이를 파악했습니다(Bonferroni-adjusted t test, p < 0.05). 연하게 칠해진 막대는 네안데르탈 및 데니소바인이 500bp 게놈 지역의 범위에서 같은 서열을 나타내는 곳을 의미하고, 이러한 중복 서열은 통계 분석에서 제외했습니다.
(d) 각 metacluster 내 모든 세포의 평균 pCAG-GFP UMI count로 인해 정규화한 cell-type enhancer activity score, 혹은 input-normalized reporter UMI count 입니다. (RG, radial glia; IP, intermediate progenitor; EN, excitatory neuron) (FDR-corrected t test, p < 0.05).
[Figure 5] FOXD4 family genes 근처의 hominin-specific 신경 발달 enhancer들의 급격한 분화 이후 따른 다수의 부분적인 복제
(a) 실험 설계입니다. 인간 혹은 인간-침팬지 조상의 추론된 HAQER0059에 대한 염기서열을 PGK-EGFP reporter plasmid에 클로닝한 후, 각 플라스미드를 발달 중에 있는 대뇌 피질에 E15.5에 mCherry injection reporter와 함께 in utero electroporation을 통해 전달했습니다. 24시간 이후 해부, 섹션 및 이미징을 했습니다.
(b) Hoechst로 염색한 관상부의 이미지입니다. mCherry injection reporter 및 EGFP enhancer reporter를 통해 진행했습니다. Scale bars, 100 μm.
(c) (왼쪽) PGK-EGFP reporter signal의 정량화 값이며, HAQER0059에 대한 mCherry injection reporter에 대해 정규화하였습니다. (오른쪽) 이에 대응하는 in vivo STARR-seq 결과입니다(∗ p < 0.05; ∗∗∗ p < 0.001; FDR t test. Dotted line, negative control mean + 3SD).
(d) 인간 및 타 유인원에 대한 HAQER0059 homolog 계통입니다.
(e) FOXD4L3, FOXD4L1 및 FOXD4 유전자 근처의 paralogous region의 게놈 경향입니다. 이 그림에서는 FOXD4 근처의 게놈 경향을 그렸는데, 여기에는 HAQER0059가 포함되어 있습니다. FOXD4L3은 근처에 HAQER을 포함하고 있지 않으며, great ape ortholog와 synteny((둘 이상의 유전자가 동일 염색체 위에 존재하는 상태) 관계에 있습니다.
(f) FOXD4 진화의 최신 모델입니다. 인간 유전자 FOXD4L3의 great ape ortholog는 9번 염색체의 subtelomere에 paralog인 FOXD4를 생성하였는데, 이 때 paired inversion 및 duplication이 일어났습니다. 이어지는 복제 과정 중 조상 염색체 2a/2b로부터 fusion site paralog FOXD4L1을 생성하였으며, 이는 현재의 인간 2번 염색체를 만들었습니다.
Discussion
고도로 다양한 지역이 자연 선택의 작용을 반영하는지, 혹은 국소 돌연변이율의 변화를 반영하는지에 대해 상당한 의견 차이가 있었지만, 연구자들 간에는 인간 집단의 유전자 데이터를 comparative genomic efforts에 신중하게 통합하면 selection 및 mutation rate variation의 상호 교란적인 특징을 효과적으로 해결할 수 있을 것이라고 추측했습니다.
Local mutation rate와 positive selection의 변화가 빠르게 진화한 영역의 생성에 대한 상호 배타성을 설명하기 위해 종종 제시되지만, 이 논문에서는 HAQER에서 positive selection과 높은 국소 돌연변이율 모두에 대한 증거를 발견했습니다. 이 두 증거의 영향이 조합되어 인간 게놈에서 가장 다양한 영역을 형성했음을 시사합니다.
특히, 이들은 HAQER의 적응적 진화가 인간과 고대 인간에서 기능적 결과를 생성한다는 것을 확인했습니다. HAQER는 특히 위장, 면역 체계 및 발달 과정을 거치는 뇌에서 2가 크로마틴이 매우 풍부하게 존재합니다. 이들은 HAQERs의 빠른 sequence divergence가 hominin에 특이적인 유전자 조절 요소를 형성한다는 것을 입증하기 위해 다중 단일 세포 강화 분석을 개발했습니다.
HAQER는 인간 및 침팬지의 조상을 따라 빠른 진화에서부터 현대 인간 사이의 제약으로 전환되었습니다. 네안데르탈인과 데니소반의 HAQER 서열은 서열과 기능 모두에서 인간의 가변성 범위에 속하며, HAQER의 급격한 분화는 이 개체군 분열보다 훨씬 이전에 일어났음을 시사합니다. 최근 네안데르탈인과 데니소반 게놈의 접근성이 인간과 멸종된 hominins 사이의 차이점에 대한 실질적인 조사에 박차를 가했지만, 이족보행과 뇌 확장을 포함한 인간 혈통의 많은 표현형 전환은 같은 인간들 사이에서 공유됩니다. HAQER는 서열과 기능 모두에서 빠른 분화를 통해 인간으로서 우리를 위대한 유인원 조상으로부터 분리하고 있지만, 현대적 제약을 통해 하나의 종으로서 우리를 통합합니다.
HAQER와 HAR는 그 기능의 해부학적 특이성에서 현저한 유사성을 보입니다. 둘 모두 뇌와 위장에서 발현이 많습니다. 이러한 지속적인 genomic enrichment는 인간 계통에서 알려진 뇌 확장과 장 수축과 관련한 해부학적 변화와 유사합니다. 이 두 가지 변화는 상대적으로 일정한 기초 대사율을 유지하기 위해 함께 진화한 것으로 제안되고 있습니다.
HAQER와 HAR는 영향을 미치는 조직에서 유사성을 보여주지만, 이 논문에서는 이러한 분류가 척추동물 진화 중에 regulatory innovation의 별개 등급을 나타낼 것을 제안합니다. HAQER는 중립 영역에서 생성된 새로운 기능 요소를 포함하는 반면, HAR는 기존 기능 요소의 수정을 나타내어 서로 다릅니다. 이러한 관점은 선택 매개 변수, 염색질 상태 및 다방 효과에서 HAQER와 HAR 간에 관찰되는 차이와 일맥상통합니다. Selection의 측면에서, HAQER는 regulatory innovation이 중립 시퀀스에서 단조되기 때문에 많은 염기가 긍정적인 선택을 받는 단일 선택 모델에 더 적합할 수 있습니다. 이에 대조적으로, HAR은 기존 기능 요소가 수정되는 메카니즘이며, 논문에서는 이들의 구성이 이전 기능을 유지하는 음의 선택 하에 있는 염기와 양의 선택에 의해 영향을 받는 염기의 혼합물이 될 것으로 예상합니다. 따라서 모든 사이트에 걸쳐 평준화된 선택 매개 변수를 평가하는 선택 모델이 HAR의 중립성에서 상당한 편차를 관찰하지 않는 것은 이상하지 않습니다. 크로마틴 상태 측면에서 HAQER는 시공간적으로 제한된 조절 맥락과 관련된 2가 크로마틴 상태에 대해 강하고 일관된 발현 증가를 보여주는 반면, HAR은 더 광범위하게 기능하는 enrichment state와 관련이 있습니다. 이런 기능적 특수성과 같은 맥락으로, 이들은 HAR가 고도로 보존된 active enhancer들을 변형함으로써, 예상할 수 있듯이 실질적으로 다형성인 반면 HAQER에서 제한된 다형성 변화를 관찰합니다. 이러한 차이는 HAR에서 수정된 오래되고 다기능적인 규제 요소와 비교하여 HAQER의 더 새롭고 더 구체적인 기능과 일치합니다. 여기서 중요한 것은, 척추동물의 진화와 질병에 대한 유전자 조절 요소의 이득, 손실 및 수정의 상대적인 기여가 알려지지 않았다는 것입니다. 저자들은 이전에 비기능적 영역에서 기능적 요소를 단조하는 것이 고도로 보존된 많은 발달 촉진제의 진화 가능성을 감소시키는 전능성 제약 조건을 우회함으로써 종 간의 규제 차이에서 큰 역할을 할 가능성이 있다고 제안합니다.
Positive selection으로 선정된 HAQER에서 높은 돌연변이율의 관찰은 척추동물 게놈에서 진화 가능성의 불균일성으로 설명됩니다. 예를 들어, 해양 stickleback의 개체군은 developmental enhancer의 deletion 통해 골반을 감소시킴으로써 민물 서식지에 독립적으로 적응했습니다. 두 개 이상의 enhancer deletion 가 골반 감소로 이어질 수 있지만, 야생 개체군은 이중 가닥 절단에 매우 취약한 영역에 위치한 동일한 enhancer의 deletion를 최근에 보였습니다. 종종, 가능한 돌연변이들 중 많은 수가 동일한 적응형 표현형을 생산할 수 있습니다. 유사하게 적응형 돌연변이가 다른 속도로 발생할 때, 더 높은 발생률을 가진 돌연변이는 적응을 위해 우선적으로 사용될 것입니다. 이 연구에서는 실제로 HAQER에서 돌연변이율이 증가하는 것을 관찰했고, positive selection된 영역에서 이러한 돌연변이율이 증가하는 패턴이 척추동물 생활 전반에 걸쳐 일반적일 것으로 예상합니다.
적응 진화에 의해 이용되는 일부 hypermutable regions는 감수 분열 동안 이중 가닥이 끊어지기 쉬운 영역과 같이 파생 상태에서 변이성을 유지하는 반면, 취약한 부위의 삭제를 포함한 다른 영역은 그렇지 않습니다. 이 연구에서는 파생된 상태에서 hypermutability를 유지하는 positive selection된 영역이 후속 유해 돌연변이를 통해 유기체를 질병 감수성에 노출시킬 것을 제안합니다. 실제로, HAQER는 고혈압에서 신경정신병에 이르는 질병과 관련된 인간 유전자 변형에 대해 많이 발현됩니다. 따라서, 이 연구 이후 척추동물 진화 역사에 걸쳐 돌연변이율, 양성 선택 및 종별 질병 감수성 사이의 일반적인 대응을 기대합니다.