Human lymphocytes에서의 다양한 돌연변이의 모습
Abstract
lymphocyte genome은 분화 중 programmed mutation, antigen-driven proliferation 및 다양한 미세 환경에서의 residency를 포함하여 많은 위협에 취약합니다. 여기에서 single-cell lymphocyte culture의 확장을 위한 프로토콜을 개발한 후, 우리는 717개의 정상 naive 및 memory B, T 세포 및 haematopoietic stem cell에서 whole genome을 sequencing 했습니다. 모든 lymphocyte subset은 hsc보다 더 많은 point mutation과 structural variant를 가지고 있습니다. naive 세포보다 memory 세포가 더 많은 burden을 가지며, T 세포는 일생 동안 더 높은 비율로 mutation을 축적합니다. immunological diversification의 Off-target effect는 lymphocytes에서 추가적인 differentiation-associated mutation의 약 절반을 차지했습니다. memory B 세포는 germinal centre reaction동안 모든 on-target IGHV mutation에 대해 게놈 전체에서 평균 18개의 off-target mutation을 획득했습니다. Structural variation은 줄기 세포보다 lymphocyte에서 16배 더 높았으며, deletion의 약 15%는 off-target recombinase-activating gene activity에 기인합니다. 자외선 노출 및 기타 산발적인 mutational process로 인한 DNA 손상은 일부 memory 세포에서 수백에서 수천 개의 mutation을 생성했습니다. 정상 B 세포의 mutation burden과 signature들은 많은 B 세포 암에서 볼 수 있는 것과 대체로 유사했으며, 이는 lymphocytes의 악성 형질전환이 정상 개체 발생 전반에 걸쳐 활성화되는 동일한 mutation 과정에서 발생함을 시사합니다. 정상 lymphocytes의 mutation landscape는 immunological diversification동안 프로그래밍된 게놈 공학의 off-target effect와 다양한 미세 환경에서의 분화, 증식 및 residency의 결과를 기록합니다.
Figure
Fig 1. 실험 설계 및 연령에 따른 lymphocyte mutation burden.
a, 실험 설계의 개략도.
b, HSPC(녹색 점)와 비교하여 4개의 주요 림프구 하위 집합에 대한 게놈당 SNV mutation burden. 각 패널은 HSPC 및 표시된 세포 유형에 대한 데이터를 색상으로 표시하고 다른 3개의 lymphocyte subsets은 회색 윤곽선이 있는 흰색으로 표시됩니다. 선은 선형 혼합 효과 모델을 사용하여 표시된 세포 유형에 대한 적합성을 보여줍니다.
SNV, indel mutation burden은 age와 선형적인 연관성이 있습니다. lymphocytes의 종류마다도 다르게 나타납니다.
그래프의 기울기는 연간 돌연 변이 축적비율을 보여줍니다. HSPC는 연간 16개/cell, Naive, Memory B 세포는 이와 유사한 15개/cell, 17개/cell 만큼 축적합니다. 반면 T 세포는 돌연변이 비율이 더 높았습니다. Naive, Memory T 세포는 각각 22개/cell, 25개/cell을 축적합니다.
Base substitution burden은 age로는 설명이 불가능합니다.
그래프의 y절편값은 Base substitution burden을 보여줍니다. HSPC와 비교하여 Naïve B, T 세포는 각각 110, 59개의 추가 SNV를 가집니다. Memory B, T 세포는 이보다 현저히 많은 1034, 277개의 추가 SNV를 가집니다. 이는 HSPC -> Naïve -> Memory 세포로 분화되어가며 획득한 SNV가 축적되어지는 것으로 보입니다.
Fig 2. Lymphocyte의 돌연변이 과정.
a,b, 다른 세포 유형에서 mutational signature 당 SNV(a) 및 SNV burden(b)의 비율. 각 열은 하나의 게놈을 나타냅니다. 각 게놈에 대해 90% 사후 간격 하한이 1% 미만인 서명은 제외됩니다.
c, 특정 mutational signature가 풍부한 단일 세포에서 유래한 콜로니의 게놈 돌연변이 스펙트럼. b에서 플로팅된 특정 게놈을 봤을 때 x축의 trinucleotide context는 각 substitution class 내의 16개 막대를 나타내며, 4개 막대의 4개 세트로 나뉘며 돌연변이된 염기에 대해 5′ nucleotide로 그룹화되고 3′ nucleotide로 각 그룹 내에서 그룹화됩니다(A, C, G, T 순서로).
Naive B, T 세포 mutation은 대부분 2개의 mutation signature에서 파생되었습니다. 둘 모두 age에 선형적 상관관계를 갖습니다.
SBS1은 methylated cytosines의 자발적인 deamination에의해 유발됩니다. Mutation의 약 14%를 차지합니다.
SBSblood는 전형적인 endogenous mutation입니다.
Memory B, T세포는 2가지 mutation signature에서 기인된 mutation의 수는 유사했습니다. Memory 세포는 추가적으로 SBS7a, SBS8, SBS9 및 SBS17b 등의 mutation signature을 갖습니다.
이중 SBS8, SBS9는 age와 상관관계를 갖는 반면, SBS7a, SBS17b는 관계가 없습니다.
SBS7a는 자외선 손상의 canonical signature입니다. dipyrimidine context에서 C>T를 일으킵니다. SBS7a가 많은 Memory T 세포는 telomere의 길이가 짧습니다. 이는 증식증가를 나타냅니다.
SBS17b는 위암, 식도암등에서 나타납니다. T pT context에서 T>G를 일으킵니다.
SBS9은 T pW context에서 A-T에 mutation을 일으킵니다. 이는 C-G에 mutation을 일으키는 SHM과 다른 스펙트럼을 가집니다. SBS9은 Memory B 세포 mutation의 42%를 설명합니다.
Fig 3. 게놈 속성 및 돌연변이 과정의 타이밍과 SBS9의 상관 관계.
a, SBS9 및 SHM 서명의 돌연변이 스펙트럼. x축의 trinucleotide context는 각 substitution class 내에서 16개의 막대를 나타내며, 4개 세트의 4개 막대로 나뉘며, 돌연변이된 염기에 대해 5′ nucleotide로 그룹화되고, 3′ nucleotide로 각 그룹 내에서 그룹화됩니다. y축은 각 클래스의 돌연변이 수를 나타냅니다.
b, 게놈 전체에 걸친 SBS9 돌연변이의 수 및 기억 B 세포의 생산적인 재배열에서 돌연변이된 IGHV의 염기 백분율. 선은 상관 관계의 선형 회귀 추정치를 나타냅니다.
c, 세포 유형에 따라 착색된 게놈당 텔로미어 길이에 대한 SBS9 돌연변이 수. 회귀선은 메모리 B 세포에 대한 것입니다.
d, 10kb 창당 SBS9 돌연변이 수(좌측) 또는 SBS혈액 또는 SBS1 돌연변이 수(우측)를 예측하기 위한 개별 GAM의 R2로 표현되는 generalized additive model (GAM)에서 각 중요한 게놈 특징 설명.
e, 별개의 혈액 세포 유형 및 다양한 발달 단계를 나타내는 149개의 epigenome의 히스톤 표시에서 특정 돌연변이 서명에 기인하는 게놈 전체 돌연변이 분포의 예측 성능(y축의 세포 유형 다음 숫자는 복제를 나타냄). 진드기는 후생유전적 세포 유형에 따라 색상이 다르게 표현했습니다. 검은 점은 10배 교차 검증의 값을 나타냅니다.
SBS9은 게놈 전체에 다양한 스펙트럼으로 존재함에도 불구하고 SHM비율(IGHV의 mutation 비율)과 강한 선형 상관계를 가집니다. SBS9의 mutation은 게놈 전체보다 IGHV locus에서 270,000배 더 컸습니다. 이는 SHM이 정확하게 on-target 함을 보여줌과 동시에, 이정도의 높은 정확성조차도 모든 on-target IGHV mutation이 게놈의 다른 곳에서 평균 18개의 SBS9 mutation을 동반함을 의미합니다.
Memory B 세포의 telomere길이는 다른 세포들과 달리 나이가 들면서 증가했습니다. telomere길이는 SBS9 mutation수와 선형 상관관계가 있었습니다. 이는 germinal centre동안 telomere가 길어지고 SBS9 돌연변이가 발생한다는 가설을 뒷받침합니다.
HSPC, Naive B, Memory B 등에서 SBS9와 SBS blood에서 mutation과 149개의 epigenome의 상관관계를 분석하여 각 세포의 수명 및 돌연변이 상태와 분화된 상태의 epigenome이 상관이 있음을 알 수 있습니다.
Fig 4. 구조적 변형 부담 및 표적 외 RAG 매개 결실.
a, 상단, chromoplexy cycle. 검은 점은 염색체를 따라 수정된 판독 깊이를 나타내고 호는 structural variant를 나타냅니다. 하단에는 4개의 파생 염색체의 최종 게놈 구성이 색이 다른 화살표로 표시되어 있습니다.
b, CREBBP 결실.
c, 세포 유형에 따른 structural variant burden.
d, Ig-TCR 및 non-Ig-TCR 영역에 대한 중단점의 50bp 이내 RSS(RAG) motif가 있는 deletion 비율. 검은색 점선은 RAG motif의 게놈 배경 비율을 나타냅니다.
e, 중단점으로부터 거리의 함수로서 RSS(RAG) 모티브를 사용한 deletion 비율, +값은 삭제 내부 염기를 나타내고 -값은 중단점 외부 염기를 나타냅니다. 검은색 점선은 RAG 모티프의 게놈 배경 비율을 나타냅니다.
f, RSS(RAG) 또는 스위치(CSR) 모티브가 있는 deletion 비율.
VJ 재조합과 CSR은 모두 인간 lymphoid malignancy에서 off-target structural variant를 발생시킵니다. Ig-TCR과 non-Ig-TCR에서 structural variant를 확인했을 때 각 세포의 종류에 따라 발생하는 structural variant의 차이가 있었습니다. 또한, VJ 재조합에 핵심적으로 작용하는 RAG의 경우에도 motif 내 deletion이 발생했고 각 세포 종류에 따라 RAG과 CSR motif의 deletion 비율이 달랐습니다.
Fig 5. 악성 종양과 돌연변이 패턴의 비교.
a,b, SNV(a) 및 sturctural variant(SV) burden(b) 정상 세포 유형 또는 악성 종양에서 비교.
c, 게놈당 mutational signature의 비율. 각 게놈에 대해 90% 신뢰 구간 하한이 1% 미만인 signature는 제외됩니다.
d,e, 세포 유형 또는 악성 종양에 따른 SBS9 burden(d) 및 비율(e).
f,g, 전체 게놈과 비교하여 해당 signature에 대해 자주 돌연변이 되는 유전자 근처의 SBS9(f) 및 SHM(g) signature의 enrichment 수준을 보여주는 heat map. 그룹당 structural variant 수: B 세포: 145, T 세포: 841, ALL: 523, Burkitt lymphoma: 305, 돌연변이된 CLL: 252, 돌연변이되지 않은 CLL: 440, 피부 T 세포 lymphoma: 204, DLBC lymphoma: 3,754, follicular lymphoma: 1,095.
a,b,d,e, 그룹 당 게놈 수: naive B: 68, memory B: 68, naive T: 332, memory T: 87, Burkitt lymphoma: 17, 돌연변이된 CLL: 38, 돌연변이되지 않은 CLL: 45, 피부 T 세포 lymphoma: 5, DLBC lymphoma: 47, follicular lymphoma: 36, multiple myeloma: 30, myeloid–AML: 10.
Malignancy의 일부는 SNV burden이 정상 lymphocyte보다 높았습니다. 대조적으로 다른 일부는 정상 lymphocyte와 비슷했습니다. SNV와는 달리 structural variation은 Malignancy가 정상lymphocyte보다 더 빈번했습니다.
모든 B 세포 Malignancy의 mutation 대부분은 정상 Memory B 세포에서 원래 존재하는 mutation process와 유사합니다. 이는 정상 lymphocyte에서 point mutation을 생성하는 과정이 다양한 Malignancy로 진행을 유도하기에 충분함을 보여줍니다.
B cell lymphomas의 somatic mutation 특징은 off-target SHM이 clustering된다는 것입니다. SBS9과 SHM 모두 높은 mutation rate을 가지는 gene에서 overlap됨을 확인했습니다. Malignancy에서도 높은 비율로 나타났습니다.
Discussion
lymphocytes의 somatic mutation에 작용하는 positive selection은 negative selection보다 더 널리 퍼져 있으며, 이는 개별 lymphocytes의 clonal expansion이 생리학적 게놈 편집을 위한 진화적 트레이드오프임을 시사합니다. Lymphoid cancers은 분명히 이로 인한 하나의 결과입니다. 정상 lymphocytes의 mutation burden과 signature가 lymphoid malignancies에서 보이는 것과 일치한다는 것은 off-target mutagenesis가 가끔 lymphocytes를 변형시키기에 충분하다고 주장합니다. 50년 이상 동안 driver mutation가 자가면역 질환을 뒷받침할 수 있다는 추측이 있어왔으며, 최근 데이터는 Sjögren’s disease와 관련된 혈관염을 유발하는 림프구의 driver mutation를 보여줍니다. 우리의 데이터는 첫째, mutation 비율이 정상 lymphocytes사이에 상당한 유전적 다양성을 생성할 만큼 충분히 높으며, 둘째, selective pressure이 개별 lymphocytes의 clonal expansion을 선호한다는 것을 보여줍니다.
인간의 세포 유형 중에서 고유한 lymphocytes는 골수, 흉선, 림프절, 피부 또는 점막과 같은 다양한 미세 환경에서 긴 수명을 가집니다. Lymphocytes가3-24개월마다 분열한다는 점을 감안할 때, mutation 비율은 아마도 세포 분열 당 5-50일 것입니다. 이러한 단계는 단기간에 분화를 burst하고, 증식 및/또는 항원 인식을 개선하기 위한 프로그래밍된 게놈 엔자니어링과 관련되어 추가 mutation에 기여합니다. 사람 대 사람 변이보다 세포 대 세포 변이가 상당히 크다는 것은 평생 동안의 환경적 힘(감염, 염증 및 피부 잔류와 같은)이 mutation 비율의 유전 변이보다 림프구 게놈에 더 강한 영향을 미친다는 것을 시사합니다. 이러한 mutation의 특징은 면역학적 다양화의 의도하지 않은 부산물과 exogenous mutagens에 대한 노출을 모두 반영합니다. 그들의 게놈 분포는 mutation 과정이 활성화되었을 때 세포의 chromatin landscape를 반영합니다.