Recurrent repeat expansions in human cancer genomes

인간 암 유전체 내의 Recurrent Repeat Expansions (rRE)

[EzV] Recurrent repeat expansions in human cancer genomes

Abstract

Tandem Repeat(TR)이라 불리는 단일 반복 DNA 서열의 확장은 50개 이상의 질병을 유발하는 것으로 알려져 있습니다. 그러나 반복적인 확장은 신경학적 및 신경 퇴행성 질환을 넘는 범위에서는 많이 연구되지 않았습니다. 일부 암에서의 돌연변이는 microsatellite instabilit이라고 불리는 현상인 TR의 짧은 트랙에 축적되는 것으로 알려져 있습니다.

이 논문에서는 29종의 암에 걸친 2,622개의 암 게놈에서 TR 확장을 확인했습니다. 암 유형 중 7종에서 160개의 recurrent repeat expansions(rRE)을 발견했으며, 그 중 대부분(155/160)은 subtype 별로 특이적이었습니다. 또한, rRE가 candidate cis-regulatory elements 근처의 발현 증가와 함께 게놈 전체에 불균일하게 분포되어 있다는 것을 발견했고, 이는 유전자 조절에서 잠재적인 역할을 시사합니다. UGT2B7의 첫 번째 intron에 있는 regulatory element 근처에 위치한 GAAA-repeat expansion인 하나의 rRE는 신장 세포 암 샘플의 34%에서 검출되었고, long-read DNA 염기서열에 의해 검증되었습니다. 더욱이, 예비 실험 중 이 rRE를 수용하는 세포를 GAAA 표적 분자로 처리하는 것은 세포 증식의 용량 의존적 감소로 이어지는 결과를 발견했습니다.

전반적으로, 이 논문의 결과는 rRE가 인간 암에서 유전적 변이의 중요한 부분을 차지하지만, 충분히 연구되지 않은 부분일 수 있음을 시사하며, 추가 연구를 위한 포괄적인 카탈로그를 제공합니다.

Figure

[Fig1] Recurrent repeat expansions in human cancer genomes

[Figure 1] 암 게놈 중 genome-wide 범위에서의 rRE 검출 결과

(a) 29개 인간 암 유형에 걸쳐 2,509명의 환자에서 rRE를 식별하는 방법의 모식도입니다. 각 숫자는 각자 다음과 같은 항목을 의미합니다.

1, head and neck squamous cell carcinoma (Head−SCC); 2, skin–melanoma; 3, glioblastoma (CNS–GBM); 4, medulloblastoma (CNS−Medullo); 5, pilocytic astrocytoma (CNS–PiloAstro); 6, oesophageal adenocarcinoma (Oeso−AdenoCA); 7, osteosarcoma (Bone−Osteosarc); 8, leiomyosarcoma (Bone−Leiomyo); 9, thyroid adenocarcinoma (Thy–AdenoCA); 10, lung adenocarcinoma (Lung−AdenoCA); 11, lung squamous cell carcinoma (Lung−SCC); 12, mammary gland adenocarcinoma (Breast−AdenoCA); 13, B cell non-Hodgkin lymphoma (Lymph−BNHL); 14, chronic lymphocytic leukaemia (Lymph−CLL); 15, acute myeloid leukaemia (Myeloid−AML); 16, myeloproliferative neoplasm (Myeloid−MPN); 17, biliary adenocarcinoma (Biliary–AdenoCA); 18, hepatocellular carcinoma (Liver−HCC); 19, stomach adenocarcinoma (Stomach−AdenoCA); 20, pancreatic adenocarcinoma (Panc−AdenoCA); 21, pancreatic neuroendocrine tumour (Panc−Endocrine); 22, colorectal adenocarcinoma (ColoRect–AdenoCA); 23, prostatic adenocarcinoma (Prost−AdenoCA); 24, chromophobe renal cell carcinoma (Kidney–ChRCC); 25, renal cell carcinoma (Kidney–RCC); 26, papillary renal cell carcinoma (Kidney−pRCC); 27, uterine adenocarcinoma (Uterus−AdenoCA); 28, ovarian adenocarcinoma (Ovary−AdenoCA); 29, transitional cell carcinoma of the bladder (Bladder−TCC).

(b) 암 종류에 따른 rRE의 분포입니다.

(c) rRE를 보유한 암 게놈의 비율입니다.

(d) rRE를 가지거나 가지지 않은 암 게놈의 STR 변이율입니다. (Two-tailed Mann–Whitney test (n = 2,465 cancer genomes); NS, not significant.)

(e) MSS 및 MSI-high 암 종류의 rRE의 분포입니다. (Chi-squared (two-tailed) test with Yates’ correction (n = 2,482 cancer genomes))

[Fig2] Recurrent repeat expansions in human cancer genomes

[Figure 2] rRE의 특징

(a) rRE의 반복 유닛(motif)의 분포입니다.

(b) rRE의 종류에 따라 많이 보유 중인 motif의 종류입니다.

(c) rRE부터 염색체 끝부분까지의 거리입니다.

(d) rRE와 겹치는 유전 특징의 비율입니다.

(e) simple repeat(n = 950,091 loci) 및 rRE(n = 160 loci)가 Encyclopedia of DNA Elements(ENCODE) 상의 cCRE 중 가장 가까운 대상과의 거리를 나타냈습니다. (Welch’s t test (two tailed))

[Fig3] Recurrent repeat expansions in human cancer genomes

[Figure 3] rRE 및 암 사이의 관련성

(a) 인간의 질병과 rRE간의 연관성입니다. Chr., chromosome.

(b) 9가지의 COSMIC genes를 포함한 관심 유전자군 내 예상하는 rRE의 빈도입니다.

(c) Simple repeats(n = 950,091 loci), 비전립샘암의 rRE(n = 55 loci), 전립샘암의 rRE(n = 105 loci)가 가장 가까운 전립샘암의 위험 locus와 가지는 거리를 나타냈습니다. (Statistical significance was measured with Welch’s t test (two tailed; *, q = 0.08))

(d) COSMIC tier 1 유전자 그룹 내 포함된 유전자 안의 SNVs 및 rRE의 존재 간의 관련성입니다. (Two-tailed Student’s t test with FDR correction by the Benjamini–Hochberg method)

[Fig4] Recurrent repeat expansions in human cancer genomes

[Figure 4] RCC 내의 rRE에 대해

(a) RCC 샘플 내 GAAA TR의 전기 영동 결과입니다. 이 분석은 반복하여 재현되었으며(performed in duplicate), 해당 그림의 겔은 대표적인 결과를 나타냅니다. 왼쪽 래더의 눈금은 base pair를 의미합니다.

(b) UGT2B7의 intron 내 GAAA rRE의 long-read sequencing을 시각화한 것입니다. 데이터는 PacBio HiFi sequencing의 결과입니다.

(c) UGT2B7의 intron에서 rRE를 둘러싸는 locus의 발견 결과입니다. RNA polymerase II (Pol2), acetylated histone H3 lysine 27 (H3K27ac), monomethylated histone H3 lysine 4 (H3K4me1) 및 p300 in HepG2 cells의 추적 결과를 보입니다. cCRE 및 chromatin 상태(ChromHMM) 또한 표현되어 있습니다. Txn, transcription.

(d) RCC 샘플 내 UGT2B7 isoform ENST00000508661.1의 발현을 나타냅니다. rRE가 UGT2B7 내에서 발견되는 것을 기준으로 하였습니다(정량화된 발현 측정) (Significance was measured by two-tailed Wald test with FDR correction (Benjamini–Hochberg) (n = 49 cancer genomes with matching WGS and RNA-seq data))

[Fig5] Recurrent repeat expansions in human cancer genomes

[Figure 5] RCC 내 GAAA-targeting molecule의 설계

(a) Syn-TEF3, PA3, Syn-TEF4 and PA4. Syn-TEF3 and PA3 target 5′-AAGAAAGAA-3′. Syn-TEF4 및 PA4 target 5′-AAGGAAGG-3′의 화학적 구조입니다. N-methylpyrrole (빈 원), N-methylimidazole (색칠된 원) and β-alanine (다이아몬드)의 구조가 표현되어 있습니다. N-methylimidazole은 강조를 위해 볼드화되었습니다. Polyethylene glycol(PEG6)와 연결된 JQ1의 구조는 파란색 원으로 나타내었습니다. Isophthalic acid 및 그 연결고리들의 구조는 IPA로 표기하였습니다. Syn-TEF4 및 PA4와 더불어 형성된 mismatch는 주황색 선으로 표현되었습니다.

(b) RCC cell line인 Caki-1 및 786-O에, 그림에 표기된 약품의 처리 72시간 후의 상대적인 세포 밀집도입니다. 상대 세포 밀집도는 CCK-8 assay를 통해 측정되었습니다. (n = 4 biological replicates)

(c) Propidium iodide-positive cell들의 양 측정 결과입니다. (P values are from one-way ANOVA with Bonferroni’s correction for multiple comparisons. Results are shown as the mean ± s.e.m. (n = 3 biological replicates except n = 2 biological replicates for Syn-TEF3 in 786-O cells)

(d) Propidium iodide(빨간색) 및 Hoechst 33342(파란색)으로 염색한 Caki-1 및 786-O 세포들의 live-cell microscopy입니다. (Scale bars, 100 μm)

Disscussion

이 논문에서는 암 게놈에 걸쳐 MSI와 구별되는 rRE에 대한 게놈 전체 조사를 수행했습니다. 해당 데이터를 통해 (1) 7개의 인간 암 유형에서 160개의 rRE를 식별했고, (2) 대부분의 rRE가 암 하위 유형에 특이적이며, (3) 질병 중에서 rRE는 인간 암 부위에 풍부하고 regulatory elements 근처에서 발생하는 경향이 있으며, (4) rRE는 MSI 상태와 상관이 없으며, (5) 작은 분자로 RCC의 GAAA 반복 확장을 목표로 하며, 이는 결국 암세포를 죽이는 것으로 이어진다는 것을 밝혔습니다. 종합하자면, 이들의 결과는 중요한 기계적 및 치료적 의의를 가진 암 게놈의 미개척 유전자 변화를 발견했습니다.

역사적으로, MSI는 복구 유전자의 특정 암 유발 유전자 변화가 광범위한 STR 변화를 촉진할 수 있기 때문에 암 유전자의 STR 변화를 프로파일링 하려는 노력의 중심이 되어왔습니다. 하지만 이와 반대로, 이들은 rRE와 MSI 사이의 상관관계를 거의 발견하지 못했다는 사실을 흥미롭게 여깁니다. 이러한 결과는 더 큰 TR에서 MSI와 반복 불안정성 사이의 상관관계가 사실은 결정적이지 않았다는 이전 연구 결과와 일치합니다. MSI는 아직 발견하지 못한 rRE의 하위 유형에 기여할 수도 있고, rRE는 MSI의 그것과 구별되는 돌연변이 과정에서 발생할 수도 있습니다. DNA에는 여러 가지 다른 세포 복구 시스템이 있으며, 이들이 관찰한 rRE는 아마도 매우 구체적인 위치 관련 메커니즘 또는 활동 때문일 것으로 추측합니다. 이러한 반복적인 확장 중 일부는 MSI에서 발생하는 것처럼 전역적인 전이 효과를 일으키는 유전자 돌연변이보다는 뚜렷한 위치에서 확장되기 쉬운 흥미로운 DNA 또는 염색질 구성을 가진 cis 영역 때문일 수 있습니다.

논문에서 언급하는 한, 이들의 연구는 신경학적 또는 신경 퇴행성 질환을 넘어 반복적인 확장에 대한 최초의 게놈 전체 조사입니다. 많은 질병에 대해 수천 개의 고품질 전체 게놈 시퀀스가 존재하며, 이들의 데이터는 반복 확장이 가장 많이 조사된 신경 퇴행성 질환의 고전적인 범위를 넘어 탐구되어야 한다는 증거를 제공합니다. 이 결과는 암과 같은 복잡한 질병의 WGS 데이터셋을 분석하는 프레임워크를 제공합니다.

REF