다양한 virus-encoded CRISPR-Cas system에는 간소화된 게놈 편집기가 포함된다.
Abstract
CRISPR-Cas system은 adaptive RNA-guided mechanism을 사용하여 바이러스 감염으로부터 미생물을 보호하는 host-encoded pathway이다. genome-resolved metagenomics를 사용하여 CRISPR system은 다양한 박테리오파지로 인코딩되어 있으며, 여기서 divergent하고 hypercompact anti-viral system으로 발생한다는 것을 발견했다. 박테리오phage-encoded CRISPR system은 알려진 6가지 CRISPR-Cas 유형 모두에 속하지만, 일부는 중요한 구성 요소가 부족하여 대체 기능 역할 또는 호스트 보완을 제안한다. 우리는 Casλ RNA RNA-guided nuclease family를 포함하여 V형 CRISPR-Cas system과 관련된 여러 새로운 Cas9-like protein 및 44개 family를 설명한다. 확인된 새로운 enzyme들의 가장 divergent 중에서, Casλ는 독특하게 구조화된 CRISPR RNA(crRNA)를 사용하여 이중 가닥 DNA를 인식한다. cryoelectron microscopy에 의해 결정된 Casγ-RNA-DNA 구조는 포유류, Arabidopsis, and hexaploid wheat cell에서 genome editing을 유도할 수 있는 콤팩트한 빌보드 구조를 보여준다. 이러한 발견은 파지에서 CRISPR-Cas 효소의 새로운 원천을 밝히고 식물과 인간 세포에서 genome editor로서의 가치를 강조한다.
Figure
Figure 1. CRISPR-encoding phage의 다양성과 그 이전의 호스트.
(A) 세균 및 박테리오파지에 의해 사용되는 anti-viral system으로서의 CRISPR 간섭 메커니즘을 설명.
(B) 본 연구의 CRISPR-encoding phage 와 RefSeq phage사이의 공유 단백질 클러스터의 수에 기초한 Protein-clustering network analysis.
(C) 이 연구의 circularized CRISPR-containing phage의 게놈 크기 분포.
(D) 감염되는 주요 세균 계통과 관련하여 각 CRISPR 유형을 포함하는 CRISPR phage genome의 수를 보여주는 heatmap.
Figure 2. phage-encoded CRISPR system의 다양성은 anti-phage capability를 강조한다.
(A) Phage CRISPR spacer는 다양한 메커니즘을 통해 superinfection을 제거하기 위해 세균 계통에 걸쳐 다른 mobile genetic element를 타겟한다.
(B-E) 알려진 새로운 하위 유형과 spacer targeting and protein sequence analysis를 통해 결정된 제안된 메커니즘 및 기능을 포함하는 대표적인 phage CRISPR loci의 그래픽 그림.
Figure 3. phage와 phage-like genome에 대한 Class 2 CRISPR-Cas system의 다양성.
(A) phage encoded 및 bacterially encoded type II nuclease 및 각각의 ancestral IscB nuclease의 최대 가능성 계통발생 트리.
(B) phage-like (보라색) 및 이전에 보고된 (청록색) bacterially encoded type V nuclease 및 각각의 예측된 ancestral TnpB nuclease의 최대 가능성 계통수.
(C) phage 및 이전에 보고된 bacterially encoded type VI nuclease의 최대 가능성 계통발생 트리.
Figure 4. Casλ는 자체 crRNA를 처리하고 dsDNA를 cleavage한다.
(A) 거대한 Mahaphage의 Casλ1은 알려진 Cas12 효소와 비교하여 독특한 crRNA 헤어핀을 보여주며, engineered SpyCas9 single gRNA (sgRNA)의 stem-loop 1을 연상시킨다.
(B) Casλ repeat은 RNA의 5′, 3′ 및 중심에서 고도로 보존된 뉴클레오타이드 서열을 독특하게 보여준다.
(C) crRNA의 5′ radiolabeling은 Casλ1이 spacer 영역(또는 3′ 말단)에서 고유한 crRNA를 처리한다는 것을 나타낸다.
(D) repeat-spacer-repeat pre-crRNA substrate의 처리는 spacer 영역에서 (C)와 유사하게 발생하며 Mg2+가 없는 경우에는 발생하지 않으며, 이는 처리 메커니즘에서 RuvC의 역할을 나타낸다.
(E) targeting 또는 non-targeting 가이드를 사용하는 Casλ는 대장균에서 실험적으로 결정된 PAM의 DNA 측면을 다른 dilution에서 cleavage할 수 있는 능력을 검증한다.
(F) cleavage structure 매핑을 위해 dsDNA를 대상으로 수행한 Cleavage assay.
(G) DNA cleavage pattern 계획 그림.
(H) NTS 및 TS의 DNA cleavage 효율 및 속도.
Figure 5. Casλ RNP는 large deletion profile을 가진 human, Arabidopsis, and wheat cell에서endogenous gene을 편집하는데 기능적이다.
(A) VEGF를 대상으로 하는 동일한 spacer와 HEK293T 세포의 EMX1 유전자를 대상으로 하는 Casλ 및 Cas12a RNP를 사용한 Indel efficienc와 Casλ에 의한 DNA cleavage에 따른 DNA cleavage 결과의 in vitro 모델의 도식을 보여준다.
(B 및 C) Arabidopsis thaliana protoplast의 Indel efficiency는 동일한 PDS3 유전자에 대해 CASΦ 에 의해 이전에 달성된 것보다 훨씬 높은 편집 수준을 보여주고, (C) 질병 저항성 유전자 Snn5를 대상으로 하는 wheat protoplast에서 달성되었다.
(D) Casλ RNP administration에 의해 생성된 Indel profile은 주로 큰 deletion를 보여주며, Casλ 없이는 거의 변화가 없다.
Figure 6. Casλ-gRNA-DNA complex의 구조.
(A) Casλ-gRNA-DNA complex의 도식적 표현.
(B) Casλ-guide-RNA-DNA complex의 Cryo-EM 지도.
(C) guide RNA-target DNA complex의 Cryo-EM-based 모델.
(D) Casλ의 도메인 조직 및 2차 구조에 대한 개략도.
(E) 예측된 2차 구조를 가진 서로 다른 repeat의 Hierarchical clustering dendrogram.
(F) target DNA를 따라 각각의 위치에서 mismatche하는 oligonucleotide activator를 사용하는 Fluorescence output.
Discussion
CRISPR-Cas system은 박테리오파지 게놈에서 거의 발생하지 않지만, 알려진 모든 새로운 파지에 대한 대규모 분석은 생물권 전반에 걸쳐 RNA-guided protein의 예상치 못한 다양성, 분포 및 잠재적 기능을 암호화하는 수천 개의 바이러스를 발견했다. CRISPR-encoding 박테리오파지는 세균 계통의 놀라운 다양성을 감염시킬 것으로 예측되며, CRISPR array와 관련된 spacer sequence는 동일한 숙주를 감염시킬 것으로 예측된 dsDNA-based 바이러스 및 extrachromosomal 요소와 상보성을 보인다. 이러한 관찰은 경쟁 요소에 의한 superinfection으로부터 숙주를 보호하기 위한 파지의 일반적인 전략을 강조한다. 우리는 파지 게놈이 알려진 6가지 유형 모두에 해당하는 CRISPR-Cas system을 가지고 있다는 것을 발견했고, viral CRISPR-Cas system과 박테리아 counterpart 사이에서 생물학적 또는 생화학적으로 관찰된 차이에 주목한다. 이러한 차이는 파지가 RNA-guided 경로를 필요에 맞게 조정하는 수정과 함께 CRISPR anti-viral system을 채택했음을 시사한다.
phage-encoded CRISPR system의 적어도 두 가지 측면은 cellular system과 현저하게 다르며, 이러한 경로의 versatility와 phage-mediated functional evolution의 가능성을 강조한다. 첫째, 일부 RNA-targeting type III 및 type VI system은 경쟁하는 파지의 풍부하거나 필수적인 transcript를 인식하고, type III system은 DNA를 절단하고 표적 DNA의 절단을 가능하게 하는 데 필요한 catalytic residue를 유지하지만, RNA 표적 인식에 따른 non-specific transcript cleavage에 사용되는 구성요소가 부족하다. 유사한 host-encoded system에 의해 abortive infection을 유발하는 이러한 구성 요소의 부재는 일부 파지가 transcript의 자가 파괴 또는 호스트의 휴면 상태 유도를 피하는 것을 선호한다는 것을 시사하며, 이 두 가지 모두 파지 수명 주기에 불리할 수 있다. 이 아이디어와 일관되게, Casλ에 대해 관찰된 ssDNA와 RNA의 최소 trans-cutting은 MGE의 single-stranded replication intermediate를 표적으로 하는 제한된 능력을 의미한다(Fig. S4와 S8). cellular and phage-encoded CRISPR system의 두 번째 중요한 차이점은 일부 파지 type I system에서 Cas3와 같은 processive nuclease가 없다는 것이다. 이러한 관찰은 type IV system에서 putative effector로 모집될 수 있는 CysH의 존재와 함께 이러한 phage-encoded 경로에 의한 nucleic acid-targeting의 대체 결과를 제안한다. 특히 plasmid-like element를 표적으로 하는 type I system에서 Cas3 nuclease의 부족은 DNA 절단을 방지하는 gene silencing mechanism을 시사한다. 우리는 그러한 phage-based type I system이 동일한 게놈에서 발견되는 공존하는 CASⅡ system의 활동을 도울 수 있다고 추측한다. targeted plasmid-like element는 restriction enzyme과 CRISPR-encoding phage의 감염성을 제한할 수 있는 retron-based anti-phage defense system을 가지고 있기 때문에 orthogonal CRISPR system의 조정된 활동은 이동 요소 간의 경쟁을 지원할 수 있다.
이 연구는 파지 게놈이 Cas9 및 Cas12 슈퍼패밀리에 속하는 type II 및 type V 효소를 대상으로 하는 DNA를 포함하는 single-effector CRISPR-Cas system의 자연적인 저장고임을 보여준다. 우리는 그리스 명명법을 사용하여 Casμ, CasΩ 및 Casλ의 파지 기원을 나타내며, phage-encoded CASⅡ에 의해 확립된 명명 규칙을 확장한다. 원핵생물의 유전체에서 다중 서브유닛 type I 및 type III CRISPR system이 널리 보급된 것과 대조적으로, 파지에서 미니어처 Cas12 계열 효소의 현저한 풍부함은 많은 파지 유전체의 크기 제한을 반영할 수 있다. 파지는 빠르게 진화하기 때문에 새로운, 발산형 또는 초소형 CRISPR system의 중요한 소스 역할을 한다. Casλ와 같은 이들 중 일부는 Cas12 및 Cas9 system과 별도로 군집을 형성하고 알려진 Cas 슈퍼패밀리와의 직접적인 진화 관계를 모호하게 할 수 있는 충분한 시퀀스 수준의 차이를 가지고 있다. 그럼에도 불구하고, Casλ의 구조, 도메인 구성 및 생화학적 메커니즘은 다른 type V 효소와 유사하다. 이 발견은 파지 게놈 내에서 뚜렷한 type V nucleases가 조상의 transposon-encoded TnpB 계열에서 여러 번 진화했을 수 있음을 의미하며, 이는 RNA-guided nuclease로도 기능한다. 수십 개의 파지와 다양한 시퀀스 및 도메인 조직을 가지고 있으며, 우리는 Casλ 및 CASφ 단백질 구조에서 Cas12와 유사한 아키텍처의 수렴 진화를 관찰한다. 또한, 둘 다 자신의 pre-crRNA를 처리할 수 있으며, 이 활성을 위해 DNA 절단에 사용되는 동일한 RuvC active site에 의존한다. 하나의 active site 내에서 효소 활성의 이러한 극단적인 압축은 세균적으로 암호화된 CRISPR-Cas 단백질에 대해 관찰되지 않았다. 그럼에도 불구하고, phage-encoded 효소는 guide RNA structure 및 성숙 과정을 포함한 다른 방식으로 서로 기능적으로 분리된다. 이는 다양성을 생성하는 빠른 파지 진화와 경로 보존을 선호하는 다양한 숙주 환경에서 시간이 지남에 따라 CRISPR compatibility를 유지하기 위한 선택적 압력 사이의 상호 작용을 반영할 수 있다. 두 경우 모두 숙주 인자에 의존하지 않는 자체 Cas variant를 암호화하는 파지는 필수 숙주 단백질 또는 cofactor의 지속적인 진화가 phage-encoded anti-viral system과 비호환성을 초래할 가능성을 제거할 수 있다.
이 연구에서 보고된 Casλ-crRNA-dsDNA 복합체의 분자 구조는 극단적인 서열 차이와 뚜렷한 조상 단백질 기원에도 불구하고 RNA RNA-guided effector의 수렴 진화 가능성을 보여준다. Casλ의 도메인 구조는 다른 Cas12 계열 효소에서 볼 수 있었던 것보다 더 많은 세분화와 가능한 구조적 재배열을 나타내며, 단백질 접힘 중에 조립되는 별도의 세그먼트로 서열 수준에서 여러 기능성 도메인이 분할된다. 이 독특한 도메인 조직은 전체적인 구조적 유사성에도 불구하고 이전에 보고된 효소에 Casγ를 정확하게 정렬하는 것의 어려움을 설명할 수 있다. 그러나 놀랍게도, 이 분할된 도메인 구성은 인간, Arabidopsis 및 밀 세포의 Casλ 기반 편집에서 관찰된 것처럼 게놈 편집 활동을 손상시키지 않는다. Casλ가 이러한 다양한 세포 유형에서 endogenous 유전자의 효율적인 게놈 편집을 유도할 수 있다는 발견은 Cas12a-mediated 게놈 편집의 효과를 초과하는 경우가 있음을 보여준다. 이 결과는 vector-based 세포 전달에 유리한 phage-encoded CRISPR-Cas 단백질의 소형 크기(Fig. S7)와 함께 자연의 파지 저장고가 이종 세포 유형의 게놈 편집에 유용한 효소의 중요한 미래 원천임을 보여준다.
전반적으로, 6개의 CRISPR-Cas 유형을 모두 대표하는 CRISPR system을 인코딩하는 수천 개의 바이러스의 발견은 바이러스 내 RNA-guided system의 희소성을 강조하지만 광범위한 다양성을 보여준다. Genome-resolved metagenomics와 생물정보학이 가능한 계통발생학적 통찰력은 우리가 배양되지 않은 바이러스로부터 이러한 system을 분석하고 생물학적 맥락 내에서 그들의 작용 메커니즘을 추론할 수 있게 했다. 우리는 독특한 Casλ family에 특히 초점을 맞춰 수백 개의 새로운 초소형 및 다양한 CRISPR-Cas system을 조사했다. 우리는 식물과 인간 세포에서 게놈 편집을 위한 귀중한 도구로서 Casλ의 유용성을 보고한다. 또한, 우리의 데이터는 이 단백질 패밀리의 구조적 압축이 자연 활동과 생명공학 응용 모두에 필수적인 강력한 생화학 및 세포 기반 기능을 어떻게 보존하는지 보여준다. 마지막으로, Casλ 단백질에 대한 우리의 구조적 이해는 작은 단백질의 장점과 강력한 RNA-guided DNA 인식 기계의 다목적성을 결합하는 확장된 게놈 편집 기능을 가진 변종의 미래 설계를 위한 출발점을 제공한다.