조상의 유전적 연속체에 따라 다유전자 점수의 정확도가 달라지다
Abstract
PGS(polygenic score)는 서로 다른 다양한 인구(예: 유전적 조상 및/또는 건강의 사회적 결정 요인에 의한) 간 이동성이 제한되어 공정성이 훼손됩니다. PGS 이동성은 일반적으로 단일 총 모집단 수준 통계(예: R2)를 사용하여 평가되었으며 모집단 내의 개별 변동은 무시되었습니다.
이 논문에서는 규모가 크고 다양한 인구를 포함한 UK Biobank(UKBB, n = 487,409)와 los Angeles Biobank(ATLAS, n = 36,778)를 사용하여 PGS 정확도가 전통적으로 ‘균질한’ 유전자 조상 내에서도 고려된 모든 모집단에서 유전자 조상의 연속체를 따라 개인 별로 감소한다는 것을 보입니다. 감소 추세는 PGS training data에서 유전적 거리(genetic distance; GD)의 지속적인 측정에 의해 잘 포착됩니다. GD와 PGS 정확도 사이의 피어슨 상관 계수는 84개의 특성에 걸쳐 평균적으로 -0.95입니다. 개인별로 UKBB에서 ‘백인 영국인’으로 레이블링된 개인에 대해 훈련된 PGS 모델을 적용할 때, 가장 먼 GD decile의 개인 샘플은 가장 가까운 십진수에 비해 정확도가 14% 낮습니다. 눈여겨 볼 만한 결과 중 하나로, 라틴 아메리카계 히스패닉계 미국인 혈통을 가진 사람들의 가장 가까운 GD decile는 유럽계 혈통을 가진 사람들의 가장 먼 GD decile와 유사한 PGS 성능을 보여줍니다. GD는 84개의 특성 중 82개에 대한 PGS 추정과 상당히 관련이 있으며, PGS 해석에 유전적 조상의 연속체를 통합하는 것의 중요성을 더욱 강조합니다.
연구 결과는 PGS를 고려할 때 유전자 조상 클러스터를 이산적으로 고려하는 것보다 유전자 조상의 연속체로 고려할 필요성을 강조합니다.
Figure
[Figure 1] 인구 단계 vs 개인 단계 간의 PGS 정확도
a. PCA 기반 클러스터링을 사용한 GIA의 개별 레이블링입니다. 각 점은 개인을 나타냅니다.
b. 클러스터 간 인구 수준 PGS 정확도의 변화를 보여주는 도식입니다. Box plot을 통해 인구 단계에서 측정된 PGS 정확도를 나타내고 있습니다.
c. PCA 기반 GD로 유전자 조상 연속체에 대한 모든 사람의 고유한 위치를 지속적으로 레이블링한 결과입니다.
d. 개인 수준의 PGS 정확도는 유전자 조상 연속체를 따라 감소합니다. (이 그림은 예시적이며 실제 또는 시뮬레이션된 데이터는 포함하지 않습니다.)
[Figure 2] UKBB 데이터를 활용한 시뮬레이션에서 PGS 성능은 GD 전반에 걸쳐 보정된다
a. 90% credible intervals of genetic liability (CI-gi)는 모든 GD에 걸쳐 개인별 testing을 위해 잘 보정되었다는 결과를 보입니다.
b. GD의 증가에 따라 90% CI-gi의 폭이 넓어집니다.
c. 개별 PGS 정확도는 GD와 함께 감소합니다.
d. PGS 정확도의 population-level metric은 유전적 연속체에 걸쳐 PGS 정확도의 감소를 다시 짚어줍니다.
[Figure 3] 키의 PGS에 대한 개인 수준의 정확도는 ATLAS의 유전자 조상 연속체에 걸쳐 감소한다
a. 개인 PGS 정확도는 homogenous 및 admixed 유전적 GIA 클러스터 내에서 모두 감소합니다.
b. 개별 PGS 정확도는 전반적인 ATLAS 데이터셋 내에서 감소합니다.
c. 인구 단계 PGS 정확도는 각 GD bin 내 평균 GD 기준으로 감소합니다.
[Figure 4] 개별 PGS 정확도와 GD 사이의 상관관계는 ATLAS와 UKBB에 걸쳐 84개의 특성에 걸쳐 있다
a. ATLAS에서 84개의 특성에 대한 개별 PGS 정확도와 GD 사이의 상관관계 분포입니다.
b. UKBB에서 84개의 특성에 대한 개별 PGS 정확도와 GD 사이의 상관관계 분포입니다.
[Figure 5] ATLAS 내에서 측정된 phenotype 및 PGS의 예측값 및 정확도
a. 키에 대한 PGS 분산, 예측값 및 정확도입니다. ATLAS 데이터의 각 GD bin에 대해 측정되었습니다.
b. log neutrophil count에 대한 PGS 분산, 예측값 및 정확도입니다. ATLAS 데이터의 각 GD bin에 대해 측정되었습니다.
Disscussion
이 논문에서는 PGS 정확도가 개인마다 다르다는 것을 보여주었고, PGS 성능 메트릭을 개인화하기 위한 접근 방식을 제안했습니다. 이들은 유전자 조상 연속체에서 개인의 고유한 위치를 설명하기 위해 training data의 중앙에서 PCA 기반 GD를 사용했고, 개별 PGS 정확도가 GD에 잘 추적된다는 것을 보여주었습니다. 대상 개인이 training population에서 더 멀어짐에 따라 PGS 성능의 지속적인 쇠퇴는 유전적 성질(trait) 및 조상에 걸쳐 퍼져 있습니다. 이들은 전통적으로 정의된 균질 집단 내에서도 유전적 조상의 연속체를 따라 PGS 성능의 변동성을 강조합니다. 유전적 조상이 점점 더 이산적이지 않고 연속적인 것으로 인식됨에 따라, 개인 수준 PGS 정확도는 다양한 개인에 걸쳐 PGS 성능을 연구하여 PGS의 유용성을 향상시킬 수 있는 강력한 수단이 될 것입니다. 예를 들어, 개인 수준 PGS 정확도를 사용하여 유럽 GIA 개인과 유사한 PGS 정확도를 가진 히스패닉 라틴 GIA 개인을 식별할 수 있으므로 정확한 PGS에 대한 정보 부족으로 인한 불평등을 부분적으로 완화할 수 있습니다.
시뮬레이션 및 실제 데이터 분석은 테스트 개인과 훈련 데이터 간의 유사성 감소(관련성, 연결 불균형 및/또는 사소한 대립 유전자 주파수 차이, 고정 지수(Fst) 등으로 측정)가 PGS 정확도 저하의 주요 원인이라는 것을 보여주는 기존 연구와 일치하여 개별 PGS 정확도가 GD와 높은 상관관계가 있음을 보여줍니다. 그러나 유전자형-환경 상호 작용 및 모집단별 인과 변형과 같은 전달성에 영향을 미칠 수 있는 실질적인 요인은 개별 PGS 정확도 계산에서 모델링되지 않으며 이는 향후 연구를 위해 남겨집니다.
이들의 결과는 모든 개인에게 이점을 제공할 수 있기 때문에 다양한 조상에서 PGS training의 중요성을 강조합니다. 유럽 조상을 넘어 PGS training을 확대하면 특히 비유럽 데이터에서 빈도가 높은 변종의 유전자 효과 추정 정확도가 향상될 수 있습니다. 또한 GD를 대상에서 training 데이터로 줄임으로써 PGS 이동성을 높일 수 있습니다. 그러나 다양성의 증가는 또한 통계 모델링에 어려움을 가져올 수 있습니다. 예를 들어, 유전적 영향의 차이는 환경 요인과 상관 관계가 있고 유전적 위험 예측을 편향시킬 수 있습니다. 이러한 과제를 해결하기 위해서는 조상적으로 다양한 모집단을 효과적으로 활용하여 PGS(예: PRS-CSX, vilma 및 CT-SLEB)를 훈련할 수 있는 보다 정교한 통계 방법이 필요합니다. 조상 간의 건강 격차를 줄이기 위한 노력의 일환으로 대표성이 낮은 개인의 표본 크기를 늘리기 위해서는 세계적인 공동 노력과 공정한 협력이 또한 중요합니다.
연구진들은 표현형과 GD의 상관관계와 비교하여 다양한 크기와 부호의 PGS 추정치와 GD 사이의 퍼베이시브 상관관계를 강조합니다. 이것은 유전적 조상 그룹 간의 PGS 추정의 평균 이동에 대한 더 미세한 해결을 제공합니다. GD와 PGS 추정치 사이의 상관관계는 편향 및/또는 실제 생물학적 차이에서 발생할 수 있으며, 유전적 조상 연속체의 맥락에서 PGS 편향을 조사하기 위해 더 많은 노력이 필요합니다.
이 작업물의 몇 가지 제한 사항과 향후 방향에 대해 논하고자 합니다. 첫째, 제안된 개별 PGS 정확도는 실제 정확도의 상한이며 모델에 포함된 SNP에 의해 파악된 추가 유전성 측면에서만 해석되어야 합니다. 모집단별 인과 변형 및 효과 크기와 함께 유전성 모델의 누락 및 잘못된 지정은 실제 정확도를 더욱 저하시킬 수 있습니다. 예를 들어, Duffy-null SNP rs2814778(ref. 54)이 UKBB WB 훈련 데이터에 포착되지 않기 때문에 호중구 수치에 대한 예측 정확도는 아프리카계 미국인 개인 사이에서 과대평가됩니다. 향후 연구는 유전자 구조의 모집단 특정 구성 요소가 PGS 정확도 교정에 미치는 영향을 조사할 수 있습니다. 둘째, 유전성을 가진 방정식 (1)의 분모에서 유전적 책임의 분산을 근사화하고 모든 개인에 대해 고정된 값을 설정합니다. 예비 결과는 분모를 유전적 책임 분산의 몬테카를로 추정으로 대체하는 것이 상관관계가 약간 감소하더라도 추정된 PGS 정확도의 정확도 저하를 반복한다는 것을 보여줍니다(Ext. figure 10). 셋째, 개별 PGS 정확도는 PGS가 표현형 대신 유전적 책임을 얼마나 잘 추정하는지 평가합니다. 표현형과 관련하여 PGS의 개별 정확도를 정량화하는 것은 적절한 보정을 위한 비유전적 요인을 모델링함으로써 달성될 수 있습니다. 넷째, 샘플 크기에 의해 제한되어 PGS 정확도 저하를 복제하기 위해 시뮬레이션 실험에서 GIA 그룹을 훈련 세트로 결합했습니다. 훈련 데이터의 인구 구조는 실제 유전적 영향을 혼란시키고 예측 정확도를 감소시킬 수 있기 때문에 데이터 분석을 위한 최적의 전략이 아닙니다. 저자들은 향후 작업을 위해 비유럽 PGS 훈련 데이터에 대한 보다 포괄적인 조사를 남깁니다. 여섯째, 저자들은 지속적인 유전자 조상의 사용을 옹호하지만, 현재의 PGS 방법은 이산 유전자 조상 그룹에 의존하기 때문에 WB의 이산 GIA 클러스터에서 PGS 모델을 훈련했습니다. 우리는 지속적인 조상을 모델링할 수 있는 PGS 훈련 방법의 개발을 미래의 작업으로 남깁니다. 마지막으로, PGS와 마찬가지로 전통적인 임상 위험 평가도 다양한 모집단에 걸쳐 제한된 이식성으로 인해 어려움을 겪을 수 있음을 강조합니다. 예를 들어, 합동 코호트 방정식은 비유럽 인구의 동맥경화성 심혈관 질환 위험을 과대평가합니다. 그리고 미국의 유럽 인구에서 개발된 전통적인 임상 유방암 위험 모델은 나이 든 한국 여성의 유방암 위험을 과대평가했습니다. 여기서 연구진들은 연구 커뮤니티와 사회 모두의 광범위한 관심과 관심으로 인해 유전적 예측 가능성에 초점을 맞춥니다. 다양한 인구에서 전통적인 임상 위험 요소 모델의 이식성을 개선하는 것이 건강 형평성의 필수 구성 요소이며 철저한 조사가 필요하다고 강조합니다.