Blinded, randomized trial of sonographer versus AI cardiac function assessment

초음파 검사자 및 AI 기반 심장 기능 평가의 blinded & randomized 시험을 통한 성능 비교

[Abs] Blinded, randomized trial of sonographer versus AI cardiac function assessment

Abstract

심장 초음파 검사를 위한 인공지능(AI)의 개발은 지속되어 왔으나, 여전히 blinding 및 randomization을 통한 성능 검정은 이루어지지 않았습니다.

이 논문에서는 해석 작업의 workflow에서 AI의 영향을 평가하기 위해, 좌심실 배출 비율(Left Ventricular Ejection Fraction; LVEF)의 AI 및 초음파 검사 초기 평가를 비교하여, blinded하며 randomized된 비공명성 임상 시험을 설계했습니다(ClinicalTrials.gov ID: NCT05140642). 이 과정에서 주로 본 것은 초기 AI 혹은 초음파 진단자 평가와 최종 심장 전문의 평가 사이의 LVEF 변화였으며, 상당한 변화(substantial change; 5% 이상의 변화)를 가진 연구의 비율을 구하여 평가되었습니다. 선별된 3,769개의 심장 초음파 연구 중에서, 274개의 연구가 낮은 이미지 품질 때문에 제외되었습니다. 실질적으로 변화된 연구의 비율은 AI 그룹에서 16.8%, sonography 그룹 (difference of -10.4%, 95% confidence interval: -13.2% to -7.7%, P < 0.001 for non-inferiority, P < 0.001 for superiority)에서 27.2%였습니다. 최종 심장전문의 평가와 독립적인 이전 심장전문의 평가 사이의 절대평균 차이는 AI 그룹에서 6.29%, 초음파 진단자 그룹에서 7.23%였습니다 (difference of −0.96%, 95% confidence interval: −1.34% to −0.54%, P < 0.001 for superiority). AI-기반 workflow는 초음파 검사자와 심장병 전문의 모두에게 시간을 절약해 주었고, 심장병 전문의는 인공지능에 의한 초기 평가와 초음파 검사자 간 유의미한 구분을 할 수 없었습니다. (blinding index: 0.088). 심장 기능의 심장 초음파 정량화를 수행하는 환자의 경우, 인공지능에 의한 LVEF의 초기 평가는 초음파 검사자에 의한 평가보다 낮지 않았습니다.

REF