Large language models encode clinical knowledge

대규모 언어 모델이 임상 지식을 배우다

Abstract

대규모 언어 모델(Large Language Models; LLM)은 인상적인 가능성을 보여주었지만 임상에서의 적용에 대한 기준은 높습니다. 모델의 임상 지식을 평가하려는 시도는 일반적으로 제한된 벤치마크(외부 기준)를 기반으로 자동화된 평가에 의존합니다.

이 논문에서는 이러한 한계를 해결하기 위해 전문 의학, 연구 및 소비자 질의에 걸쳐 있는 6개의 기존 의료 질문 답변 데이터 세트와 온라인으로 검색된 새로운 의료 질문 데이터셋인 HealthSearchQA를 결합한 벤치마크인 MultiMedQA를 제시합니다. 연구에서는 사실, 이해, 추론, 잠재적인 해악 및 편향을 포함한 여러 관점을 따라 답변을 모델링하기 위한 인간 기준 평가 프레임워크를 제안합니다. 또한 경로 언어 모델(Pathways Language Model; PaLM – 5400억 가지 매개 변수를 지닌 LLM)과 그 instruction-tuned variant인 Plan-PaLM on MultiMedQA를 평가합니다. Flan-PaLM은 프롬프트 전략을 결합하여 모든 MultiMedQA 객관식 데이터셋(MedQA, MedMCQA, PubMedQA 및 Measuring Multitask Language Understanding(MMLU) 임상 주제)에서 현존 최고의 정확도를 달성하며(MedQA, MedMCQA, PubMedQA 및 Measuring Multask Languarding), 이전까지의 기술을 17% 이상 능가합니다. 하지만, 인간의 평가는 핵심적인 격차를 드러냅니다. 이를 해결하기 위해 몇 가지 예시를 사용하여 LLM을 새 도메인에 정렬하기 위한 매개 변수 효율적인 접근 방식인 명령 프롬프트 튜닝을 소개합니다. 결과 모델인 Med-PaLM은 고무적인 성능을 발휘하지만 임상의보다는 열등합니다.

연구진들은 이해, 지식 리콜 및 추론이 모델 규모 및 명령 프롬프트 조정에 따라 향상됨을 보여주며, 의학에서 LLM의 잠재적 유용성을 제안합니다. 이들의 인간 평가는 오늘날의 모델의 한계를 드러내 임상 애플리케이션을 위한 안전하고 유용한 LLM을 만드는 데 있어 평가 프레임워크와 방법 개발의 중요성을 강화합니다.