Post

의료 인공지능의 모든 것 | Medical AI

의료 분야 인공지능에 대한 설명과 관련 기술 및 최신 동향을 설명합니다.

AI를 활용한 의료 이미지 분석 분야에서는 머신러닝 및 딥러닝을 활용한 이미지/영상 분류 (Classification), 객체 탐지 (Object Detection), 분할 (Segmentation), 정합 (Registration) 등의 방법론들이 널리 활용되고 있습니다.

머신러닝 기법들 중 특히 서포트 벡터 머신, 군집화, 결정 트리 및 랜덤 포레스트를 통해 암, 유전 데이터를 포함한 다양한 의학 데이터를 예측하는 연구가 많이 있습니다.

딥러닝을 기반으로 적은 데이터셋에 효과적인 모델 학습 방식을 적용하기 위해 Self-supervised Learning, Multi-instance Learning, Inductive Learning 및 Transfer Learning 방법들이 고려됩니다.

이처럼 다양한 AI 기법들이 신경 (Neruo), 망막 (Retinal), 폐 (Pulmonary), 병리학 (Pathology), 유방 (Breast), 심장 (Cardiac), 근골격계 (Musculoskeletal) 등의 의료 분야에 적용될 수 있습니다.

     

Introduction

  • 1970년부터 1990년 즈음에는 저수준의 픽셀 처리와 수학적 모델링을 기반으로 한 Rule-based system 및 전문가 시스템이 널리 활용됨
  • 1990년대 후반부터는 지도학습과 같은 기계 학습 접근 방식이 활용되기 시작하였으며, 시스템은 사람이 디자인하고 예제 데이터를 사용하여 모델을 훈련함. 특히 연구자가 직접 이미지로부터 추출한 특성들 (Handcrafted features) 을 토대로 최적의 결정 경계를 도출함.
  • 딥러닝이 도입된 이후 컴퓨터가 데이터를 통해 최적의 특성을 스스로 학습하게 됨.
    • 주로 이미지에 대하여 여러개의 층을 가진 CNN (Lenet, Alexnet 등)이 널리 사용되었으며, Imagenet 챌린지와 같은 성과를 토대로 의료 영상 분석 분야에서도 딥러닝 기법으로 연구 방향을 점진적으로 전환하게 됨.
  • 주요 기술적 발전으로는 주성분 분석 (PCA), 이미지 패치 클러스터링, 사전 접근법 (Dictionary approaches), CNN (Convolutional neural network) 등의 기법이 있음.

fig1 Number of Papers in medical AI field 1

     

Dataset

  • 원천 의료 데이터
    • 질병 예후, 공공 건강 기록, 생체 데이터, 의료 영상
    • 임상 데이터: 환자 기록, 생활 습관, 병력 등
    • 생체 의학 데이터: 유전체 정보, 약물 연구 등
  • 특징
    • 높은 복잡성, 많은 변수, 계층 불균형, 낮은 데이터 품질 (수집 과정의 누락 데이터)
  • 형태
    • 구조화 데이터: 인구 통계, 생활 습관, 병력
    • 비구조화 데이터: 의사-환자 대화, 의사의 조사 기록

     


Machine Learning

  • 의료에서의 머신러닝은 데이터를 통한 올바른 예측을 위해 적절한 특성 (Feature)을 찾는 것이 중요함
  • 과거에는 전문 지식이 있는 의료 전문가가 의료 이미지를 해석하거나, 특정 결과를 설명하기 위한 의미 있는 설명자 (Descriptor)를 개발하였음
  • 최근에는 매번 방대한 양의 데이터가 생성되며 여러 머신러닝 기법을 활용할 수 있게 되었고, 이는 전문가 만큼 정확한 예측을 할 수 있게됨.
    • 암 연구: 임상 이미징 배열에서 관련된 특성 (Feature)을 정확히 찾아내어 암 치료의 초기 지표를 탐지
    • 임상 응용: 머신러닝 예측은 예후, 진단, 이미지 검사 및 치료 과정에서 임상 의사의 업무를 보완함
    • 예측, 분류, 클러스터링, 회귀 등 여러 가지 작업을 처리하는 다양한 알고리즘이 존재함.

서포트 벡터 머신 Support Vector Machine, SVM

  • SVM은 데이터 포인트를 고차원 공간으로 매핑하여 최대한 멀리 떨어져있는 두 클래스 사이의 초평면 (Hyperspace)을 사용해 구분함.
  • 초평면은 두 클래스 사이의 거리를 최대화하고, 커널 함수를 사용하여 최적의 초평면을 구분하고 비선형 문제를 해결할 수 있음.
  • 변수에 비해 작은 데이터 셋에서 효과적이므로, 질병 예측 및 진단과 같은 의학 분야에서 널리 적용됨.
  • 사례
    • Dallora et al. (2017)경도 인지 장애가 있는 환자가 알츠하이머 병으로 발전할지 여부를 예측함
    • Taylor et al. (2018)요로 감염을 예측하기 위해 사용함
    • Leha et al. (2019)폐 고혈압 진단 작업에 사용됨
    • Meiring et al. (2018)중환자실 (ICU) 환자들의 생존율 예측에 사용됨.
  • Formulation fig2 Formulations of the SVM 2

     

군집화 Clustering

  • 데이터 내의 유사성을 찾아 그룹화 하는 방법이며, 라벨이 없는 데이터를 유의미한 군집 (Cluster)으로 분류함.
  • Proximity measure: 유클리드 거리와 같은 measurement를 사용하여 데이터 간의 유사성을 계산함.
  • K-means clustering: 데이터 포인트를 초기 무작위 군집으로 할당한 후, 각 군집의 중심에서 데이터 포인트들을 거리에 따라 재할당함.
  • 유전적 발현 데이터와 단백질 도메인 같은 데이터에 광범위하게 사용됨.
  • 사례
    • Khan et al. (2017)유방암 및 간 질환 진단에서 타 알고리즘에 비해 좋은 성능을 도출함.
  • Formulation fig3 Formulations of clustering methods 2

     

결정 트리 Decision Tree, DT

  • 학습된 지식을 if-then 규칙으로 구성된 트리에 포함하며, 트리의 각 노드는 학습 변수를 나타냄.
  • 데이터를 분류하기 위해 정보 이득 (Information gain)Entropy를 계산함.
    • 높은 정보 이득은 더 많은 정보를 포함하고 있다는 것을 의미함.
  • 정보를 반복적으로 분할하여 가장 적절한 특징을 찾아내고, 더 이상 분할할 수 없을 때까지 과정을 반복함.
  • Formulation fig4 Formulations of the decision tree 2

     

랜덤 포레스트 Random Forest, RF

  • 여러 개의 결정 트리를 모아 놓은 모델로, 각 트리가 분류 작업을 수행하고 다수결 투표로 최종 결과를 결정함.
  • 개별 트리의 예측치를 평균 내어 최종 예측을 산출함.
  • 깊은 트리일수록 과적합이 발생하기 쉬운데, RF는 다수의 트리를 사용함으로써 이를 방지함.
  • 사례
    • Wang et al. (2015)상관관계가 없는 여러 결정 트리를 사용하여 미국에서 진단된 당뇨병 환자의 의료비를 예측함.
    • Goto et al. (2018)병원 응급실에서 천식 또는 만성 폐쇄성 폐질환 환자의 중환자 치료 또는 입원 여부를 예측함.
    • Zhu et al. (2018)각 결정 트리의 투표에 가중치르 곱하여 클래스의 신뢰도를 강화하고 RF의 클래스 불균형 문제를 해결함.
  • Formulation fig5 Formulations of the random forests 2

     

K-nearest Neighbor KNN

  • 분류되지 않은 데이터 포인트를 가장 가까운 K개의 데이터 포인트의 다수결에 따라 분류함.
  • 유클리드 거리, 맨해튼 거리, 해밍 거리 등의 거리 계산 방법들이 활용됨.
  • 모든 특징에 동등하게 가중치를 주기 때문에 많은 속성값을 가지는 데이터에는 부적합함.
  • Fuzzy KNN: 데이터 포인트를 클래스 대신 샘플 벡터에 할당하여 추후 추가적으로 검토를 통해 분류함.
  • 사례
    • Zhang et al. (2016)의료 데이터에 KNN을 적용하기 위한 준비의 중요성을 강조하며 수학적 증거를 제공함.
    • Chen et al. (2017)구조화된 환자 데이터 (인구통계학적 정보, 생활 습관, 혈액 검사 결과, 질병 등) 를 통해 뇌경색증의 위험을 예측함.
  • Formulation fig6 Formulations of the KNN 2

     

나이브 베이즈 Naive Bayes

  • 주어진 특징 집합을 기반으로 클래스를 예측하며, Bayes’ Theorem을 기초로 사용함.
  • 각 특징의 확률을 다른 특징들로부터 얻은 정보를 기반으로 계산하여 독립성을 확보함.
  • 불필요한 특징을 제거하여 분류 정확도를 향상시키고, 특히 텍스트 분류에 탁월한 결과를 보임
  • 사례
    • Kukar et al. (2016)대퇴골 경부 골절 회복의 예후를 예측할때 타 분류 모델에 비해 더 높은 성능을 보임을 확인함.
  • Formulation fig7 Formulations of the Naive bayes 2

     

Deep Learning

신경망 Neural Netrwork, NN

  • 딥러닝의 기초이며 뉴런 (Neuron)으로 구성되고, 각 뉴런은 활성화 함수 (Activation function), 가중치 (Weight), 편향 (Bias) 파라미터로 구성됨.
  • 역전파 (Backpropagation) 알고리즘을 통해 뉴런의 가중치를 미세 조정함.
    • 경사 하강법 (Gradient descent)를 사용하여 Cost function을 최소화 하는 방향으로 모델을 최적화함.

합성곱 신경망 Convolutional Neural Network, CNN

  • 합성곱 (Convolution) layer, pooling layer, fully-connected layer로 구성됨
  • 주로 이미지 데이터를 입력으로 복잡한 Feature map을 학습하여 정보 영역 선택, 특징 추출, 분류 등의 task를 수행함.

     

fig8 Formulations of the deep learning models 2

     


Learning

Learning Problem

fig9 Types of learning 3

     

지도학습 Supervised Learning

  • 모델이 입력 데이터와 목표 변수 사이의 관계를 학습하는 문제이며, 클래스 라벨을 예측하는 Classification 문제와 수치 라벨을 예측해야하는 Regression 문제로 나뉘어짐.

비지도학습 Unsupervised Learning

  • 입력 데이터만 사용하고 출력/정답 변수 없이 학습하는 방식
  • Clustering은 데이터를 그룹화하며 Density estimation은 데이터 분포를 요약함.
  • 추가적으로 시각화를 통해 패턴, 추세, 관계를 시각적으로 강조할 수 있으며, Projection을 통해 고차원 데이터를 저차원 데이터로 변환할 수 있음.

강화학습 Reinforcement Learning

  • 어떤 맥락에서 작업을 수행하기 위해 피드백을 학습해야 하는 일련의 과제
  • 피드백을 통해 작업을 개선하지만 피드백이 지연될 수 있기 때문에 인과 관계를 파악하는 것이 어려움.
  • Deep reinforcement learning: 기존 강화 학습에 신경망을 결합함.
  • Q-learning: 에이전트가 상태와 행동의 Q-값 (품질)을 학습해 최적의 행동을 선택하는 방법.
  • Temporal difference leanring: 시간 차이를 이용해 예측을 업데이트하는 방법.

     

Hybrid Learning Problem

반지도학습 Semi-supervised Learning

  • 일부 데이터만 라벨링 되어있고, 나머지 다수의 데이터는 라벨이 없는 상태로 학습하는 방법
  • 라벨 유무와 상관없이 모든 사용가능한 데이터를 효율적으로 활용하여 모델을 개선하는 것.
    • 이는 완전히 라벨이 있는 데이터만 사용하는 전통적인 지도 학습과 차별화 됨.

자기 지도학습 Self-supervised Learning

  • 라벨이 없는 데이터를 활용하여 문맥 예측 및 이미지 회전 예측과 같은 목표 과제를 자율적으로 계산함.
  • Autoencoder를 통해 입력 데이터를 압축-복원하여 특징을 학습할 수 있고, GAN을 활용하면 합성 이미지를 생성할 수 있음.

다중 인스턴스 학습Multi-instance Learning

  • 한 그룹의 데이터 전체가 특정 클래스의 데이터를 포함하거나 포함하지 않는 것으로 라벨링되며, 그룹 내 개별 데이터들은 라벨링되지 않음.
  • 개별 데이터 포인트에 대한 정보가 아닌, 그룹 전체에 대한 정보를 중심으로 이미지가 특정 객체를 포함하는지 여부를 학습.

     

Statistical Inference

  • 추론 (Inference)은 모델을 통해 데이터로부터 예측/결론을 도출하는 과정임.
  • 모델의 특정 알고리즘이 어떻게 작동하는지 또는 학습 문제를 어떻게 해결하는지를 설명하는 추론 패러다임이 아래와 같이 다양하게 존재함.

귀납 학습 Inductive Learning

  • 결과를 평가하기 위해 증거를 사용하는 학습 방식이며, 구체적 상황에서 일반적 결과를 도출함.
  • 귀납 추론 (Inductive Reasoning): 과거의 특정 사례를 통해 일반적인 규칙 (모델)을 학습함, 가용한 증거를 이용해 결과를 도출
    • 여러 번의 데이터 (사례)를 통해 일반적인 패턴이나 규칙 (모델)을 추출함.
  • 구체적인 예시를 바탕으로 훈련 데이터셋에서 모델 또는 가설을 만들며, 이 모델은 알려지지 않은 데이터에 대해 예측을 수행하는데 사용됨.

연역 학습 Deinductive Learning

  • 일반 개념을 사용해 구체적인 결과를 평가하는 방법.
  • Induction과 반대의 개념임
    • 귀납, Induction: 구체적인 사례에서 일반적인 결론을 도출하는 과정, Bottom-up
    • 연역, Deduction: 일반적인 개념에서 구체적인 결론을 도출하는 과정, Top-down
  • 연역 추론 (Deduction Reasoning): 모든 전제를 충족시키고 결과를 결정하려는 방식.
  • 머신러닝에서 알고리즘을 사용하여 예측을 할 수 있으며, Induction을 사용하여 모델을 학습하기 전에 훈련 데이터셋에 맞도록 한다는 점에서 유사함.
    • 이러한 모델은 Deductive method로 사용됨.

Transductive Learning

  • 통계 학습 이론에서 특정 예제를 예측하는 과정이며, 일반적인 규칙을 학습하는 Induction과 달리 Transduction은 구체적인 예제를 바탕으로 예측함.
  • 적용 예시로는 함수의 특정 지점에서 값을 추정하는 모델을 들 수 있으며, 제한된 지식에서 최상의 결과를 도출하려는 경우 활용되는 것이 원칙임.
  • 대표 알고리즘으로는 k-NN (k-nearest neighbors) 가 있으며 이는 예측이 필요할 때마다 직접 알고리즘을 사용하며, 훈련 데이터로 모델링하지 않음.

     

Learning Techniques

  • 아래는 모델 학습과정에서 활용될 수 있는 기법들임.

Multi-task Learning

  • 서로 다른 task의 세부 사항을 결합하여 일반화 성능을 향상하는 기술임.
  • 하나의 작업 (Task)에 대한 라벨링된 데이터가 풍부할 때 유용하며, 해당 데이터를 라벨링된 데이터가 적은 또 다른 task에 공유가능함.
  • 같은 입력 패턴이 여러 다른 출력 또는 지도학습 문제에 사용할 수 있음.
  • 각 출력은 모델의 다른 부분에 의해 예측되며, 동일한 입력을 각 작업에 대해 일반화 가능함.

Active Learning

  • 모델이 학습 과정 중 사용자에게 질문을 던져 불확실성을 해결하려는 방법론
  • 수동적인 기존의 지도학습보다 더 효율적인 데이터를 사용하면서 동일하거나 더 나은 결과를 도출하는 것을 목표로 함.
  • Central Principle: Active learning 알고리즘이 학습할 데이터를 선택하게 함으로써, 적은 학습 레이블로 더 높은 정확도를 달성할 수 있음.
  • Active learner는 질문을 던지며, 이는 주로 라벨이 없는 정보 인스턴스로 나타나고 이를 Oracle (Human annotator)이 라벨을 붙임.
  • 데이터가 적고 라벨링 비용이 많이 들 때 유용하며, Domain sampling을 조정하여 샘플 수를 줄이는 동시에 모델의 효율성을 높임.

Online Learning

  • 머신러닝은 주로 오프라인에서 수행되며, 이는 일정한 데이터 배치에서 학습한다는 의미임.
    • Data stream이 있을 경우, 새로운 데이터 포인트가 도착할 때마다 추정치를 업데이트해야 하므로 온라인 학습이 필요함.
  • 이는 시간이 지남에 따라 데이터가 빠르게 변화할 때 유용하며, 데이터셋이 점진적으로 증가하는 경우에도 유용함.
  • 일반적으로 온라인 학습은 모델 성능이 모든 지식을 일괄적으로 사용 가능 했을 때와 얼마나 잘 수행되는지를 비교하여 불일치를 제거하는 것을 목표로 함.
  • Online Gradient Descent: 주로 Stochastic gradient descent를 사용하며 이는 일반화 오류를 최소화한다는 것이 명확히 드러남.

Transfer Learning

  • 기존 Task를 해결하면서 학습한 모델을 다른 새 Task 문제 해결에 사용함.
  • 주된 Task와 유사한 과정이 있을 때 효과적이며, 데이터가 많이 필요한 관련 작업에서 유용함.
  • Multi-task learning과 달리 Transfer learning은 작업을 순차적으로 학습하며, Multi-task learning은 하나의 모델이 동시에 여러 작업에서 좋은 성능을 내도록 학습함.
  • 큰 작업에서 학습한 패턴 추출 기능이 또 다른 작업에 도움이 됨.

Ensemble Learning

  • 두 개 이상의 모델을 결합하여 예측 성능을 향상시키는 방법이며, 개별 모델보다 더 나은 성능을 달성하는 것을 목표로 함.
  • 불확실성을 줄이고 예측 능력을 향상시키기 위한 중요한 방법임
  • 주요 방법
    • Bootstrap: 샘플링을 통해 여러 데이터셋을 만든 후 개별 모델을 학습
    • Weighted Average: 각각의 모델 예측에 가중치를 부여하여 최종 예측 도출
    • Stacking (Stacked Speculation): 여러 모델의 예측 결과를 다시 입력값으로 사용하는 메타 모델을 학습
  • 계산 방법
    • Bagging: 다수의 데이터 서브셋을 이용해 다수의 모델을 학습, 개별 모델의 예측을 평균 계산하여 최종 예측 도출
    • Boosting: 예측 오류를 줄이기 위해 순차적으로 모델을 학습, 각 모델이 이전 모델의 오류를 보정함

     


Task Definition in Medical Imaging

분류 Classification

  • Image Classification는 주로 질병/암 진단과 같은 이진 분류에 대한 것이며, 의료 데이터의 경우 보통 일반 컴퓨터 비전 데이터 셋의 양보다 적기 때문에 (~수백/수천), Transfer learning 기법을 활용해 작은 데이터 셋 문제를 해결함.
  • Classification Task에서는 주로 특징 추출 (Feature Engineering)미세 조정 (Fine-tuning) 이 많이 활용되며 최근에는 특히 CNN을 기반으로한 여러 연구들이 진행됨:
    • 미세 조정된 Google Inception v3, 3D CNN, Graph-based CNN.
  • Object/Lesion Classification
    • 객체나 병변을 분류하는 Task이며 CT의 결절 분류와 같이 소규모 영역에 대한 분류를 예로 들 수 있음.
    • 정확한 분류를 위해 Local 정보와 전체적인 Context 정보를 필요로 함
    • 예로 Multi-stream architecture, Multi-scale 이미지를 결합한 특징 벡터, CNN-RNN, 3D Information integration, End-to-end training, RBMs, SAEs, CSAEs, Multiple Instance Learning (MIL).
  • Exam Classification
    • 진단 검사 사진을 질병 유무 또는 정상/비정상으로 분류
    • 사전 학습된 CNN이 주로 활용됨
  • Essential Terminology
    • Binary classification, multi-class classification, multi-label classification

     

Detection

  • Manual Detection은 환자에게 심각한 결과를 초래할 수 있는 여러 문제를 겪고 있어, 이러한 문제를 최소화 하기 위해 자동 감지가 필요함.
  • Detection Task는 주로 장기, 병변 및 랜드마크 위치를 지정해주는데 쓰이며, 특히 3D 데이터 파싱을 위해 다양한 접근 방식이 제안됨:
    • 3D 영역을 2D 직교 평면의 조합으로 처리함, 3개의 독립적인 2D MRI 슬라이스로 원거리 대퇴 표면의 랜드마크 식별, 2D CT 볼륨 파싱 후 3D 경계 상자를 식별하여 심장, 대동맥 궁, 하행 대동맥 근처의 ROI 식별.
  • 객체 또는 병변 탐지는 의료 진단 영역의 주요 부분이며, 임상의에게 많은 시간을 소모하게 함. 이를 AI를 통해 이미지 내 작은 병변의 위치를 지정하고 식별하는 것으로 해결.
  • 대부분의 탐지 시스템은 CNN을 사용하여 픽셀을 분류 후 후처리를 수행하며, 문맥적 또는 3D 정보를 포함하기에 Multi-stream CNN을 사용함.
  • 또한, 학습 데이터 생성 부담을 줄이기 위해 Weakly supervised learning을 활용할 수 있음.

False Positive Detection

  • False Positive (FP)는 정상이지만 비정상으로 간주되는 픽셀로, CAD 시스템의 민감도를 줄이면서 잘못된 의료적 개입을 야기함.
  • 기존에는 FP를 감소시키기위해 통계 분석을 기반으로하나 후처리 필터를 활용하거나 수동적인 방법을 사용하였지만, 딥러닝을 통해 이를 개선함.
    • CNN으로 다양한 뷰와 스케일의 2D 슬라이스를 학습하여 FP와 TP를 구분함.

     

Segmentation

  • Segmentation Task는 장기 및 하위 구조를 분할하여 부피 및 형태와 관련된 임상 파라미터의 정량적 분석을 가능하게 함.
    • 주요 접근법은 객체의 윤곽 또는 내부를 구성하는 폭셀(voxel)을 식별하는 것이고 일반적으로 U-net, V-net, RNN 등이 활용될 수 있음.
  • 3D 이미지를 직접적으로 처리하여 2D 이미지에 비해 더 정확한 Segmentation을 가능케 하는 3D CNN-based Segmentation 기법이 있음.
    • Efficient dense training scheme: 전체 이미지를 사용하는 대신 인접한 이미지 패치를 사용하여 학습
    • Deeper and more discriminative 3D-CNNs
    • Dual pathway architecture: 여러 스케일에서 병렬로 처리.
  • Pereira et al.작은 CNN Kernel을 활용하여 글리오마 (가장 공격적인 뇌종양)를 분할하였음.
  • Avendi et al.딥러닝 구조를 결합한 심장 좌심실 분할을 통해 임상 평가에 중요한 지표를 제공.

     

Registration

  • 정합 (Registration)은 한 의료영상을 다른 의료영상에 공간적으로 맞추는 과정이며, 일반적으로 두 영상을 비교하여 유사도를 계산하고 이를 최적화하여 정합을 수행함.
  • 여러 이미지 데이터를 하나의 일치된 좌표 시스템으로 변환하고 중요한 의료적 함의가 있는 일치된 이미징 내용을 생성
    • 동일한 항목 (MRI와 CT스캔) 또는 다른 시간 및 위치에서 촬영된 두 스캔이미지 정렬을 위한 좌표 찾기에 활용 가능
  • 주로 Deep regression networksDeep learning networks를 사용함
    • Wu et al. (2013)독립적 공간 분석과 CNN을 결합하여 HAMMER 정합 알고리즘을 보강.
    • Simonovsky et al. (2016)서로 다른 모달리티의 패치들 사이의 유사도 비용 추정.
    • Cheng et al. (2015)CT와 MRI 이미지 패치의 유사도 평가를 위한 오토인코더 사용.
  • 변환 파라미터 예측을 위해 딥러닝을 활용하여 입력 이미지로부터 바로 변환 파라미터를 예측 가능함.
    • Miao et al. (2016)CNN을 활용하여 3D 모델과 2D X-ray 정합을 수행하여 수술 중 임플란트 객체의 위치와 자세 평가.
    • Yang et al. (2016d)U-net과 같은 아키텍처를 사용하여 LDDMM 기법의 현재와 이전 뇌 MRI 정합.
  • ANT나 Simple ITK와 같은 툴을 활용할 수 있음.

     

Localization

  • 2D 및 3D 공간, 그리고 시간 (4D)에서 장기나 다른 기관의 위치를 인식함.
  • ConvNet을 사용하여 관심 부위의 해부학적 구조를 3D 의료 이미지에서 자동으로 Localization함.
  • 수동 및 자동으로 지정된 중심점과 Bounding box의 거리를 계산하여 분석
  • 이미지를 얻는 과정의 차이, 구조적 차이, 환자 간의 병리 차이 등 때문에 딥러닝 네트워크가 변동에 민감할 수 있음.

     

Content-based image retrieval

  • Content-based image retrieval (CBIR)은 방대한 데이터베이스에서 지식 발견을 위한 기술임.
  • 유사한 사례 기록 식별, 희귀 장애 이해, 환자 치료 개선을 위해 수행됨.
  • 주로 픽셀 수준 정보에서 효과적인 특징 표현 추출하거나, 이를 의미 있는 개념과 연관시키기 위해 활용됨.
  • 현재 접근법은 (사전 학습된) CNN을 사용해 의료 영상에서 Feature descriptor 추출하는 것임
    • Anavi et al. (2016), Liu et al. (2016b)X-ray 이미지 데이터베이스를 대상으로 5-레이어 CNN 사용, Fully-connected layers에서 특징 추출
    • Anavi et al. (2016)마지막 레이어와 사전 학습된 네트워크 사용 특징을 one-vs-all SVM 분류기에 피드해 거리 메트릭(distance metric) 얻음.
    • Shah et al. (2016)CNN 특징 기술자와 해싱-포레스트 사용, 1000개의 특징을 중첩 패치로부터 추출

     

Image Generation and Enhancement

  • 이미지 생성 및 향상 기법은 장애 요소 제거, 이미지 정규화, 이미지 품질 향상, 데이터 완성, 패턴 발견 등의 사례에 활용될 수 있음.
  • 주로 2D 또는 3D CNN를 사용하며 분류 네트워크에서 사용되는 Pooling layer가 없고 입력 이미지와 원하는 출력이 모두 포함된 데이터셋으로 학습함.
  • 손실함수는 생성된 이미지와 원하는 출력 간의 차이로 정의됨.
    • Yang et al. (2016c)일반 X-ray와 bone-suppressed X-ray 생성
    • Bahrami et al. (2016)3T와 7T 뇌 MRI 생성
    • Li et al. (2014)MRI로부터 PET 생성
    • Nie et al. (2016a)MRI로부터 CT 생성
  • 다중 저해상도 입력에서 고해상도 이미지 생성하는 목적으로도 활용됨.
    • Oktay et al. (2016)다중 저해상도 입력 MRI에서 고해상도 심장 MRI 생성
    • Golkov et al. (2016)제한된 데이터로부터 고급 MRI 확산 매개 변수 추론 가능
  • 이미지 향상에도 응용될 수 있음.
    • Janowczyk et al. (2016a)H&E 염색된 조직 병리학 이미지 정규화
    • Benou et al. (2016)DCE-MRI 시리즈에서 denoising 수행

     

Text Report

  • 주로 리포트를 텍스트 라벨로 사용하여 텍스트 설명과 이미지를 같이 학습하여, 테스트 시에는 의미있는 클래스 라벨 예측을 가능케 함.
    • Schlegl et al. (2015)리포트를 활용한 이미지 분류 정확도 개선
    • Kisilev et al. (2016)유방 병변에 대해 BI-RADS 기술어 예측.
    • Shin et al. (2015, 2016a)PACS 시스템에서 추출한 대규모 데이터 세트의 방사선 보고서 및 이미지 간의 의미적 상호작용을 추출.
  • 잠재 디리클레 할당(LDA) 사용
    • Wang et al. (2016e)LDA 사용
    • Shin et al. (2016a)CNN을 이용하여 이미지의 레이블을 한 번에 하나씩 생성하고, 이를 사용하여 RNN을 훈련시켜 MeSH 키워드 시퀀스 생성.

     


Application Areas

fig10 Medical Image Analysis 3

     

Chest

  • 흉부 영상 분석의 주요 응용 분야는 아래와 같음.
    • 결절 탐지 및 분류: 결절의 탐지, 특성화, 및 분류가 흉부 영상 분석에서 가장 일반적으로 다루어지는 응용 분야임
    • 기존 시스템에 추가된 딥러닝 특징: 많은 연구가 딥러닝에서 도출된 특징을 기존의 특징 집합에 추가하거나 비교함
    • 흉부 X-선: 여러 그룹이 단일 시스템으로 여러 질병을 탐지함
    • CT 스캔: 간질성 폐 질환을 나타내는 질감 패턴의 탐지도 일반적인 연구 주제임
  • 텍스트와 이미지 분석 결합 연구들이 대규모 이미지와 텍스트 보고서를 사용하여 이미지 분석을 위한 CNN과 텍스트 분석을 위한 RNN을 결합한 시스템을 훈련함.
  • 폐 질환은 100개 이상의 만성 질환으로 구성되며, 폐 조직의 염증으로 특징지을 수 있음.
    • 전통적인 진단은 환자 인터뷰, 신체 검사, X선 또는 CT 스캔으로 이루어지며, 이는 잘못된 진단을 야기할 수 있음.
    • CT 슬라이드를 통해 패치 이미지를 생성하고 VGG 및 Alexnet을 활용하여 약 86% 정도의 폐 질환 분류 정확도 성능을 달성함.

fig11 Generating image patches from one CT slide 4, 5

     

Brain

  • 뇌 영상 분석에서 딥러닝을 활용하여 알츠하이머병 (Alzheimer’s Disease, AD) 분류, 뇌 조직 및 해부학적 구조의 세분화, 병변 감지 등을 수행하고 있음.
    • 뇌 이미지에서 추출된 특성을 분류하여 해부학적 뇌 구조 변화를 모니터링함 (뇌실 크기, 모양, 조직 두께, 뇌 부피)
    • 3D-CNN을 활용하여 AD 바이오마커를 인식하고 학습한 일반화 특징을 통해 AD를 예측하고 해부학적 모양 변화를 감지함
    • Multi-modal RBM을 통해 MRI와 PET 이미지의 High-level hidden feature을 찾고, 3D 패치에서 특징을 추출하여 다층 RBM으로 분류함.
    • AD 분류에서 RBM이 CNN보다 뛰어난 성능을 보여준다는 연구 결과가 있음.
  • 로컬 패치를 활용하는 학습 기법은 로컬 패치에서 Representation으로, Representation에서 라벨로의 매핑을 학습함
    • Ghafoorian et al.(2016b)로컬 패치가 해부학적 맥락 정보를 놓칠 수 있기에, 패치 측면에서 샘플링 비율을 점진적으로 낮춰 더 넓은 맥락을 포괄함.
  • 또 다른 접근법은 Multi-scale 분석 및 Fully-connected layer에서의 표현 융합
  • 뇌 종양을 분할하기위해 딥러닝 기반 Segmentation 모델이 활용됨.
    • 종양 패치 이미지를 통해 Two-pathway 또는 Cascaded 구조 기반 CNN을 학습하여 비종양, 괴사, 부종, 증강 종양 등으로 세분화함.

fig12 Two pathways and cascaded architectures 4, 6

  • 대부분의 방법은 2D에서 3D 볼륨을 슬라이스로 분석하는 것이며, 이는 계산 요구 사항 감소 또는 데이터 셋 내 평면 해상도에 비해 두꺼운 슬라이스 때문
    • 최근에는 3D 네트워크를 사용하는 연구도 증가하는 실정임.
  • 대다수가 뇌 MRI 영상을 중점적으로 다루고 있으며, 다른 뇌 영상 Modality (CT 및 초음파) 또한 딥러닝 분석에서 혜택을 받을 것으로 예상

     

Pathology and Microscopy

  • 주요 도전과제
    • 핵 탐지, 세분화 및 분류
    • 대형 기관 세분화
    • 병변 또는 전체 슬라이드 이미지 수준에서 질병 탐지 및 분류
    • 색상 정규화
  • 사례: 조직병리학 (Histopathology)
    • Janowczyk et al. (2016a)H&E 염색 이미지를 대상으로한 Stain normalization를 위한 Deep sparse AE 기법을 소개.
    • Sethi et al. (2016)CNN 기반 조직 분류에 색상 정규화의 중요성을 강조.
  • 유방암 병리 이미지 분석에 DeepMitosis라고 불리는 50개 층의 CNN을 활용하여 TP/FP에 대한 확률 점수를 추정한 연구가 진행됨.

     

Breast

  • 대부분의 Breast Imaging 기술이 2차원이므로 기존의 이미지 기술을 쉽게 적용할 수 있음.
  • 주로 종양 같은 병변의 검출 및 분류, 미세 석회화의 검출 및 분류, 유방암 위험 점수 계산 등이 있음.
    • Modality: 유방조영술이 가장 일반적으로 사용됨.
      • Tomosynthesis, 초음파(US), 전단파 탄성 측정 기법 등의 연구는 아직 적음.
      • 유방 MRI에 대한 연구는 거의 없음.
  • 유방암 대규모 공개 디지털 데이터베이스 부재로 인해, 오래된 필름 데이터셋이 많이 사용됨.
  • 적은 데이터셋 문제는 Semi-supervised learning, Self-supervised learning, Weakly supervised learning 등으로 해결하려고 함.
  • 유방 촬영술 이미지 분석 (Mammogram Image Analysis)은 유방암 조기 발견을 위한 가장 안전한 방법이며, CAD 시스템에서 CNN을 활용한 유방 병변 감지, 분할, 분류 등의 자동화 과정을 거침.

     

Cardiac

  • 심장 이미지 분석 (Cardiac image analysis) 에는 주로 MRI가 많이 쓰이며, 좌심실 분할 (Left ventricle segmentation) 같은 작업이 주로 포함됨.
  • 아래의 방법들이 적용될 수 있음.
    • Segmentation, Tracking, Slice classification, Image quality assessment, Super-resolution
    • Automated calcium scoring (자동 칼슘 점수화), Coronary centerline tracking (관상 동맥 중심선 추적)
  • 대부분의 논문에서 단순한 2D CNN을 사용하여 3D 또는 4D 데이터를 슬라이스 별로 분석함.
  • DBN (Deep Belief Networks)이 많이 활용되었으며 주로 특징 추출에 사용되고, 복합 분할 프레임워크에 통합됨.
  • Poudel et al. (2016)U-net 아키텍처 내에 순환 연결 (Recurrent connection)을 도입하여 좌심실을 슬라이스 별로 분할하고, 이전 슬라이스의 정보를 기억하여 다음 슬라이스 분할에 활용
  • Kong et al. (2016)표준 2D CNN과 LSTM을 결합하여 Temporal regression를 수행하고, 특정 프레임과 심장 시퀀스 식별

     

Musculoskeletal

  • Segmentation: 근골격계 (Musculoskeletal) 이미지를 분석하여 뼈, 관절 및 관련 연조직의 이상 여부를 분할함.
  • Detection: 관절과 뼈의 세부 구조, 그리고 이상 유무를 식별함.
  • MRI, CT, X-ray, 초음파 등의 다양한 이미징 기법을 활용함.
    • Jamaludin et al. (2016)12,000개의 척추 디스크 데이터를 사용해 시스템을 학습시킴.

     

Other

  • 피부병 진단 (Dermoscopic Image Analysis)
    • 기존에 어려운 영역으로 알려졌던 피부암 진단에 대한 딥러닝의 급격한 성능 향상.
    • Esteva et al. (2017)Google’s Inception v3 모델을 이용하여, 보통 사진과 dermoscopic 이미지로 훈련, 매우 큰 데이터셋 사용.
      • 제안된 시스템이 30명의 피부과 전문의와 동일한 수준의 성능을 보임.
  • 초창기 연구는 pre-trained CNN을 특징 추출기로 사용했으나, 최근 연구는 완전한 end-to-end 교육된 CNN 사용이 증가.
    • 이러한 CNN은 기존의 수작업 특징 기반 머신러닝 방법을 대체하고, 의료영상 해석에서의 표준적인 접근 방식으로 자리잡음.

     

Discussion

  • 기술적 확산
    • 딥러닝이 의료 영상 분석의 모든 측면에 빠르게 확산
    • 242개 논문이 2016년 또는 2017년 초에 출판
    • 다양한 딥러닝 아키텍처가 사용됨.
  • 초기 연구
    • 초기 연구에서는 사전 학습된 CNN을 특징 추출기로 사용하였으며, 이러한 네트워크는 다운로드 후 바로 의료 이미지에 적용 가능
    • 기존 손수 설계된 Feature 기반 기계 학습 시스템을 쉽게 확장 가능
  • 최신 연구 동향
    • End-to-end로 학습된 CNN이 의료 영상 해석에서 선호되는 접근법이 됨.
    • 전통적인 Hand-crafted 기계 학습 방법을 대체하였으며, 이는 현재 표준적인 관행임.
  • 성공적인 딥러닝 방법의 핵심 요소
    • 특정 작업과 응용 분야에 대한 완벽한 딥러닝 방법과 아키텍처를 도출하기는 어려움.
    • CNN이 대부분의 의료 영상 분석 대회에서 최고 성능 제공하지만 정확한 아키텍처가 좋은 솔루션을 제공하는 가장 중요한 결정 요인은 아님.
  • 전문 지식의 중요성
    • 과제 해결에 대한 전문 지식을 활용하는 것이 단순히 CNN에 레이어를 추가하는 것보다 더 많은 이점을 제공
    • 성공적인 연구 그룹은 딥러닝 네트워크 외부의 새로운 데이터 전처리 또는 증강 기술에서 차별화를 보임
    • 사례: CAMELYON16 챌린지에서 염색 정규화 전처리 단계 추가로 성능 크게 향상 (AUC 0.92에서 0.99로)
      • 데이터 증강 전략이 네트워크의 견고성을 향상시키는 데 필수적임.
  • 특화된 모델 구조 디자인
    • 고유한 작업 특정 특성을 통합하는 아키텍처 설계가 단순한 CNN보다 더 나은 결과를 제공
    • 여러 뷰를 활용한 네트워크와 다중 스케일 네트워크 등이 이러한 예에 포함
  • 미래 가능성
    • 비지도 학습: 매우 큰 양의 라벨이 없는 데이터를 사용 가능.
    • Variational Auto Encoder (VAE)
    • 생성적 적대 신경망 (GANs)
    • 설명 가능성 (Explainable AI, XAI): ‘블랙 박스’로 설명되지 않는 딥러닝 문제를 해결하기 위한 다양한 기법들
      • 역전파, Captioning 작업, Bayesian 통계와의 결합을 통해 신뢰할 수 없는 예측을 할 때 이를 파악하는 능력
  • 주요 연구 성과
    • Esteva et al. (2017), Gulshan et al. (2016)딥러닝을 활용한 이미지 분류에서 의학 전문가를 능가하는 경우도 있음을 보여줌.
      • 2D RGB 이미지 분류에 초점을 맞췄으며, 이는 기존 컴퓨터 비전 (예: ImageNet) 과 유사한 작업임.
      • ResNet 및 VGG-Net 과 같은 잘 연구된 네트워크 아키텍처를 사용할 수 있어 성능이 우수함.

     

Challenges

  • 대규모 데이터셋 부족: 훈련 데이터셋이 부족
    • PACS 시스템: 서양 병원의 방사선과에서 사용된 PACS 시스템은 수백만 장의 이미지를 저장하고 있어 데이터 양의 상당한 축적이 가능
  • Labeling (Annotation) 어려움: PACS 시스템은 방사선 의사가 작성한 자유 텍스트 보고서를 저장하고 있으나 이를 자동화된 방식으로 정확한 레이블로 전환하는 것은 매우 복잡
    • 전문가가 직접 이미지를 라벨링하는 경우, 비용과 시간이 많이 소모
    • 단층 촬영 이미지 분할을 위해 3D 슬라이스별 주석을 달아야 하는 경우가 많으며, 이는 매우 많은 시간을 필요로 함.
  • 라벨 노이즈 문제: 라벨링된 데이터가 존재한다 해도, 도메인 전문가 간에 의견이 일치하지 않는 경우가 있음.
    • LIDC-IDRI 데이터셋에서는 네 명의 방사선 의사가 독립적으로 단층 촬영 이미지를 주석 달았으나 완전히 일치하지 않는 단층 촬영 개수가 세 배 더 많았음.
  • 이진 분류의 한계: 의료이미지에서는 정상 대 비정상, 객체 대 배경과 같은 이진 분류가 자주 사용됨.
    • 그러나 이는 종종 비정상의 여러 하위 범주가 매우 드문 경우 이진 예측이 실패하게 됨.
  • 클래스 불균형: 특정 질병 이미지가 상대적으로 적은 경우, 클래스 불균형 문제가 발생
    • 유방암 검사 프로그램은 대부분 정상 유방 촬영 이미지를 가지고 있어, 이를 처리하는 데 어려움.
  • 추가 정보 통합: 의료진은 환자의 역사, 나이, 인구 통계 정보 등 이미지를 넘어 많은 데이터를 활용함.
    • 이를 딥 러닝 네트워크에 통합하는 연구가 있지만, 아직 충분한 성능을 보이지 못함.
  • 의료 영상 분석의 도전 과제
    • 3D 흑백이나 다중 채널 이미지와 같은 대부분의 의료 영상에서는 사전 훈련된 네트워크나 아키텍처가 존재하지 않아 새롭게 개발된 네트워크가 필요함.
    • 의료 영상에는 비등방성 복셀 크기, 다양한 채널 간의 작은 등록 오류, 다양한 강도 범위와 같은 고유한 문제가 있음.
    • 분류 문제로 제기할 수 없는 작업들도 종종 존재하며, 이 경우 비딥러닝 방법 (Counting, segmentation, regression) 으로 후처리가 필요함.

     

References

This post is licensed under CC BY 4.0 by the author.