KR102488868B1 - 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법 및 분석장치 - Google Patents
딥러닝 모델 기반의 종양-스트로마 비율 예측 방법 및 분석장치 Download PDFInfo
- Publication number
- KR102488868B1 KR102488868B1 KR1020210024360A KR20210024360A KR102488868B1 KR 102488868 B1 KR102488868 B1 KR 102488868B1 KR 1020210024360 A KR1020210024360 A KR 1020210024360A KR 20210024360 A KR20210024360 A KR 20210024360A KR 102488868 B1 KR102488868 B1 KR 102488868B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- tumor
- dyed
- model
- staining
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 52
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 238000013135 deep learning Methods 0.000 title description 2
- 238000010186 staining Methods 0.000 claims abstract description 35
- 238000013136 deep learning model Methods 0.000 claims abstract description 26
- 102000011782 Keratins Human genes 0.000 claims description 75
- 108010076876 Keratins Proteins 0.000 claims description 64
- 239000013598 vector Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 7
- WZUVPPKBWHMQCE-UHFFFAOYSA-N Haematoxylin Chemical compound C12=CC(O)=C(O)C=C2CC2(O)C1C1=CC=C(O)C(O)=C1OC2 WZUVPPKBWHMQCE-UHFFFAOYSA-N 0.000 claims description 5
- YQGOJNYOYNNSMM-UHFFFAOYSA-N eosin Chemical compound [Na+].OC(=O)C1=CC=CC=C1C1=C2C=C(Br)C(=O)C(Br)=C2OC2=C(Br)C(O)=C(Br)C=C21 YQGOJNYOYNNSMM-UHFFFAOYSA-N 0.000 claims description 4
- 230000008569 process Effects 0.000 description 43
- 210000001519 tissue Anatomy 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 10
- 239000000523 sample Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000007490 hematoxylin and eosin (H&E) staining Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000000975 dye Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003364 immunohistochemistry Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- WZUVPPKBWHMQCE-XJKSGUPXSA-N (+)-haematoxylin Chemical compound C12=CC(O)=C(O)C=C2C[C@]2(O)[C@H]1C1=CC=C(O)C(O)=C1OC2 WZUVPPKBWHMQCE-XJKSGUPXSA-N 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000011498 curative surgery Methods 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000012153 distilled water Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 201000006585 gastric adenocarcinoma Diseases 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000012744 immunostaining Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011227 neoadjuvant chemotherapy Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 239000012286 potassium permanganate Substances 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007447 staining method Methods 0.000 description 1
- 239000012128 staining reagent Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/483—Physical analysis of biological material
- G01N33/4833—Physical analysis of biological material of solid biological material, e.g. tissue samples, cell cultures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G06T5/007—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/67—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Optics & Photonics (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Biochemistry (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
Abstract
딥러닝 모델 기반의 종양-스트로마 비율 예측 방법은 분석장치가 타깃 조직에 대한 제1 염색 이미지를 입력받는 단계, 상기 분석장치가 상기 제1 염색 이미지를 학습된 딥러닝 모델에 입력하여 제2 염색 이미지를 생성하는 단계, 상기 분석장치가 상기 제1 염색 영상에 대한 제1 이진 이미지를 생성하는 단계, 상기 분석장치가 상기 제2 염색 영상에 대한 제2 이진 이미지를 생성하는 단계 및 상기 분석장치가 상기 제1 이진 이미지 및 상기 제2 이진 이미지를 기준으로 상기 타깃 조직의 종양-스트로마 비율을 산출하는 단계를 포함한다.
Description
이하 설명하는 기술은 딥러닝 모델을 이용하여 암조직의 종양-스트로마 비율을 예측하는 기법이다.
종양-스트로마 비율은 암조직(cancer tissue)에서 종양 관련 스트로마의 비율을 의미한다. 높은 종양-스트로마 비율은 다수의 종양에서 나쁜 예후를 나타내는 인자로 입증되었다. 즉, 종양-스토로마 비율을 정확하게 평가하는 것이 종양 진단, 예후 예측 및 치료에 중요하다.
Meiting Fu et al., Association of the tumour stroma percentage in the preoperative biopsies with lymph node metastasis in colorectal cancer, Br J Cancer, 2020 Feb 4, 122(3): 388-396.
종래 병리학자가 환자의 조직 샘플을 분석하여 종양-스트로마 비율을 추정하였다. 최근 컴퓨터를 이용한 스트로마 정량 방법이 등장하였다. 그러나, 여전히 종양-스트로마 비율을 객관적으로 정확하게 평가하는 방법론이 부족하다.
이하 설명하는 기술은 딥러닝 모델을 이용하여 환자의 조직을 분석하여 종양-스트로마 비율을 정확하게 산출하는 기법을 제공하고자 한다.
딥러닝 모델 기반의 종양-스트로마 비율 예측 방법은 분석장치가 타깃 조직에 대한 제1 염색 이미지를 입력받는 단계, 상기 분석장치가 상기 제1 염색 이미지를 학습된 딥러닝 모델에 입력하여 제2 염색 이미지를 생성하는 단계, 상기 분석장치가 상기 제1 염색 이미지에 대한 제1 이진 이미지를 생성하는 단계, 상기 분석장치가 상기 제2 염색 이미지에 대한 제2 이진 이미지를 생성하는 단계 및 상기 분석장치가 상기 제1 이진 이미지 및 상기 제2 이진 이미지를 기준으로 상기 타깃 조직의 종양-스트로마 비율을 산출하는 단계를 포함한다.
종양-스트로마 비율 예측하는 분석 장치는 타깃 조직에 대한 제1 염색 이미지를 입력받는 입력장치, 제1 염색 이미지를 기준으로 제2 염색 이미지를 생성하는 적대적 생성 모델을 저장하는 저장장치 및 상기 입력된 제1 염색 이미지를 이진화하여 제1 이진 이미지를 생성하고, 상기 입력된 제1 염색 이미지를 상기 적대적 생성 모델에 입력하여 가상의 제2 염색 이미지를 생성하고, 상기 가상의 제2 염색 이미지를 이진화하여 제2 이진 이미지를 생성하고, 상기 제1 이진 이미지 및 상기 제2 이진 이미지를 기준으로 상기 타깃 조직의 종양-스트로마 비율을 산출하는 연산장치를 포함한다.
이하 설명하는 기술은 환자의 조직에 대한 하나의 염색 이미지만을 기준으로 자동으로 종양-스트로마 비율을 산출한다. 이하 설명하는 기술은 단시간에 객관적으로 정확도가 높은 종양-스트로마 비율을 제공하여 종양 진단 및 치료에 기여한다.
도 1은 종양-스트로마 비율을 예측하는 시스템에 대한 예이다.
도 2는 종양-스트로마 비율을 예측하는 과정에 대한 예이다.
도 3은 적대적 생성 모델에 대한 예이다.
도 4는 개략적인 적대적 생성 모델 학습 과정에 대한 예이다.
도 5는 H&E 이미지와 CK 이미지를 정렬하는 과정에 대한 예이다.
도 6은 H&E 이미지와 CK 이미지를 이용한 적대적 생성 모델 학습 과정의 예이다.
도 7은 분석 장치에 대한 예이다.
도 8은 적대적 생성 모델을 이용하여 생성한 가상 CK 영상의 예이다.
도 9는 딥러닝 모델을 이용한 TSR 예측 결과의 정확도를 평가한 예이다.
도 2는 종양-스트로마 비율을 예측하는 과정에 대한 예이다.
도 3은 적대적 생성 모델에 대한 예이다.
도 4는 개략적인 적대적 생성 모델 학습 과정에 대한 예이다.
도 5는 H&E 이미지와 CK 이미지를 정렬하는 과정에 대한 예이다.
도 6은 H&E 이미지와 CK 이미지를 이용한 적대적 생성 모델 학습 과정의 예이다.
도 7은 분석 장치에 대한 예이다.
도 8은 적대적 생성 모델을 이용하여 생성한 가상 CK 영상의 예이다.
도 9는 딥러닝 모델을 이용한 TSR 예측 결과의 정확도를 평가한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 특정 샘플에 대한 종양-스트로마 비율(Tumor-stroma ratio, TSR)을 예측하는 기술이다. TSR 분석을 위하여 전통적으로 조직 염색 이미지를 사용하였다.
이하 설명하는 기술은 두 가지 서로 다른 종류의 염색 이미지들을 이용하는 예이다. 제1 염색 이미지는 헤마톡실린과 에오신(Haematoxylin and eosin, 이하 H&E라 함) 이미지를 사용하였다. 제2 염색 이미지는 싸이토케라틴(cytokeratin, 이하 CK라함) 이미지를 사용하였다. 물론, 이하 설명하는 기술이 특정 염색 방식에 국한 되는 것은 아니며, 하나의 염색이 조직(stroma)을 다른 하나는 종양(tumor)을 식별할 수 있다면 된다. 따라서, 이하 설명하는 기술은 특정 제1 염색 이미지를 기준으로 자동으로 제2 염색 이미지를 생성하여 TSR을 예측하는 방식이라고 할 수 있다. 다만, 설명의 편의를 위하여 제1 염색 이미지는 H&E 이미지이고, 제2 염색 이미지는 CK 이미지라고 전제한다.
이하 설명하는 기술은 학습 모델을 이용하여 제1 염색 이미지로부터 제2 염색 이미지를 생성한다. 학습모델은 기계 학습(machine learning) 모델을 의미한다. 학습 모델은 다양한 유형의 모델들을 포함하는 의미이다. 예컨대, 학습 모델은 결정 트리, 랜덤 포레스트(random forest), KNN(K-nearest neighbor), 나이브 베이즈(Naive Bayes), SVM(support vector machine), 인공신경망(artificial neural network) 등이 있다.
인공신경망은 생물의 신경망을 모방한 통계학적 학습 알고리즘이다. 다양한 신경망 모델이 연구되고 있다. 최근 딥러닝 신경망(deep learning network, DNN)이 주목받고 있다. DNN은 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이뤄진 인공신경망 모델이다. DNN은 일반적인 인공신경망과 마찬가지로 복잡한 비선형 관계(non-linear relationship)들을 모델링할 수 있다. DNN은 다양한 유형의 모델이 연구되었다. 예컨대, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), GAN(Generative Adversarial Network), RL(Relation Networks) 등이 있다.
이하 설명하는 기술은 입력되는 제1 염색 이미지로부터 제2 염색 이미지를 생성하는 딥러닝 모델을 활용한다. 다양한 종류의 생성 모델(generative model)이 활용될 수 있다. 다만, 설명의 편의를 위하여 적대적 생성 모델인 GAN을 중심으로 설명한다.
이하 조직의 염색 이미지를 이용하여 종양-스트로마 비율을 분석하는 장치를 분석장치라고 명명한다. 분석장치는 데이터 처리가 가능한 장치로서, PC, 스마트기기, 서버 등의 형태일 수 있다.
도 1은 종양-스트로마 비율을 예측하는 시스템(100)에 대한 예이다. 도 1에서 분석장치는 컴퓨터 단말(150) 및 서버(250)인 예를 도시하였다.
도 1(A)는 사용자(R)가 컴퓨터 단말(150)을 이용하여 TSR을 예측하는 시스템(100)이다. 염색 이미지 생성 장치(110)는 조직 슬라이드에 대한 염색을 하고, 염색된 결과를 스캔하여 염색 이미지를 생성하는 장치이다. 염색 이미지 생성 장치(110)는 제1 염색 이미지(H&E 염색 이미지)를 생성한다.
염색 이미지 생성 장치(110)는 유선 또는 무선 네트워크를 통해 컴퓨터 단말(150)에 H&E 염색 이미지를 전달한다. 컴퓨터 단말(150)은 H&E 염색 이미지를 기준으로 제2 염색 이미지(CK 염색 이미지)를 생성한다. 컴퓨터 단말(150)은 동일 조직에 대한 H&E 염색 이미지와 CK 염색 이미지를 이용하여 TSR을 산출할 수 있다. 자세한 TSR 산출 과정은 후술한다. 컴퓨터 단말(150)은 분석 결과를 사용자(R)에게 제공한다.
도 1은 염색 이미지 생성 장치(110)와 컴퓨터 단말(150)을 별개의 객체로 도시하였다. 다만, 염색 이미지 생성 장치(110)와 컴퓨터 단말(150)은 물리적으로 하나의 장치 또는 연결된 장치로 구현될 수도 있다.
도 1(B)는 사용자가 사용자 단말(270)로 분석 서버(250)에 접속하여 TSR을 예측하는 시스템(200)이다. 염색 이미지 생성 장치(110)는 조직 슬라이드에 대한 염색을 하고, 염색된 결과를 스캔하여 염색 이미지를 생성하는 장치이다. 염색 이미지 생성 장치(110)는 제1 염색 이미지(H&E 염색 이미지)를 생성한다.
염색 이미지 생성 장치(110)는 유선 또는 무선 네트워크를 통해 분석 서버(250)에 H&E 염색 이미지를 전달한다.
분석 서버(250)는 H&E 염색 이미지를 기준으로 제2 염색 이미지(CK 염색 이미지)를 생성한다. 분석 서버(250)는 동일 조직에 대한 H&E 염색 이미지와 CK 염색 이미지를 이용하여 TSR을 산출할 수 있다. 자세한 TSR 산출 과정은 후술한다.
분석 서버(250)는 분석 결과를 사용자 단말(270)에 전송할 수 있다. 또한, 분석 서버(250)는 분석 결과를 병원의 EMR 시스템(260)에 전송할 수도 있다.
도 2는 종양-스트로마 비율을 예측하는 과정(300)에 대한 예이다. 도 2는 TSR 예측 과정에 대한 개략적인 예이다. 도 2는 염색 이미지 생성 장치(110/210)와 분석장치(150/250)에서 수행되는 과정을 나타낸다.
염색 이미지 생성 장치(110/210)는 특정 샘플의 조직에 대한 H&E 이미지를 생성한다(310).
분석장치(150/250)는 H&E 이미지를 수신하고, 이진 H&E 이미지를 생성한다(320). 분석장치(150/250)는 수신한 H&E 이미지를 기준으로 사전에 학습된 생성 모델 G를 이용하여 CK 이미지를 생성한다(330). 분석장치(150/250)는 CK 이미지를 이진화한다(340).
분석장치(150/250)는 이진 H&E 이미지와 이진 CK 이미지를 기준으로 TSR을 결정한다. 분석장치(150/250)는 이진 H&E 이미지에서 이진 CK 이미지를 감산하여 전체 영역에서 스토로마의 비율을 산출할 수 있다(350).
도 3은 적대적 생성 모델(400)에 대한 예이다. 도 4는 GAN(400)에 대한 예이다. GAN은 비지도 학습모델에 해당한다. GAN은 생성 모델 G(Generator, 410) 및 판별 모델 D(Discriminator, 420)를 포함한다. 생성 모델 G(410)은 입력 정보에 기반하여 데이터를 생성하는 모델이다. 판별 모델 D(420)은 분류를 담당하는 모델이다. GAN은 데이터를 생성하는 생성 모델 G(410)과 만들어진 데이터를 평가하는 판별 모델 D(420)이 서로 대립적으로 학습해가며 성능을 점차 개선하는 개념에서 출발했다. 생성 모델 G(410)와 판별모델 D(420)는 각각 다양한 기계학습모델 중 어느 하나를 이용하여 생성될 수 있다. 예컨대, 생성 모델 G(210)은 U-net, 오토인코더 등과 같은 모델을 통해 구현될 수 있다.
판별 모델 D은 생성된 데이터가 진짜인지 또는 가짜인지를 분류한다. 생성 모델 G은 잠재 코드 z를 입력받아 데이터를 생성하되 판별 모델 D을 속이기 위한 정보를 생성하도록 학습된다. 생성자 모델 G은 G(z) 데이터를 생성하고, 판별 모델 D은 G(z)에 대한 판별 결과 D(G(z))를 생성한다. 생성자 모델 G은 1-D(G(z)를 최소화하는 목적함수를 갖는다. 결국 D(G(z))가 1인 경우 최소가 되는데, 생성자 모델 G은 판별 모델 D(620)이 G(z)을 본래 원본 데이터라고 착각할 수 있도록 학습된다.
cGAN은 생성 모델 G(410)와 판별 모델 D(420)에 각각 일정한 조건 정보(c)가 추가로 입력된다.
도 4는 개략적인 적대적 생성 모델 학습 과정(500)의 예이다.
개발자는 전술한 분석장치를 이용하여 학습 과정을 수행할 수 있다. 또는, 개발자는 별도의 컴퓨터 장치를 이용하여 학습 과정을 수행할 수도 있다. 학습 과정은 컴퓨터 장치가 수행한다고 가정한다.
학습 과정은 크게 학습 데이터를 마련하는 과정 및 학습 데이터를 이용한 적대적 생성 모델을 학습하는 과정으로 구분된다.
학습 데이터를 생성하는 과정을 설명한다. 학습 데이터는 특정 조직에 대한 H&E 영상과 CK 영상을 포함한다. 따라서, 먼저 H&E 영상과 CK 영상을 각각 생성하는 과정이 필요하다(510). H&E 영상과 CK 영상은 동일 조직에 대한 한 쌍의 영상이다. 학습 데이터는 복수의 샘플 각각에 대한 H&E 영상과 CK 영상의 쌍(즉, 복수의 이미지 쌍)으로 구성된다.
연구자가 학습 데이터를 마련한 과정을 설명한다.
369명의 위선암(gastric adenocarcinoma) 환자들이 코호트(cohort)로 선택되었다. 코호트는 병기 II ~ IV인 환자들이다. 코호트는 2014년~2015년 삼성서울병원에서 치료 수술을 받은 환자들이다. 코호트에 속한 환자들은 선행 항암화학요법( Neoadjuvant chemotherapy)을 받지 않았고, 수술 후 30일 이내에 사망하지 않았다. 코호트에 속한 환자들은 수술 당시 원격 전이 또는 다른 종양이 확인되지 않은 상태였다. 후술할 표 1은 코호트에 대한 임상 정보를 포함한다.
염색을 위한 슬라이드는 포르말린 고정 후 제작한 파라핀 조직 절편을 3㎛로 절단하였다. FFPE(formalin-fixed paraffin-embedded) 샘플들 369개 각각은 H&E 자동 염색 장치를 사용하여 염색하였다. 369개 샘플들은 각각 369명 환자들을 대표하는 샘플을 의미한다. 환자를 대표하는 샘플은 종양에서 가장 깊은 침윤을 보이는 슬라이드를 선택하였고, 이를 통해 해당 환자의 병기를 판단하였다.
FFPE 샘플들은 각각 IHC(immunohistochemistry) 염색을 하였다. 연구자는 싸이토케라틴(cytokeratin, CK) 염색을 사용하였다. 연구자는 Bond-MAX 자동면역염색장치(Leica Biosystem사 제품)를 사용하여 상용 시약(Novocastra사 제품)으로 슬라이드를 염색하였다. 연구자는 CK 염색된 슬라이드에 대하여 디지털 스캐너(Aperio Technologies사 제품)로 200배 확대된 영상(조직 0.032㎛/픽셀)을 생성하였다. CK 염색 이미지를 CK WSI(whole slide image)라고 명명한다.
동일한 샘플을 다시 H&E 염색하기 위하여, 연구자는 CK 염색된 슬라이드를 증류수로 세척한 후 H&E 염색을 하였다. H&E 염색 과정은 일정 농도의 에탄올과 과망간산칼륨(KMnO4)에서 인큐베이션하고 염색 시약으로 염색하는 과정을 거쳤다. H&E 염색은 일반적인 프로세스이므로 상세한 설명은 생략한다. 또한, H&E 염색된 슬라이드도 디지털 스캐너로 영상을 생성하였다. H&E 염색 이미지를 H&E WSI라고 명명한다.
전술한 바와 같이 연구자는 정확하게 같은 조직 절편에 대하여 H&E WSI 및 CK WSI를 마련하였다. 연구자는 동일한 조직 절편에 대한 H&E WSI 및 CK WSI가 비선형적인 변형을 갖지는 않지만, H&E WSI 및 CK WSI 사이에 일정한 수직 및 수평 시프트(shift)가 발생함을 확인하였다. 따라서, 연구자는 동일 절편에 대한 H&E WSI 및 CK WSI 쌍을 일정한 전처리 과정을 통해 픽셀 수준에서 최대한 H&E WSI 및 CK WSI 쌍이 동일한 영역을 나타내도록 정렬하였다(520).
컴퓨터 장치는 정렬된 H&E WSI 및 CK WSI 쌍들을 이용하여 적대적 생성 모델을 학습시킨다(530). 간략하게 설명하면, cGAN에서 생성모델이 잠재 코드를 입력받아 CK WSI을 생성한다. 생성모델은 H&E WSI를 입력받아 CK WSI를 생성하도록 학습된다. 생성모델에 입력되는 조건(c)는 정교한 CK WSI를 생성하게 하는 정보이다. 판별모델은 생성된(fake) CK WSI와 실제 CK WSI를 입력받아 생성된 CK WSI를 판별한다. 판별모델도 조건(c)를 입력받는다. 이 과정을 반복하면서 생성모델과 판별모델은 파라미터가 최적화되어 적대적 생성 모델이 학습되게 된다.
도 5는 H&E 이미지와 CK 이미지를 정렬하는 과정(600)에 대한 예이다.
이미지 정렬 과정은 전역(global) 과정과 지역(local) 과정으로 구성된다. 전역 과정은 전역적 시프트 벡터를 연산하여 동일 절편에 대한 WSI 쌍을 대략적으로(coarsely) 정렬하는 과정이다. 지역 과정은 정확한 정렬을 위하여 각 지역 영역별로 지역적 시프트 벡터를 연산하여 정렬하는 과정이다.
전역 시프트 벡터 연산 과정(610)을 설명한다.
컴퓨터 장치는 H&E WSI 및 CK WSI를 각각 일정하게 다운 샘플링(down-sampling)할 수 있다(611). 연구자는 동일 조직 절편에 대한 H&E WSI 및 CK WSI는 32배 다운샘플링하였다.
컴퓨터 장치는 다운 샘플링된 각 이미지를 컬러 디컨볼루션(color deconvolution)한다(612). 여기서, 컬러 디컨볼루션은 H&E WSI 및 CK WSI 각각을 RGB 컬러 공간에서 HED(Hematoxylin-Eosin-DAB) 컬러 공간으로 변환한다. CK 항체는 세포질을 주로 염색하기 때문에, H&E 이미지에서 에오신 채널을 추출하고, CK 이미지에서 DAB 채널을 추출할 수 있다.
컴퓨터 장치는 색공간이 변환된 두 채널 이미지를 이진화한다(613). 이때 컴퓨터 장치는 이진화를 위한 기준이 되는 임계값을 사용한다. 임계값은 실험적으로 적절한 값이 사용될 수 있다. 임계값은 이미지 전체가 아닌 전체 이미지를 구성하는 작은 영역별로 설정될 수도 있다. 예컨대, 임계값은 이웃 영역(블록)의 픽셀값 가중 평균에서 특정 오프셋(offset) 값을 감산한 값이 사용될 수도 있다.
한편, 컴퓨터 장치는 이미지를 이진화한 후 무시해도 좋은 작은 객체를 제거할 수도 있다.
컴퓨터 장치는 2개의 이진 이미지들의 2D 교차 상관관계 히트맵(cross-correlation heatmap)을 생성할 수 있다(614). 교차 상관관계는 FFT(Fast Fourier Transform) 알고리즘을 적용하여 연산될 수 있다. 컴퓨터 장치는 교차 상관관계 히트맵에서 최댓값의 위치를 기준으로 전역 시프트 벡터를 결정할 수 있다(615). 즉, 컴퓨터 장치는 하나의 이미지를 기준으로 다른 하나의 이미지를 정렬하기 위한 전역적 정보를 획득할 수 있다.
컴퓨터 장치는 전역 시프트 벡터를 기준으로 하나의 이미지를 기준으로 H&E WSI 및 CK WSI를 정렬(전역 정렬)할 수 있다. 보다 정교한 정렬을 위하여 전역 정렬 후 컴퓨터 장치는 지역 정렬을 수행할 수 있다. 또는 경우에 따라서, 컴퓨터 장치는 전역 정렬을 하지 않고, 각 패치별 지역 시프트 벡터를 결정하고, 패치별로 지역 정렬만을 할 수도 있다.
지역 시프트 벡터 연산 과정(620)을 설명한다.
전체 이미지는 정 크기의 패치(patch) 단위로 구분될 수 있다. 하나의 패치는 일정한 가로 × 세로 크기(픽셀)를 가질 수 있다. 지역 정렬은 패치 단위로 정렬을 수행하는 과정이다. 예컨대, 전체 이미지가 10240 × 10240 픽셀 크기라면, 컴퓨터 장치는 1024 × 1024 픽셀 크기의 패치를 기준으로 지역 정렬을 할 수 있다. 컴퓨터 장치는 흰색 배경을 갖는 패치를 제외하고, 각 패치를 전역 정렬과 동일한 방법으로 정렬할 수 있다. 즉, 컴퓨터 장치는 하나의 패치 단위로 H&E WSI 및 CK WSI를 다운 샘플링하고(621), 컬러 디컨볼루션하고(622), 이진화(623)한 후 상관관계 히트맵에서의 최댓값을 기준으로 지역 시프트 벡터를 연산(624)할 수 있다. 도 5는 패치에 대한 상관 관계 히트맵을 도시하지는 않았다.
컴퓨터 장치는 각 패치별로 지역 시프트 벡터를 결정할 수 있다(624). 컴퓨터 장치는 복수의 패치들에 대한 평균 지역 시프트 벡터를 연산할 수 있다(625). 이 과정에서 컴퓨터 장치는 이상치(outlier)를 갖는 지역 시프트 벡터를 제거한 후 평균 지역 시프트 벡터를 연산할 수 있다. 컴퓨터 장치는 평균 지역 시프트 벡터와 전역 시프트 벡터를 더한 값을 최종적인 지역 시프트 벡터를 결정할 수 있다(626).
한편, 지역 시프트 벡터를 결정하기 위한 다양한 방법이 있을 수 있다. 예컨대, (i) 컴퓨터 장치는 각 패치별로 지역 시프트 벡터를 연산하여 해당 패치별로 지역적 정렬을 할 수 있다. (ii) 컴퓨터 장치는 각 패치별로 지역 시프트 벡터를 연산하고, 지역 시프트 벡터에 전역 시프트 벡터를 합산하여 각 패치별로 최종 지역 시프트 벡터를 연산할 수도 있다. (iii) 또는 전술한 바와 같이, 컴퓨터 장치가 각 패치별로 지역 시프트 벡터를 연산하고, 평균값을 산출한 뒤 전역 시프트 벡터를 합산하여 최종 지역 시프트 벡터를 연산할 수도 있다. 이 경우, 컴퓨터 장치는 최종 지역 시프트 벡터를 기준으로 각각의 패치를 정렬한다.
도 6은 H&E 이미지와 CK 이미지를 이용한 적대적 생성 모델 학습 과정(700)의 예이다. 도 6은 도 5에서 H&E WSI와 CK WSI가 패치 단위로 정렬된 후의 학습 과정일 수 있다. 연구자는 cGAN 모델 중 Pix2Pix cGAN을 이용하였다. Pix2Pix는 객체의 외관선 영상을 생성 모델 G에 입력하여 목표하는 영상을 생성한다. 물론, 이는 하나의 예이며 H&E WSI로부터 CK WSI를 생성하기 위한 생성 모델은 다양할 수 있다.
전체 CK WSI는 쌍을 이루는 전체 H&E WSI를 기준으로 전역 정렬이 될 수 있다(711). CK WSI의 각 패치는 최종적인 지역 시프트 벡터가 결정될 수 있다. CK WSI의 각 패치는 지역 정렬된다(712). 이는 도 5에서 설명한 전처리 과정에 해당한다.
적대적 생성 모델은 생성 모델(generator) G와 판별 모델(discriminator) D를 포함한다. 생성 모델 G는 U-net 구조를 갖는 네트워크를 사용할 수 있다. 판별 모델 D는 패치별로 생성된 영상에 대한 진위 여부를 판별하는 PatchGAN을 이용할 수 있다.
동일 조직 절편에 대한 H&E WSI와 CK WSI 쌍은 각각 동일한 패치들로 구분될 수 있다. 컴퓨터 장치는 H&E WSI를 패치별로 추출한다(720). 컴퓨터 장치는 H&E WSI의 각 패치를 생성 모델 G에 입력하여 가상의 CK 패치를 생성한다(730). 컴퓨터 장치는 H&E 패치 이미지 x를 생성 모델 G에 입력하여 가상의 CK 이미지 G(x)를 생성한다.
컴퓨터 장치는 정렬된 CK WSI를 패치별로 추출한다(740). 컴퓨터 장치는 가상의 CK 패치와 이에 대응하는 실제 CK 패치를 판별 모델 D에 입력한다(750). 컴퓨터 장치는 판별 모델을 각 패치별로 판별을 할 수 있다(760). 실제 CK 이미지를 y 라고 하자. 판별 모델 D는 {x,y} 쌍과 {x,G(x)} 쌍을 분류하도록 학습된다. 생성 모델 G는 진성 CK 이미지와 생성된 가상의 CK가 구별되지 않도록 학습된다.
Pix2Pix 구조는 생성 모델 G에 본래 드롭 아웃(dropout) 계층을 포함한다. 드롭 아웃 계층은 입력된 노이즈가 높은 확률적(highly stochastic) 결과물로 생성되게 한다. 그러나, CK 이미지를 생성하는 모델은 보다 예측가능하고 결정론적 결과물이 요구된다. 따라서, 생성 모델 G는 드롭 아웃 계층을 사용하지 않을 수 있다.
cGAN의 목적 함수는 아래 수학식 1과 같이 표현할 수 있다.
생성 모델 G는 상기 목적 함수를 최소화하는 방향으로 학습되고, 판별 모델 D는 역으로 목적 함수를 최대화하는 방향으로 학습된다. 생성 모델 G는 판별 모델로부터의 손실을 줄이는 것뿐만 아니라, L1 손실을 사용하여 가상 분포가 실제 분포에 가깝도록 한다. 이때, RGB 컬러 공간의 L1 손실뿐만 아니라, HED 컬러 공간의 L1 손실도 고려해야 한다. 아래 수학식 2는 RGB 컬러 공간의 L1 손실 함수이고, 수학식 3은 HED 컬러 공간의 L1 손실 함수이다.
따라서, 적대적 생성 모델의 최종 손실 함수는 아래 수학식 4와 같이 표현될 수 있다.
도 7은 분석 장치(800)에 대한 예이다. 분석장치(800)는 전술한 분석장치(도 1의 150 및 250)에 해당한다. 분석장치(800)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(800)는 PC와 같은 컴퓨터 장치, 네트워크의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다.
분석장치(800)는 저장장치(810), 메모리(820), 연산장치(830), 인터페이스 장치(840), 통신장치(850) 및 출력장치(860)를 포함할 수 있다.
저장장치(810)는 특정 샘플의 타깃 조직에 대한 제1 염색 이미지를 저장할 수 있다.
저장장치(810)는 이미지를 이진화하는 프로그램 내지 코드를 저장할 수 있다.
저장장치(810)는 제1 염색 이미지를 기준으로 제2 염색 이미지를 생성하는 딥러닝 모델을 저장할 수 있다. 딥러닝 모델은 전술한 적대적 생성 모델일 수 있다.
저장장치(810)는 딥러닝 모델이 산출하는 제2 염색 이미지를 저장할 수 있다.
저장장치(810)는 이미지 처리를 위한 다른 프로그램 내지 코드를 저장할 수 있다.
또한, 저장장치(810)는 전술한 바와 같은 과정으로 TSR 산출하는 과정에 대한 명령어 내지 프로그램 코드를 저장할 수 있다.
저장장치(810)는 분석 결과인 TSR을 저장할 수 있다.
메모리(820)는 분석장치(800)가 TSR 산출하는 과정에서 생성되는 데이터 및 정보 등을 저장할 수 있다.
인터페이스 장치(840)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스 장치(840)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 제1 염색 이미지를 입력받을 수 있다. 제1 염색 이미지는 H&E 염색 이미지일 수 있다.
통신장치(850)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(850)는 외부 객체로부터 제1 염색 이미지를 수신할 수 있다. 또는 통신장치(850)는 분석 결과를 사용자 단말과 같은 외부 객체에 송신할 수도 있다.
인터페이스 장치(840) 및 통신장치(850)는 사용자 또는 다른 물리적 객체로부터 일정한 정보 및 이미지를 입력받는 구성이므로, 포괄적으로 입력장치라고도 명명할 수 있다. 또는 입력 장치는 통신 장치(850)에서 수신되는 제1 염색 이미지나 요청을 분석장치(800) 내부에 전달하는 경로의 인터페이스를 의미할 수도 있다.
출력장치(860)는 일정한 정보를 출력하는 장치이다. 출력장치(860)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.
연산 장치(830)는 저장장치(810)에 저장된 명령어 내지 프로그램 코드를 이용하여 TSR을 예측할 수 있다.
연산 장치(830)는 저장장치(810)에 저장된 딥러닝 모델을 이용하여 제1 염색 이미지 기준으로 가상의 제2 염색 이미지를 생성할 수 있다. 가상의 제2 염색 이미지는 CK 염색 이미지일 수 있다.
연산 장치(830)는 제1 염색 이미지를 이진화하여 제1 이진 이미지를 생성할 수 있다.
연산 장치(830)는 가상의 제2 염색 이미지를 이진화하여 제2 이진 이미지를 생성할 수 있다.
연산 장치(830)는 제1 이진 이미지 및 제2 이진 이미지를 기준으로 TSR을 연산할 수 있다.
연산 장치(830)는 제1 이진 이미지에서 흰색인 영역에서 제2 이진 이미지에서 흰색인 영역을 제거한 결과를 기준으로, 전체 조직에서 스토로마 영역을 식별할 수 있다. 이후, 연산 장치(830)는 전체 조직의 면적에서 스토로마 영역이 자치하는 면적의 비율을 계산하여 TSR을 산출할 수 있다.
연산 장치(830)는 학습된 생성 모델을 이용하여 H&E WSI를 가상의 CK WSI로 변환할 수 있다. 연산 장치(830)는 H&E WSI의 패치들을 각각 CK WSI의 패치로 변환할 수 있다. 연산 장치(830)는 각 패치별로 종양 영역과 스트로마 영역을 결정하고, 최종적으로 전체 이미지를 대상으로 TSR을 연산할 수 있다. 또는, 연산 장치(830)는 패치를 결합하여 하나의 H&E WSI와 하나의 CK WSI를 생성하고, H&E WSI 및 CK WSI를 기준으로 TSR을 연산할 수 있다.
연산 장치(830)는 H&E WSI(또는 개별 패치들)를 이진화하고, CK WSI(또는 개별 패치들)를 이진화한다. 연산 장치(830)는 이진 H&E WSI 영상의 흰색 영역(조직 영역, stroma area)에서 이진 CK WSI의 흰색 영역(종양 영역, tumor area)을 감산(제거)한다. 연산 장치(830)는 전체 조직 영역에서 종양 조직이 제거된 영역의 비율을 결정하여 TSR을 연산할 수 있다. 즉, 연산 장치(830)는 아래 수학식 5와 같이 TSR을 연산할 수 있다.
연산 장치(830)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
도 8은 적대적 생성 모델을 이용하여 생성한 가상 CK 영상의 예이다. 도 8은 진성 H&E 이미지(A)를 기준으로 가상의 CK 이미지(C)를 생성한 결과를 나타낸다. 진성 CK 이미지(B)와 가상의 CK 이미지(C)를 비교하면, 가상의 CK 이미지에서 분산된 종양 세포들이 거의 정확하게 염색된 것을 알 수 있다.
도 9는 딥러닝 모델을 이용한 TSR 예측 결과의 정확도를 평가한 예이다. 연구자는 제안한 TSR 예측 방법(Proposed method)을 이용하여 전술한 코호트(369명의 환자 샘플들)에 대하여 TSR을 연산하였다. 또한, 전문적인 병리학자가 해당 샘플들을 평가하였다. 적대적 생성 모델 기반한 결과와 실제 병리학자가 평가한 결과를 비교하였다. TSR은 비율로 측정되는데 각 측정값마다 정확도를 평가하기 어려운 측면이 있어서, TSR 낮음과 TSR 높음으로 구분하여 평가하였다.
도 9(A)는 HED 컬러 공간의 손실 함수(수학식 3)를 사용하지 않은 모델의 결과이고, 도 9(B)는 HED 컬러 공간의 손실 함수를 사용한 모델의 결과이다. 전반적으로 HED 컬러 공간의 손실 함수를 고려한 경우가 AUC(모두 0.9 이상)가 높았다. 물론 HED 컬러 공간의 손실 함수를 사용하지 않은 경우도 상당히 높은 평가 결과를 보였다.
또한, 상술한 바와 같은 가상 CK 영상 생성 방법 및 TSR 연산 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
Claims (14)
- 분석장치가 타깃 조직에 대한 제1 염색 이미지를 입력받는 단계;
상기 분석장치가 상기 제1 염색 이미지를 학습된 딥러닝 모델에 입력하여 제2 염색 이미지를 생성하는 단계;
상기 분석장치가 상기 제1 염색 이미지에 대한 제1 이진 이미지를 생성하는 단계;
상기 분석장치가 상기 제2 염색 이미지에 대한 제2 이진 이미지를 생성하는 단계; 및
상기 분석장치가 상기 제1 이진 이미지 및 상기 제2 이진 이미지를 기준으로 상기 타깃 조직의 종양-스트로마 비율을 산출하는 단계를 포함하는 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 제1항에 있어서,
상기 제1 염색 이미지는 헤마톡실린-에오신(Hematoxylin & Eosin) 염색 이미지이고, 상기 제2 염색 이미지는 싸이토케라틴(cytokeratin) 염색 이미지인 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 제1항에 있어서,
상기 딥러닝 모델은 진성 제1 염색 이미지를 입력받아 가상의 제2 염색 이미지를 생성하는 생성 모델 및 생성 모델이 출력하는 상기 제2 염색 이미지가 진성인지 여부를 분류하는 판별 모델을 포함하되, 상기 판별 모델은 PatchGAN인 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 제1항에 있어서,
상기 딥러닝 모델은
제1 염색 이미지를 일정한 크기의 패치들로 구분하고, 상기 제1 염색 이미지의 패치들에 대응되는 상기 제2 염색 이미지의 패치들을 생성하고,
상기 제1 염색 이미지의 패치들과 상기 제2 염색 이미지의 패치들 중에서 대응되는 패치 쌍을 기준으로 진성 여부를 판별하는 방식으로 학습되는 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 제1항에 있어서,
상기 딥러닝 모델은 학습 데이터를 이용하여 학습되고,
상기 학습 데이터는 동일 조직 절편에 대한 진성 제1 염색 이미지와 진성 제2 염색 이미지를 포함하고,
상기 진성 제1 염색 이미지와 상기 진성 제2 염색 이미지는 픽셀 수준에서 전체 이미지를 기준으로 전역적으로 정렬되고, 전체 이미지를 구성하는 복수의 영역별로 지역적으로 정렬되는 데이터인 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 제5항에 있어서,
상기 전역적 정렬과 상기 지역적 정렬 각각은
정렬 대상인 두 개의 이미지를 컬러 디컨볼루션 하는 단계;
컬러 디컨볼루션된 두 개의 이미지를 이진화하는 단계;
이진화된 두 개의 이미지에 대한 교차 상관 관계 히트맵을 생성하는 단계; 및
상기 히트맵에서 최댓값을 기준으로 시프트 벡터를 연산하는 단계를 포함하는 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 제6항에 있어서,
상기 지역적 정렬은
상기 복수의 영역 각각에 대하여 상기 복수의 영역에 대한 시프트 벡터의 평균값과 상기 전역적 정렬의 시프트 벡터값을 합산한 값을 기준으로 정렬되는 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 제1항에 있어서,
상기 딥러닝 모델은 HED(Hematoxylin-Eosin-DAB) 컬러 공간에 대한 손실 함수를 더 이용하여 학습되는 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법. - 타깃 조직에 대한 제1 염색 이미지를 입력받는 입력장치;
제1 염색 이미지를 기준으로 제2 염색 이미지를 생성하는 적대적 생성 모델을 저장하는 저장장치; 및
상기 입력된 제1 염색 이미지를 이진화하여 제1 이진 이미지를 생성하고, 상기 입력된 제1 염색 이미지를 상기 적대적 생성 모델에 입력하여 가상의 제2 염색 이미지를 생성하고, 상기 가상의 제2 염색 이미지를 이진화하여 제2 이진 이미지를 생성하고, 상기 제1 이진 이미지 및 상기 제2 이진 이미지를 기준으로 상기 타깃 조직의 종양-스트로마 비율을 산출하는 연산장치를 포함하는 종양-스트로마 비율 예측하는 분석 장치. - 제9항에 있어서,
상기 연산장치는 상기 제1 이진 이미지에서 상기 제2 이진 이미지를 감산하여 전체 영역에서 스토로마 비율을 산출하는 종양-스트로마 비율 예측하는 분석 장치. - 제9항에 있어서,
상기 제1 염색 이미지는 헤마톡실린-에오신(Hematoxylin & Eosin) 염색 이미지이고, 상기 제2 염색 이미지는 싸이토케라틴(cytokeratin) 염색 이미지인 종양-스트로마 비율 예측하는 분석 장치. - 제9항에 있어서,
상기 적대적 생성 모델은 드롭 아웃 계층을 사용하지 않은 U-net 구조의 생성 모델 및 패치 단위로 진성 여부를 판별하는 PatchGAN인 판별 모델을 포함하는 종양-스트로마 비율 예측하는 분석 장치. - 제9항에 있어서,
상기 적대적 생성 모델은 학습 데이터를 이용하여 학습되고,
상기 학습 데이터는 동일 조직 절편에 대한 진성 제1 염색 이미지와 진성 제2 염색 이미지를 포함하고,
상기 진성 제1 염색 이미지와 상기 진성 제2 염색 이미지는 픽셀 수준에서 전체 이미지를 기준으로 전역적으로 정렬되고, 전체 이미지를 구성하는 복수의 영역별로 지역적으로 정렬되는 데이터인 종양-스트로마 비율 예측하는 분석 장치. - 제9항에 있어서,
상기 적대적 생성 모델은 HED(Hematoxylin-Eosin-DAB) 컬러 공간에 대한 손실 함수를 더 이용하여 학습되는 종양-스트로마 비율 예측하는 분석 장치.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210024360A KR102488868B1 (ko) | 2021-02-23 | 2021-02-23 | 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법 및 분석장치 |
CN202180094280.5A CN116868281A (zh) | 2021-02-23 | 2021-04-15 | 基于深度学习模型预测肿瘤-间质比的方法和分析设备 |
PCT/KR2021/004727 WO2022181879A1 (ko) | 2021-02-23 | 2021-04-15 | 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법 및 분석장치 |
US18/278,323 US20240320822A1 (en) | 2021-02-23 | 2021-04-15 | Deep learning model-based tumor-stroma ratio prediction method and analysis device |
JP2023550323A JP2024507248A (ja) | 2021-02-23 | 2021-04-15 | ディープラーニングモデル基盤の腫瘍-ストロマ比率予測方法および分析装置 |
EP21928175.5A EP4300515A1 (en) | 2021-02-23 | 2021-04-15 | Deep learning model-based tumor-stroma ratio prediction method and analysis device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210024360A KR102488868B1 (ko) | 2021-02-23 | 2021-02-23 | 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법 및 분석장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220120803A KR20220120803A (ko) | 2022-08-31 |
KR102488868B1 true KR102488868B1 (ko) | 2023-01-16 |
Family
ID=83048241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210024360A KR102488868B1 (ko) | 2021-02-23 | 2021-02-23 | 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법 및 분석장치 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20240320822A1 (ko) |
EP (1) | EP4300515A1 (ko) |
JP (1) | JP2024507248A (ko) |
KR (1) | KR102488868B1 (ko) |
CN (1) | CN116868281A (ko) |
WO (1) | WO2022181879A1 (ko) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015265811B2 (en) * | 2014-05-30 | 2020-04-30 | Providence Health & Services - Oregon | An image processing method and system for analyzing a multi-channel image obtained from a biological tissue sample being stained by multiple stains |
US10957041B2 (en) * | 2018-05-14 | 2021-03-23 | Tempus Labs, Inc. | Determining biomarkers from histopathology slide images |
-
2021
- 2021-02-23 KR KR1020210024360A patent/KR102488868B1/ko active IP Right Grant
- 2021-04-15 CN CN202180094280.5A patent/CN116868281A/zh active Pending
- 2021-04-15 JP JP2023550323A patent/JP2024507248A/ja active Pending
- 2021-04-15 EP EP21928175.5A patent/EP4300515A1/en active Pending
- 2021-04-15 US US18/278,323 patent/US20240320822A1/en active Pending
- 2021-04-15 WO PCT/KR2021/004727 patent/WO2022181879A1/ko active Application Filing
Non-Patent Citations (3)
Title |
---|
BURLINGAME, ERIK A. 등, Scientific Reports, 2020, 10권, Article No. 17507, 페이지 1-14 |
TSCHUCHNIG, MAXIMILIAN E. 등; Patterns, 2020.09.11, 1권, 6호, Article No. 100089, 페이지 1-11 |
XU, ZHAOYANG 등; arXiv:1901.04059v1, 페이지 1-16, 2019.01.13 [retrived on 2021.10.21] |
Also Published As
Publication number | Publication date |
---|---|
JP2024507248A (ja) | 2024-02-16 |
KR20220120803A (ko) | 2022-08-31 |
CN116868281A (zh) | 2023-10-10 |
WO2022181879A1 (ko) | 2022-09-01 |
US20240320822A1 (en) | 2024-09-26 |
EP4300515A1 (en) | 2024-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11901077B2 (en) | Multiple instance learner for prognostic tissue pattern identification | |
Bychkov et al. | Deep learning based tissue analysis predicts outcome in colorectal cancer | |
JP7250793B2 (ja) | 生体画像における連帯的細胞および領域分類のための深層学習システムならびに方法 | |
US11276165B2 (en) | Method for training a deep learning model to obtain histopathological information from images | |
US20220058839A1 (en) | Translation of images of stained biological material | |
Harder et al. | Automatic discovery of image-based signatures for ipilimumab response prediction in malignant melanoma | |
Aubreville et al. | A completely annotated whole slide image dataset of canine breast cancer to aid human breast cancer research | |
Burlingame et al. | SHIFT: speedy histological-to-immunofluorescent translation of a tumor signature enabled by deep learning | |
JP2020205063A (ja) | コンテキストフィーチャを用いた画像解析システム | |
US11721427B2 (en) | Computational pathology approach for retrospective analysis of tissue-based companion diagnostic driven clinical trial studies | |
JP2022504870A (ja) | 細胞の分類のためのシステムおよび方法 | |
Ing et al. | A novel machine learning approach reveals latent vascular phenotypes predictive of renal cancer outcome | |
EP3975110A1 (en) | A method of processing an image of tissue and a system for processing an image of tissue | |
CN114270174A (zh) | 使用振动光谱对生物标志物表达进行无标记评估 | |
Wu et al. | Aro: a machine learning approach to identifying single molecules and estimating classification error in fluorescence microscopy images | |
Lanng et al. | Quality assessment of Ki67 staining using cell line proliferation index and stain intensity features | |
CN118414640A (zh) | 数字病理学中深度学习模型的对抗鲁棒性 | |
KR102488868B1 (ko) | 딥러닝 모델 기반의 종양-스트로마 비율 예측 방법 및 분석장치 | |
KR20230063147A (ko) | 다단계 특징 분석을 사용한 전립선 조직의 효율적인 경량 cnn과 앙상블 머신 러닝 분류 방법 및 시스템 | |
JP2024521240A (ja) | 免疫組織化学(ihc)の合成画像への組織化学的染色画像の変換 | |
Pati et al. | Accelerating histopathology workflows with generative AI-based virtually multiplexed tumour profiling | |
US20230230242A1 (en) | Correcting differences in multi-scanners for digital pathology images using deep learning | |
Heindl et al. | Automated REcognition of Tissue‐associated Erythrocytes (ARETE)—a new tool in tissue cytometry | |
Lloret et al. | CNN Classifier for Helicobacter Pylori Detection in Immunohistochemically Stained Gastric WSI | |
Rapsomaniki et al. | Multiplexed tumor profiling with generative AI accelerates histopathology workflows and improves clinical predictions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |