Nothing Special   »   [go: up one dir, main page]

KR102699848B1 - 암 진단을 위한 바이오마커 - Google Patents

암 진단을 위한 바이오마커 Download PDF

Info

Publication number
KR102699848B1
KR102699848B1 KR1020200094635A KR20200094635A KR102699848B1 KR 102699848 B1 KR102699848 B1 KR 102699848B1 KR 1020200094635 A KR1020200094635 A KR 1020200094635A KR 20200094635 A KR20200094635 A KR 20200094635A KR 102699848 B1 KR102699848 B1 KR 102699848B1
Authority
KR
South Korea
Prior art keywords
cancer
gene
ppv
pancreatic cancer
mutation
Prior art date
Application number
KR1020200094635A
Other languages
English (en)
Other versions
KR20210014083A (ko
Inventor
고영일
윤성수
송슬기
박주경
이종균
이규택
이광혁
김혜민
이은미
Original Assignee
서울대학교병원
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교병원, 사회복지법인 삼성생명공익재단 filed Critical 서울대학교병원
Priority to US17/631,597 priority Critical patent/US20220333206A1/en
Priority to PCT/KR2020/010014 priority patent/WO2021020882A1/ko
Publication of KR20210014083A publication Critical patent/KR20210014083A/ko
Priority to KR1020240112758A priority patent/KR20240131311A/ko
Application granted granted Critical
Publication of KR102699848B1 publication Critical patent/KR102699848B1/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명자들은 암 환자들에게서 LSD 유전자의 잠재적 병원성 변이(Potentially pathogenic variant, PPV) 빈도가 유의하게 높게 나타나며, PPV의 분포가 암종의 조직학적 분류에 따라 특징적인 패턴을 보임을 확인하였다. 또한, 보유하고 있는 PPV의 수가 많은 사람일수록 암 발병의 위험성이 높아지고, PPV 보인자들이 PPV 비보인자들과 비교하여 암이 더 이른 시기에 발병한다는 점도 확인하였다. 연구자들은 LSD 유전자가 BRCA 유전자처럼 Loss of heterozygosity (LOH) 기전에 따른 Two-Hit 메커니즘에 의하여 암발병에 이름을 알아냈다. 더불어, 본 발명자들은 아시아인 췌장 선암종 코호트와 오거노이드를 이용한 연구에서 얻은 암의 유전체 및 전사체 데이터 분석을 통해 PPV가 암 발병과 연관이 있다는 잠재적 메커니즘을 규명함으로써, 유전적인 암에 대한 취약성의 이해의 범위를 넓히고, 개인 맞춤화된 암의 예방 및 치료를 위해 리소좀 기능을 되돌리는 기법의 치료 전략이 사용될 수 있음을 제시하기 위한 기반을 마련하였다.

Description

암 진단을 위한 바이오마커{BIOMARKERS FOR DIAGNOSING CANCER}
본 발명은 췌장암 진단을 위한 신규한 바이오마커에 관한 것이다.
리소좀 축적 질병(용해소체축적병, Lysosomal storage disease, LSD)은 선천적인 대사이상으로, 엔도솜-리소좀 단백질의 기능적 이상을 포함하는 50가지가 넘는 질환들을 다루는 개념이다. LSD에서 리소좀의 가수분해효소, 운반체 그리고 효소 활성체를 암호화하는 유전자의 결함은 late endocytic system에서 거대분자의 축적을 유발한다. 리소좀의 항상성 저해는 소포체 활성과 산화를 증가시키는데, 이는 LSD에서의 세포사멸 유도체뿐만 아니라 발암성 세포 표현형을 유도하고, 악성종양의 발생을 촉진한다.
LSD 환자들은 전형적으로 장기의 심각한 기능 저하가 나타나며, 기대 수명이 짧은 특징을 갖는다. 그러나, 진단받지 않은 많은 수의 LSD 환자들은 리소좀 기능 저하의 정도가 상대적으로 적은 편이며, 성인이 될 때까지 생존하는 경우가 존재한다. 이러한 환자들은 대개 파킨슨병(Parkinsonism)등 서서히 진행되는 LSD가 원인이 되어 발생하는 이차질환(secondary disease)이 나타나고 나서야 LSD의 진단을 받게 된다.
한편, 임상관찰에 따르면, 패브리병(Fabry disease) 및 고셔병(Gaucher disease) 환자들에게서 암 발생 위험이 높은 것으로 알려져 있다. 이는 리소좀의 대사활동 불균형이 암의 원인이 될 수 있음을 시사한다. 그러나, 아직까지 리소좀의 기능 이상과 암 간의 정확한 연관성이 밝혀지지는 않았다. 또한, LSD 환자들 중에는 비특이적인 표현형과 경미한 증상을 가지는 경우가 있어, 암의 진단에 어려움이 있다. 더불어, 광범위한 대립유전자의 이질성과 유전형-표현형 관계의 복잡성은 암의 진단을 더욱 어렵게 한다. 그러나, 최근 연구에 따르면 LSD와 관련된 단일 대립유전자의 손실이 암을 일으키기엔 부족하지만, 기능적으로는 유의미하다는 점이 보고되고 있다.
Wei, H., et al. ER and oxidative stresses are common mediators of apoptosis in both neurodegenerative and non-neurodegenerative lysosomal storage disorders and are alleviated by chemical chaperones. Hum.Mol. Genet. 17, 469-477(2008)
본 발명자들은 리소좀 축적 질병과 관련된 유전자들의 생식세포 돌연변이와 암 간의 포괄적인 상관 관계를 전세계의 시퀀싱 프로젝트들의 데이터를 이용하여 분석하였다. 이에, 42개의 리소좀 축적 질병 관련 유전자에 잠재적인 병원성 변이(Potentially Pathogenic Variant, PPV)를 가진 사람에게서 암의 위험성이 높아졌고, PPV가 많은 사람일수록 위험성이 더 높아졌으며, 좀 더 일찍 암이 발병하는 경향이 있음을 확인하였다. 그리고 동양인의 췌장암 환자들의 엑솜 시퀀싱 (Whole Exome Sequencing)을 통하여 42개의 리소좀 축적 질병 유전자 중 ARSA, CTSA, GAA, GALC, HEXB, IDUA, MAN2B1, NPC1, 및 PSAP의 9종 유전자가 특히 췌장암의 발병 위험을 높임을 재 확인하였다.
또한, 암을 일으키는 신호전달 경로에서의 전사 조절 오류로부터 PPV가 암을 일으키는 데에 중요한 작용을 한다는 것을 밝혀내었고, 잠재적인 암 발생 메커니즘을 췌장 선암종에서 나타나는 종양의 유전적 전사체(transcriptome) 데이터를 이용하여 분석함으로써 본 발명을 완성하였다.
이에, 본 발명의 기술적 과제는 리소좀 축적 질병과 관련된 유전자를 바이오마커로 활용하여 암을 진단하기 위한 정보를 제공하는 방법을 제공하는 것이다.
그러나 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 과제에 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당해 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위하여, 본 발명은 ARSA(arylsulfatase A), CTSA(cathepsin A), GAA(glucosidase alpha, acid), GALC(galactosylceramidase), HEXB(hexosaminidase subunit beta), IDUA(iduronidase), MAN2B1(mannosidase alpha class 2B member 1), NPC1(NPC intracellular cholesterol transporter 1), 및 PSAP(prosaposin)로 이루어진 군으로부터 선택된 1종 이상의 유전자 돌연변이를 포함하는 췌장암 진단 또는 발병 예측용 바이오마커를 제공한다.
또한, 본 발명은 상기 ARSA, CTSA, GAA, GALC, HEXB, IDUA, MAN2B1, NPC1, 및 PSAP로 이루어진 군으로부터 선택된 1종 이상의 유전자의 돌연변이를 검출할 수 있는 제제를 포함하는 췌장암 진단 또는 예측용 조성물을 제공한다.
본 발명의 일 구현예로서, 상기 돌연변이는 침묵 돌연변이(silent mutation)이 아닌 것을 특징으로 하며, 상기 돌연변이는 유전자의 염기쌍이 치환(subtitiution), 삽입(insertion), 및/또는 결실(deletion)되어 상기 유전자가 암호화하는 단백질의 기능 저하를 야기하는 넌센스 돌연변이(nonsense mutation), 미스센스 돌연변이(missense mutation), 또는 틀이동 돌연변이(frameshift mutation)일 수 있다.
본 발명의 다른 구현예로서, 상기 바이오마커는 아시아인에서 췌장암 진단 또는 발병 예측용일 수 있으며, 특히 한국인의 췌장암 진단 또는 발병 예측용일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 또 다른 구현예로서, 상기 돌연변이를 검출할 수 있는 제제는 상기 유전자에 특이적으로 결합하는 올리고뉴클레오타이드, 프라이머, 프로브, 및 화합물로 이루어진 군으로부터 선택되는 1종 이상일 수 있다.
또한, 본 발명은 상기 조성물을 포함하는 췌장암 진단 또는 발병 예측용 키트를 제공한다.
또한, 본 발명은 개체의 생물학적 시료 시료로부터 ARSA(arylsulfatase A), CTSA(cathepsin A), GAA(glucosidase alpha, acid), GALC(galactosylceramidase), HEXB(hexosaminidase subunit beta), IDUA(iduronidase), MAN2B1(mannosidase alpha class 2B member 1), NPC1(NPC intracellular cholesterol transporter 1), 및 PSAP(prosaposin)로 이루어진 군으로부터 선택된 1종 이상의 유전자의 돌연변이를 검출하는 단계를 포함하는 췌장암 발병 가능성 진단에 필요한 정보제공방법과 췌장암 발병 가능성 진단방법을 제공한다.
본 발명의 일 구현예로서, 상기 진단방법 및 정보제공방법은 상기 나열한 유전자 중 하나 이상의 유전자에서 돌연변이를 검출하는 단계 이후에, 상기 유전자에 돌연변이가 검출된 경우 췌장암 발병 가능성이 높은 것으로 판정하는 단계를 추가로 포함할 수 있다.
본 발명의 다른 구현예로서, 상기 진단방법 및 정보제공방법은 상기 GALC 유전자에 돌연변이가 있는 경우 돌연변이가 없는 정상군과 비교하여 췌장암 발병 가능성이 약 5배 높은 것으로 판정하는 단계를 추가로 포함할 수 있다.
본 발명의 또 다른 구현예로서, 상기 진단방법 및 정보제공방법은 ARSA, CTSA, GAA, GALC, HEXB, IDUA, MAN2B1, NPC1, 및 PSAP으로 이루어진 군으로부터 선택되는 2종 이상의 유전자에서 돌연변이가 검출된 경우 췌장암 발병 가능성이 2배 높은 것으로 판정하는 단계를 추가로 포함할 수 있다.
본 발명의 또 다른 구현예로서, 상기 생물학적 시료는 개체의 혈액 또는 암 조직에서 채취한 세포일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 다른 구현예로서, 상기 유전자의 돌연변이 검출은 상기 유전자가 암호화하는 효소의 활성도 측정, 유전자 발현 수준 측정, 및 유전자 시퀀싱으로 이루어진 군으로부터 선택된 1 이상의 방법으로 수행될 수 있으며, 상기 유전자 발현 수준 측정은 유전자 증폭 방식 또는 마이크로어레이 방식으로 수행될 수 있다.
본 발명자들은 리소좀 축적 질병 관련 유전자의 잠재적인 병원성 생식세포 돌연변이와 췌장암 간의 연관성을 규명함으로써, 췌장암의 진단과 발병 가능성을 예측하여 조기진단과 관리가 가능하게 한다. 또한, 본 발명은 췌장암 관련 바이오마커의 검출을 통해 췌장암의 예방 및 치료를 위한 맞춤형 전략을 설계할 수 있는 플랫픔을 제공할 수 있는바, 췌장암 예방 및 치료를 위한 타겟을 제공한다.
도 1은 Pan-Cancer과 1,000 Genomes 코호트의 인구집단 구성과 PPV 선정 기준을 나타낸 것으로, Pan-Cancer 코호트를 구성하는 인구집단(도 1a), 1,000 Genomes 코호트를 구성하는 인구집단(도 1b) 및 Pan-Cancer 코호트의 각 암 유형을 구성하는 인구집단(도 1c)을 나타낸 것이고, 도 1d는 Pan-Cancer와 1,000 Genomes 코호트에서 확인된 PPV를 세 개의 등급으로 구분하여 나타낸 벤 다이어그램으로 나타낸 것이다.
도 2는 암 환자에서 유의하게 높은 빈도로 나타나는 PPV를 나타낸 것으로, 도 2a는 각각 인구 보정 유무, 단일, 이중 및 삼중 PPV 보인자의 유병률에 대한 오즈비를 나타낸 것이고, 도 2b는 PPV와 동일한 방식으로 분석된 RSV의 유병률에 대한 오즈비를 오차선(error bar) 95%의 신뢰 구간으로 나타낸 것이다.
도 3은 Pan-Cancer 코호트 및 1,000 Genomes 코호트에서 발견된 41개 LSD 유전자에서 PPV 보인자의 수(도 3a) 및 RSV 보인자의 수(도 3b)를 나타낸 것이다.
도 4a는 30개의 주요 암의 조직학적 유형(각 유형별로 15명을 초과하는 환자)과 각 LSD 유전자의 PPV 간 SKAT-O 연관성을 나타낸 것이며, 도 4b는 SKAT-O 분석을 통해 얻은 P 값의 Q-Q 그래프를 나타낸 것이다.
도 5는 8개의 암 환자 코호트 및 ExAC 대조군 코호트의 PPV 보인자 빈도 비교에 따른 오즈비를 95%의 신뢰구간으로 나타낸 것이다.
도 6는 암 진단 연령에 관한 것으로, 도 6a는 28개의 주요 임상 암 코호트의 암 진단 연령을 나타낸 것이고, 도 6b는 Pan-Cancer 코호트와 PPV간 유의한 SKAT-O 연관성을 보이는 6개의 임상 암 세부그룹에서 PPV 보인자 및 비보인자에서의 암 진단 연령을 나타낸 것이고, 도 6c는 SKAT-O 분석에서 Pan-Cancer 코호트 또는 2개 이상의 조직학적 암 세부그룹과 유의한 연관성을 보이는 11개의 PPV 그룹의 보인자 정도에 따른 암 진단 연령을 나타낸 것이며, 도 6d는 상기 도 6b에서 나타낸 6개의 임상 암 세부그룹의 암 진단 연령과 PPV 부하 간 선형 상관 관계를 나타낸 것이고, 도 6e는 도 6b에 나타낸 Pan-Cancer 코호트의 11개 PPV 그룹의 암 진단 연령과 PPV 부하 간 선형 상관 관계를 나타낸 것이며, 도 6f는 암 진단 연령이 PPV 보인자 정도에 따라 유의하게 달라지는 모든 암-유전자 쌍을 나타낸 것이다.
도 7은 췌장 선암종 환자인 PPV 보인자(55명, 좌측 패널) 및 PPV 비보인자(177명, 우측 패널)로부터 얻은 췌장 선암종 조직에서 발견된 가장 빈번한 변이를 보이는 50개 유전자의 비동의성(nonsynonymous) 체성 돌연변이의 빈도를 나타낸 것이다.
도 8a 내지 도 8c는 각각 PPV와 연관된 췌장 선암종에서 287개 유전자에서 상향 조절 및 221개 유전자에서 하향 조절을 DEG로 분석한 결과이고, 도 8d는 PPV 비보인자에 비해 PPV 보인자의 종양에서 0.1 FDR 임계치가 유의하게 상향 또는 하향 조절된 유전자의 상대적 발현을 히트맵(heatmap)으로 나타낸 것이며, 도 8e는 PPV 보인자의 종양에서 PPV 비보인자 대비 유의미한 변화가 나타난 KEGG 경로를 나타낸 것이다.
도 9는 동양인 췌장암 암 환자 코호트 및 한국 건강인 대조군 코호트의 PPV 보인자 빈도 차이의 통계적 유의성을 나타낸 것이다. 리소좀 축적 질병 중 GALC 유전자에 대한 통계적 유의성과, 리소좀 축적질병 전체에 대한 유의성을 각각 나타낸 것이다.
도 10은 리소좀 축적 질병 유전자 보인자들의 암발병에 이르는 과정을 설명하는 것이다. 리소좀 축적 질병 유전자 보인자들의 암세포에서 체세포 돌연변이의 발생으로 BRCA 유전자와 유사한 two-hit 이 발생할 확률이 타 유전자에 비하여 유의하게 높음을 나타낸 것이다 (10a). 실제 췌장암 환자의 오거노이드에서 생식세포 돌연변이 (보인자상태)와 해당 돌연변이 지역의 copy number loss에 의한 loss of heterozygosity (LOH) 발생이 있음을 보여주는 것이다(도 10b).
도 11a 및 도 11b는 췌장암 환자의 오거노이드에서 PPV와 LOH 가 동시에 존재하는 경우, 리소좀 축적 질병 유전자의 발현량이 감소해 있음을 나타낸 것이다.
이하 본 발명에 대해 보다 구체적으로 설명한다.
본 발명의 일 측면은 리소좀 축적 질병(Lysosomal storage disease) 관련 유전자, 구체적으로, ARSA(arylsulfatase A), CTSA(cathepsin A), GAA(glucosidase alpha, acid), GALC(galactosylceramidase), HEXB(hexosaminidase subunit beta), IDUA(iduronidase), MAN2B1(mannosidase alpha class 2B member 1), NPC1(NPC intracellular cholesterol transporter 1), 및 PSAP(prosaposin)로 이루어진 군으로부터 선택된 1종 이상의 유전자 돌연변이를 포함하는 췌장암 진단 또는 발병 예측용 바이오마커를 제공한다.
상기 유전자는 아미노산의 치환, 결실, 및/또는 삽입에 의해 상기 유전자가 암호화하는 단백질의 활성이 야생형에 비해 낮아진 것일 수 있으며, 상기 돌연변이에 의해 보인자(Potentially Pathogenic Variant)의 표현형을 보이는 것일 수 있다.
본 발명의 다른 측면은 상기 ARSA, CTSA, GAA, GALC, HEXB, IDUA, MAN2B1, NPC1, 및 PSAP로 이루어진 군으로부터 선택된 1종 이상의 유전자의 돌연변이를 검출할 수 있는 제제를 포함하는 췌장암 진단 또는 예측용 조성물을 제공한다.
본 발명의 일 구체예에 있어서, 상기 제제는 상기 유전자에 특이적으로 결합하는 안티센스 올리고뉴클레오타이드일 수 있고, 상기 안티센스 올리고뉴클레오타이드는 프라이머 쌍 또는 프로브일 수 있으나, 이에 제한되지 않는다.
본 발명의 다른 측면은 대상체에서 상기 ARSA, CTSA, GAA, GALC, HEXB, IDUA, MAN2B1, NPC1, 및 PSAP로 이루어진 군으로부터 선택된 1종 이상의 유전자의 돌연변이를 측정하는 단계; 및 상기 유전자의 돌연변이가 있다면 췌장암 발생 가능성이 높은 것으로 판단하는 단계를 포함하는 췌장암 발병 가능성 진단에 필요한 정보 제공 방법을 제공한다.
췌장암 환자의 5% 내지 10%는 50세 이전에 진단된다. 췌장암 환자에서 가족력의 존재는 강한 위험인자이며, 이는 유전되는 위험 변이가 존재함을 시사한다. 많은 췌장암 환자에게서 유전자 보존과 DNA 양가닥 절단 수리에 관여하는 유전자들의 돌연변이(예를 들어, BRCA1/2, PALB2)가 확인되었다. 그러나, 조기 췌장암 발병 환자들의 대부분에서는 유전적인 원인이 밝혀지지 않았다. 본 발명의 조직학 특이적 분석에서 췌장 선암종 환자들은 몇몇 LSD 유전자의 PPV와 강한 연관을 보였고, 상기 PPV가 발견된 환자의 경우 조기에 발병하는 경향을 보였으며, 이러한 조직학적 유형들에서 체세포 돌연변이와 유전자 발현 패턴 간의 차별점을 확인하였다. DEG 분석을 통해 PPV의 많은 유전자들의 상향 또는 하향 조절을 확인하였으며, GAGE 분석을 통해 이러한 환자들의 췌장암 발병에 관여할 수 있는 생물학적 경로에 관한 시각을 분석하였다. 많은 GAGE 분석에서 밝혀진 경로의 변형은 전사체와 진유전체(exome) 시퀀싱 연구의 췌장암 발병 연구를 통해 이미 알려져 있었다. 체세포 돌연변이 부담과 특성은 PPV와 비보인자 간의 비교를 통해 확인하였다. 결국, 본 발명은 PPV로 인해 일어나는 전사 조절 오류가 췌장 선암종 발생에 중요한 매개라는 점을 시사한다.
한편, "two-hit hypothesis"는 두 개의 대립유전자(allele)가 모두 기능을 잃게 되면서 해당 유전자가 불황성화 되어 암이 발생하게 된다는 가설이며 특정 heterozygote carrier들에 있어서의 암 발병을 설명할 수 있는 중요한 의미를 가진다. 본 발명자들은 본 발명의 바이오마커가 상기 가설에 부합하는지 확인하기 위하여 ALFRED 방법을 이용하여 알려진 암 발생 유발(cancer predisposition) 유전자와의 LOH를 비교한 결과 통계적으로 유의한 결과를 확인할 수 있었다.
치료적 관점에서, 효소대체(enzyme replacement)와 기질감소(substrate reduction) 치료와 같은 기계적 성질 덕분에 LSD 유전자는 매우 매력적인 표적으로 여겨지고 있다. 효소대체 치료는 최소 7가지의 LSD에서 효과가 입증되었다. 다른 가능성 높은 접근법으로는 약제화된 샤페론(chaperon), 유전자 치료 및 넌센스 돌연변이(nonsense mutation)에서 나타나는 조기 종결 코돈을 해석하는 화합물들이 있다. 예방적 치료가 LSD의 장기적인 합병증을 예방 또는 지연시키는지에 대하여 명확하게 알려지지는 않았으나, 본 발명에서는 LSD 유전자의 생식세포 돌연변이가 비활성화된 보인자에서 암 예방을 위해 LSD 치료법을 도입하는 것이 긍정적인 결과를 나타냄을 확인하였다. 즉, 본 발명은 LSD 유전자의 잠재적인 병원성 생식세포 돌연변이와 암 간의 연관성에 대하여 폭넓은 지평을 제시하는 것이다. 치료 가능한 대사 질환과 암 간의 관계를 조사하는 것은 정밀 암 치료를 가능케 하는 기반이 될 수 있기에 매우 중요하다. 리소좀의 기능을 되돌리기 위한 다양한 치료 옵션들이 현재 개발되고 있다. 개인의 돌연변이 상태에 따른 여러 치료법들에 대한 차후 임상 시험들은 개인 맞춤화된 암 예방 및 치료의 새로운 길을 열 수 있다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 이하 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
[분석 방법]
1. 자료 출처
Pan-Cancer 코호트에서의 단일 뉴클레오타이드 변이(single nucleotide variant, SNV)와 삽입-결실(insertions and deletions, indel)에 관한 체세포, 생식세포(종양) 변이 데이터 세트를 PCAWG 프로젝트의 sftp 서버(sftp://dccsftp.nci.nih.gov/pancan/)에서 VCF와 MAF 파일 형식으로 각각 다운로드 하였다. 상기 생식세포 변이 데이터 세트에서는 2,834명의 PCAWG 공여자를 포함하여 다루었고, DKFZ/EMBL 기법을 이용하였다. 종양 체세포 MAF 파일은 2,583개의 화이트리스트 표본의 데이터를 포함하였고(각 다중 종양 공여자로부터의 오직 하나의 대표 종양), Sanger, Broad, DKFZ/EMBL 및 MuSE로부터 나온 SNV 자료와 SMuFin, DKFZ, Sanger, Snowman으로부터 나온 삽입-결실 자료들을 PCAWG consensus strategy로 통합하였다.
Pass-only 변이는 분석에만 사용하였다. 종양 RNA 염기서열분석(RNA-Seq) 데이터를 미가공 형태와 표준화된 단백질 암호화 유전자의 읽기 카운트 매트릭스의 형태로 Synapse(https://www.synapse.org/#!Synapse:syn3104297)에서 다운로드 하였다. 읽기 정렬은 TopHat2를 이용하였고, HTSeq framework version 0.61p1의 htseq-count script를 이용해 GENCODE release 19의 reference General Transfer Format으로 계산하였고, FPKM-UQ 표준화 기법을 이용해 표준화하였다. PCAWG 위키웹페이지(https://wiki.oicr.on.ca/pages/)로부터 임상, 조직학적 주석 시트 version 9(각각 2016년 11월 22일, 2017년 8월 21일에 생성)를 다운로드 하였다.
일차 대조군 코호트(1,000 Genomes project phase 3)에서 2,504명의 개인 단위의 SNV와 삽입-결실 유전형 데이터를 VCF 파일 형식으로 다운로드 하였다(ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3). 독립 검증 대조군으로 활용하기 위해 TCGA 세부세트를 제외하고 ExAC release 1.0(ExAC 코호트)의 서로 관계없는 53,105명의 인구 단위에서 SNV와 삽입-결실 AF 데이터를 다운로드 하였다(ftp://ftp.broadinstitute.org/pub/ExAC_release/release1).
2. 품질 평가 및 관리
모든 PCAWG 시퀀스 데이터의 품질 관리는 각 공여자와 RNA 염기서열분석 부분 표본을 포함할 것인지 결정하기 위해 3등급 기준(목록, 표본, 공여자 수준)을 이용하였다. 이러한 다계층의 품질 관리 과정은 개인 공여자가 다중의 표본을 가질 수 있고, 개인 샘플이 다중 목록을 가질 수 있다는 점에서 필수이다. 규칙으로, 목록이 낮은 질을 가질 경우 표본을 모두 제외하였고, 높은 질을 가질 경우 포함하였다. 마찬가지로, 제외된 표본과 관련한 공여자도 모두 제외하였고, 포함된 표본과 관련한 공여자는 모두 포함하였다. 제외되거나 포함되지 않은 공여자 및 표본들은 그레이리스트(graylist)에 포함하였다. 선정 과정에서 포함된 개인 및 표본(2,583개의 종양-정상 짝 유전자들 및 1,094개의 RNA 염기서열분석 표본)만 사용하였다. 각 계층 별 평가를 위한 품질 관리 기준은 PCAWG marker paper를 참조하였다.
3. Pan-Cancer 코호트의 강화
PCAWG 프로젝트는 본래 ICGC의 일부로 40가지의 주요 암 종류의 2,834명의 환자를 대상으로, 76개의 프로젝트와 21개의 주요 장기들을 포함하고 있었다. 이들 중, 2,583명의 다계층 품질 관리 기준을 만족하는 포함된 환자들을 우선 포함하였다. 16명의 환자들은 조직학적으로 연골모세포종(chondromlastoma), 연골점액유사섬유종(chondromyxoid fibroma), 양성 골 신생물(benign bone neoplasm), 골 섬유성 이형성증(osteofibrous dysplasia) 및 골모세포종(osteoblastoma)과 같은 양성골 종양으로 진단되어 제외하였고, 최종적으로 Pan-Cacner 코호트는 2,567명의 환자를 포함하였다.
여러 가지의 종양 표본을 가진 9명의 환자들은 하나 이상의 조직학적 진단을 받았는데, 8명은 골수증식성 신생물과 급성골수성백혈병, 1명은 간세포암과 담관암이었다. 조직학 특이 분석의 일관성을 위해 첫 8명의 환자는 급성골수성백혈병으로 분류하였고 1명은 담관암으로 분류하였다. 암 진단 연령을 분석하기 위해 비슷한 임상병리적 특징을 가진 여러 가지 조직학 코호트를 단일 임상 코호트로 합쳤다(예를 들어, 유방 침윤성 도관, 소엽 및 모세혈관 암종을 유방암으로 분류, 골수증식성 신생물과 골수이형성 증후군은 만성 골수성 백혈병으로 분류). 2,567명의 환자들 중 1,075명만이 우선 포함할만한 종양 RNA 염기서열분석 데이터로 나타났다. 19명의 환자들이 한 개 이상의 종양 표본을 제공하였으므로, 1,094개의 종양의 RNA 염기서열분석 데이터를 사용하였다.
4. 유전자 선택과 변이의 해석
기질 가수분해, 가수분해효소의 번역 후 조절, 새포내 추적 그리고 효소 활성화 등을 포함한 리소좀의 기능에 관련된 유전자들 중에서, 문헌(Parenti, G., Andria, G. & Ballabio, A. Lysosomal storage diseases: from pathophysiology to therapy. Annu. Rev. Med. 66, 471-486(2015); Wang, R.Y., Bodamer, O.A., Watson, M.S. & Wilcox, W.R. Lysosomal storage diseases: Diagnostic confirmation and management of presymptomatic individuals. Genet. Med. 13, 457-484(2011); Scriver, C.R. The metabolic and molecular bases of inherited disease, (McGraw-Hill, New York, 2001); Boustany, R.-M.N. Lysosomal storage diseases―the horizon expands. Nature reviews Neurology 9, 583-598(2013); 및 Futerman, A.H. & van Meer, G. The cell biology of lysosomal storage disorders. Nat. Rev. Mol. Cell Biol. 5, 554-565(2004)) 고찰을 통해 LSD 발병과 밀접한 연관이 되어있다고 알려진 42개의 유전자를 선택하였다.
GRCh37/hg19 인간 표준 게놈 목록을 기반으로 선택된 유전자들의 유전자 위치에 대하여 VCF 파일에서 생식세포의 SNV 및 삽입-결실을 선별하였다. GENCODE release 19 gene model(https://www.gencodegenes.org/releases/19.html)로 변이를 확인하였다. ANNOVAR와 Varient Effect Predictor version 85를 모두 이용하여 기능 예측(functional annotation) 및 교차 확인을 진행하고 각각의 확인된 변이들의 가장 적합한 특성을 얻기 위해 결과들을 조직화하였다. 엑손-인트론 접합부(GT-AG 보존 서열); 5', 3' 비번역부위(UTR)로부터 인트론 쪽에서 두 염기 쌍 이내의 단백질 부호화 부위; 및 스플라이스 공여체와 수용체 부위 내의 변이들에 초점을 맞췄다.
변이들은 전사체 또는 단백질의 예측된 결과 유형에 따라 10개의 서로 겹치지 않는 카테고리로 분류하였다(missense, start-loss, stop-gain, stop-loss, synonymous, frameshift indel, non-frameshift indel, splicing, and 5' and 3' UTR 변이). 변이가 전사 동류형(transcript isoform)에 따라 하나 이상의 결과 유형과 연관되어 있을 때에는 좀더 기능적으로 영향을 주는 카테고리로 분류하였다(missense보다는 protein-truncating, UTR/synonymous 보다는 missense로). 예를들면, rs373496399 (NC_000017.10:g.78184457G>A)의 경우, 전사 동류형에 따라 missense 또는 3'UTR 변이일 수 있지만, mis-sense로 분류하였다. 이러한 방식으로 각 변이들은 추후의 분석을 위해 고유한 기능적 분류에 포함하였다. 돌연변이가 단백질 기능에 미치는 영향 예측을 위해 dsNSFP version 3.3을 이용하여 19개의 계산 알고리즘을 통한 가상 실험을 진행하였다.
5. PPV 선정
각 LSD의 유병률은 몇 만 명중 한 명에서 몇 백만 명 중 한 명에 이르며, 많은 대립 유전자의 이질성이 존재한다. 그러므로 인구 AF 0.5% 이상의 단일 변이에 대하여는 미진단(underdiagnosis)의 가능성을 고려하더라도 원인으로 보기는 어렵다. 멘델 유전병(Mendelian disease) 변이의 유병률을 60,000개 이상의 진유전체(exome) 서열을 이용하여 분석한 결과는 AF가 1%를 초과하는 변이의 대부분이 실제로 양성 또는 기능적으로 별 다른 이상이 없었으며(neutral), 충분히 큰 표본에서 빈도에 따라 PPV를 걸러내는 것이 중요하다는 점을 시사하였다. 이러한 이론적 배경과 우리의 실험 결과는 악성 변이 대부분이 AF 0.5% 미만에서 흔치 않았으므로, PPV 선정 과정에서 Pan-Cancer과 1,000 Genomes 코호트 간 평균 AF가 0.5% 이상인 변이들은 모두 제외하였다.
조직화된 데이터베이스를 ClinVar, HGMD 및 LSMDs를 이용하여 분석하였고, LSD를 일으키는 돌연변이들을 알아보기 위해 하기 표 1에서 개시한 의학 문헌의 고찰을 진행하였다.
처음에는 변이들을 ClinVar의 유의하게 조직화된 임상적 정보들을 기반으로American College of Medical Genetics and Genomics(ACMG)와 Association of Molecular Pathology(AMP)에서 제시한 5개의 서로 겹치지 않는 카테고리로 분류하였다. 변이 형태가 하나 이상의 병원성 카테고리에 속한 경우, '양성일 가능성이 높음' 보다는 '양성', '병원성일 가능성이 높음' 보다는 '병원성' 같은 좀 더 강한 근거를 가진 분류에 우선 포함시켰다. 단일 변이에 대해, 양성, 병원성이 혼재되어 있는 해석이 나온 경우나, 병원성 해석에 대해 표준 용어로 정의할 수 없는 경우, HGMD 및 LSMD 그리고 직접 문헌 고찰을 통해 얻은 근거를 검토하여 ACMG와 AMP 가이드라인에 따라 변이 형태의 가장 적합한 기능적 카테고리를 결정하였다.
최근, 암 발생에서 microRNA 역할의 중요성이 강조되고 있다. 본 발명에서는 3' UTR microRNA 결합 부위에서 많은 SNV가 변형된 유전자 산물(gene product) 발현을 통해 암 발생 위험의 증가 또는 감소에 관여하고 있다는 점을 확인하였다. 또한, 5' UTR 또한 microRNA 결합 부위를 포함하고 있고, 서열의 다양성은 mRNA(messenger RNA)의 안정성에 영향을 미친다는 점을 확인하였다. UTR의 변이는 유전자 발현과 전령 RNA 분해를 조절하는 microRNA 결합 부위를 새로 만들거나 파괴할 수 있기 때문에, UTR 변이의 생물학적 결과는 관련 조직에서의 전사체의 양적변화로 나타날 수 있다.
그러므로, 유전자 발현의 유의미한 감소와 관련한 UTR 변이를 확인하기 위해 RNA 염기서열 분석 읽기 카운트 데이터를 분석하였다. 3,192개의 Pan-Cancer 및 1,000 Genomes 코호트 간 AF 0.5% 미만의 특이 UTR 변이 중에서, 각각 795개 및 2,397개의 5' 및 3' UTR 변이를 확인하였다. 선형 회귀 분석을 이용하여 각 유전자에 대해 UTR 변이 보인자 및 비보인자 간 읽기 카운트의 분산 안정화 변형 후 조직의 mRNA양을 비교하였다. 각 LSD 유전자의 발현도는 암의 종류들에서도 매우 다양하기 때문에, 회귀 모델은 암의 조직학적 특성에 따라 조정하였다. 그 결과, IDS(rs145834006)에서 오직 하나의 3' UTR 변이만이 0.1 FDR 임계치에서 통계적인 유의성을 확인하였다.
상기 과정을 통해 얻은 모든 정보를 살펴본 후에, LSD의 원인이 될만한 PPV를 세개의 양성 선택 기준을 이용하여 선정하였다. 등급 1은 관련 유전자(rs145834006)의 유의미한 하향 조절과 관련된 모든 프레임시프트(frameshift) 삽입-결실(indel)과 start-loss, stop-gain, splicing 및 UTR 변이들을 포함하였다. 대부분 이러한 변이들은 주로 기능상실을 유발한다. 등급 2는 ClinVar과 관련문헌으로부터 얻은 정보를 기반으로 HGMD의 질병 유발 돌연변이와 LSMD를 통해 확인된 병원성 돌연변이들을 '병원성' 또는 '병원성의 가능성이 높음'으로 분류하였다.
ClinVar와 HGMD 모두에서 알려진 병원성에 대한 정보가 없는 경우(임상적 중요성이 알려지지 않은 경우)와 19가지의 가상 실험 도구를 이용하여 예측에 기능적으로 유해하다고 예측되는 경우 등급 3으로 분류하였다. 각 변이가 유해함 또는 양성으로 분류되는 각 도구들의 점수 임계치는 제시된 표준을 이용하였고, 그렇지 않은 경우에는 평가된 모든 변이들의 중위값을 사용하였다. 몇몇 변이들에서는(특히, 비코딩 위치와 삽입-결실에 있는 변이들) 19가지 도구를 이용하더라도 성공적으로 예측할 수 없었으므로, 이러한 경우에는 가능한 점수만을 이용하였다.
6. Pan-Cancer와 1,000 Genomes 코호트를 이용한 PPV-암 관련성 분석
상기 코호트들로는 PPV와 같은 희귀한 변이들에서 변이 특이 연관성을 발견하기에는 부족하였으므로, 8개의 포인트(0, 0.12, 0.22, 0.32, 0.42, 0.52, 0.5 및 1)로부터 선택된 최적 ρ 매개변수로 SKAT-O 기법을 사용하여 등급과 유전자에 기반한 종합적인 연관 분석을 시행하였고, 유전효과 계수들 사이의 상호연관성을 판단하였다. SKAT-O 기법은 병원성과 양성 변이가 혼재되어 있는 경우에 사용하기 적절한 방법이다.
PCAWG 프로젝트와 1,000 Genomes 프로젝트(배치 효과)의 변이 검출 방식의 차이가 연구결과에 영향을 미쳤는지를 확인하기 위해 암 코호트와 1,000 Genomes 코호트의 PPV 동일 변형 유병 비율을 가중 로지스틱 회귀분석을 이용하여 비교하였다. 탐색을 위해 각 암 유형과 PPV와의 변형 특이적 관련성을 증식위험 모델(multiplicative risk model)을 가정한 로지스틱 회귀분석을 이용해 평가하였다. 모든 연관 분석 결과는 아래 서술할 인구 구조의 보정 방법을 통해 보정하였다.
7. 인구 구조의 보정
인구 구조 보정을 위하여, Pan-Cancer와 1,000 Genomes 코호트의 tag 단일뉴클레오티드다형성(tag single nucleotide polymorphisms, tag-SNPs)의 개별 수준의 유전자형 데이터를 이용하여 주성분 분석을 시행하였다. 우선, 1,555,886개의 가능성 높은 tag-SNPs를 phase 3 HapMap ftp 서버 (ftp://ftp.ncbi.nlm.nih.gov/hapmap/phase_3/)로부터 다운로드 하였다. SNP의 게놈 좌표는 Batch Coordinate Conversion (liftOver) 도구 (https://genome.ucsc.edu/cgi-bin/hgLiftOver)를 이용하여 GRCh37/hg19 프레임워크로 변환하였다. Pan-Cancer와 1,000 Genomes 코호트 모두의 AF 값을 계산하기 위하여 VCF 파일을 Genome Analysis Toolkit을 이용하여 통합하였다.
VCF tools version 1.13을 이용여 통합된 VCF 파일로부터 AF 5% 내지 50%의 가능성 높은 tag-SNP를 추출하였고, 16,304개의 SNP가 종합적인 유전자형 집합에 포함하였다. 이들 중, PLINK 전정 방법(PLINK pruning method)을 이용하여 인구층화 tag-SNPs에 우선순위를 매겼다. 이 과정 중에, 50개의 SNP 슬라이딩 윈도우 내에서 분상팽창인자가 5를 넘는 SNP를 제외하기 위하여 재귀적 슬라이딩 윈도우 방법(recursive sliding-window procedure)을 사용하고 윈도우를 각 단계별로 5 SNP 만큼 앞으로 이동시켰다. 결과적으로, 다중 연관된 SNP를 포함하는 연관불균형(linkage disequilibrium) 표본을 줄이고 10,494개의 대표 tag-SNP를 선정하여 후속하는 주성분 분석에 사용하였다.
총 5,071개의 주성분(Principa component, PC)을 Pan-Cancer와 1,000 Genomes 코호트의 10,494개의 tag-SNPs의 통합된 유전자형 데이터의 주성분 분석을 통해 얻었다. 우리는 이원화된 표현형(암 대 정상)과 PPV 부하를 가진 각 PC의 상관관계를 계산하였다. 예상대로, PC1과 PC2는 총 변이의 11% 이상을 차지하였으며, 오직 두 가지만이 이원화된 표현형(binary phenotype) 및 PPV 부하에서 0.1 FDR 임계치의 유의미한 상관관계를 보였다. 남아 있는 5,069개의 PC는 총 변이의 1% 미만을 차지하였고, 표현형 및/또는 PPV 부하와 상관 관계가 없었는데, 이는 상위 2개의 PC만이 PPV 및 암 간의 연관성에 대한 교란변수로 작용할 수 있음을 시사한다.
그러므로, 우리는 후속 연관 분석에서 PC1과 PC2를 공변량(covariate)으로 포함하였다. 실험 통계의 전반적 팽창의 가능성을 알아보기 위하여, 위에서 언급한 방법을 이용하여 조직 특이 SKAT-O 결과의 집단 기반 팽창 인자(group-based inflation factor, λ)를 계산하였다.
8. RNA 염기서열분석(RNA-Seq) 결과 분석
계산 속도의 향상을 위하여 읽기 카운트 행렬들로부터 모든 종양에 걸쳐 읽기 카운트가 0회인 유전자들을 제외하였다. Ensembl 유전자 분류(Ensembl gene classification) 체계로 데이터를 생성하였기 때문에, Ensembl 유전자 ID를 Entrex 유전자 ID로 Pathview를 이용하여 변환하였다. 여러 가지의 Ensembl ID와 단일 Entrez ID가 일치하는 경우, 모든 표본에 거쳐 가장 큰 변이를 보이는 것을 선택하였고, 선택되지 않은 것들은 카운트 행렬에서 제외하였다.
추정치의 안정성을 높이기 위하여 로그 폴드(log fold)의 변동과 분산에 대해 shrinkage estimation을 적용한 뒤에 PPV 보인자와 비보인자의 종양 간 유전자 발현 패턴의 차이를 DESeq2를 이용하여 조사하였다. DEG 결과에 대한 FDR을 추정하기 전, 통계적 입증력 강화를 위해 Genefilter를 이용하여 적은 수의 유전자들을 독립적 필터링을 진행하였다.
GAGE 분석 전, 카운트 행렬의 균질성을 이루고, 표본 전반에 걸친 과도하게 큰 발현의 변화를 보이는 유전자의 영향력을 감소시키기 위해 가공되지 않은 읽기 카운트(raw read count)에 대해 분산-안정 변환(variance-stabilizing transformation)을 실시하였다. GAGE 분석은 Bioconductor 패키지 'gage'의 'gage' 함수가 지원하는 'compare'인수로 통제할 수 있는 집단 간 비교를 기반으로 시행하였다. PPV 비보인자와 비교하여 PPV 보인자의 종양에서 Kyoto Encyclopedia of Genes and Genomes(KEGG) 경로를 구성하는 유전자 성분들의 상향 및 하향 조절을 동시에 측정하였다.
9. ExAC 코호트를 독립 대조군으로 사용한 검증 결과의 분석
ExAC 코호트의 데이터 세트는 GENCODE release 19 부호화 부위와 인접한 50 개의 염기쌍으로 이루어진 엑손 영역만을 다루기 때문에, 검증 분석에서는 ExAC 표본(median coverage depth≥1)의 절반 이상을 다루는 부호화 영역으로 분석을 제한하였다. ExAC 시퀀스 자료의 적용 범위는 ftp 사이트 (ftp://ftp.broadinstitute.org/pub/ExAC_release/release1/coverage)로부터 다운로드 하였고, Pan-Cancer와 1,000 Genomes 코호트의 일차 분석에서 사용된 동일한 기준을 이용해 Pan-Cancer와 ExAC 코호트의 종합 변이 자료들에서 PPV를 선택하였다.
결과적으로 1,267개의 PPV를 확인하였는데, 등급 1이 942개, 등급 2가 475개이며, 150개는 두 등급 모두에 걸쳐 있었다. 등급 3의 PPV는 확인되지 않았는데, 이는 유해하거나 양성으로 각 변이를 분류하는데 사용된 병원성 점수 임계치가 일차 분석을 위한 19개 가상 예측 도구 중 일부에서 더 엄격하게 설정되었기 때문이다. 임계치의 변화는 Pan-Cancer 및 ExAC 코호트에서 확인된 모든 시험 대상 변이들의 점수의 중위값을 임계값으로 설정하는 알고리즘으로 측정하였으며, 이는 Pan-Cancer와 1,000 Genomes 코호트의 변이에서 확인된 중위값과 차이를 보였다.
암 환자들과 대조군 간의 혼합을 방지하기 위하여 ExAC 코호트로부터 TCGA 세부군은 제외하였으나, ExAC 코호트의 상당 부분은 LSD 유발 돌연변이와 관련된 질병(정신분열증 및 양극성 장애)을 가진 개체들로 구성되었다. 평균 PPV의 빈도는 ExAC 코호트 내 인구에 따라 매우 다양한 분포를 보였으며, 동아시아인 및 아프리카인은 다른 인구에서의 PPV 빈도와의 상관관계가 상대적으로 낮았다.
10. ICGC-PCAWG 데이터의 통계적 분석
PPV와 암 간의 연관성을 분석하기 위해 두 단계의 접근법을 적용하였다. 첫번째 단계에서, Pan-Cancer와 1,000 Genomes 코호트를 희귀 변이 집합 연관을 SKAT-O 기법으로 분석하였고, 돌연변이 유병률의 직접 비교를 위하여 Fisher's 정확성 검정 및 로지스틱 회귀 분석을 이용하였다. 암 발병 위험과 PPV 부하와의 연관성을 평가하기 위해 Cochran-Armitage 경향성 검정을 이용하였다. 10,494개의 tag-SNPs 주성분 분석을 통해 인구 구조를 보정하였다.
두 번째 단계에서, ExAC 코호트를 독립 대조군으로 사용하고 Fisher의 정확성 검정을 시행하여 이전 결과들을 검증하였다. 암 진단 연령은 Wilcoxon 순위합 검정과 선형 회귀를 이용해 비교하였다. DEG와 유전자 집합 분석은 각각 DESeq2 Bioconductor package와 KEGG 경로의 체계에 기반한 GAGE 기법을 이용하여 이루어 졌다.
FDR 예측 절차를 이용하여 여러 검정에 대한 수정을 진행하였다(tail-area based FDR(q-value)). 특이 사항이 없는 경우, 모든 검정은 양방향(two-tailed)으로 이루어졌으며, FDR<0.1 및 P<0.05(다중 시험에서 보정이 이루어지지 않았을 시)일 때 유의한 것으로 간주하였다. 통계적 분석은 R soft-ware version 3.5.0과 Bioconductor version 3.7 패키지를 이용하였다.
11. 전장 엑솜 데이터의 분석: PPV 와 Two-hit 분석방법
앞선 대규모 암종의 유전체 데이터 연구를 토대로 하여 PPV와 암 간의 연관성이 높은 암종들에 대한 검증을 위하여 한국인 임상 코호트를 구축하였다. 췌장암의 경우 총 214 샘플에 대한 전장 엑솜 시퀀싱 데이터를 생산하였으며 정확한 germline 변이를 검출하기 위해서 전체 평균 coverage는 50 이상이 되도록 생산하는 것을 기준으로 진행하였다. NGS(next generation sequencing)의 특성상 여러 가지 오류(bias)가 함께 생성되어 실제 변이인 것처럼 보일 수 있기 때문에 이를 극복하기 위하여 추출된 모든 변이들에 대한 QC(quality control)를 진행하였으며, 전체 샘플에서 확인되는 모든 변이들에 대하여 통계적인 방법을 통해 변이를 근거하는 depth, strand 정보, bias로 생각되는 phred-scaled 확률 값들을 계산 및 변이 필터를 진행할 수 있도록 하였다. 이를 통하여 잘못 추출된 변이들 혹은 엑손 가장자리에서 자주 발생하는 strand bias로 확인된 변이들을 모두 제거할 수 있었다. 변이 필터는 QD(quality depth), FS(allele specific phred-scaled p-value), MQ(Mapping Quality), MQRankSum(Mapping Quality Rank Sum), ReadPosRankSum(rank sum test of Alt vs. Ref) 등의 여러 variant 점수 지표를 사용하여 진행되며 기 파이프라인은 유전체 자료의 성격에 따라 variant 점수 지표를 다르게 활용하여 filtering을 진행하였다. 시퀀싱 대상영역이 넓은 WGS 및 WES의 경우에는 1000G, HapMap, dbSNP 등에서 알려져 있는 변이에 해당하는 기 점수 지표에 대해 머신러닝을 이용해 최종 점수화를 수행하는 VQSR(variant quality recalibration) 적용하였다. 필터 기준은 GATK의 WES 기준을 기본으로 하되, 분석하는 유전체 자료의 상태에 따라 더 합리적인 cut-off를 적용하여 코호트 특성에 맞춰 오류를 최소화 하였다. 추출된 다양한 변이 리스트에서 본 연구의 목적에 적합한 결과를 도출할 수 있도록 annovar 및 Ensembl의 Variant Effect Predictor (VEP)를 이용하여 canonical transcript 만을 추출하고 dbSNP, Clinvar, GnomAD 등 정확한 annotation 정보를 추가하도록 하였다. Clinvar 데이터베이스는 그 버전에 따라 암 발병간의 pathogenicity 차이가 존재하여 최신버전인 Clinvar_20190618을 사용하고 있다. PPV 선별은 위에 기술한 방법과 동일하게 진행하였으나 한국인을 대상으로 생산된 데이터를 이용하여 동질한 코호트에서 연구를 진행하는 바, 실제 한국인 코호트에서 특이적으로 나타나는 유전변이에 대한 인종 특이적 rare variant 발견을 위해 AF를 1%로 조정하여 PPV 선별을 진행하였다.
12. 췌장암 환자 오거노이드의 리소좀 축적질환 유전자의 발현량 분석
LSD 보인자 여부에 따른 췌장암 15례에서의 유전자 발현 레벨의 차이 비교를 위한 분석을 진행하였다. 이를 위해 제작된 오거노이드 전사체 데이터는 STAR, RSEM-1.3.0을 이용하여 매핑하여 각 샘플에 따라서 시퀀싱된 최종 depth가 다른점, 유전자의 길이에 따라서 확인되는 read depth에 따라서 정규화를 진행한 TPM 값을 추출하여 전체 샘플간의 보인자 유전자에 대한 발현값 비교를 진행하였다.
13. 통계적 분석
한국인 췌장암 환자에서의 42개 LSD 유전자 및 GALC 유전자와 암 발생과의 연관성을 분석하였고, 한국인 정상군 코호트를 독립 대조군으로 사용하여 돌연변이 유병률에 대한 chi-sqare 검정을 진행하였다. GALC 유전자의 PPV 보인자 여부에 따른 전사체 분석은 GALC 유전자 발현 정도와 이를 제외한 41개 LSD 유전자의 평균 발현값을 이용하여 비교하였으며 Wilcoxon 순위합 검정을 이용해 통계적 유의성을 확인하였다. 상기 통계적 검정은 R을 이용하여 유의성 검정을 진행하였다.
14. 데이터 이용 가능성
본 발명을 뒷받침하는 데이터는 공개적으로, 또는 적절한 승인을 받으면 이용할 수 있다. PCAWG 프로젝트의 생식세포, 체세포(종양) 변이 집합과 RNA 염기서열 분석 읽기 카운트 행렬은 ICGC와 TCGA프로젝트의 데이터 접근 정책에 따라 일반적인 연구 용도로 사용할 수 있다.
데이터의 통제된 등급 요소들에 접근 승인을 얻기 위해, TCGA는 dbGAP(https://dbgap.ncbi.nlm.nih.gov/aa/wga.cgi?page=login)를 통해 TCGA Data Access 위원회에 신청하여야 하며, 나머지는 ICGC Data Access Compliance Office(DACO)에 신청하여야 한다. 개별 공여자들과 표본의 임상 병리학적 데이터는 개방 등급이며 ICGC Data Porta(https://dcc.icgc.org/releases/PCAWG)에서 접근가능하다. ICGC DACO로부터 승인을 얻은 연구자들은, 자료 다운로드에 관한 자세한 안내사항을 http://docs.icgc.org/pcawg/data/에서 확인할 수 있다. 1,000 Genomes project phase 3와 ExAC release 1.0으로부터 나온 변이 자료 집합들은 방법에서 서술된 출처로부터 개별 수준과 집단 수준에서 공개적으로 사용할 수 있다.
[분석 결과]
1. 연구 코호트(study cohorts)들의 특징
종양-정상 형질을 각각 짝지은 전체 유전체 및 종양의 전체 전사체(transcriptome)의 서열 데이터와 International Cancer Genome Consortium(ICGC)/The Cancer Genome Atlas(TCGA) Pan-Cancer Analysis of Whole Genomes(PCAWG) 프로젝트에서 2,567명 암 환자(Pan-Cancer 코호트)의 임상적, 조직학적 소견을 사용하였다. 대조군으로는, 알려진 암의 병력이 없는 개인을 대상으로한 전세계적 시퀀싱 프로젝트의 공개된 유전적 변이 데이터를 이용하였다. 첫 번째 대조군 데이터 세트에는 1,000 Genomes project phase 3의 2,504개에 대한 유전체를 포함하였다. 두 번째 데이터 세트에는 TCGA 서브셋(ExAC 코호트)를 포함하지 않은 Exome Aggregation Consortium release 1.0 서브셋의 53,105명에 대한 진유전체(exome)를 포함하였다.
Pan-Cancer 코호트는 4개의 집단과 조직학적으로 38가지의 소아 또는 성인 암 유형들로 구성되어 있다(도 1a 및 도 1c). 진단시의 중위 연령은 60세이다(1세부터 90세 범위에서). 대부분의 암 유형들에서 환자들은 대부분 유럽인 또는 미국인이다. 1,000 Genomes 코호트는 5개의 집단(EUR: 유럽인, AMR: 미국인, ASN: 동아시아인, AFR: 아프리카인, SAN: 남아시아인)으로 구성되었고(도 1b), Pan-Cancer 코호트와의 비교를 위해 유럽인 및 미국인 집단을 통합하였다. ExAC 코호트는 7개의 집단으로, 전체 코호트 중 60% 이상이 미국인과 핀란드인을 제외한 유럽인들로 구성되었다.
2. Pan-Cancer와 1,000 Genomes 코호트의 PPV 발생률
상기 유전자 선택과 변이의 해석 과정에서 고찰한 문헌을 통해, 42개의 LSD 유전자들을 확인하였으며, 상기 LSD 유전자를 하기 표 2에 나타내었다.
상기 유전 양상에 대한 정보는 Online Mendelian Inheritance in Man 데이터베이스(https://www.omim.org/)를 참고하였다.
GRCh37/hg19 유전체 좌표(Genomic coordinates)를 기반으로, 7,187개의 생식세포 단일 뉴클레오타이드 변형체(SNV)와 Pan-Cancer와 1,000 Genomes 코호트 모두의 variant call set의 단백질 코딩 부위와 필수 이어맞춤접합(Essential splice junction) 및 5'-3' 비번역부위(Untranslated region, UTR)에서 작은 삽입-결실(indel)을 발견하였다. 이 중, 4,019(55.9%)개는 단독자(singleton, 한 명에게서만 발견되는 변형)였으며, 3' 비번역부위(UTR) 변형이 가장 많은 부분을 차지하였다(37.7%).
PPV의 병원성을 하기의 3가지 서로 다른 기준으로 확인하였다:
(1) 전사체 및 단백질의 서열과 발현에 대한 돌연변이 효과의 예측;
(2) ClinVar, Human Gene Mutation Database(HGMD), locus specific mutation databases(LSMDs) 및 기타 문헌 등의 선별된 변형 데이터베이스로부터 얻은 임상적 및 실험적 근거; 및
(3) 가상 환경에서의 단백질 기능에 대한 돌연변이의 효과.
대립유전자빈도가 0.5% 이상인 변이를 갖는 집단에서 LSD가 발병할 확률이 극히 낮다는 가정 하에, PPV 선정 과정에서 Pan-Cancer과 1,000 Genomes 코호트 사이의 평균 대립유전자빈도가 임계치보다 높은 변이들은 제외하였다. 자동화된 알고리즘을 통해, 41개의 유전자에서 432개의 PPV를 선택하였으나, LAMP2 유전자에서는 PPV가 관찰되지 않았다. 선택된 PPV에서 일부 겹치는 부분은 상기 3개의 선택 기준에 맞도록 각각 3개의 등급으로 나누었다(도 1d).
전반적으로, Pan-Cancer 코호트에서 PPV의 출현율은 20.7%로, 1,000 Genomes 코호트(13.5%) 보다 유의하게 높았다(오즈비, odds ratio, 1.67, 95% 신뢰구간 1.44-1.94; P=8.7*10 -12). 상기 결과는 인구 구조 보정을 거친 뒤에도 유의하였다. PPV를 가진 개인에게서 암 발생 위험의 오즈비가 더 높았으며, 이러한 경향은 개인수준으로 등급을 제한하였을 때에도 유지되었다(도 2a). 도 2a에서 등급 3 PPV의 이중, 삼중 보인자 및 총 PPV의 삼중 보인자의 오즈비는 각각 7.54, 무한대 및 7.4로 나타났다.
비교를 위해 Pan-Cancer과 1,000 Genomes 코호트 사이의 평균 대립유전자빈도가 0.5% 미만인 희귀 동일 돌연변이(rare synonymous variant, RSV) 출현율을 조사하였다. 인구 구조에 따른 보정을 거친 뒤에도 두 코호트 간에는 유의한 차이를 보이지 않았다. 이는 Pan-Cancer 코호트에서 PPV 농축(enrichment)이 배치 효과에의한 것이 아님을 시사한다(도 2b). Pan-Cacner와 1,000 Genomes 코호트에서의 RSV와 PPV의 유전자 특이 출현율을 나타내었다(도 3).
그 결과, 도 3a 및 도 3b를 참조하면, PPV가 Pan-Cancer 코호트 대 1,000 Genomes 코호트에서 RSV 수준은 42개의 유전자들 중 33개의 유전자에서 상대적으로 높은 것으로 확인되었다(78.6%, exact binomial test P<0.001).
3. PPV와 특정 암 종류간의 연관성
30개의 주요한 암의 조직학적 분류(각 종류당 15명 초과)에서 PPV의 출현율은 8.8% 내지 48.6%이었으며, 이는 1,000 Genomes 코호트의 7개 조직학적 분류에서의 출현율보다 유의하게 높았다. 등급을 기반으로 한 분석에서도 비슷한 결과가 나타났다. 반면, RSV 출현율은 코호트 간 변동이 크지 않았으며, 다른 암 코호트보다 1,000 Genomes 코호트에서 높은 것으로 나타났다. 이는 여러 가계들의 이질적인 성질을 나타내는 것으로, 1,000 Genomes 코호트에서 더 높은 유전적 다형성이 나타남을 시사하는 것이다. SKAT-O 기법(optimal sequence kernel association test)으로 분석 및 인구 구조를 보정하여 특정 유전자와 암 간 연관성이 높은 37쌍을 확인하였다. 또한, 4개의 유전자(GBA, SGSH, HEXA 및 CLN3)가 모든 암과의 연관성이 있음을 확인하였다(도 4a).
각 점의 면적은 해당 코호트-유전자 쌍의 PPV 보인자 수와 비례하게 나타내었다. 0.1 FDR 임계치에서 유의하게 연관된 코호트-유전자 쌍은 굵은 고리로 둘러쌓여 있다. 코호트는 포함된 환자 수를 기준으로 내림차순으로 정렬하였고, 유전자는 포함된 고유 PPV 수를 기준으로 내림차순으로 정렬하였다. 최소 하나의 LSD 유전자의 PPV가 19종의 암에서 특히 농축되었고, 18개의 유전자의 PPV는 최소 1종의 암과 연관이 있었다(도 4b). 집단 기반 팽창인자(Group-based inflation factor, λ)가 왼쪽 상단 모서리에 나타나 있으며, 회색 음영은 95% 신뢰구간을 나타낸다. 그래프의 각 점은 도 4a의 각 점에 해당한다.
4. Pan-Cancer와 ExAC 코호트에서의 PPV 출현율
독립 대조군으로 ExAC 코호트에서의 SKAT-O 기법을 이용한 분석을 통해 결과를 검증하였다. 이를 위해, (1) 1,000 Genomes 코호트보다 유의하게 높은 PPV의 출현율을 보이는 8개의 암 코호트; 및 (2) 1,000 Genomes 코호트에 비해 Pan-Cancer 코호트 또는 3개 이상의 암의 조직학적인 세부 분류에서 특히 높은 정도의 농축을 보이는 10개의 PPV에 초점을 맞추었다. 도 5에 PPV의 출현율은 모든 시험 대상 암 코호트에서 ExAC 코호트보다 높았고, 이러한 연관성은 Pan-Cancer와 췌장 선암종, 수모세포종(medulloblastoma), 췌장 신경내분비암종(pancreatic neuroendocrine carcinoma), 그리고 골육종(osteosarcoma) 코호트에서 유의미한 것으로 나타났다. 또한 GBA를 제외한 모든 PPV는 Pan-Cancer 코호트에서 ExAC 코호트보다 출현율이 높았도, 6개는 암환자에서 유의미할 정도로 많았다.
5. 암 환자에서의 PPV의 특정 변이의 농축도
Pan-Cancer와 1,000 Genomes 코호트에서 확인된 432개의 PPV 중, NPC2(rs140130028, ENST00000434013:c.441+1G>A)의 스플라이싱 변형(splicing variant)이 수모세포종(medulloblastoma), 난소 선암종(ovarian adenocarcinoma), 피부 흑색종(cutaneous melanoma) 및 폐 편평세포 암을 포함한 다양한 암의 조직학적 분류와 가장 높은 연관성을 보였다. NPC2 유전자의 돌연변이를 비활성화 하면 주로 진행성의 신경계 이상 증상이 나타나는 니만-픽병 Type C가 발병한다. 니만-픽병 Type C와 수모세포종의 관계는 NPC1 유전자와 Hedgehog 신호체계에 의해 조절되고 기능 상실 돌연변이에 의해 비활성화시 수막세포종을 유발하는 종양억제자인 Patched 막관통성 단백질의 구조적인 상동성을 통하여 유추할 수 있다.
Hedgehog 신호전달계통 저해제인 Vismodegib은 동물 실험모델에서 항종양효과를 보이는 것으로 알려져 있으며, 수막세포종의 치료를 위한 임상실험 평가가 진행되고 있다. 그러나, 현재까지 니만-픽병 Type C를 일으키는 돌연변이 간의 연관성을 입증하는 직접적인 증거가 밝혀지지 않았다. 따라서, 상기 결과는 NPC2 돌연변이를 비활성화 시키는 것의 암 발생 가능성 낮춰준다는 것을 입증하는 유전학적 증거로서 활용될 수 있다.
또한, 하향 조절 유전자 전사와 유의하게 연관된 IDS(rs145834006―a)에서 3' UTR 변이는 비호지킨 B세포 림프종과 강한 연관성을 보였다. 상기 결과는 IDS PPV와 비호지킨 B세포 림프종 사이의 유의한 SKAT-O 연관성을 지지한다. 림프 조직에서의 상대적으로 높은 IDS 발현은 이 유전자로 발현되는 단백질의 림프 기관 기능에서 필수적인 역할을 보여준다.
6. PPV 보인자 상태에 따른 암 진단 연령
28개의 임상 암 코호트에서 암 진단 연령(각각 15명 이상의 환자가 포함된 30개의 조직학적 유형으로 구분함. 골육종 환자는 진단 당시 연령에 관한 정보가 존재하지 않았음. 모양세포성 성상세포종, 및 핍지교종 환자는 하나의 임상적인 코호트로 합침)을 도 6a에 나타내었다. 상기 도 6a에서 빨간색 점을 보인자로, 회색점을 비보인자로 표시하였다. 네모는 25 내지 75 백분위 수 범위를 나타내고, 가로 막대는 중위값을 나타내며, 위, 아래 whisker는 위쪽과 아래쪽 접힘에서 접힘으로부터 사분범위의 1.5배를 넘지 않는 최대값과 최소값까지 퍼지도록 표시하였다.
PPV 보인자들에게서 암이 일찍 발병한다는 가설을 확인하기 위하여 Pan-Cancer 코호트와 PPV 간의 유의미한 SKAT-O 연관성을 보인 6종의 임상적 암 세부군에서 암 진단 연령을 비교하였다(도 6b). 도 6b를 참조하면, 모든 평가대상 코호트에서 PPV 비보인자에 비해 PPV 보인자들의 암 진단 중위연령이 낮은 것으로 나타났으며, 특히, PCAN, PACA 및 CMDI에서 유의미하게 낮음을 확인하였다.
다음으로, Pan-Cancer 코호트 또는 3가지 이상의 암 유형에서의 유의미한 정도로 많은 각 PPV 그룹에 속하는 PPV 보인자와 비보인자 간 암 진단 연령의 차이를 1,000 Genomes 코호트와 비교하였다. ExAC 코호트를 독립된 대조군으로 사용하여 SKAT-O 결과를 검증하기 위하여 같은 기준을 사용하였다(도 6c). 도 6c를 참조하면, 등급 1과 등급 3에 속한 PPV 보인자들에서, HGSNAT, CLN3, NPC2는 야생형(PPV 비보인자)과 비교하였을 때, 유의할 정도의 낮은 암 발생 연령을 보였다.
또한 PPV 양(PPV load, 한 사람이 가지고 있는 PPV 개수)은 모든 조직학적 유형과 PPV 그룹 들에서 암 진단 연령과 일관되게 선형적 음의 상관관계를 보였고, 이러한 관계는 Pan-Cancer와 췌장 선암종 코호트에서 좀 더 유의하게 나타났다(도 6d 및 도 6e). 모든 암 유형과 유전자에 대한 탐색전 분석에서 PPV 보인자에게서 암의 이른 발병은 5개의 암-유전자 쌍에 의한 것으로 나타났다. 이 중 3개(췌장 선암종-MAN2B1, 피부 흑색종-NPC2, 만성 골수성 백혈병-SGSH)는 SKAT-O 결과와도 일치하였다(도 6f). 상기 도 6f에서 PACA에 대해 위에서 아래로 수직 정렬된 P 값은 각각 왼쪽에서 오른쪽으로 표시된 세 유전자에 해당한다.
7. PPV 보인자에서 췌장 선암종의 체세포 돌연변이와 유전자 발현 패턴의 차별점
체세포 돌연변이와 유전자 발현 패턴의 차별점이 췌장암 선종에서 PPV로 유발되는 발암 과정에 관여하는지 확인하기 위해, SKAT-O 분석과 PPV 보인자들의 암 진단 연령의 비교하였으며, 모든 결과는 일관적인 것으로 확인되었다(도 4a, 도 6b, 도 6d 및 도 6f). 이와 더불어, PPV 보인자(n=55) 및 비보인자들(n=177)의 종양 간 체세포 돌연변이 판도(somatic mutational landscape)를 비교하였다. 각 그룹별로 가장 많은 빈도로 돌연변이가 일어난 유전자 50개를 도 7에 나타내었다.
도 7을 참조하면, KRAS, TP53, CDKN2A, TTN 및 SMAD4는 공통적으로 돌연변이 빈도가 높은 것으로 확인되었다. 이 중 KRAS, TP53, CDKN2A 및 TTN은 췌장 선암종의 유전자 시퀀싱 연구 결과와 일치하였다. 비잠재성 돌연변이 부담은 모든 그룹들에서 서로 비슷하였다(종양별로 PPV와 관련 평균 57.1, PPV와 비관련 평균 56.3 P=0.9). 돌연변이의 고유한 특징(mutational signature)은 PPV 보인자 여부와는 관계가 없었다.
표본의 RNA 염기서열분석(RNA-Seq) 데이터를 이용한 췌장 선암종에서의 차별발현 유전자(Differentially expressed gene, DEG) 분석에서, PPV 보인자의 종양에서 야생형(비보인자)에 비해 287개의 유전자 상향 조절과 221개의 하향 조절이 있는 것으로 나타났다(도 8a 내지 도 8d). 도 8a 및 도 8b에서 FDR<0.1인 유전자는 빨간색 점으로 나타내었다. 도 8c에서 P값의 히스토그램은 최대 빈도가 0.05 이하를 보였으며, 이는 상향 또는 하향 조절된 유전자의 존재를 나타내는 것이다.
또한, 도 8d에서 PPV 비보인자에 비해 PPV 보인자의 종양에서 0.1 FDR 임계치가 유의하게 상향 및 하향 조절된 유전자의 상대적 발현을 각각 빨간색 및 회색 막대로 표시하였다. 각 유전자에 대하여는 FPKM-UQ-normalized 읽기 카운트에 따라 표본의 순위를 매기고, 유전자에 걸친 시각적 대조를 표준화하기 위해 컬러 매핑 순위 번호를 사용하였다. 표본들은 Euclidian distance와 완전한 연결을 기반으로한 계층군 집화로 열을 정렬하였고, 유전자도 같은 방식을 통해 행으로 정렬하였다(계통도는 나타나지 않음). 높고 낮음은 각각 연속적으로 진해지는 빨간색과 파란색으로 표현하였다.
GAGE(Generally applicable gene set enrichment)를 이용한 경로 기반 분석을 통해 PPV 보인자 여부에 따라 63개의 경로과정이 유의하게 변경되었음을 확인하였다(도 8e). 상기 경로는 췌장암에서 반복적으로 교란이 일어나는 것으로 보이는 13개의 핵심 신호 전달 경로 중 최소 6개(Ras, Wnt 신호 전달, 축삭 인도, 세포주기조절, 국소접착, 세포접착 및 ECM-수용체 상호작용 경로)를 포함하며, LSD 유전자에서 악성 돌연변이가 LSD 환자에 흔히 발생하는 것으로 알려진 파킨슨병, 알츠하이머병, 헌팅턴병 등의 신경퇴행성 질환 발병에 영향을 미친다는 점을 확인하였다. 또한, 글리코인지질의 대사 경로도 확인되었으며, 유전자 발현의 변화와 넌센스-매개 붕괴가 PPV 보인자들에게서 리소좀 기능 이상을 일으킬 수 있음을 확인하였다.
8. 리소좀 축적 질환 유전자들의 암세포에서의 Two-hit 여부 분석
"two-hit hypothesis"는 두 개의 allele이 모두 기능을 잃게 되면서 해당 유전자가 inactivation 되어 암이 발생하게 된다는 가설이며 특정 heterozygote carrier들에 있어서의 암 발병을 설명할 수 있는 중요한 의미를 가진다. 특정 유전자의 heterozygote carrier이 어떤 이유로 second hit 이 일어나면 세포는 사멸하거나 반대로 사멸을 저항하는 암으로 발전할 가능성이 있다. 이를 확인하기 위하여 ALFRED 방법을 도입하여 실제 LSD 유전자에 대해서 실제 암 발생을 유발하는 cancer predisposition 유전자만큼의 LOH와의 유의성을 보였다 (도 10a). 암종 특이적으로 높은 빈도수로 발생하는 유전질환 관련 유전자 변이를 가지는 보인자의 경우 상당수가 CN Deletion/Loss를 가지고 있다는 것을 발견하였다. 또한, 일부는 tumor 조직에서 동일 유전자상에서 somatic 변이를 동시에 보유하고 있음을 확인하였다. 성염색체의 "two-hit" 분석은 각 코호트에서의 젠더 비율에 따라 추가 비교를 진행한다. 예를들어, X 염색체를 하나만 가지는 남성의 경우 유전적 변이 혹은 CNV의 변화 하나만으로도 치명적인 결과를 나타낼 수 있기 때문에 분석 샘플의 젠더정보를 정확히 파악하고 분석을 진행해야 할 필요가 있어 성염색체는 해당 분석에서 제외하고 진행하였다.
9. 한국인 췌장암 환자들의 Whole Exome Sequencing 데이터 분석 결과
9-1. 생식세포에서 PPV와 췌장암의 관련성 확인
WES(whole exome sequencing) germline 데이터를 이용하여 생식세포에서 LSD 관련 PPV 발견 빈도를 암의 종에 따라 확인하였다. 그 결과는 하기 표 3 및 4와 같고, 이를 도 9에 시각화하였다.
도 9에서 확인되는 바와 같이, 췌장암에서 생식세포의 PPV 빈도가 증가됨을 확인할 수 있었으며, GALC 유전자의 돌연변이는 췌장암과 오즈비(Odds ratio)가 5.09임을 알 수 있었다.
B. 췌장암 환자에서 GALC 유전자의 PPV 빈도 확인
10. 한국인 췌장암 환자 오거노이드의 Two-Hit 과 발현량 (Expression) 데이터 분석 결과
체세포 돌연변이에 따른 유전자의 변형 및 발현정도를 확인하기 위하여 한국인 췌장암 환자의 오거노이드 시퀀싱 데이터 유전자 발현 분석 및 two-hit 분석을 진행하였다. GALC 유전자 PPV 보인자 오거노이드에서 유전 변이가 발생한 동일 지역에서 복제수 손실이 확인되었으며(도 10b) 비보인자의 오거노이드보다 유전자 발현이 현저히 떨어져 있는것을 확인하였다 (도 11). 각 유전자에 대해서는 TPM 값을 이용한 절대 발현값을 이용하여 비교하였다. 또한 42개의 LSD 유전자의 평균값과 GALC 유전자의 발현값을 이용한 index 값의 비교에서도 보인자 군에서의 발현값이 낮은 것으로 확인되었다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.

Claims (17)

  1. 미스센스 돌연변이(missense mutation)에 의한 잠재적 병원성 변이(Potentially pathogenic variant, PPV)를 갖는 GALC(galactosylceramidase) 유전자 돌연변이(GALC PPV)를 포함하는 췌장암 진단 또는 발병 예측용 바이오마커 조성물.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 조성물은 아시아인에서 췌장암 진단 또는 발병 예측용인 것을 특징으로 하는, 바이오마커 조성물.
  5. 미스센스 돌연변이(missense mutation)에 의한 잠재적 병원성 변이(Potentially pathogenic variant, PPV)를 갖는 GALC(galactosylceramidase) 유전자의 돌연변이(GALC PPV)를 검출할 수 있는 제제를 포함하는, 췌장암 진단 또는 발병 예측용 조성물.
  6. 제5항에 있어서,
    상기 제제는 상기 유전자에 특이적으로 결합하는 올리고뉴클레오타이드, 프라이머, 프로브, 및 화합물로 이루어진 군으로부터 선택되는 1종 이상인 것을 특징으로 하는, 췌장암 진단 또는 발병 예측용 조성물.
  7. 제5항에 있어서,
    상기 조성물은 아시아인에서 췌장암 진단 또는 발병 예측 용도인 것을 특징으로 하는, 췌장암 진단 또는 발병 예측용 조성물.
  8. 제5항의 조성물을 포함하는 췌장암 진단 또는 발병 예측용 키트.
  9. 제8항에 있어서,
    상기 키트는 아시아인의 췌장암 진단 또는 발병 예측용인 것을 특징으로 하는, 췌장암 진단 또는 발병 예측용 키트.
  10. 제8항에 있어서,
    상기 키트는 한국인의 췌장암 진단 또는 발병 예측용인 것을 특징으로 하는, 췌장암 진단 또는 발병 예측용 키트.
  11. 개체의 생물학적 시료 시료로부터 미스센스 돌연변이(missense mutation)에 의한 잠재적 병원성 변이(Potentially pathogenic variant, PPV)를 갖는 GALC(galactosylceramidase) 유전자의 돌연변이(GALC PPV)를 검출하는 단계를 포함하는 췌장암 발병 가능성 진단에 필요한 정보제공방법.
  12. 제11항에 있어서,
    상기 방법은 유전자의 돌연변이를 검출하는 단계 이후에 상기 유전자의 돌연변이가 검출된 경우 돌연변이가 없는 경우보다 췌장암의 발병 가능성이 높은 것으로 판정하는 단계를 추가로 포함하는, 췌장암 발병 가능성 진단에 필요한 정보제공방법.
  13. 제11항에 있어서,
    상기 개체는 아시아인인 것을 특징으로 하는, 정보제공방법.
  14. 제11항에 있어서,
    상기 생물학적 시료는 개체의 혈액 또는 암 조직인 것을 특징으로 하는, 정보제공방법.
  15. 제11항에 있어서, 상기 유전자의 돌연변이를 검출하는 단계는 상기 유전자가 암호화하는 단백질의 활성도 측정, 유전자 발현 수준 측정, 및 유전자 시퀀싱으로 이루어진 군으로부터 선택된 1 이상의 방법으로 수행되는 것을 특징으로 하는, 정보제공방법.
  16. 제11항에 있어서,
    상기 방법은 GALC 유전자에 돌연변이가 검출된 경우 돌연변이가 없는 정상과 비교하여 췌장암 발병 가능성이 5배 높은 것으로 판정하는 단계를 추가로 포함하는, 췌장암 발병 가능성 진단에 필요한 정보제공방법.
  17. 삭제
KR1020200094635A 2019-07-29 2020-07-29 암 진단을 위한 바이오마커 KR102699848B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/631,597 US20220333206A1 (en) 2019-07-29 2020-07-29 Biomarker for diagnosing pancreatic cancer, and use thereof
PCT/KR2020/010014 WO2021020882A1 (ko) 2019-07-29 2020-07-29 췌장암 진단용 바이오마커 및 이의 용도
KR1020240112758A KR20240131311A (ko) 2019-07-29 2024-08-22 암 진단을 위한 바이오마커

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190091737 2019-07-29
KR1020190091737 2019-07-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020240112758A Division KR20240131311A (ko) 2019-07-29 2024-08-22 암 진단을 위한 바이오마커

Publications (2)

Publication Number Publication Date
KR20210014083A KR20210014083A (ko) 2021-02-08
KR102699848B1 true KR102699848B1 (ko) 2024-08-29

Family

ID=74560387

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200094635A KR102699848B1 (ko) 2019-07-29 2020-07-29 암 진단을 위한 바이오마커

Country Status (1)

Country Link
KR (1) KR102699848B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018162596A1 (en) 2017-03-07 2018-09-13 Elypta Ab Cancer biomarkers
JP2021168674A (ja) * 2013-12-20 2021-10-28 ザ ジェネラル ホスピタル コーポレイション 血中循環腫瘍細胞に関する方法およびアッセイ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021168674A (ja) * 2013-12-20 2021-10-28 ザ ジェネラル ホスピタル コーポレイション 血中循環腫瘍細胞に関する方法およびアッセイ
WO2018162596A1 (en) 2017-03-07 2018-09-13 Elypta Ab Cancer biomarkers

Also Published As

Publication number Publication date
KR20210014083A (ko) 2021-02-08

Similar Documents

Publication Publication Date Title
JP5676245B2 (ja) 乳癌のリスクアセスメント、診断、予後診断および治療における使用のためのマーカーとしてのchr2およびchr16の遺伝的変異
US8951735B2 (en) Genetic variants for breast cancer risk assessment
US8828657B2 (en) Susceptibility variants for lung cancer
US20140179546A1 (en) Genetic variants on chr 5p12 and 10q26 as markers for use in breast cancer risk assessment, diagnosis, prognosis and treatment
WO2013035114A1 (en) Tp53 genetic variants predictive of cancer
Bye et al. Distinct genetic association at the PLCE1 locus with oesophageal squamous cell carcinoma in the South African population
Pintarelli et al. Genetic susceptibility variants for lung cancer: replication study and assessment as expression quantitative trait loci
WO2013065072A1 (en) Risk variants of prostate cancer
Wang et al. Systematic analysis of the effects of genetic variants on chromatin accessibility to decipher functional variants in non-coding regions
Que et al. Genetic architecture modulates diet-induced hepatic mRNA and miRNA expression profiles in diversity outbred mice
Bendova et al. Genetic variations in microRNA-binding sites of solute carrier transporter genes as predictors of clinical outcome in colorectal cancer
KR102699848B1 (ko) 암 진단을 위한 바이오마커
EP2681337B1 (en) Brip1 variants associated with risk for cancer
KR20240131311A (ko) 암 진단을 위한 바이오마커
Que et al. Genetic architecture modulates diet-induced hepatic mRNA and miRNA expression profiles in Diversity Outbred mice
Al-Eitan et al. Effect of MEF2A and SLC22A3-LPAL2-LPA gene polymorphisms on warfarin sensitivity and responsiveness in Jordanian cardiovascular patients
Shin et al. Oncogenic effects of germline mutations in lysosomal storage disease genes
Moradi Impact of genetic polymorphisms on the cancer risk, alternative splicing, and miRNA expression
EP4301876A1 (en) Methods of analysis of allelic expression of pik3ca in cancer and uses thereof

Legal Events

Date Code Title Description
N231 Notification of change of applicant
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
A107 Divisional application of patent