EA048297B1 - MUTATIONAL ANALYSIS OF DNA IN PLASMA FOR CANCER DETECTION - Google Patents
MUTATIONAL ANALYSIS OF DNA IN PLASMA FOR CANCER DETECTION Download PDFInfo
- Publication number
- EA048297B1 EA048297B1 EA202490542 EA048297B1 EA 048297 B1 EA048297 B1 EA 048297B1 EA 202490542 EA202490542 EA 202490542 EA 048297 B1 EA048297 B1 EA 048297B1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- tumor
- sample
- mutations
- sequencing
- dna
- Prior art date
Links
- 206010028980 Neoplasm Diseases 0.000 title claims description 635
- 201000011510 cancer Diseases 0.000 title claims description 241
- 238000001514 detection method Methods 0.000 title claims description 55
- 230000000869 mutational effect Effects 0.000 title claims description 29
- 238000004458 analytical method Methods 0.000 title description 58
- 230000035772 mutation Effects 0.000 claims description 394
- 238000012163 sequencing technique Methods 0.000 claims description 275
- 210000002381 plasma Anatomy 0.000 claims description 270
- 239000002773 nucleotide Substances 0.000 claims description 178
- 125000003729 nucleotide group Chemical group 0.000 claims description 177
- 238000000034 method Methods 0.000 claims description 158
- 239000000523 sample Substances 0.000 claims description 150
- 239000012634 fragment Substances 0.000 claims description 114
- 210000004027 cell Anatomy 0.000 claims description 85
- 239000012472 biological sample Substances 0.000 claims description 61
- 239000000470 constituent Substances 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 29
- 210000002966 serum Anatomy 0.000 claims description 20
- 238000012544 monitoring process Methods 0.000 claims description 18
- 239000012530 fluid Substances 0.000 claims description 17
- 210000000601 blood cell Anatomy 0.000 claims description 10
- 238000009396 hybridization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 210000000265 leukocyte Anatomy 0.000 claims description 8
- 210000003567 ascitic fluid Anatomy 0.000 claims description 7
- 210000001175 cerebrospinal fluid Anatomy 0.000 claims description 7
- 210000003296 saliva Anatomy 0.000 claims description 7
- 210000002700 urine Anatomy 0.000 claims description 6
- 210000003958 hematopoietic stem cell Anatomy 0.000 claims description 5
- 239000007790 solid phase Substances 0.000 claims description 5
- 206010003445 Ascites Diseases 0.000 claims description 4
- 210000004209 hair Anatomy 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 210000003780 hair follicle Anatomy 0.000 claims description 2
- 238000012408 PCR amplification Methods 0.000 claims 2
- 238000012986 modification Methods 0.000 claims 2
- 230000004048 modification Effects 0.000 claims 2
- 230000001613 neoplastic effect Effects 0.000 claims 2
- 108020004414 DNA Proteins 0.000 description 321
- 230000000875 corresponding effect Effects 0.000 description 75
- 210000001519 tissue Anatomy 0.000 description 58
- 108700028369 Alleles Proteins 0.000 description 53
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 47
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 41
- 238000013459 approach Methods 0.000 description 27
- 238000011282 treatment Methods 0.000 description 26
- 230000035945 sensitivity Effects 0.000 description 25
- 210000004881 tumor cell Anatomy 0.000 description 25
- 206010061535 Ovarian neoplasm Diseases 0.000 description 24
- 238000006467 substitution reaction Methods 0.000 description 24
- 239000003550 marker Substances 0.000 description 20
- 206010033128 Ovarian cancer Diseases 0.000 description 17
- 208000031404 Chromosome Aberrations Diseases 0.000 description 16
- 239000000203 mixture Substances 0.000 description 16
- 206010069754 Acquired gene mutation Diseases 0.000 description 15
- 231100000005 chromosome aberration Toxicity 0.000 description 15
- 238000002271 resection Methods 0.000 description 15
- 238000012216 screening Methods 0.000 description 15
- 230000037439 somatic mutation Effects 0.000 description 15
- 238000001712 DNA sequencing Methods 0.000 description 14
- 238000003556 assay Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 102000054765 polymorphisms of proteins Human genes 0.000 description 14
- 238000012360 testing method Methods 0.000 description 14
- 210000004369 blood Anatomy 0.000 description 13
- 239000008280 blood Substances 0.000 description 13
- 230000008859 change Effects 0.000 description 13
- 150000007523 nucleic acids Chemical class 0.000 description 13
- 210000000349 chromosome Anatomy 0.000 description 12
- 238000012217 deletion Methods 0.000 description 12
- 230000037430 deletion Effects 0.000 description 12
- 206010006187 Breast cancer Diseases 0.000 description 11
- 208000026310 Breast neoplasm Diseases 0.000 description 11
- 108700024394 Exon Proteins 0.000 description 10
- 230000003321 amplification Effects 0.000 description 10
- 230000002759 chromosomal effect Effects 0.000 description 10
- 238000003199 nucleic acid amplification method Methods 0.000 description 10
- 238000001356 surgical procedure Methods 0.000 description 10
- 230000007423 decrease Effects 0.000 description 9
- 206010027476 Metastases Diseases 0.000 description 8
- 208000006994 Precancerous Conditions Diseases 0.000 description 8
- 239000000969 carrier Substances 0.000 description 8
- 208000002672 hepatitis B Diseases 0.000 description 8
- 230000003211 malignant effect Effects 0.000 description 8
- 108020004707 nucleic acids Proteins 0.000 description 8
- 102000039446 nucleic acids Human genes 0.000 description 8
- 238000004393 prognosis Methods 0.000 description 8
- 230000032823 cell division Effects 0.000 description 7
- 230000002611 ovarian Effects 0.000 description 7
- 238000001574 biopsy Methods 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000002068 genetic effect Effects 0.000 description 6
- 102000054766 genetic haplotypes Human genes 0.000 description 6
- 108091035707 Consensus sequence Proteins 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000002146 bilateral effect Effects 0.000 description 5
- 210000000481 breast Anatomy 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000004077 genetic alteration Effects 0.000 description 5
- 230000003902 lesion Effects 0.000 description 5
- 206010061289 metastatic neoplasm Diseases 0.000 description 5
- 101150069042 nvd gene Proteins 0.000 description 5
- 210000001672 ovary Anatomy 0.000 description 5
- 210000004910 pleural fluid Anatomy 0.000 description 5
- 208000000419 Chronic Hepatitis B Diseases 0.000 description 4
- 206010009944 Colon cancer Diseases 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 4
- 102100040543 FUN14 domain-containing protein 2 Human genes 0.000 description 4
- 101100391502 Homo sapiens FUNDC2 gene Proteins 0.000 description 4
- 206010069755 K-ras gene mutation Diseases 0.000 description 4
- 208000007660 Residual Neoplasm Diseases 0.000 description 4
- 239000013060 biological fluid Substances 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000003205 genotyping method Methods 0.000 description 4
- 150000002500 ions Chemical class 0.000 description 4
- 230000001394 metastastic effect Effects 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 230000001855 preneoplastic effect Effects 0.000 description 4
- 238000002203 pretreatment Methods 0.000 description 4
- 239000013615 primer Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008707 rearrangement Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 3
- 206010061818 Disease progression Diseases 0.000 description 3
- 208000005176 Hepatitis C Diseases 0.000 description 3
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 3
- 241000701806 Human papillomavirus Species 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 230000005750 disease progression Effects 0.000 description 3
- 210000004602 germ cell Anatomy 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 230000012010 growth Effects 0.000 description 3
- 208000006454 hepatitis Diseases 0.000 description 3
- 231100000283 hepatitis Toxicity 0.000 description 3
- 230000002601 intratumoral effect Effects 0.000 description 3
- 239000007791 liquid phase Substances 0.000 description 3
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 210000001138 tear Anatomy 0.000 description 3
- 102000036365 BRCA1 Human genes 0.000 description 2
- 206010008342 Cervix carcinoma Diseases 0.000 description 2
- 102000004594 DNA Polymerase I Human genes 0.000 description 2
- 108010017826 DNA Polymerase I Proteins 0.000 description 2
- 238000007399 DNA isolation Methods 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 241000700721 Hepatitis B virus Species 0.000 description 2
- 206010061309 Neoplasm progression Diseases 0.000 description 2
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 2
- 208000005718 Stomach Neoplasms Diseases 0.000 description 2
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 201000010881 cervical cancer Diseases 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 206010017758 gastric cancer Diseases 0.000 description 2
- 230000002489 hematologic effect Effects 0.000 description 2
- 229920001519 homopolymer Polymers 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 201000011549 stomach cancer Diseases 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000002626 targeted therapy Methods 0.000 description 2
- 230000005751 tumor progression Effects 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- 102100029632 28S ribosomal protein S11, mitochondrial Human genes 0.000 description 1
- 108700001666 APC Genes Proteins 0.000 description 1
- 208000007848 Alcoholism Diseases 0.000 description 1
- 101000716806 Arabidopsis thaliana Protein SCO1 homolog 2, mitochondrial Proteins 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 108700040618 BRCA1 Genes Proteins 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 108700010154 BRCA2 Genes Proteins 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010009344 Clonorchiasis Diseases 0.000 description 1
- 241001327965 Clonorchis sinensis Species 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 239000003155 DNA primer Substances 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 108060006698 EGF receptor Proteins 0.000 description 1
- 206010015108 Epstein-Barr virus infection Diseases 0.000 description 1
- 108060002716 Exonuclease Proteins 0.000 description 1
- 102100028617 GRIP and coiled-coil domain-containing protein 2 Human genes 0.000 description 1
- 102100030708 GTPase KRas Human genes 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 206010066476 Haematological malignancy Diseases 0.000 description 1
- 206010019375 Helicobacter infections Diseases 0.000 description 1
- 241000590002 Helicobacter pylori Species 0.000 description 1
- 208000002250 Hematologic Neoplasms Diseases 0.000 description 1
- 208000017604 Hodgkin disease Diseases 0.000 description 1
- 208000021519 Hodgkin lymphoma Diseases 0.000 description 1
- 208000010747 Hodgkins lymphoma Diseases 0.000 description 1
- 101001058870 Homo sapiens GRIP and coiled-coil domain-containing protein 2 Proteins 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 241000701044 Human gammaherpesvirus 4 Species 0.000 description 1
- 241000725303 Human immunodeficiency virus Species 0.000 description 1
- 241000102542 Kara Species 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 108091092878 Microsatellite Proteins 0.000 description 1
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 description 1
- 206010061306 Nasopharyngeal cancer Diseases 0.000 description 1
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 1
- 208000009608 Papillomavirus Infections Diseases 0.000 description 1
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 1
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 239000013616 RNA primer Substances 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 240000003705 Senecio vulgaris Species 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 108700042075 T-Cell Receptor Genes Proteins 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 201000007930 alcohol dependence Diseases 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000030833 cell death Effects 0.000 description 1
- 108091092356 cellular DNA Proteins 0.000 description 1
- 229960005395 cetuximab Drugs 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 208000006990 cholangiocarcinoma Diseases 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001739 density measurement Methods 0.000 description 1
- 230000000741 diarrhetic effect Effects 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 102000013165 exonuclease Human genes 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 238000005558 fluorometry Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 201000010536 head and neck cancer Diseases 0.000 description 1
- 208000014829 head and neck neoplasm Diseases 0.000 description 1
- 229940037467 helicobacter pylori Drugs 0.000 description 1
- 208000010710 hepatitis C virus infection Diseases 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 208000021145 human papilloma virus infection Diseases 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003426 interchromosomal effect Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 230000033607 mismatch repair Effects 0.000 description 1
- 230000011278 mitosis Effects 0.000 description 1
- 201000011216 nasopharynx carcinoma Diseases 0.000 description 1
- 210000002445 nipple Anatomy 0.000 description 1
- 210000002747 omentum Anatomy 0.000 description 1
- 229960001972 panitumumab Drugs 0.000 description 1
- 244000045947 parasite Species 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000036470 plasma concentration Effects 0.000 description 1
- 238000002600 positron emission tomography Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000003793 prenatal diagnosis Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 208000011581 secondary neoplasm Diseases 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 238000011896 sensitive detection Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 208000019694 serous adenocarcinoma Diseases 0.000 description 1
- 208000004548 serous cystadenocarcinoma Diseases 0.000 description 1
- 210000004927 skin cell Anatomy 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000004614 tumor growth Effects 0.000 description 1
- 229940121358 tyrosine kinase inhibitor Drugs 0.000 description 1
- 239000005483 tyrosine kinase inhibitor Substances 0.000 description 1
- 150000004917 tyrosine kinase inhibitor derivatives Chemical class 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Description
Ссылки на родственные заявкиLinks to related applications
Настоящая заявка представляет собой непредварительную заявку и испрашивает приоритет по предварительной заявке на патент США № 61/662878, названной Mutational analysis of plasma DNA for cancer detection, поданной 21 июня 2012 г.; предварительной заявки на патент США № 61/682725, названной Pakamutational analysis of plasma DNA for cancer detection, поданной 13 августа 2012 г.; предварительной заявки на патент США № 61/695795, названной Mutational analysis of plasma DNA for cancer detection, поданной 31 августа 2012 г.; и предварительной заявки на патент США № 61/711172, названной Mutational analysis of plasma DNA for cancer detection, поданной 8 октября 2012 г., которые полностью включены в данную заявку посредством ссылки во всех отношениях.This application is a non-provisional application and claims priority to U.S. Provisional Patent Application No. 61/662,878, entitled Mutational analysis of plasma DNA for cancer detection, filed June 21, 2012; U.S. Provisional Patent Application No. 61/682,725, entitled Pakamutational analysis of plasma DNA for cancer detection, filed August 13, 2012; U.S. Provisional Patent Application No. 61/695,795, entitled Mutational analysis of plasma DNA for cancer detection, filed August 31, 2012; and U.S. Provisional Patent Application No. 61/711,172, entitled Mutational analysis of plasma DNA for cancer detection, filed October 8, 2012, which are hereby incorporated by reference in their entireties.
Уровень техникиState of the art
Было показано, что ДНК опухолевого происхождения присутствует в свободной от клеток плазме/сыворотке пациентов с раковыми заболеваниями (Chen XQ и др. Nat Med 1996; 2: 1033-1035). Наиболее современные способы основаны на непосредственном анализе мутаций, о которых известно, что они связаны с раком (Diehl F и др. Proc Natl Acad Sci 2005; 102: 16368-16373; Forshew T и др. Sci Transl Med 2012; 4: 136ra68). В другом способе исследуют связанные с раком вариации числа копий, обнаруженные при случайном секвенировании ДНК в плазме (публикация патента США 2013/0040824, Lo и др.).Tumor-derived DNA has been shown to be present in cell-free plasma/serum from cancer patients (Chen XQ et al. Nat Med 1996; 2: 1033–1035). Most recent approaches rely on direct analysis of mutations known to be associated with cancer (Diehl F et al. Proc Natl Acad Sci 2005; 102: 16368–16373; Forshew T et al. Sci Transl Med 2012; 4: 136ra68). Another approach examines cancer-associated copy number variations detected by random DNA sequencing in plasma (US Patent Publication No. 2013/0040824, Lo et al.).
Известно, что с течением времени более чем одна раковая клетка получит преимущество роста и даст начало нескольким клонам дочерних клеток. В конечном счете, растущая опухоль и/или ее метастазы будут содержать конгломерат из групп клональных раковых клеток. Данное явление обычно называют гетерогенностью опухоли (Gerlinger М и др. N Engl J Med 2012; 366: 883-892; Yap ТА и др. Sci Transl Med 2012; 4: 127ps10).It is known that over time, more than one cancer cell will gain a growth advantage and give rise to several clones of daughter cells. Ultimately, the growing tumor and/or its metastases will contain a conglomerate of groups of clonal cancer cells. This phenomenon is commonly referred to as tumor heterogeneity (Gerlinger M et al. N Engl J Med 2012; 366: 883–892; Yap TA et al. Sci Transl Med 2012; 4: 127ps10).
Известно, что раковые заболевания высоко гетерогенны, т.е. мутационный профиль раковых заболеваний одного и того же типа ткани может значительно различаться.It is known that cancers are highly heterogeneous, i.e. the mutational profile of cancers of the same tissue type can vary significantly.
Следовательно, непосредственный анализ конкретных мутаций обычно позволяет обнаружить лишь подгруппу случаев с конкретным типом рака, для которых известна взаимосвязь с данными конкретными мутациями. Кроме того, ДНК опухолевого происхождения обычно составляет лишь небольшую часть ДНК в плазме человека; абсолютная концентрация ДНК в плазме низка. Следовательно, при непосредственном детектировании одной связанной с раком мутации или небольшой группы таких мутаций в плазме или сыворотке аналитическая чувствительность может быть низкой даже среди пациентов с раковыми заболеваниями, при которых, как известно, присутствуют целевые мутации. Более того, было показано, что имеет место существенная внутриопухолевая гетерогенность мутаций, даже в одной опухоли. Мутации могут обнаруживаться только в субпопуляции опухолевых клеток. Различие в мутационных профилях между первичной опухолью и метастатическими поражениями еще больше. Один пример гетерогенности между исходной опухолью и первичными метастазами включает гены KRAS, BRAF и PIK3CA у пациентов, страдающих от колоректального рака (Baldus и др. Clin Рак Research 2010. 16:790-9.).Consequently, direct analysis of specific mutations typically detects only a subset of cases in a particular cancer type for which association with those specific mutations is known. Furthermore, tumor-derived DNA typically accounts for only a small proportion of the DNA in human plasma; the absolute concentration of DNA in plasma is low. Consequently, when directly detecting a single cancer-associated mutation or a small subset of such mutations in plasma or serum, the assay sensitivity may be low even among patients with cancers in which the target mutations are known to be present. Furthermore, it has been shown that there is substantial intratumoral heterogeneity of mutations, even within a single tumor. Mutations may be detectable only in a subset of tumor cells. The differences in mutational profiles between the primary tumor and metastatic lesions are even greater. One example of heterogeneity between the original tumor and primary metastases involves the KRAS, BRAF, and PIK3CA genes in patients with colorectal cancer (Baldus et al. Clin Cancer Research 2010. 16:790-9.).
В случае, когда у пациента есть первичная опухоль (несущая мутацию KRAS, но не мутацию PIK3CA) и скрытое метастатическое повреждение (несущее мутацию PIK3CA, но не мутацию KRAS), если сосредоточиться на обнаружении мутации KRAS в первичной опухоли, то скрытое метастатическое поражение невозможно будет обнаружить. Тем не менее, если включить в анализ обе мутации, можно обнаружить как первичную опухоль, так и скрытое метастатическое поражение. Следовательно, анализ, включающий обе мутации, будет обладать большей чувствительностью в отношении обнаружения остаточных опухолевых тканей. Такой простой пример сильно усложняется, если проводят скрининговое обследование на присутствие рака и если информация о типе мутаций, которые могут возникнуть, незначительна или отсутствует.In a case where a patient has a primary tumor (carrying a KRAS mutation but not a PIK3CA mutation) and an occult metastatic lesion (carrying a PIK3CA mutation but not a KRAS mutation), if we focus on detecting the KRAS mutation in the primary tumor, the occult metastatic lesion will not be detected. However, if we include both mutations in the assay, we can detect both the primary tumor and the occult metastatic lesion. Therefore, an assay that includes both mutations will have greater sensitivity in detecting residual tumor tissue. This simple example becomes much more complex if we are screening for cancer and there is little or no information about the type of mutations that may occur.
Следовательно, существует потребность в новых способах осуществления широкого скрининга, детектирования или оценки рака.Therefore, there is a need for new ways to perform widespread cancer screening, detection or assessment.
Краткое описание изобретенияBrief description of the invention
В вариантах реализации могут исследовать частоту соматических мутаций в биологическом образце (например, в плазме или сыворотке) из субъекта, проходящего скрининг или мониторинг на наличие рака, по сравнению с таковыми в конститутивной ДНК того же субъекта. Для определения данных частот можно применять случайное секвенирование. По данным частотам можно получить параметр и применять его для установления классификации уровня рака. Ложноположительные результаты можно отсеять, если ввести требование, что любой вариантный локус должен по меньшей мере определенного количества считываемых последовательностей (маркеров) в любом измененном локусе, что позволяет получить более точный параметр. Можно проанализировать относительные частоты различных измененных локусов, чтобы определить уровень гетерогенности опухолей у пациента.In embodiments, the frequency of somatic mutations in a biological sample (e.g., plasma or serum) from a subject being screened or monitored for cancer may be examined compared to those in the constitutive DNA of the same subject. Random sequencing may be used to determine these frequencies. A parameter may be derived from these frequencies and used to establish a classification of the cancer level. False positives may be eliminated by requiring that any variant locus must have at least a certain number of read sequences (markers) at any altered locus, which allows for a more accurate parameter to be obtained. The relative frequencies of different altered loci may be analyzed to determine the level of tumor heterogeneity in a patient.
В одном варианте реализации указанный параметр можно сравнить с тем же параметром, полученным для группы субъектов без ракового заболевания или с низким риском развития рака. Существенное различие между данным параметром, полученным для тестируемого субъекта, и тем же параметром, полученным для группы субъектов без ракового заболевания или с низким риском развития рака, может свидетельствовать о повышенном риске того, что тестируемый субъект страдает раком или предзлокачественным состоянием, или что у него в будущем разовьется рак. Таким образом, в одном варианте реалиIn one embodiment, the parameter may be compared to the same parameter obtained for a group of subjects without cancer or with a low risk of developing cancer. A significant difference between the parameter obtained for the test subject and the same parameter obtained for the group of subjects without cancer or with a low risk of developing cancer may indicate an increased risk that the test subject has cancer or a pre-malignant condition, or that he will develop cancer in the future. Thus, in one embodiment,
- 1 048297 зации анализ ДНК в плазме можно осуществить, не обладая предварительной геномной информацией об опухоли. Такой вариант реализации, следовательно, особенно пригоден для скрининга на наличие рака.- 1 048297 DNA analysis of plasma can be performed without prior genomic information about the tumor. This implementation option is therefore particularly suitable for cancer screening.
В другом варианте реализации описанные варианты реализации также можно применять для мониторинга пациента с раковым заболеванием после лечения и для выявления наличия остаточной опухоли или рецидива опухоли. Например, у пациента с остаточной опухолью или у которого опухоль рецидивировала будет наблюдаться повышенная частота соматических мутаций по сравнению с пациентом, у которого нет остаточной опухоли или у которого не наблюдается рецидив опухоли. Мониторинг может включать получение образцов из пациента с раковым заболеванием в несколько моментов времени после лечения для установления временных изменений связанных с опухолью генетических аберраций в физиологических жидкостях или других образцах с внеклеточными нуклеиновыми кислотами, например, в плазме или сыворотке.In another embodiment, the described embodiments may also be used to monitor a patient with cancer after treatment and to detect the presence of residual tumor or tumor recurrence. For example, a patient with residual tumor or whose tumor has recurred will have an increased frequency of somatic mutations compared to a patient who does not have residual tumor or who does not have tumor recurrence. Monitoring may include obtaining samples from the patient with cancer at multiple time points after treatment to determine temporal changes in tumor-associated genetic aberrations in bodily fluids or other samples with extracellular nucleic acids, such as plasma or serum.
Согласно одному варианту реализации способ позволяет обнаружить рак или предзлокачественное изменение у субъекта. Получают конститутивный геном субъекта. Получают один или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце субъекта, если биологический образец содержит внеклеточную ДНК. Определяют положения в геноме маркеров последовательности. Маркеры последовательности сравнивают с конститутивным геномом, чтобы определить первое количество первых локусов. В каждом из первых локусов количество маркеров последовательности с вариантной последовательностью относительно конститутивного генома выше порогового значения, где пороговое значение больше единицы. На основании подсчета маркеров последовательности с вариантной последовательностью в первых локусах определяют параметр. Параметр сравнивают с пороговым значением, чтобы определить классификацию уровня рака у субъекта.According to one embodiment, the method allows detecting cancer or a pre-malignant change in a subject. A constitutive genome of the subject is obtained. One or more sequence markers are obtained for each of a plurality of DNA fragments in a biological sample of the subject, if the biological sample contains extracellular DNA. The positions of the sequence markers in the genome are determined. The sequence markers are compared with the constitutive genome to determine a first number of first loci. In each of the first loci, the number of sequence markers with a variant sequence relative to the constitutive genome is above a threshold value, where the threshold value is greater than one. Based on the count of sequence markers with a variant sequence in the first loci, a parameter is determined. The parameter is compared with the threshold value to determine the classification of the cancer level in the subject.
Согласно другому варианту реализации в способе анализируют гетерогенность одной или более опухолей у субъекта. Получают конститутивный геном субъекта. Получают один или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце субъекта, если биологический образец содержит внеклеточную ДНК. Определяют положения в геноме маркеров последовательности. Маркеры последовательности сравнивают с конститутивным геномом, чтобы определить первое количество первых локусов. В каждом из первых локусов количество маркеров последовательности с вариантной последовательностью относительно конститутивного генома выше порогового значения, где пороговое значение больше единицы. Меру гетерогенности одной или более опухолей рассчитывают на основании соответствующих первых количеств из набора первых положений в геноме.According to another embodiment, the method analyzes heterogeneity of one or more tumors in a subject. A constitutive genome of the subject is obtained. One or more sequence markers are obtained for each of a plurality of DNA fragments in a biological sample of the subject, if the biological sample contains extracellular DNA. The positions of the sequence markers in the genome are determined. The sequence markers are compared with the constitutive genome to determine the first number of first loci. In each of the first loci, the number of sequence markers with a variant sequence relative to the constitutive genome is above a threshold value, where the threshold value is greater than one. A measure of heterogeneity of one or more tumors is calculated based on the corresponding first numbers from the set of first positions in the genome.
Согласно другому варианту реализации в способе определяют фракционную концентрацию опухолевой ДНК в биологическом образце, содержащем внеклеточную ДНК. Получают один или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце. Определяют положения в геноме маркеров последовательности. Для каждой из множества областей генома определяют соответствующее количество фрагментов ДНК, принадлежащих данной области генома, с помощью маркеров последовательности, расположенных в геноме внутри данной области генома. Соответствующее количество нормируют с получением соответствующей плотности. Соответствующую плотность сравнивают с референсной плотностью, чтобы выявить в данной области генома утрату 1 копии или приобретение 1 копии. Первую плотность рассчитывают по соответствующим плотностям с выявленной утратой 1 копии или по соответствующим плотностям с выявленным приобретением 1 копии. Фракционную концентрацию рассчитывают путем сравнения первой плотности с другой плотностью с получением разности, при этом разность нормируют на референсную плотность.According to another embodiment of the method, the fractional concentration of tumor DNA in a biological sample containing extracellular DNA is determined. One or more sequence markers are obtained for each of a plurality of DNA fragments in the biological sample. The positions of the sequence markers in the genome are determined. For each of a plurality of genome regions, the corresponding number of DNA fragments belonging to this genomic region is determined using the sequence markers located in the genome within this genomic region. The corresponding number is normalized to obtain the corresponding density. The corresponding density is compared with the reference density in order to detect the loss of 1 copy or the gain of 1 copy in this genomic region. The first density is calculated by the corresponding densities with the detected loss of 1 copy or by the corresponding densities with the detected gain of 1 copy. The fractional concentration is calculated by comparing the first density with another density to obtain the difference, wherein the difference is normalized to the reference density.
Другие варианты реализации направлены на системы и машиночитаемые носители, связанные со способами, описанными в данной заявке.Other embodiments are directed to systems and computer-readable media associated with the methods described in this application.
Лучшего понимания природы и преимуществ настоящего изобретения можно добиться, основываясь на следующем подробном описании и сопроводительных фигурах.A better understanding of the nature and advantages of the present invention can be obtained from the following detailed description and accompanying drawings.
Краткое описание фигурBrief description of the figures
На фиг. 1 представлена блок-схема способа 100 детектирования рака или предзлокачественного изменения у субъекта согласно вариантам реализации настоящего изобретения.Fig. 1 is a flow chart of a method 100 for detecting cancer or a pre-cancerous lesion in a subject according to embodiments of the present invention.
На фиг. 2 показана блок-схема способа непосредственного сравнения генома образца (ГО) с конститутивным геномом (КГ) согласно вариантам реализации настоящего изобретения.Fig. 2 shows a flow chart of a method for directly comparing a sample genome (SG) with a constitutive genome (CG) according to embodiments of the present invention.
На фиг. 3 показана блок-схема способа 300 сравнения генома образца (ГО) с конститутивным геномом (КГ) с использованием референсного генома (ЭГ) согласно вариантам реализации настоящего изобретения.Fig. 3 shows a flow chart of a method 300 for comparing a sample genome (SG) with a constitutive genome (CG) using a reference genome (RG) according to embodiments of the present invention.
На фиг. 4 представлена таблица 400, в которой показано количество связанных с раком однонуклеотидных мутаций, правильно детектированных с использованием встречаемости различных их количеств в качестве критерия для классификации мутации как присутствующей в образце согласно вариантам реализации настоящего изобретения, когда фракционную концентрацию ДНК опухолевого происхождения в образце принимают равной 10%.Fig. 4 is a table 400 showing the number of cancer-associated single nucleotide mutations correctly detected using the frequency of different amounts thereof as a criterion for classifying a mutation as present in a sample according to embodiments of the present invention, when the fractional concentration of tumor-derived DNA in the sample is set to 10%.
На фиг. 5 представлена таблица, в которой показано ожидаемое количество ложноположительных локусов и ожидаемое количество мутаций, детектированных когда фракционную концентрацию ДНК опухолевого происхождения в образце принимают равной 5%.Fig. 5 shows a table showing the expected number of false positive loci and the expected number of mutations detected when the fractional concentration of tumor-derived DNA in the sample is taken to be 5%.
- 2 048297- 2 048297
На фиг. 6А представлена диаграмма 600, на которой показана частота детектирования связанных с раком мутаций в плазме с фракционными концентрациями ДНК опухолевого происхождения в плазме, составляющими 10% и 20%, и применение встречаемостей (r), равных четырем и шести, в качестве критериев для определения потенциальных связанных с раком мутаций.Fig. 6A is a diagram 600 showing the detection frequency of cancer-associated mutations in plasma with fractional concentrations of tumor-derived DNA in plasma of 10% and 20%, and the use of incidences (r) of four and six as criteria for identifying potential cancer-associated mutations.
На фиг. 6В представлена диаграмма 650, на которой показано ожидаемое количество положений нуклеотидов, которые были ошибочно классифицированы как содержащие нуклеотидную замену с применением критериев встречаемости (r), равных 4, 5, 6 и 7, в зависимости от глубины секвенирования.Fig. 6B is a diagram 650 showing the expected number of nucleotide positions that were misclassified as containing a nucleotide substitution using r criteria of 4, 5, 6, and 7, as a function of sequencing depth.
На фиг. 7А представлена диаграмма 700, на которой показано количество истинных связанных с раком мутированных сайтов и ложноположительных сайтов для различных глубин секвенирования, когда фракционную концентрацию ДНК опухолевого происхождения в образце принимают равной 5%.Fig. 7A is a diagram 700 showing the number of true cancer-associated mutated sites and false positive sites for different sequencing depths when the fractional concentration of tumor-derived DNA in the sample is set to 5%.
На фиг. 7В представлена диаграмма 750, на которой показано прогнозируемое количество ложноположительных сайтов при проведении анализа полного генома (ПГ) и всех экзонов.Fig. 7B is a diagram 750 showing the predicted number of false positive sites when performing a whole genome (WG) and all exons analysis.
На фиг. 8 представлена табл. 800, на которой показаны результаты для 4 пациентов с гепатоклеточной карциномой (ГКК) до и после лечения, включающие фракционные концентрации ДНК опухолевого происхождения в плазме согласно вариантам реализации настоящего изобретения.Fig. 8 is a table 800 showing the results for 4 patients with hepatocellular carcinoma (HCC) before and after treatment, including fractional concentrations of tumor-derived DNA in plasma according to embodiments of the present invention.
На фиг. 9 представлена табл. 900, на которой показано детектирование связанных с ГКК однонуклеотидных вариаций (ОНВ) у 16 здоровых контрольных субъектов согласно вариантам реализации настоящего изобретения.Fig. 9 is a table 900 showing the detection of HCC-associated single nucleotide variations (SNVs) in 16 healthy control subjects according to embodiments of the present invention.
На фиг. 10А показан график распределения плотностей считываемых последовательностей образца опухоли из пациента с ГКК согласно вариантам реализации настоящего изобретения.Fig. 10A shows a graph of the distribution of read sequence densities of a tumor sample from a patient with HCC according to embodiments of the present invention.
На фиг. 10В показан график распределения 1050 z-показателей для всех фрагментов в плазме пациента с ГКК согласно вариантам реализации настоящего изобретения.Fig. 10B shows a graph of the distribution of 1050 z-scores for all fragments in the plasma of a patient with HCC according to embodiments of the present invention.
На фиг. 11 показан график распределения 1100 z-показателей для плазмы из пациента с ГКК согласно вариантам реализации настоящего изобретения.Fig. 11 shows a graph of the distribution of 1100 z-scores for plasma from a patient with HCC according to embodiments of the present invention.
На фиг. 12 представлена блок-схема способа 1200 определения фракционной концентрации опухолевой ДНК в биологическом образце, содержащем внеклеточную ДНК, согласно вариантам реализации настоящего изобретения.Fig. 12 is a flow chart of a method 1200 for determining a fractional concentration of tumor DNA in a biological sample containing extracellular DNA, according to embodiments of the present invention.
На фиг. 13А показана табл. 1300 анализа мутаций в плазме пациента с раком яичника и раком молочной железы на момент диагностики согласно вариантам реализации настоящего изобретения.Fig. 13A shows Table 1300 of the analysis of mutations in the plasma of a patient with ovarian cancer and breast cancer at the time of diagnosis according to embodiments of the present invention.
На фиг. 13В показана табл. 1350 анализа мутаций в плазме пациента с двусторонним раком яичников и раком молочной железы после резекции опухоли согласно вариантам реализации настоящего изоб ретения.Fig. 13B shows Table 1350 of the analysis of mutations in the plasma of a patient with bilateral ovarian cancer and breast cancer after tumor resection according to embodiments of the present invention.
На фиг. 14А представлена табл. 1400, на которой показано детектирование однонуклеотидных вариаций в ДНК в плазме для пациента 1 с ГКК (ГКК1).Fig. 14A is a table 1400 showing the detection of single nucleotide variations in plasma DNA for patient 1 with HCC (HCC1).
На фиг. 14В представлена табл. 1450, на которой показано детектирование однонуклеотидных вариаций в ДНК в плазме для пациента ГКК2.Fig. 14B is a table 1450 showing the detection of single nucleotide variations in plasma DNA for patient HKK2.
На фиг. 15А представлена табл. 1500, на которой показано детектирование однонуклеотидных вариаций в ДНК в плазме для пациента ГКК3.Fig. 15A is a table 1500 showing the detection of single nucleotide variations in plasma DNA for patient HKK3.
На фиг. 15В представлена табл. 1550, на которой показано детектирование однонуклеотидных вариаций в ДНК в плазме для пациента ГКК4.Fig. 15B is a table 1550 showing the detection of single nucleotide variations in plasma DNA for patient HKK4.
На фиг. 16 представлена табл. 1600, на которой показано детектирование однонуклеотидных вариаций в ДНК в плазме для пациента с раком яичников (и груди).Fig. 16 is a Table 1600 showing the detection of single nucleotide variations in DNA in plasma for a patient with ovarian (and breast) cancer.
На фиг. 17 представлена табл. 1700, на которой показаны предсказанные чувствительности различных требований встречаемости и глубин секвенирования.Fig. 17 is a table 1700 showing the predicted sensitivities of different frequency and sequencing depth requirements.
На фиг. 18 представлена табл. 1800, на которой показаны прогнозируемые количества ложноположительных локусов для различных пороговых значений и различных глубин секвенирования.Fig. 18 shows Table 1800, which shows the predicted numbers of false positive loci for different threshold values and different sequencing depths.
На фиг. 19 показана древовидная диаграмма, иллюстрирующая количество мутаций, детектированных в различных локализациях опухоли.Fig. 19 shows a tree diagram illustrating the number of mutations detected in different tumor locations.
На фиг. 20 представлена табл. 2000, на которой показано количество фрагментов, несущих мутации опухолевого происхождения, в образце плазмы до лечения и после лечения.Fig. 20 shows Table 2000, which shows the number of fragments carrying tumor-related mutations in a plasma sample before and after treatment.
На фиг. 21 представлена диаграмма 2100, на которой показаны распределения встречаемости в плазме мутаций, детектированных в одной локализации опухоли, и мутаций, детектированных во всех четырех локализациях опухоли.Fig. 21 is a diagram 2100 showing the distributions of the plasma incidence of mutations detected in one tumor site and mutations detected in all four tumor sites.
На фиг. 22 представлена диаграмма 2200, на которой показано прогнозируемое распределение встречаемости в плазме мутаций, происходящих от гетерогенной опухоли.Fig. 22 is a diagram 2200 showing the predicted distribution of the incidence of mutations in plasma originating from a heterogeneous tumor.
На фиг. 23 продемонстрирована специфичность вариантов реализации для 16 привлеченных здоровых контрольных субъектов.Fig. 23 shows the specificity of the implementation variants for 16 healthy control subjects recruited.
На фиг. 24 представлена блок-схема способа 2400 анализа гетерогенности одной или более опухолей субъекта согласно вариантам реализации настоящего изобретения.Fig. 24 is a flow chart of a method 2400 for analyzing heterogeneity of one or more tumors of a subject according to embodiments of the present invention.
На фиг. 25 показана блок-схема типичной компьютерной системы 2500, применимой с системой и способами согласно вариантам реализации настоящего изобретения.Fig. 25 is a block diagram of a typical computer system 2500 useful with the system and methods according to embodiments of the present invention.
- 3 048297- 3 048297
ОпределенияDefinitions
В данной заявке термин локус или его множественная форма локусы представляет собой положение или адрес фрагмента нуклеотидов (или пар оснований) любой длины, который может содержать вариации в различных геномах. Фрагмент представляет собой участок заранее определенной длины в геноме. У множества фрагментов может быть одинаковая первая длина (разрешение), тогда как у отличного множества может быть одинаковая вторая длина. В одном варианте реализации фрагменты не перекрываются друг с другом.In this application, the term locus or its plural form loci represents the position or address of a fragment of nucleotides (or base pairs) of any length that may contain variations in different genomes. A fragment is a section of a predetermined length in a genome. A plurality of fragments may have the same first length (resolution), while a different plurality may have the same second length. In one embodiment, the fragments do not overlap with each other.
Термин случайное секвенирование в данной заявке относится к секвенированию, при котором секвенированные фрагменты нуклеиновых кислот специально не идентифицировали или заранее не определяли перед процедурой секвенирования. Специфичные к последовательности праймеры для нацеливания на определенные локусы генов не требуются. Термин универсальное секвенирование относится к такому секвенированию, при котором процесс секвенирования может начаться с любого фрагмента. В одном варианте реализации к концу фрагмента добавляют адаптеры, и праймеры для секвенирования соединяются с адаптерами. Таким образом, любой фрагмент можно секвенировать с помощью одного и того же праймера и, таким образом, секвенирование может быть случайным.The term random sequencing in this application refers to sequencing in which the nucleic acid fragments to be sequenced are not specifically identified or predetermined prior to the sequencing procedure. Sequence-specific primers to target specific gene loci are not required. The term universal sequencing refers to such sequencing in which the sequencing process can begin from any fragment. In one embodiment, adapters are added to the end of the fragment and sequencing primers are coupled to the adapters. In this way, any fragment can be sequenced using the same primer and thus the sequencing can be random.
Термин маркер последовательности (также называемый считываемой последовательностью) в данной заявке относится к цепочке нуклеотидов, секвенированной с любой части или по всей молекуле нуклеиновой кислоты. Например, секвенированный маркер может представлять собой короткую цепочку нуклеотидов (например, ~ 30), секвенированную по фрагменту нуклеиновой кислоты, короткую цепочку нуклеотидов с обоих концов фрагмента нуклеиновой кислоты или секвенирование целого фрагмента нуклеиновой кислоты, который присутствует в биологическом образце. Фрагмент нуклеиновой кислоты представляет собой любую часть более длинной молекулы нуклеиновой кислоты. Фрагмент (например, ген) может существовать отдельно (т.е. в не соединенном виде) от других частей более длинной молекулы нуклеиновой кислоты.The term sequence marker (also referred to as a readable sequence) as used herein refers to a string of nucleotides sequenced from any portion or all of a nucleic acid molecule. For example, a sequenced marker may be a short string of nucleotides (e.g., ~30) sequenced from a nucleic acid fragment, a short string of nucleotides from both ends of a nucleic acid fragment, or sequencing of an entire nucleic acid fragment that is present in a biological sample. A nucleic acid fragment is any portion of a longer nucleic acid molecule. A fragment (e.g., a gene) may exist separately (i.e., unlinked) from other portions of the longer nucleic acid molecule.
В данной заявке конститутивный геном (также называемый КГ) состоит из консенсусных нуклеотидов в локусах внутри генома, и, следовательно, можно считать его консенсусной последовательностью. КГ может охватывать весь геном субъекта (например, геном человека) или только части генома. Конститутивный геном (КГ) можно получить из ДНК клеток, а также из внеклеточной ДНК (например, которую можно обнаружить в плазме). В идеальном случае, консенсусные нуклеотиды должны указывать на то, что локус является гомозиготным по одной аллели или гетерозиготным по двум аллелям. Гетерозиготный локус обычно включает две аллели, которые содержат генетический полиморфизм. В качестве примера, критерием для определения того, является ли локус гетерозиготным, может быть порог появления каждой из двух аллелей в по меньшей мере заранее определенном проценте считываемых последовательностей (например, 30% или 40%), выровненных по данному локусу. Если один гомозиготный нуклеотид появляется с достаточным процентом (например, 70% или больше), тогда локус можно считать гомозиготным в КГ. Хотя геном одной здоровой клетки может отличаться от генома другой здоровой клетки вследствие случайных мутаций, происходящих спонтанно в процессе деления клетки, КГ не должен изменяться, когда используется такой консенсус. В геномах некоторых клеток могут происходить геномные перестройки, например, в В- и Т-лимфоцитах, такие как перестройки, затрагивающие гены антител и Т-клеточных рецепторов. Такие крупномасштабные различия все же будут затрагивать относительно небольшую популяцию от всей популяции ядросодержащих клеток в крови, и, таким образом, такие перестройки не будут влиять на определение конститутивного генома при достаточной выборке (например, глубине секвенирования) кровяных клеток.In this application, the constitutive genome (also referred to as CG) consists of consensus nucleotides at loci within the genome and can therefore be considered a consensus sequence. The CG may encompass the entire genome of a subject (e.g., the human genome) or only portions of the genome. The constitutive genome (CG) may be obtained from cellular DNA as well as from cell-free DNA (e.g., that which can be found in plasma). Ideally, the consensus nucleotides should indicate that the locus is homozygous for one allele or heterozygous for two alleles. A heterozygous locus typically includes two alleles that contain a genetic polymorphism. As an example, a criterion for determining whether a locus is heterozygous may be a threshold for each of the two alleles to appear in at least a predetermined percentage of sequence reads (e.g., 30% or 40%) aligned to the locus. If a single homozygous nucleotide occurs at a sufficient percentage (e.g., 70% or more), then the locus can be considered homozygous in the GC. Although the genome of one healthy cell may differ from that of another healthy cell due to random mutations that occur spontaneously during cell division, the GC should not change when such a consensus is used. Genomic rearrangements may occur in the genomes of some cells, for example, in B and T lymphocytes, such as rearrangements affecting antibody and T cell receptor genes. Such large-scale differences would still affect a relatively small subset of the total population of nucleated cells in the blood, and thus such rearrangements would not affect the definition of the constitutive genome if sufficient sampling (e.g., sequencing depth) of blood cells were available.
Другие типы клеток, включая буккальные клетки, клетки кожи, волосяные фолликулы или биоптаты различных нормальных тканей организма, также могут служить источниками КГ.Other cell types, including buccal cells, skin cells, hair follicles, or biopsies of various normal body tissues, can also serve as sources of CG.
Термин конститутивная ДНК относится к любому источнику ДНК, который отражает генетический состав, с которым субъект родился. Примеры конститутивных образцов субъекта, из которых можно получить конститутивную ДНК, включают здоровую ДНК клеток крови, ДНК буккальных клеток и ДНК корня волоса. ДНК из данных здоровых клеток составляет КГ субъекта. Определить, что клетки здоровы, можно множеством способов, например, когда известно, что индивид не страдает раком, или образец можно получить из ткани, которая скорее всего не содержит раковые или предзлокачественные клетки (например, ДНК корня волоса, когда подозревают рак печени). В качестве другого примера, образец плазмы можно получить, когда у пациента нет рака, и детектированную конститутивную ДНК сравнить с результатами для полученного впоследствии образца плазмы (например, через год или позже). В другом варианте реализации единичный биологический образец, содержащий <50% опухолевой ДНК, можно применять выявления конститутивного генома и связанных с опухолью генетических изменений. В таком образце концентрации связанных с опухолью однонуклеотидных мутаций будут ниже, чем таковые для каждой аллели гетерозиготных однонуклеотидных полиморфизмов ОНП в КГ. Такой образец может быть тем же, что и биологический образец, используемый для определения генома образца, описанного ниже.The term constitutive DNA refers to any source of DNA that reflects the genetic makeup with which a subject is born. Examples of constitutive samples of a subject from which constitutive DNA can be obtained include healthy blood cell DNA, buccal cell DNA, and hair root DNA. DNA from these healthy cells constitutes the CG of the subject. It can be determined that the cells are healthy in a variety of ways, such as when the individual is known to be cancer-free, or the sample can be obtained from tissue that is unlikely to contain cancerous or pre-cancerous cells (e.g., hair root DNA when liver cancer is suspected). As another example, a plasma sample can be obtained when the patient is cancer-free, and the detected constitutive DNA compared to the results for a subsequently obtained plasma sample (e.g., one year or later). In another embodiment, a single biological sample containing <50% tumor DNA can be used to detect the constitutive genome and tumor-associated genetic changes. In such a sample, the concentrations of tumor-associated single nucleotide mutations will be lower than those for each allele of the heterozygous single nucleotide polymorphisms of the SNPs in the CG. Such a sample may be the same as the biological sample used for the genome determination of the sample described below.
Термин биологический образец в данной заявке относится к любому образцу, который забирают у субъекта (например, у человека, индивида, страдающего раком, индивида, у которого подозревают налиThe term biological sample in this application refers to any sample that is collected from a subject (e.g., a human, an individual suffering from cancer, an individual suspected of having
- 4 048297 чие рака, или у других организмов), и включает одну или более интересующую внеклеточную молекулу (молекулы) нуклеиновой кислоты. Биологический образец может включать внеклеточную ДНК, часть которой могла произойти от здоровых клеток и часть - от опухолевых клеток. Например, опухолевую ДНК можно найти в крови или других жидкостях, например, в моче, плевральной жидкости, асцитической жидкости, перитонеальной жидкости, слюне, слезах или спинномозговой жидкости. Не относящийся к жидкости пример представляет собой образец кала, который может быть смешан с диарейной жидкостью. Для некоторых из таких образцов биологический образец можно получить неинвазивным способом. В некоторых вариантах реализации биологический образец можно использовать в качестве конститутивного образца.- 4 048297 cancer, or in other organisms), and includes one or more extracellular nucleic acid molecule(s) of interest. The biological sample may include extracellular DNA, some of which may have originated from healthy cells and some of which may have originated from tumor cells. For example, tumor DNA may be found in blood or other fluids, such as urine, pleural fluid, ascitic fluid, peritoneal fluid, saliva, tears, or cerebrospinal fluid. A non-fluid example is a stool sample, which may be mixed with diarrheal fluid. For some of these samples, the biological sample may be obtained non-invasively. In some embodiments, the biological sample may be used as a constitutive sample.
Термин геном образца (также называемый ГО) представляет собой набор считываемых последовательностей, которые выровняли с положениями в геноме (например, геноме человека). Геном образца (ГО) не является консенсусной последовательностью, но включает нуклеотиды, которые могут появиться только при достаточном количестве считываемых последовательностей (например, при пороговых значениях, равных по меньшей мере 2 или 3, или больше). Если аллель появляется достаточное количество раз и не является частью КГ (т.е. не является частью консенсусной последовательности), тогда этот аллель может обозначать однонуклеотидную мутацию (также называемую OHM). Применяя настоящее изобретение, также можно обнаружить другие типы мутаций, например, мутации, включающие два или более нуклеотидов (такие, которые влияют на количество тандемных повторов в микросателлите, или такие, как полиморфизм простого тандемного повтора), хромосомную транспозицию (которая может быть внутрихромосомной или межхромосомной) и инверсию последовательности.The term sample genome (also called SG) is a set of sequence reads that are aligned with positions in a genome (e.g., the human genome). The sample genome (SG) is not a consensus sequence, but includes nucleotides that can only appear at a sufficient number of sequence reads (e.g., at thresholds of at least 2 or 3 or more). If an allele appears a sufficient number of times and is not part of the CG (i.e., is not part of the consensus sequence), then this allele can denote a single nucleotide mutation (also called OHM). Using the present invention, other types of mutations can also be detected, such as mutations involving two or more nucleotides (such as those affecting the number of tandem repeats in a microsatellite, or such as a simple tandem repeat polymorphism), chromosomal transposition (which can be intrachromosomal or interchromosomal) and sequence inversion.
Термин референсный геном (также называемый ЭГ) относится к гаплоидному или диплоидному геному, с которым можно выровнять и сравнить считываемые последовательности из биологического образца и конститутивного образца. В каждом локусе гаплоидного генома может быть только один нуклеотид. В диплоидном геноме можно обнаружить гетерозиготные локусы, при этом такой локус содержит две аллели, где любая аллель может обеспечить совпадение для выравнивания с данным локусом.The term reference genome (also called RG) refers to a haploid or diploid genome to which reads from a biological sample and a constitutive sample can be aligned and compared. Each locus in a haploid genome can only contain one nucleotide. Heterozygous loci can be found in a diploid genome, where a locus contains two alleles, where either allele can provide a match for alignment with that locus.
Термин уровень рака может относиться к любому из перечисленного: наличию рака, стадии рака, размеру опухоли и/или другим мерам тяжести рака. Уровень рака может представлять собой количество или другую характеристику. Уровень может быть равен нулю. Уровень рака также включает предзлокачественные или предраковые состояния (статусы), ассоциированные с мутациями или множеством мутаций. Уровень рака можно использовать различными способами. Например, в результате скрининга можно проверить наличие рака у кого-либо, у кого ранее не был выявлен рак. Оценка поможет исследовать кого-либо, у кого был диагностирован рак. Детектирование может означать скрининг или может означать проверку того, страдает ли раком кто-либо, у кого были детектированы признаки, позволяющие предположить наличие рака (например, симптомы или другие положительные анализы).The term cancer grade may refer to any of the following: the presence of cancer, the stage of cancer, the size of the tumor, and/or other measures of the severity of cancer. Cancer grade may be a quantity or other characteristic. The grade may be zero. Cancer grade also includes pre-malignant or precancerous conditions (statuses) associated with mutations or sets of mutations. Cancer grade may be used in a variety of ways. For example, screening may test for cancer in someone who has not previously been diagnosed with cancer. Assessment may test for cancer in someone who has been diagnosed with cancer. Detection may mean screening, or it may mean checking to see if someone who has signs suggestive of cancer (such as symptoms or other positive tests) has cancer.
Подробное описание изобретенияDetailed description of the invention
Предложены варианты реализации для детектирования рака путем анализа биологического образца (например, образца плазмы/сыворотки крови), который не берут непосредственно из опухоли и который содержит внеклеточные нуклеиновые кислоты. Внеклеточные нуклеиновые кислоты могут происходить из различных типов ткани по всему организму. Таким образом, можно провести обширный анализ для детектирования различных раковых заболеваний.Implementation options are provided for detecting cancer by analyzing a biological sample (e.g., a plasma/serum sample) that is not taken directly from a tumor and that contains extracellular nucleic acids. Extracellular nucleic acids can originate from various types of tissue throughout the body. Thus, a broad analysis can be performed to detect various cancers.
Генетические аберрации (включая однонуклеотидные мутации, делеции, амплификации и перестройки) накапливаются в опухолевых клетках в процессе развития раковых заболеваний. В вариантах реализации можно применять массовое параллельное секвенирование для детектирования и определения количества однонуклеотидных мутаций (OHM), также называемых однонуклеотидными вариациями (ОНВ), в биологических жидкостях (например, плазме, сыворотке, слюне, асцитической жидкости, плевральной жидкости и спинномозговой жидкости), чтобы обнаружить и контролировать раковые заболевания. Анализ количества OHM (или другого типа мутаций) может обеспечить механизм определения ранних стадий рака в рамках скрининговых тестов. В различных вариантах реализации заботятся о том, чтобы отличить ошибки секвенирования и отличить спонтанные мутации, происходящие в здоровых клетках (например, требуя детектирования в конкретном локусе нескольких OHM, например, по меньшей мере 3, 4 или 5).Genetic aberrations (including single nucleotide mutations, deletions, amplifications and rearrangements) accumulate in tumor cells during the development of cancer diseases. In embodiments, massively parallel sequencing can be used to detect and quantify single nucleotide mutations (OHMs), also called single nucleotide variations (SNVs), in biological fluids (e.g., plasma, serum, saliva, ascitic fluid, pleural fluid and cerebrospinal fluid) to detect and monitor cancer diseases. Analysis of the amount of OHMs (or other types of mutations) can provide a mechanism for detecting early stages of cancer as part of screening tests. In various embodiments, care is taken to distinguish sequencing errors and to distinguish spontaneous mutations occurring in healthy cells (e.g., by requiring the detection of several OHMs, such as at least 3, 4 or 5, at a particular locus).
В некоторых вариантах реализации также предложены неинвазивные способы анализа гетерогенности опухоли, которые могут включать клетки из одной и той же опухоли (т.е. внутриопухолевая гетерогенность) или клетки из различных опухолей (либо из того же сайта, либо из различных сайтов) внутри организма. Например, можно неинвазивно проанализировать клональную структуру такой гетерогенности опухоли, включая оценку относительной массы опухолевых клеток, содержащих каждую мутацию. Мутации, которые присутствуют в более высоких относительных концентрациях, присутствуют в большем количестве злокачественных клеток в организме, например, в клетках, которые появились раньше в процессе онкогенеза по сравнению с другими злокачественными клетками, также присутствующими в организме (Welch JS и др. Cell 2012; 150: 264-278). Ожидается, что такие мутации, вследствие их большей относительной распространенности, обеспечат большую диагностическую чувствительность для детектирования раковой ДНК, чем таковые с меньшей относительной распространенностью. ПериодичеIn some embodiments, non-invasive methods are also provided for analyzing tumor heterogeneity, which may include cells from the same tumor (i.e., intra-tumor heterogeneity) or cells from different tumors (either from the same site or from different sites) within the body. For example, the clonal structure of such tumor heterogeneity can be non-invasively analyzed, including assessing the relative abundance of tumor cells containing each mutation. Mutations that are present in higher relative concentrations are present in more malignant cells in the body, such as cells that arose earlier in the tumorigenesis process compared to other malignant cells also present in the body (Welch JS et al. Cell 2012; 150: 264-278). Such mutations, due to their higher relative abundance, are expected to provide greater diagnostic sensitivity for the detection of cancer DNA than those with lower relative abundance. Periodically
- 5 048297 ский мониторинг изменения относительной распространенности мутаций обеспечит возможность неинвазивного контроля изменений в клональном составе опухолей, либо спонтанных по мере прогрессирования заболевания, либо в ответ на лечение. Такая информация будет полезна для оценки прогноза или для раннего детектирования устойчивости опухоли к лечению.- 5 048297 logical monitoring of changes in the relative prevalence of mutations will provide the possibility of noninvasive monitoring of changes in the clonal composition of tumors, either spontaneous as the disease progresses or in response to treatment. Such information will be useful for assessing prognosis or for early detection of tumor resistance to treatment.
I. Введение.I. Introduction.
Мутации могут возникать в процессе деления клетки из-за ошибок при репликации ДНК и/или репарации ДНК. Один тип таких мутаций включает изменение отдельных нуклеотидов, которое может происходить в нескольких последовательностях из различных областей генома. Как правило, полагают, что раковые заболевания возникают вследствие клональной экспансии отдельной раковой клетки, которая получила преимущество роста. Такая клональная экспансия будет приводить к накоплению мутациий (например, однонуклеотидных мутаций) во всех раковых клетках, которые произошли от исходной раковой клетки. У таких вторичных опухолевых клеток будет одинаковый набор мутаций (например, однонуклеотидных мутаций). В данной заявке описано, что ассоциированные с раком однонуклеотидные мутации обнаруживают в плазме/сыворотке пациентов с раковыми заболеваниями.Mutations may arise during cell division due to errors in DNA replication and/or DNA repair. One type of such mutation involves a change in single nucleotides, which may occur in multiple sequences from different regions of the genome. Cancers are generally believed to arise from the clonal expansion of a single cancer cell that has gained a growth advantage. Such clonal expansion will result in the accumulation of mutations (e.g., single nucleotide mutations) in all cancer cells that have evolved from the original cancer cell. Such secondary tumor cells will have the same set of mutations (e.g., single nucleotide mutations). This application describes that cancer-associated single nucleotide mutations are found in the plasma/serum of patients with cancer.
Некоторые варианты реализации позволяют эффективно осуществить скрининг всех мутаций в биологическом образце (например, в плазме или сыворотке). Так как количество мутаций не фиксировано (можно обнаружить сотни, тысячи или миллионы связанных с раком мутаций из различных субпопуляций опухолевых клеток), варианты реализации могут обеспечить большую чувствительность, чем методики, которые позволяют обнаружить конкретные мутации. Для детектирования рака можно использовать множество мутаций.Some embodiments can efficiently screen for all mutations in a biological sample (e.g., plasma or serum). Because the number of mutations is not fixed (hundreds, thousands, or millions of cancer-associated mutations may be detected from different tumor cell subpopulations), embodiments can provide greater sensitivity than techniques that detect specific mutations. Multiple mutations can be used to detect cancer.
Для того чтобы осуществить такой скрининг множества или всех мутаций, в вариантах реализации могут проводить поиск (например, случайный поиск) генетических изменений в биологическом образце (например, в физиологических жидкостях, включая плазму и сыворотку), который может содержать ДНК опухолевого происхождения. Применение образца, такого как плазма, избавляет от необходимости проведения инвазивной биопсии опухоли или рака. Кроме того, так как скрининг может покрывать весь геном или большие фрагменты генома, такой скрининг не ограничен какими-либо перечислимыми и известными мутациями, но в нем может использоваться любая существующая мутация. Более того, поскольку количество мутаций суммируется по всему геному или по большим фрагментам генома, можно получить более высокую чувствительность.In order to perform such screening of a plurality or all mutations, embodiments may search (e.g., randomly search) for genetic changes in a biological sample (e.g., in physiological fluids, including plasma and serum), which may contain tumor-derived DNA. Using a sample such as plasma eliminates the need for an invasive tumor or cancer biopsy. In addition, since the screening may cover the entire genome or large portions of the genome, such screening is not limited to any enumerated and known mutations, but may use any existing mutation. Moreover, since the number of mutations is summed up over the entire genome or large portions of the genome, higher sensitivity may be achieved.
Тем не менее, в геноме человека существуют полиморфные сайты, включая однонуклеотидные полиморфизмы (ОНП), которые не следует считать мутациями. С помощью вариантов реализации можно установить, похоже ли, что генетические изменения, которые были обнаружены, являются связанными с раком мутациями, или они представляют собой полиморфизмы в геноме. Например, в рамках выявления различия между связанными с раком мутациями и полиморфизмами в геноме, варианты реализации позволяют определить конститутивный геном, который может включать полиморфизмы.However, there are polymorphic sites in the human genome, including single nucleotide polymorphisms (SNPs), which should not be considered mutations. The embodiments can determine whether the genetic changes that have been detected are likely to be cancer-associated mutations or whether they represent polymorphisms in the genome. For example, in the context of distinguishing between cancer-associated mutations and polymorphisms in the genome, the embodiments allow the determination of a constitutive genome that may include polymorphisms.
Полиморфизмы конститутивного генома (КГ) можно ограничить полиморфизмами, которые представлены с достаточно высоким процентным содержанием (например, 30-40%) в результатах секвенирования.Constitutive genome (CG) polymorphisms can be limited to polymorphisms that are represented at a sufficiently high percentage (e.g., 30-40%) in the sequencing results.
Последовательности, полученные из биологического образца, можно затем выровнять с конститутивным геномом и обнаружить вариации, которые представляют собой однонуклеотидные мутации (OHM), или другие типы мутаций. Данные OHM будут представлять собой вариации, не включенные в известные полиморфизмы, и, таким образом, можно отметить, что они связаны с раком и не относятся к конститутивному геному. У здорового индивида может встречаться некоторое количество OHM вследствие случайных мутаций в здоровых клетках, например, возникших в процессе деления клетки, но у индивида, страдающего раком, их будет гораздо больше.Sequences obtained from a biological sample can then be aligned with the housekeeping genome to detect variations that represent single nucleotide mutations (OHMs) or other types of mutations. These OHMs will represent variations that are not included in the known polymorphisms and can thus be noted as being associated with cancer and not part of the housekeeping genome. A healthy individual may have some OHMs due to random mutations in healthy cells, such as those that arise during cell division, but an individual with cancer will have many more.
Например, у страдающего раком индивида количество OHM, детектируемых в физиологической жидкости, будет выше, чем количество полиморфизмов, присутствующих в конститутивном геноме того же индивида. Можно сравнить количества вариаций, детектируемых в образце физиологической жидкости, содержащем ДНК опухолевого происхождения, и в образце ДНК, содержащем преимущественно конститутивную ДНК. В одном варианте реализации термин преимущественно будет означать более чем 90%. В другом предпочтительном варианте реализации термин преимущественно будет означать более чем 95, 97%, 98% или 99%. Если количество вариаций в физиологической жидкости превышает таковое в образце с преимущественно конститутивной ДНК, существует повышенная вероятность того, что физиологическая жидкость может включать ДНК опухолевого происхождения.For example, in an individual suffering from cancer, the amount of OHMs detected in a physiological fluid will be higher than the amount of polymorphisms present in the constituent genome of the same individual. The amounts of variation detected in a physiological fluid sample containing tumor-derived DNA can be compared with a DNA sample containing predominantly constituent DNA. In one embodiment, the term predominantly will mean greater than 90%. In another preferred embodiment, the term predominantly will mean greater than 95, 97%, 98%, or 99%. If the amount of variation in a physiological fluid exceeds that in a sample with predominantly constituent DNA, there is an increased likelihood that the physiological fluid may contain tumor-derived DNA.
Одним из способов, которые можно применять для случайного поиска вариаций в образцах ДНК, является случайное секвенирование или секвенирование методом выстрела из дробового ружья (например, применяя массовое параллельное секвенирование). Можно применять любую платформу для массового параллельного секвенирования, включая платформу секвенирования путем лигирования (например, платформу Life Technologies SOLiD Platform), Ion Torrent/Ion Proton, полупроводниковое секвенирование, Roche 454, платформы для секвенирования одиночных молекул (например, Helicos, Pacific Biosciences и Nanopore). Кроме того, известно, что могут происходить ошибки секвенирования, которые могут неправильно истолковываться как вариации в конститутивной ДНК или как мутации, происходяOne method that can be used to randomly search for variations in DNA samples is random or shotgun sequencing (e.g., using massively parallel sequencing). Any massively parallel sequencing platform can be used, including ligation sequencing platforms (e.g., Life Technologies SOLiD Platform), Ion Torrent/Ion Proton, semiconductor sequencing, Roche 454, single-molecule sequencing platforms (e.g., Helicos, Pacific Biosciences, and Nanopore). In addition, it is known that sequencing errors can occur, which can be misinterpreted as variations in the constitutive DNA or as mutations,
- 6 048297 щие из опухолевой ДНК. Таким образом, для улучшения специфичности предложенного нами подхода, вероятность ошибки секвенирования или других компонентов аналитических ошибок можно учесть, например, применяя подходящую глубину секвенирования наряду с требованием детектирования в локусе по меньшей мере определенного количества (например, 2 или 3) аллелей, чтобы считать его содержащим OHM.- 6 048297 from tumor DNA. Thus, to improve the specificity of our proposed approach, the probability of sequencing error or other components of analytical errors can be taken into account, for example, by using an appropriate sequencing depth along with the requirement to detect at least a certain number (e.g. 2 or 3) of alleles in a locus to consider it as containing OHM.
В данной заявке описано, что в вариантах реализации могут быть представлены доказательства присутствия ДНК опухолевого происхождения в биологическом образце (например, в физиологической жидкости), когда количество случайно детектированных генетических изменений, присутствующих в образце, превышает таковое, ожидаемое для конститутивной ДНК и для вариаций, которые могут быть случайно детектированы вследствие аналитических ошибок (например, ошибок секвенирования). Полученные сведения можно использовать для скрининга, диагностики, прогнозирования и мониторинга раковых заболеваний. В следующих разделах мы описали аналитические этапы, которые можно применять для детектирования однонуклеотидных мутаций в плазме/сыворотке или других образцах (например, в физиологических жидкостях). Физиологические жидкости могут включать плазму, сыворотку, спинномозговую жидкость, плевральную жидкость, асцитную жидкость, выделения из соска, слюну, жидкость бронхоальвеолярного лаважа, мокроту, слезы, пот и мочу. Вдобавок к физиологическим жидкостям, указанный способ также можно применять по отношению к образцу кала, так как было показано, что последний может содержать опухолевую ДНК из колоректального рака (Berger BM, Ahlquist DA. Pathology 2012; 44: 80-88).This application describes that in embodiments, evidence of the presence of tumor-derived DNA in a biological sample (e.g., a physiological fluid) can be provided when the number of incidentally detected genetic variations present in the sample exceeds that expected for constitutive DNA and for variations that may be incidentally detected due to analytical errors (e.g., sequencing errors). The obtained information can be used for screening, diagnosis, prognosis, and monitoring of cancer diseases. In the following sections, we describe analytical steps that can be used to detect single nucleotide mutations in plasma/serum or other samples (e.g., physiological fluids). Physiological fluids can include plasma, serum, cerebrospinal fluid, pleural fluid, ascites fluid, nipple secretions, saliva, bronchoalveolar lavage fluid, sputum, tears, sweat, and urine. In addition to physiological fluids, this method can also be applied to a stool sample, as the latter has been shown to contain tumor DNA from colorectal cancer (Berger BM, Ahlquist DA. Pathology 2012; 44: 80-88).
II. Основной способ скрининга.II. Basic screening method.
На фиг. 1 представлена блок-схема способа 100 детектирования рака или предзлокачественного изменения у субъекта согласно вариантам реализации настоящего изобретения. Варианты реализации позволяют анализировать внеклеточную ДНК в биологическом образце из субъекта для детектирования вариаций во внеклеточной ДНК, вероятно происходящих из опухоли. В указанном анализе могут использовать конститутивный геном субъекта, чтобы учесть полиморфизмы, которые принадлежат здоровым клеткам, и можно учитывать ошибки секвенирования. Способ 100 и любой из способов, описанных В данной заявке можно полностью или частично осуществить с помощью компьютерной системы, включающей один или более процессоров.Fig. 1 is a flow chart of a method 100 for detecting cancer or a pre-cancerous change in a subject according to embodiments of the present invention. Embodiments analyze extracellular DNA in a biological sample from a subject to detect variations in extracellular DNA likely to originate from a tumor. The analysis may use the subject's constituent genome to account for polymorphisms that belong to healthy cells and may account for sequencing errors. The method 100 and any of the methods described herein may be implemented in whole or in part by a computer system that includes one or more processors.
На этапе 110, получают конститутивный геном субъекта. Конститутивный геном (КГ) можно определить по конститутивной ДНК исследуемого субъекта. В различных вариантах реализации КГ можно считать из памяти или определить активным способом, например, путем анализа считываемых последовательностей конститутивной ДНК, которая может находиться в клетках из образца, который включает внеклеточную ДНК. Например, если подозревают наличие негематологического злокачественного новообразования, можно проанализировать клетки крови, чтобы определить конститутивную ДНК субъекта.At step 110, a constituent genome of the subject is obtained. The constituent genome (CG) can be determined from the constituent DNA of the subject under study. In various embodiments, the CG can be read from memory or determined in an active manner, such as by analyzing read sequences of the constituent DNA that can be present in cells from a sample that includes extracellular DNA. For example, if a non-hematological malignancy is suspected, blood cells can be analyzed to determine the constituent DNA of the subject.
В различных вариантах реализации анализ конститутивной ДНК можно осуществить, применяя массовое параллельное секвенирование, гибридизацию на чипах, гибридизацию в растворе, содержащем зонды, анализы на основе лигирования, анализы на основе реакции удлинения праймеров и массспектрометрию. В одном варианте реализации КГ можно определить в один момент времени жизни субъекта, например, при рождении или даже в пренатальном периоде (что можно осуществить, применяя клетки зародыша или используя фрагменты внеклеточной ДНК, см. публикацию США 2011/0105353), а затем сравнивать с ним результаты для физиологических жидкостей или других образцов, полученных в другие моменты времени жизни субъекта. Таким образом, КГ можно просто считать из памяти компьютера. Конститутивный геном можно считать в виде перечня локусов, по которым конститутивный геном отличается от референсного генома.In various embodiments, the analysis of the constitutive DNA can be performed using massively parallel sequencing, chip hybridization, probe-based solution hybridization, ligation-based assays, primer extension reaction assays, and mass spectrometry. In one embodiment, the CG can be determined at one point in the life of a subject, such as at birth or even prenatally (which can be done using fetal cells or using cell-free DNA fragments, see US Publication No. 2011/0105353), and then compared to it with results from bodily fluids or other samples obtained at other points in the life of the subject. In this way, the CG can be simply read from computer memory. The constitutive genome can be read as a list of loci at which the constitutive genome differs from the reference genome.
На этапе 120 получают один или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце субъекта, если биологический образец содержит внеклеточную ДНК. В одном варианте реализации указанный один или более маркеров последовательности получают в результате случайного секвенирования фрагментов ДНК в биологическом образце. Более чем один маркер последовательности можно получить при осуществлении секвенирования спаренных концов. Один маркер будет соответствовать каждому концу фрагмента ДНК.At step 120, one or more sequence markers are obtained for each of a plurality of DNA fragments in a biological sample of a subject, if the biological sample contains extracellular DNA. In one embodiment, said one or more sequence markers are obtained as a result of random sequencing of DNA fragments in the biological sample. More than one sequence marker may be obtained by performing paired-end sequencing. One marker will correspond to each end of a DNA fragment.
Можно провести анализ наличия генетических изменений во внеклеточной ДНК в образце (например, в плазме, сыворотке или другой биологической жидкости). Можно провести анализ внеклеточной ДНК, применяя такую же аналитическую платформу, которую применяли для анализа конститутивной ДНК. В качестве альтернативы, можно применять отличную аналитическую платформу. Например, образец внеклеточной ДНК можно секвенировать, применяя массовое параллельное секвенирование, или можно захватить части генома или обогатить материал частями генома до проведения массового параллельного секвенирования. При использовании обогащения можно, например, применять жидкофазный или твердофазный захват выбранных частей генома. Затем можно осуществить массовое параллельное секвенирование захваченной ДНК.An analysis can be performed for the presence of genetic changes in cell-free DNA in a sample (e.g., plasma, serum, or other biological fluid). The cell-free DNA can be analyzed using the same assay platform that was used to analyze the constitutive DNA. Alternatively, a different assay platform can be used. For example, the cell-free DNA sample can be sequenced using massively parallel sequencing, or parts of the genome can be captured or enriched before massively parallel sequencing. When enrichment is used, for example, liquid-phase or solid-phase capture of selected parts of the genome can be used. The captured DNA can then be massively parallel sequenced.
На этапе 130 определяют положения в геноме маркеров последовательности. В одном варианте реализации маркеры последовательности выравнивают с референсным геномом, который получают из одного или более других субъектов. В другом варианте реализации маркеры геномных последовательностейAt step 130, the genomic positions of the sequence markers are determined. In one embodiment, the sequence markers are aligned with a reference genome that is obtained from one or more other subjects. In another embodiment, the genomic sequence markers
- 7 048297 выравнивают с конститутивным геномом исследуемого субъекта. Выравнивание можно осуществить, применяя методики, известные специалисту в данной области, например, применяя основное средство поиска локального выравнивания (BLAST).- 7 048297 is aligned with the constitutive genome of the subject under study. The alignment can be performed using techniques known to a person skilled in the art, for example, using the basic local alignment search tool (BLAST).
На этапе 140 определяют первое количество локусов, в которых по меньшей мере N маркеров последовательности содержат вариант последовательности по сравнению с конститутивным геномом (КГ). N равно или больше двух. Ниже подробнее обсуждается, что ошибки секвенирования, а также соматические мутации, случайным образом возникающие в клетках (например, в результате деления клетки), можно устранить, требуя, чтобы N было равно 2, 3, 4, 5 или больше. Локусы, которые удовлетворяют одному или более определенным критериям, можно считать мутацией (вариантом) или мутантными локусами (измененными локусами), тогда как локус, содержащий вариант, но не удовлетворяющий указанному одному или более критериям (например, только один маркер измененной последовательности), относят к потенциальной или предполагаемой мутации. В последовательности может быть изменен только один нуклеотид или множество нуклеотидов.In step 140, a first number of loci are determined in which at least N sequence markers contain a sequence variant compared to the housekeeping genome (WG). N is equal to or greater than two. As discussed in more detail below, sequencing errors as well as somatic mutations that occur randomly in cells (e.g., as a result of cell division) can be eliminated by requiring N to be equal to 2, 3, 4, 5 or greater. Loci that meet one or more specified criteria can be considered a mutation (variant) or mutant loci (altered loci), while a locus that contains a variant but does not meet said one or more criteria (e.g., only one altered sequence marker) is referred to as a potential or putative mutation. Only one nucleotide or multiple nucleotides in a sequence can be altered.
N можно определить как процент от всех маркеров для некоторого локуса, а не как абсолютное значение. Например, измененный локус можно обнаружить, когда определенная фракционная концентрация опухолевой ДНК, полученная в результате вариантов считываемых последовательностей, равна или больше 10% (или некоторого другого процента). Другими словами, если покрытие локуса составляет 200 считываемых последовательностей, в качестве критерия для определения того, что данный вариант является мутацией, можно потребовать по меньшей мере 10 считываемых последовательностей, в которых выявлена вариантная аллель. 10 считываемых последовательностей вариантной аллели и 190 считываемых последовательностей аллели дикого типа означает, что фракционная концентрация опухолевой ДНК составляет 10% (2х 10/(10+190)).N can be defined as a percentage of all markers for a locus rather than an absolute value. For example, an altered locus can be detected when a certain fractional concentration of tumor DNA resulting from variant reads is equal to or greater than 10% (or some other percentage). In other words, if the coverage of a locus is 200 reads, at least 10 reads in which the variant allele is detected can be required as a criterion for determining that a given variant is a mutation. 10 reads of the variant allele and 190 reads of the wild-type allele mean that the fractional concentration of tumor DNA is 10% (2 x 10/(10+190)).
В одном варианте реализации маркеры последовательности (в совокупности называемые геномом образца) можно сравнить непосредственно с КГ, чтобы определить варианты. В другом варианте реализации геном образца (ГО) сравнивают с КГ с помощью референсного генома (ЭГ), чтобы определить варианты. Например, как КГ, так и ГО можно сравнить с ЭГ, чтобы определить соответствующие количества (например, наборы) локусов, в которых детектированы варианты, а затем можно вычислить разность, чтобы получить первое количество локусов. Первое количество можно получить просто в виде количества, или оно может соответствовать определенному набору локусов, которые затем можно дополнительно проанализировать, чтобы определить параметр по маркерам последовательности в первых локусах.In one embodiment, sequence markers (collectively referred to as the sample genome) can be compared directly to the CG to determine variants. In another embodiment, the sample genome (SG) is compared to the CG using a reference genome (RG) to determine variants. For example, both the CG and SG can be compared to the RG to determine the corresponding numbers (e.g., sets) of loci at which variants are detected, and then the difference can be calculated to obtain a first number of loci. The first number can be obtained simply as a number, or it can correspond to a certain set of loci, which can then be further analyzed to determine a parameter from the sequence markers at the first loci.
В одном варианте реализации сравнивают результаты секвенирования конститутивной ДНК и ДНК в плазме, чтобы определить, присутствует ли однонуклеотидная мутация в ДНК в плазме. Можно проанализировать области, в которых конститутивная ДНК гомозиготна. С целью иллюстрирования предположим, что генотип в определенном локусе конститутивной ДНК гомозиготен и представляет собой АА. Тогда присутствие в плазме аллеля, отличного от А, будет свидетельствовать о потенциальным присутствии однонуклеотидной мутации (OHM) в данном локусе. Локусы, в которых выявлено потенциальное присутствие OHM, могут составлять первое количество локусов на этапе 140.In one embodiment, the results of sequencing of the housekeeping DNA and the DNA in the plasma are compared to determine whether a single nucleotide mutation is present in the DNA in the plasma. The regions in which the housekeeping DNA is homozygous may be analyzed. For the purpose of illustration, assume that the genotype at a certain locus of the housekeeping DNA is homozygous and is AA. Then, the presence of an allele other than A in the plasma would indicate the potential presence of a single nucleotide mutation (OHM) at that locus. The loci in which the potential presence of OHM is detected may constitute the first number of loci in step 140.
В одном варианте реализации может оказаться полезным нацеливание на части генома, которые, как известно, особенно подвержены мутациям при конкретном типе рака или в конкретной субпопуляции. В отношении последнего из упомянутых аспектов, в вариантах реализации можно искать типы мутаций, которые особенно широко распространены в определенной популяционной группе, например, мутации, которые особенно распространены у субъектов, которые являются носителями вируса гепатита В (для рака печени) или вируса папилломы человека (для рака шейки матки), или у которых есть генетическая предрасположенность к соматическим мутациям, или у субъектов с генеративными мутациями в гене репарации несовпадений ДНК. Указанный способ также будет полезен для скрининга наличия мутаций при раках яичников и молочной железы у субъектов с мутациями в генах BRCA1 или BRCA2. Способ также будет полезен для скрининга наличия мутаций при колоректальном раке у субъектов с мутациями в гене АРС.In one embodiment, it may be useful to target parts of the genome that are known to be particularly susceptible to mutations in a particular type of cancer or in a particular subpopulation. With respect to the latter aspect, embodiments may search for types of mutations that are particularly prevalent in a particular population group, such as mutations that are particularly prevalent in subjects who are carriers of the hepatitis B virus (for liver cancer) or the human papillomavirus (for cervical cancer), or who have a genetic predisposition to somatic mutations, or in subjects with germline mutations in a DNA mismatch repair gene. The method will also be useful for screening for the presence of mutations in ovarian and breast cancers in subjects with mutations in the BRCA1 or BRCA2 genes. The method will also be useful for screening for the presence of mutations in colorectal cancer in subjects with mutations in the APC gene.
На этапе 150 параметр определяют на основании подсчета маркеров последовательности с вариантной последовательностью в первых локусах. В одном примере указанный параметр представляет собой первое количество локусов, в которых по меньшей мере N фрагментов ДНК содержат вариант последовательности в локусе по сравнению с конститутивным геномом. Таким образом, можно использовать подсчет, чтобы просто удостовериться в том, что в локусе детектировано более чем N копий конкретного варианта, что определяют перед его включением в первое количество. В другом варианте реализации указанный параметр может представлять собой или включать суммарное количество маркеров последовательности с последовательностью в первых локусах, измененной относительно конститутивного генома.In step 150, the parameter is determined based on the count of sequence markers with a variant sequence in the first loci. In one example, the parameter is the first number of loci in which at least N DNA fragments contain a sequence variant in the locus compared to the constitutive genome. Thus, the count can be used to simply ensure that more than N copies of a particular variant are detected in the locus, which is determined before it is included in the first number. In another embodiment, the parameter can be or include the total number of sequence markers with a sequence in the first loci that is altered relative to the constitutive genome.
На этапе 160 параметр для субъекта сравнивают с пороговым значением (например, полученным из одного или более других субъектов), чтобы определить классификацию уровня рака у субъекта. Примеры уровня рака включают наличие рака или предзлокачественного состояния у субъекта, или повышенную вероятность развития рака. В одном варианте реализации пороговое значение можно определить в образце, полученном из данного субъекта ранее.At step 160, the parameter for the subject is compared to a threshold value (e.g., obtained from one or more other subjects) to determine a classification of the cancer level in the subject. Examples of cancer level include the presence of cancer or a pre-malignant condition in the subject, or an increased likelihood of developing cancer. In one embodiment, the threshold value can be determined in a sample previously obtained from the subject.
- 8 048297- 8 048297
В другом варианте реализации можно установить, что один или более других субъектов не страдают раком или обладают низким риском развития рака. Таким образом, пороговое значение может представлять собой нормальное значение, нормальный диапазон или обозначать статистически значимое отклонение от нормального значения или диапазона. Например, количество мутаций по сравнению с КГ конкретного субъекта, обнаруживаемое в плазме субъектов, не страдающих раком, или с низким риском развития рака, можно использовать в качестве нормального диапазона, чтобы определить, является ли количество мутаций, детектированных у исследованного субъекта, нормальным. В другом варианте реализации может быть известно, что другие субъекты страдают раком и, таким образом, аналогичное количество мутаций может указывать на наличие рака.In another embodiment, it may be determined that one or more other subjects do not have cancer or have a low risk of developing cancer. Thus, the threshold value may be a normal value, a normal range, or indicate a statistically significant deviation from a normal value or range. For example, the number of mutations, compared to the CG of a particular subject, detected in the plasma of subjects who do not have cancer or who have a low risk of developing cancer may be used as a normal range to determine whether the number of mutations detected in the subject being tested is normal. In another embodiment, it may be known that other subjects have cancer and, thus, a similar number of mutations may indicate the presence of cancer.
В одном варианте реализации других субъектов можно выбрать таким образом, чтобы их клинические свойства совпадали с таковыми у тестируемого субъекта, например, пол, возраст, режим питания, привычка к курению, лекарственный анамнез, предшествующее заболевание, семейный анамнез, генотипы в выбранных геномных локусах, статус в отношении вирусных инфекций (например, инфекций вирусом гепатита В или С, или вирусом папилломы человека, или вирусом иммунодефицита человека, или вирусом Эпштейна-Барр) или инфекций другими инфекционными агентами (такими как бактерии (например, Helicobacter pylori) и паразиты (например, Clonorchis sinensis) и т.д.). Например, у субъектов, которые являются носителями вируса гепатита В или С, повышен риск развития печеночно-клеточной карциномы. Таким образом, можно считать, что у тестируемых субъектов, у которых количество мутаций или паттерн мутаций аналогичны таковому у носителя гепатита В или С, повышен риск развития печеночно-клеточной карциномы. С другой стороны, у пациента с гепатитом В или С, у которого обнаружили большее количество мутаций, чем у другого пациента с гепатитом, можно правильно классифицировать уровень рака как более высокий, поскольку используется подходящее исходное состояние (т.е. сравнение с другим пациентом с гепатитом). Аналогично, у субъектов, которые являются носителями инфекции вирусом папилломы человека, повышен риск рака шейки матки и рака головы и шеи. Инфекция вирусом Эпштейна-Барр была связана с карциномой носоглотки, раком желудка, лимфомой Ходжкина и неходжкинской лимфомой. Инфекция Helicobacter pylori была связана с раком желудка. Инфекция Clonorchis sinensis была связана с холангиокарциномой.In one embodiment, the other subjects may be selected to have clinical properties that match those of the test subject, such as gender, age, diet, smoking habits, drug history, previous illness, family history, genotypes at selected genomic loci, status with respect to viral infections (e.g., hepatitis B or C virus infections, or human papillomavirus, or human immunodeficiency virus, or Epstein-Barr virus) or infections with other infectious agents (such as bacteria (e.g., Helicobacter pylori) and parasites (e.g., Clonorchis sinensis), etc.). For example, subjects who are carriers of hepatitis B or C virus have an increased risk of developing hepatocellular carcinoma. Thus, test subjects who have a similar number of mutations or mutation pattern to a carrier of hepatitis B or C can be considered to have an increased risk of developing hepatocellular carcinoma. On the other hand, a patient with hepatitis B or C who is found to have a higher number of mutations than another patient with hepatitis can be correctly classified as having a higher cancer rate because the appropriate baseline condition is used (i.e., comparison with another patient with hepatitis). Similarly, subjects who are carriers of human papillomavirus infection have an increased risk of cervical cancer and head and neck cancer. Epstein-Barr virus infection has been associated with nasopharyngeal carcinoma, gastric cancer, Hodgkin lymphoma, and non-Hodgkin lymphoma. Helicobacter pylori infection has been associated with gastric cancer. Clonorchis sinensis infection has been associated with cholangiocarcinoma.
Мониторинг изменений количества мутаций в различные моменты времени можно применять для контроля прогрессирования рака и ответа на лечение. Такой мониторинг также можно применять для подтверждения прогрессирования предзлокачественного состояния или изменения риска того, что у субъекта разовьется рак.Monitoring changes in mutation counts at different time points can be used to monitor cancer progression and response to treatment. Such monitoring can also be used to confirm progression of a pre-malignant condition or a change in the risk that a subject will develop cancer.
Количество маркеров последовательности, в которых выявлены вариации, также можно использовать для мониторинга. Например, можно применять фракционную концентрацию считываемых последовательностей варианта в некотором локусе. В одном варианте реализации повышение фракционных концентраций связанных с опухолью генетических аберраций в образцах при осуществлении серийного мониторинга может обозначать прогрессирование заболевания или угрожающий рецидив. Аналогично, уменьшение фракционных концентраций связанных с опухолью генетических аберраций в образцах при осуществлении серийного мониторинга может обозначать ответ на лечение, и/или ремиссию, и/или благоприятный прогноз.The number of sequence markers in which variations are detected can also be used for monitoring. For example, the fractional concentration of read sequences of a variant at a locus can be used. In one embodiment, an increase in the fractional concentrations of tumor-associated genetic aberrations in samples during serial monitoring can indicate disease progression or impending relapse. Similarly, a decrease in the fractional concentrations of tumor-associated genetic aberrations in samples during serial monitoring can indicate a response to treatment and/or remission and/or a favorable prognosis.
III. Определение геномов.III. Identification of genomes.
Различные геномы, обсуждаемые выше, более подробно объяснены ниже. Например, обсуждаются референсный геном, конститутивный геном и геном образца.The various genomes discussed above are explained in more detail below. For example, the reference genome, the constitutive genome, and the sample genome are discussed.
A. Референсный геном.A. Reference genome.
Референсный геном (ЭГ) относится к гаплоидному или диплоидному геному субъекта или к консенсусу у популяции. Референсный геном известен и, следовательно, его можно применять для сравнения с ним считываемых последовательностей при секвенировании геномов новых пациентов. Считываемые последовательности для образца пациента можно выровнять и сравнить, чтобы определить вариации в данных считываемых последовательностях по сравнению с ЭГ. В каждом локусе гаплоидного генома присутствует только один нуклеотид, и, следовательно, каждый локус можно считать гемизиготным. В диплоидном геноме можно обнаружить гетерозиготные локусы, при этом такие локусы содержат две аллели, и при выравнивании с данным локусом совпадение может быть с любой аллелью.The reference genome (RG) refers to the haploid or diploid genome of a subject or to a population consensus. The RG is known and can therefore be used to compare reads to it when sequencing new patient genomes. The reads for a patient sample can be aligned and compared to determine variations in these reads compared to the RG. In a haploid genome, only one nucleotide is present at each locus, and therefore each locus can be considered hemizygous. In a diploid genome, heterozygous loci can be found, where such loci contain two alleles, and when aligned to a given locus, a match can be with either allele.
Референсный геном может быть одинаковым у популяции субъектов. Такой одинаковый референсный геном можно использовать для определения у здоровых субъектов подходящего порога для применения для классификации пациента (например, как имеющего или не имеющего рак). Тем не менее, можно применять различные референсные геномы для различных популяций, например, для различных этнических групп или даже для различных семей.The reference genome may be the same in a population of subjects. Such a same reference genome can be used to determine in healthy subjects an appropriate threshold to use for classifying a patient (e.g. as having or not having cancer). However, different reference genomes can be used for different populations, e.g. for different ethnic groups or even for different families.
B. Конститутивный геном.B. Constitutive genome.
Конститутивный геном (КГ) субъекта (например, человека или другого диплоидного организма) относится к диплоидному геному субъекта. В гетерозиготных локусах КГ можно точно определить, что первая аллель принадлежит первому гаплотипу и отличная вторая аллель принадлежит второму гаплотипу. Следует отметить, что структуры двух гаплотипов, которые охватывают два гетерозиготных локуса, не обязательно должны быть известны, т.е. какая аллель одного гетерозиготного локуса находится в томThe constitutive genome (CG) of a subject (e.g., a human or other diploid organism) refers to the diploid genome of the subject. At heterozygous loci, the CG can be precisely determined to have the first allele belonging to the first haplotype and a distinct second allele belonging to the second haplotype. It should be noted that the structures of the two haplotypes that span the two heterozygous loci do not necessarily have to be known, i.e. which allele of one heterozygous locus is in that
- 9 048297 же гаплотипе, что и аллель другого гетерозиготного локуса. Просто существования двух аллелей в каждом гетерозиготном локусе может быть достаточно.- 9 048297 same haplotype as the allele of the other heterozygous locus. Simply having two alleles at each heterozygous locus may be enough.
КГ может отличаться от ЭГ благодаря полиморфизмам. Например, локус в ЭГ может быть гомозиготным по Т, а в КГ он может быть гетерозиготным: Т/А. Таким образом, для КГ будет детектирована вариация в данном локусе. КГ также может отличаться от ЭГ благодаря наследственным мутациям (например, которые наследуются членами семьи) или мутациям de novo (которые возникают у зародыша, но которых нет у его родителей). Наследственную мутацию обычно называют генеративной мутацией. Некоторые из таких мутаций связаны с предрасположенностью к раку, такие как мутация в BRCA1, которая наследуется членами семьи. Такие мутации отличны от соматических мутаций, которые могут происходить в результате деления клеток на протяжении всей жизни субъекта и могут способствовать тому, чтобы клетка и ее дочерние клетки стали раковыми.The CG may differ from the EG by polymorphisms. For example, a locus in the EG may be homozygous for T, while in the CG it may be heterozygous: T/A. Thus, for the CG, a variation at this locus will be detected. The CG may also differ from the EG by inherited mutations (for example, those inherited by family members) or de novo mutations (those that occur in the embryo but are not present in its parents). An inherited mutation is usually called a germline mutation. Some such mutations are associated with a predisposition to cancer, such as a mutation in BRCA1, which is inherited by family members. Such mutations are distinct from somatic mutations, which may occur as a result of cell division throughout the life of the subject and may cause a cell and its daughter cells to become cancerous.
Целью определения КГ является отделение таких генеративных мутаций и мутаций de novo от мутаций генома образца (ГО), чтобы определить соматические мутации. Количество соматических мутаций в ГО затем можно применять для оценки вероятности возникновения рака у субъекта. Данные соматические мутации можно подвергнуть дополнительному отбору, чтобы удалить ошибки секвенирования и потенциально удалить соматические мутации, которые редко встречаются (например, вариант обнаруживают только в одной считываемой последовательности), так как такие соматические мутации вероятно не связаны с раком.The purpose of defining the CG is to separate such germline and de novo mutations from sample genome (SGM) mutations to define somatic mutations. The number of somatic mutations in the SGM can then be used to estimate the likelihood of a subject developing cancer. These somatic mutations can be further screened to remove sequencing errors and potentially remove somatic mutations that are rare (e.g., a variant found in only one sequence read), as these somatic mutations are unlikely to be associated with cancer.
В одном варианте реализации КГ можно определить с использованием клеток (ДНК из лейкоцитарной пленки). Тем не менее, КГ также можно определить по внеклеточной ДНК (например, из плазмы или сыворотки). У типа образца, в котором большинство клеток не являются злокачественными, например, в лейкоцитарной пленке из здорового субъекта, большая часть генома или консенсусный геном представляет собой КГ. В КГ каждый геномный локус состоит из последовательности ДНК, которая совпадает у большинства клеток в ткани образца. Глубина секвенирования должна быть достаточной для того, чтобы выявить гетерозиготные сайты в конститутивном геноме.In one embodiment, the GC may be determined using cells (DNA from the buffy coat). However, the GC may also be determined using cell-free DNA (e.g., from plasma or serum). In a sample type in which the majority of cells are non-malignant, such as the buffy coat from a healthy subject, the majority of the genome, or consensus genome, is the GC. In the GC, each genomic locus consists of a DNA sequence that is shared by the majority of cells in the sample tissue. The sequencing depth should be sufficient to detect heterozygous sites in the constitutive genome.
В качестве другого примера для определения КГ можно использовать плазму в качестве конститутивного образца. Например, в случаях, когда содержание опухолевой ДНК в плазме составляет менее чем 50% и OHM находятся в гетерозиготном состоянии, например, мутация представляет собой вставку новой аллели, концентрация новой аллели может составлять менее чем 25%. Тогда как концентрация гетерозиготных аллелей ОНП в КГ должна составлять до приблизительно 50%. Таким образом можно различить соматическую мутацию и полиморфизм КГ. В одном варианте реализации подходящее пороговое значение для того, чтобы отличить соматическую мутацию от полиморфизма, может находиться в диапазоне 30-40%, при использовании плазмы или других смесей с существенной концентрацией опухоли. Измерение концентрации опухолевой ДНК может оказаться полезным, чтобы удостовериться в том, что концентрация опухолевой ДНК в плазме составляет менее 50%. Примеры определения концентрации опухолевой ДНК описаны в данной заявке.As another example, plasma can be used as a constitutive sample for determining the CG. For example, in cases where the tumor DNA content in the plasma is less than 50% and the OHMs are heterozygous, e.g., the mutation is an insertion of a new allele, the concentration of the new allele can be less than 25%. While the concentration of heterozygous alleles of the SNPs in the CG should be up to about 50%. In this way, a somatic mutation and a polymorphism of the CG can be distinguished. In one embodiment, a suitable threshold value for distinguishing a somatic mutation from a polymorphism can be in the range of 30-40%, when using plasma or other mixtures with a significant concentration of tumor. Measuring the concentration of tumor DNA can be useful to ensure that the concentration of tumor DNA in the plasma is less than 50%. Examples of determining the concentration of tumor DNA are described in this application.
С. Геном образца.C. Genome of the sample.
Геном образца (ГО) представляет собой не просто гаплоидный или диплоидный геном, как в случае ЭГ и КГ. ГО представляет собой совокупность считываемых последовательностей образца и может включать: считываемые последовательности конститутивной ДНК, которая соответствует КГ, считываемые последовательности опухолевой ДНК, считываемые последовательности здоровых клеток, у которых обнаружены случайные мутации по сравнению с КГ (например, вследствие мутаций, возникших в результате деления клеток), и ошибки секвенирования. Для того, чтобы точно контролировать, какие считываемые последовательности включены в ГО, можно применять различные параметры. Например, требование, чтобы аллель появился по меньшей мере в 5 считываемых последовательностях, позволит уменьшить ошибки секвенирования, присутствующие в ГО, а также устранить часть считываемых последовательностей, связанных со случайными мутациями.The sample genome (SG) is not simply the haploid or diploid genome, as in the case of EG and CG. SG is the set of sequence reads of the sample and may include: sequence reads of constitutive DNA that correspond to the CG, sequence reads of tumor DNA, sequence reads of healthy cells that have random mutations compared to the CG (e.g., due to mutations that arise during cell division), and sequencing errors. Various parameters can be used to precisely control which sequence reads are included in the SG. For example, requiring that an allele appear in at least 5 sequence reads will reduce the sequencing errors present in the SG and also eliminate the portion of sequence reads associated with random mutations.
В качестве примера, предположим, что субъект здоров, т.е. не страдает раком. С целью иллюстрирования, ДНК из 1000 клеток находится в 1 мл плазмы (т.е. 1000 геном-эквивалентов ДНК), полученной из данного субъекта. ДНК в плазме обычно состоит из фрагментов ДНК размером приблизительно 150 п.о. Так как геном человека состоит из 3х109 п.о., там будет находиться приблизительно 2х107 фрагментов ДНК на гаплоидный геном. Так как геном человека диплоидный, в 1 мл плазмы будет находиться приблизительно 4х107 фрагментов ДНК.As an example, assume that the subject is healthy, i.e., does not have cancer. For the purpose of illustration, there is DNA from 1000 cells in 1 ml of plasma (i.e., 1000 genome equivalents of DNA) obtained from the subject. The DNA in plasma typically consists of DNA fragments of approximately 150 bp in size. Since the human genome is 3 x 10 9 bp, there will be approximately 2 x 10 7 DNA fragments per haploid genome. Since the human genome is diploid, there will be approximately 4 x 10 7 DNA fragments in 1 ml of plasma.
Так как в единицу времени от миллионов до миллиардов клеток высвобождают ДНК в плазму, и фрагменты ДНК из данных клеток будут смешиваться в кровотоке, 4х107 фрагментов ДНК могли произойти от 4х107 различных клеток. Если данные клетки не произошли недавно (в противоположность удаленному происхождению, например, от исходной зиготы) от одного клона (т.е. у них нет общей недавней предковой клетки), тогда статистически вероятно, что ни одна мутация не встретится более одного раза среди данных фрагментов.Since millions to billions of cells release DNA into the plasma at any given time, and DNA fragments from these cells will mix in the bloodstream, 4 x 10 7 DNA fragments could have come from 4 x 10 7 different cells. If these cells are not of recent origin (as opposed to distant origin, such as from an original zygote) from a single clone (i.e., they do not share a common recent ancestral cell), then it is statistically likely that no mutation will occur more than once among these fragments.
С другой стороны, если среди 1000 геном-эквивалентов на мл ДНК в плазме присутствует некоторый процент клеток, у которых есть общая недавняя предковая клетка (т.е. они клонально родственныOn the other hand, if among the 1000 genome equivalents per ml of DNA in the plasma there is a certain percentage of cells that share a common recent ancestral cell (i.e. they are clonally related
- 10 048297 друг другу), то можно видеть, что мутации из данного клона будут преимущественно представлены в ДНК в плазме (например, представляющие клональный мутационный профиль в плазме). Такие клонально родственные клетки могут оказаться раковыми клетками или клетками, которые скоро станут раковыми, но пока таковыми не являются (т.е. преднеопластические). Таким образом, требование появления мутации более одного раза позволяет устранить такие природные вариации в мутациях, детектированных в образце, что позволяет оставить мутации, связанные с раковыми клетками или преднеопластическими клетками, что обеспечивает детектирование, особенно раннее детектиорование, рака или предраковых состояний.- 10 048297 to each other), it can be seen that mutations from a given clone will be predominantly represented in DNA in plasma (e.g., representing a clonal mutational profile in plasma). Such clonally related cells may be cancer cells or cells that will soon become cancerous but are not yet cancerous (i.e., preneoplastic). Thus, requiring a mutation to occur more than once allows for the elimination of such natural variations in the mutations detected in a sample, allowing for the retention of mutations associated with cancer cells or preneoplastic cells, thereby enabling detection, especially early detection, of cancer or precancerous conditions.
В одном приближении было установлено, что после каждого деления клетки в геноме будет накапливаться в среднем одна мутация. В предшествующем исследовании показали, что большая часть ДНК в плазме происходит из гематопоэтических клеток (Lui YY и др. Clin Chem 2002: 48: 421-427). Оценили, что гематопоэтические стволовые клетки реплицируются раз в 25 - 50 недель (Catlin SN, и др. Blood 2011; 117: 4460-4466). Таким образом, в качестве упрощенного приближения, здоровый субъект к возрасту 40 лет накопит примерно от 40 до 80 мутаций на гематопоэтическую стволовую клетку.One approximation has been that after each cell division, the genome will accumulate on average one mutation. A previous study showed that the majority of DNA in plasma originates from hematopoietic cells (Lui YY, et al. Clin Chem 2002: 48: 421-427). It has been estimated that hematopoietic stem cells replicate every 25 to 50 weeks (Catlin SN, et al. Blood 2011; 117: 4460-4466). Thus, as a simplified approximation, a healthy subject by age 40 will accumulate approximately 40 to 80 mutations per hematopoietic stem cell.
Если в 1 мл плазмы данного индивида содержится 1000 геном-эквивалентов, и если каждая из данных клеток произошла от отдельной гематопоэтической стволовой клетки, то можно ожидать выявление от 40000 до 80000 мутаций среди 4х1010 фрагментов ДНК (т.е. 4х107 фрагментов ДНК на геном и 1000 геном-эквивалентов на мл плазмы). Тем не менее, так как каждая мутация будет встречаться лишь раз, каждая мутация все же может быть ниже предела детектирования (например, если пороговое значение N больше, чем 1), и, следовательно, данные мутации можно отсеять, что позволяет сконцентрировать анализ на мутациях, которые с большей вероятностью относятся к раковым состояниям. Пороговое значение может представлять собой любое значение (целое или нецелое) больше единицы, и может изменяться для различных локусов и фрагментов. Глубина секвенирования и фракционная концентрация опухолевой ДНК также могут влиять на чувствительность детектирования мутаций (например, процент детектированных мутаций) из раковых клеток или преднеопластических клеток.If there are 1000 genome equivalents in 1 ml of plasma from a given individual, and if each of these cells is derived from a single hematopoietic stem cell, one would expect to detect between 40,000 and 80,000 mutations among 4 x 10 10 DNA fragments (i.e. 4 x 10 7 DNA fragments per genome and 1000 genome equivalents per ml of plasma). However, since each mutation will only occur once, each mutation may still be below the detection limit (e.g. if the cutoff N is greater than 1), and these mutations can therefore be screened out, allowing the analysis to focus on mutations that are more likely to be cancerous. The cutoff can be any value (integer or non-integer) greater than one, and can vary for different loci and fragments. Sequencing depth and fractional concentration of tumor DNA may also influence the sensitivity of mutation detection (e.g., percentage of detected mutations) from cancer cells or preneoplastic cells.
IV. Непосредственное сравнение ГО с КГ.IV. Direct comparison of GO with CG.
В некоторых вариантах реализации можно определить положения нуклеотидов, в которых КГ гомозиготный, но в меньшем числе молекул (т.е. в опухолевой ДНК) в ГО данные положения гетерозиготные. При большой глубине секвенирования в некотором положении (например, покрытие более 50 раз), можно обнаружить присутствие одной или двух аллелей в данном положении в смеси ДНК здоровых и раковых клеток. Если обнаруживают две аллели, то либо (1) КГ гетерозиготный, либо (2) КГ гомозиготный, но ГО гетерозиготный. Данные два варианта можно различить, если посмотреть на относительные количества мажорной и минорной аллелей. В первом из упомянутых вариантов количества считанных двух аллелей будут аналогичны; но в последнем из упомянутых вариантов будет большое различие в количествах вариантов считывания каждой. Такое сравнение относительных количеств вариантов считывания аллелей в тестируемом образце представляет собой один вариант реализации для сравнения маркеров последовательности с конститутивным геномом. Можно определить, что первые локусы из способа 100 представляют собой локусы, в которых количество аллелей ниже верхнего порога (порога, соответствующего полиморфизмам в КГ) и выше нижнего порога (порога, соответствующего ошибкам и соматическим мутациям, встречающимся с достаточно низкой частотой, чтобы не быть связанными с раковым состоянием). Таким образом, конститутивный геном и первые локусы можно определить одновременно.In some embodiments, it is possible to determine the nucleotide positions at which KG is homozygous, but at a smaller number of molecules (i.e., in tumor DNA) in GO those positions are heterozygous. With a high sequencing depth at a position (e.g., greater than 50x coverage), it is possible to detect the presence of one or two alleles at that position in a mixture of normal and cancer cell DNA. If two alleles are detected, then either (1) KG is heterozygous, or (2) KG is homozygous but GO is heterozygous. These two options can be distinguished by looking at the relative amounts of the major and minor alleles. In the former, the amounts of reads of the two alleles will be similar; but in the latter, there will be a large difference in the amounts of read variants of each. This comparison of the relative amounts of allele read variants in a test sample represents one embodiment for comparing sequence markers to the constituent genome. It can be determined that the first loci from method 100 are loci in which the number of alleles is below the upper threshold (the threshold corresponding to polymorphisms in the CG) and above the lower threshold (the threshold corresponding to errors and somatic mutations occurring at a low enough frequency not to be associated with the cancerous condition). Thus, the constitutive genome and the first loci can be determined simultaneously.
В другом варианте реализации в процессе идентификации мутаций можно сначала определить КГ, а затем определить локусы, содержащие достаточное количество мутаций по сравнению с КГ. КГ можно определить по конститутивному образцу, который отличается от тестируемого образца.In another embodiment, the process of identifying mutations may first determine the CG and then determine loci that contain a sufficient number of mutations compared to the CG. The CG may be determined from a constitutive sample that differs from the sample being tested.
На фиг. 2 показана блок-схема способа 200 непосредственного сравнения генома образца (ГО) с конститутивным геномом (КГ) согласно вариантам реализации настоящего изобретения. В блоке 210 получают конститутивный геном субъекта. Конститутивный геном можно получить, например, из образца, полученного ранее, или из конститутивного образца, который получают и анализируют непосредственно перед осуществлением способа 200.Fig. 2 shows a flow chart of a method 200 for directly comparing a sample genome (SG) with a constituent genome (CG) according to embodiments of the present invention. In block 210, a constituent genome of a subject is obtained. The constitutive genome can be obtained, for example, from a sample obtained earlier, or from a constituent sample that is obtained and analyzed immediately before performing the method 200.
В блоке 220 получают один или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце субъекта. Секвенирование можно осуществить, применяя различные методики, упомянутые в данной заявке. Маркеры последовательности представляют собой оценку того, какой считают последовательность фрагмента. Но одно или более оснований в маркере последовательности могут быть определены ошибочно.In block 220, one or more sequence markers are obtained for each of a plurality of DNA fragments in a biological sample of a subject. Sequencing can be performed using various techniques mentioned in this application. The sequence markers represent an estimate of what the sequence of the fragment is believed to be. But one or more bases in the sequence marker may be erroneously determined.
В блоке 230 по меньшей мере часть маркеров последовательности выравнивают с конститутивным геномом. При выравнивании могут учитывать, что КГ может быть гетерозиготным в различных локусах. Для выравнивания не будет требоваться точное совпадение, чтобы можно было обнаружить варианты.In block 230, at least a portion of the sequence markers are aligned with the constitutive genome. The alignment may take into account that the CG may be heterozygous at different loci. The alignment will not require an exact match to detect variants.
В блоке 240 обнаруживают маркеры последовательности, которые содержат изменения последовательности в локусе по сравнению с конститутивным геномом. Возможно, что будет детектирован более чем один вариант маркера последовательности. Можно отследить варианты для каждого локуса и для каждого маркера последовательности. Вариант может представлять собой любую аллель, которая не представлена в КГ. Например, КГ может быть гетерозиготным по А/Т и вариант может быть G или С.In block 240, sequence markers are detected that contain sequence changes at the locus compared to the constitutive genome. It is possible that more than one variant of a sequence marker will be detected. Variants can be tracked for each locus and for each sequence marker. A variant can be any allele that is not represented in the CG. For example, the CG may be heterozygous for A/T and the variant may be G or C.
- 11 048297- 11 048297
В блоке 250 для каждого локуса с вариантом компьютерная система может определить соответствующее первое количество маркеров последовательности, которые выравниваются с данным локусом и содержат изменение последовательности в данном локусе. Таким образом, с каждым локусом может быть связано подсчитанное количество вариантов, наблюдаемых в данном локусе. Как правило, в локусе будет наблюдаться меньшее количество вариантов по сравнению с маркерами последовательности, которые соответствуют КГ, например, вследствие того, что концентрация опухолевой ДНК составляет менее 50%. Тем не менее, в некоторых образцах концентрация опухолевой ДНК может быть больше, чем 50%.In block 250, for each locus with a variant, the computer system may determine a corresponding first number of sequence markers that align with the locus and contain a sequence change at the locus. In this way, each locus may be associated with a counted number of variants observed at the locus. Typically, a locus will have fewer variants than sequence markers that correspond to a CG, for example, because the tumor DNA concentration is less than 50%. However, in some samples, the tumor DNA concentration may be greater than 50%.
В блоке 260 параметр определяют на основании соответствующих первых количеств. Если в одном варианте реализации соответствующее количество больше, чем пороговое значение (например, больше, чем два), то соответствующее количество можно прибавить к сумме, которая представляет собой параметр или используется для определения параметра. В другом варианте реализации в качестве параметра применяют количество локусов, соответствующее количество для которых больше, чем пороговое значение.In block 260, the parameter is determined based on the corresponding first quantities. If, in one embodiment, the corresponding quantity is greater than a threshold value (e.g., greater than two), then the corresponding quantity can be added to the sum that represents the parameter or is used to determine the parameter. In another embodiment, the number of loci for which the corresponding quantity is greater than the threshold value is used as the parameter.
В блоке 270 параметр сравнивают с пороговым значением, чтобы классифицировать уровень рака. Выше описано, что пороговое значение можно определить путем анализа образцов из других субъектов. В зависимости от того, здоровы ли данные другие субъекты или страдают раковыми состояниями, можно определить классификацию. Например, если у других субъектов выявлена 4 стадия рака, то если исследуемый параметр был близок (например, в рамках определенного диапазона) к значению параметра, полученного для других субъектов, значит можно классифицировать стадию рака исследуемого субъекта как 4 стадию рака. Тем не менее, если указанный параметр переходит границы порогового значения (т.е. больше или меньше порогового значения, в зависимости от способа определения параметра), то можно классифицировать стадию рака как меньшую, чем 4 стадия. Аналогичный анализ можно осуществить, когда другие субъекты не страдают раком.In block 270, the parameter is compared with a threshold value to classify the cancer level. As described above, the threshold value can be determined by analyzing samples from other subjects. Depending on whether these other subjects are healthy or suffer from cancerous conditions, a classification can be determined. For example, if other subjects are diagnosed with stage 4 cancer, then if the analyzed parameter was close (e.g., within a certain range) to the value of the parameter obtained for the other subjects, then it is possible to classify the cancer stage of the studied subject as stage 4 cancer. However, if the specified parameter crosses the boundaries of the threshold value (i.e., is greater than or less than the threshold value, depending on the method for determining the parameter), then it is possible to classify the cancer stage as less than stage 4. A similar analysis can be performed when the other subjects do not suffer from cancer.
Для определения классификации можно применять несколько пороговых значений, где каждое пороговое значение определяют у различной группы субъектов. У каждой группы субъектов может быть одинаковый уровень рака. Таким образом, исследуемый параметр можно сравнить со значениями для каждой группы субъектов, в результате чего можно получить совпадение с одной из групп или получить диапазон. Например, параметр может быть приблизительно одинаковым с параметром, полученным для субъектов, которые находятся на стадии предрака или на 2 стадии рака. В качестве другого примера исследуемый параметр может попасть в диапазон, который возможно может подходить для нескольких различных уровней рака. Таким образом, классификация может включать более чем один уровень рака.Multiple thresholds may be used to determine the classification, with each threshold being determined for a different group of subjects. Each group of subjects may have the same cancer level. The parameter of interest may thus be compared to the values for each group of subjects, resulting in a match for one of the groups or a range. For example, the parameter may be approximately the same as the parameter obtained for subjects who are at the precancer stage or at stage 2 cancer. As another example, the parameter of interest may fall within a range that may possibly fit several different cancer levels. Thus, the classification may include more than one cancer level.
V. Применение референсного генома.V. Use of the reference genome.
Геномные последовательности как конститутивной ДНК, так и ДНК из биологического образца можно сравнить с референсным геномом человека. Если выявлено больше изменений в образце плазмы, чем в конститутивной ДНК, по сравнению с референсным геномом, то существует повышенная вероятность рака. В одном варианте реализации исследуют гомозиготные локусы в референсном геноме. Сравнивают количества гетерозиготных локусов в конститутивной ДНК и в ДНК из биологического образца. Если количество гетерозиготных сайтов, детектированных в ДНК из биологического образца, превышает таковое в конститутивной ДНК, тогда существует повышенная вероятность рака.The genomic sequences of both the constitutive DNA and the DNA from the biological sample can be compared to a human reference genome. If more changes are detected in the plasma sample than in the constitutive DNA, compared to the reference genome, then there is an increased probability of cancer. In one embodiment, homozygous loci in the reference genome are examined. The numbers of heterozygous loci in the constitutive DNA and in the DNA from the biological sample are compared. If the number of heterozygous sites detected in the DNA from the biological sample exceeds that in the constitutive DNA, then there is an increased probability of cancer.
Можно также ограничиться анализом локусов, которые гомозиготны в КГ. OHM также можно определить для гетерозиготных локусов, но это, как правило, потребует образования третьего варианта. Другими словами, если гетерозиготный локус представляет собой А/Т, то новый третий вариант будет либо С, либо G. Идентифицировать OHM в гомозиготных локусах, как правило, проще.It is also possible to limit the analysis to loci that are homozygous in the CG. OHM can also be determined for heterozygous loci, but this will usually require the formation of a third variant. In other words, if the heterozygous locus is A/T, then the new third variant will be either C or G. Identifying OHM at homozygous loci is usually easier.
Степень, до которой увеличивается количество гетерозиготных локусов в биологическом образце ДНК по сравнению с конститутивной ДНК, может предполагать наличие рака или предзлокачественного состояния, если ее сравнить с уровнем изменений, наблюдаемым у здоровых субъектов. Например, если степень увеличения количества таких сайтов превышает таковую, наблюдаемую у здоровых субъектов, на некоторый порог, то можно считать, что результаты свидетельствуют о наличии рака или предзлокачественного состояния. В одном варианте реализации устанавливают распределение мутаций у субъектов без ракового заболевания, и в качестве порога можно взять некоторое количество стандартных отклонений (например, 2 или 3 стандартных отклонения).The degree to which the number of heterozygous loci in a biological DNA sample is increased relative to the constitutive DNA may suggest the presence of a cancer or pre-malignant condition when compared to the level of change observed in healthy subjects. For example, if the degree of increase in the number of such sites exceeds that observed in healthy subjects by some threshold, then the results may be considered to be indicative of the presence of a cancer or pre-malignant condition. In one embodiment, the distribution of mutations in subjects without cancer is determined, and some number of standard deviations (e.g., 2 or 3 standard deviations) may be used as a threshold.
В одном варианте реализации может потребоваться по меньшей мере определенное количество вариантов в локусе до того, как локус будет учтен. В другом варианте реализации анализируют даже результаты, полученные на основании одной замены. Например, если суммарное количество вариаций (ошибок+истинных мутаций или полиморфизмов), наблюдаемых в плазме, статистически значимо выше, чем в конститутивной ДНК, то это свидетельствует о наличии рака.In one embodiment, at least a certain number of variants at a locus may be required before the locus is taken into account. In another embodiment, even results obtained from a single substitution are analyzed. For example, if the total number of variations (errors + true mutations or polymorphisms) observed in plasma is statistically significantly higher than in the constitutive DNA, then this indicates the presence of cancer.
На фиг. 3 показана блок-схема способа 300 сравнения генома образца (ГО) с конститутивным геномом (КГ) с использованием референсного генома (ЭГ) согласно вариантам реализации настоящего изобретения. В способе 300 предполагают, что ЭГ уже получен, и что маркеры последовательности в биологическом образце уже получены.Fig. 3 shows a flow chart of a method 300 for comparing a sample genome (SG) with a constitutive genome (CG) using a reference genome (RG) according to embodiments of the present invention. The method 300 assumes that the RG has already been obtained and that sequence markers in the biological sample have already been obtained.
В блоке 310 по меньшей мере часть маркеров последовательности выравнивают с референсным геномом. Выравнивание может позволять наличие несовпадений, так как необходимо обнаружить вариации. Референсный геном можно получить из популяции, сходной с субъектом. Выровненные маркерыIn block 310, at least a portion of the sequence markers are aligned with a reference genome. The alignment may allow for mismatches, as variations need to be detected. The reference genome may be obtained from a population similar to the subject. The aligned markers
- 12 048297 последовательности фактически включают геном образца (ГО).- 12 048297 sequences actually include the sample genome (GO).
В блоке 320 выявляют первое количество (А) потенциальных вариантов, например, однонуклеотидных мутаций (OHM). Потенциальные OHM представляют собой локусы, в которых в маркере последовательности ГО выявлен нуклеотид, отличный от такового в ЭГ. Можно использовать другие критерии, например, количество маркеров последовательности, в которых выявлена вариация, должно быть больше, чем пороговое значение, и является ли локус в ЭГ гомозиготным. Набор потенциальных OHM можно представить как набор А, когда определенные локусы обнаруживают и отслеживают путем хранения локусов в памяти. Можно выявить определенные локусы или можно просто определить количество таких OHM.In block 320, a first quantity (A) of potential variants, such as single nucleotide mutations (OHMs), is identified. Potential OHMs are loci in which a nucleotide is detected in the GO sequence marker that is different from that in the EG. Other criteria may be used, such as the number of sequence markers in which the variation is detected must be greater than a threshold value, and whether the locus in the EG is homozygous. The set of potential OHMs may be represented as a set A, where certain loci are detected and tracked by storing the loci in memory. Certain loci may be detected, or the number of such OHMs may simply be determined.
В блоке 330 конститутивный геном определяют путем выравнивания маркеров последовательности, полученных путем секвенирования фрагментов ДНК из конститутивного образца, с референсным геномом. Данный этап мог быть осуществлен в любой более ранний момент и с применением конститутивного образца, полученного в любой более ранний момент времени. КГ можно просто считать из памяти, если выравнивание было выполнено ранее. В одном варианте реализации конститутивный образец может представлять собой клетки крови.In block 330, the constituent genome is determined by aligning sequence markers obtained by sequencing DNA fragments from the constituent sample with a reference genome. This step may have been performed at any earlier time and using a constituent sample obtained at any earlier time. The CG may simply be read from memory if the alignment has been performed earlier. In one embodiment, the constituent sample may be blood cells.
В блоке 340 обнаруживают второе количество (В) локусов, в которых выровненный маркер последовательности КГ содержит вариант (например, OHM) в локусе по сравнению с референсным геномом. Если специально отслеживают набор локусов, тогда В может представлять собой набор, а не просто число.In block 340, a second number (B) of loci are detected in which the aligned KG sequence marker contains a variant (e.g., OHM) at the locus compared to the reference genome. If a set of loci is specifically monitored, then B may be a set rather than just a number.
В блоке 350 набор В вычитают из набора А, чтобы определить варианты (OHM), которые присутствуют в геноме образца, но не в КГ. В одном варианте реализации набор OHM можно ограничить положениями нуклеотидов, в которых КГ гомозиготный. Для того чтобы осуществить такой отбор, определенные локусы, в которых КГ гомозиготный, можно обозначить как набор С. В другом варианте реализации локус не учитывается в первом количестве А или втором количестве В, если КГ не является гомозиготным в данном локусе. В другом варианте реализации любой известный полиморфизм (например, благодаря его наличию в базе данных ОНП) можно отсеять.In block 350, set B is subtracted from set A to determine variants (OHMs) that are present in the sample genome but not in the CG. In one embodiment, the set of OHMs may be limited to nucleotide positions at which the CG is homozygous. To accomplish this selection, certain loci at which the CG is homozygous may be designated as set C. In another embodiment, a locus is not counted in the first count A or the second count B if the CG is not homozygous at that locus. In another embodiment, any known polymorphism (e.g., due to its presence in a SNP database) may be screened out.
В одном варианте реализации вычитание в блоке 350 может быть просто вычитанием чисел и, следовательно, конкретные потенциальные OHM не удаляют, а просто вычитают их значение. В другом варианте реализации вычитание дает разность между набором А и набором В (например, если набор В представляет собой подмножество набора А), чтобы определить конкретные OHM, которые не представлены в наборе В. В логических переменных это можно выразить как [А И НЕ(В)]. Полученный набор детектированных вариантов можно обозначить С. Указанный параметр можно определить, как число С, или определить из набора С.In one embodiment, the subtraction in block 350 may simply be a subtraction of numbers, and thus specific potential OHMs are not removed, but simply subtracted by their value. In another embodiment, the subtraction yields the difference between set A and set B (e.g., if set B is a subset of set A) to determine specific OHMs that are not represented in set B. In Boolean variables, this may be expressed as [A AND NOT(B)]. The resulting set of detected variants may be denoted by C. The specified parameter may be defined as a number C, or determined from set C.
В некоторых вариантах реализации можно принимать во внимание природу мутаций и различным классам мутаций приписывать определенный вес. Например, мутациям, которые обычно связаны с раком, можно приписывать больший вес (также называемый уровнем значимости в отношении относительных весов локусов). Такие мутации можно найти в базах данных связанных с опухолью мутаций, например, в Каталоге соматических мутаций при раке (COSMIC) (www.sanger.ac.uk/genetics/CGP/cosmic/). В качестве другого примера, мутациям, связанным с несинонимичными изменениями, можно приписывать больший вес.In some embodiments, the nature of the mutations may be taken into account and different classes of mutations may be assigned a certain weight. For example, mutations that are commonly associated with cancer may be assigned a higher weight (also referred to as a significance level in terms of relative locus weights). Such mutations may be found in tumor-associated mutation databases, such as the Catalogue of Somatic Mutations in Cancer (COSMIC) (www.sanger.ac.uk/genetics/CGP/cosmic/). As another example, mutations associated with non-synonymous changes may be assigned a higher weight.
Таким образом, первое количество А можно определить как взвешенную сумму, в которой вес количества маркеров с вариантом в одном локусе может быть отличным от такового для количества маркеров в другом локусе. Первое количество А может отражать такую взвешенную сумму. Аналогичный расчет можно осуществить с В, и, таким образом, количество С и указанный параметр могут отражать такое взвешивание. В другом варианте реализации веса учитывают, когда определяют набор С конкретных локусов. Например, взвешенную сумму можно определить для количества локусов набора С. Такие веса можно применять в других способах, описанных в данной заявке.Thus, the first quantity A can be defined as a weighted sum, in which the weight of the number of markers with a variant at one locus can be different from that of the number of markers at another locus. The first quantity A can reflect such a weighted sum. A similar calculation can be made with B, and thus the quantity C and the specified parameter can reflect such a weighting. In another embodiment, the weights are taken into account when determining the set C of specific loci. For example, a weighted sum can be determined for the number of loci of the set C. Such weights can be used in other methods described in this application.
Соответственно, параметр, который сравнивают с пороговым значением, чтобы определить классификацию уровня рака, может представлять собой количество локусов, в которых детектирована вариация в ГО и КГ по сравнению с ЭГ. В других вариантах реализации можно сосчитать суммарное количество фрагментов ДНК (которое определяют с помощью маркеров последовательности), содержащих вариацию. В других вариантах реализации такие количества можно использовать в другой формуле для получения указанного параметра.Accordingly, the parameter that is compared with the threshold value to determine the classification of the cancer level may be the number of loci in which the variation is detected in the GO and CG compared to the EG. In other embodiments, the total number of DNA fragments (which is determined using sequence markers) containing the variation may be counted. In other embodiments, such quantities may be used in another formula to obtain the said parameter.
В одном варианте реализации концентрация варианта в каждом локусе может представлять собой параметр, и ее можно сравнить с пороговым значением. Такое пороговое значение можно применять для определения того, является ли локус потенциально измененным локусом (вдобавок к пороговому значению определенного количества считываемых последовательностей, в которых выявили указанный вариант), а затем обсчитать данный локус. Концентрацию также можно использовать в качестве фактора взвешивания в сумме OHM.In one embodiment, the concentration of the variant at each locus may be a parameter and may be compared to a threshold. Such a threshold may be used to determine whether a locus is a potential altered locus (in addition to a threshold of a certain number of sequence reads in which the variant was detected), and then score the locus. The concentration may also be used as a weighting factor in the OHM sum.
VI. Уменьшение количества ложноположительных.VI. Reducing the number of false positives.
Результатов с помощью пороговых значений.Results using threshold values.
Выше упоминалось, что однонуклеотидные мутации можно наблюдать в большом количестве внеклеточных фрагментов ДНК (например, циркулирующей в плазме ДНК) из большой области генома (например, из всего генома) или из множества областей генома, чтобы улучшить чувствительность данIt was mentioned above that single nucleotide mutations can be observed in a large number of extracellular DNA fragments (e.g., circulating plasma DNA) from a large region of the genome (e.g., the entire genome) or from multiple regions of the genome to improve the sensitivity of the data.
- 13 048297 ного подхода. Тем не менее, аналитические ошибки, такие как ошибки секвенирования, могут влиять на осуществимость, достоверность и специфичность данного подхода. Здесь мы используем платформу для массового параллельного секвенирования в качестве примера, чтобы проиллюстрировать значение ошибок секвенирования. Частота ошибок секвенирования платформы для секвенирования путем синтеза от Illumina составляет приблизительно от 0,1% до 0,3% на секвенированный нуклеотид (Minoche и др. Genome Biol 2011, 12:R112). Можно применять любую платформу для массового параллельного секвенирования, включая платформу для секвенирования путем лигирования (например, платформу SOLiD от Life Technologies), платформу Ion Torrent/Ion Proton, платформу для полупроводникового секвенирования, Roche 454, платформу для секвенирования одиночных молекул (например, Helicos, Pacific Biosciences и Nanopore).- 13 048297 approach. However, analytical errors such as sequencing errors can affect the feasibility, accuracy, and specificity of this approach. Here, we use a massively parallel sequencing platform as an example to illustrate the importance of sequencing errors. The sequencing error rate of the Illumina sequencing-by-synthesis platform is approximately 0.1% to 0.3% per nucleotide sequenced (Minoche et al. Genome Biol 2011; 12:R112). Any massively parallel sequencing platform can be used, including a ligation-by-sequencing platform (e.g., the SOLiD platform from Life Technologies), the Ion Torrent/Ion Proton platform, the semiconductor sequencing platform, Roche 454, and single-molecule sequencing platforms (e.g., Helicos, Pacific Biosciences, and Nanopore).
В более раннем исследовании печеночно-клеточной карциномы показали, что во всем раковом геноме присутствует приблизительно 3000 однонуклеотидных мутаций (Тао Y и др. 2011 Proc Natl Acad Sci USA; 108: 12042-12047). Допуская, что лишь 10% всей ДНК в кровотоке произошло из опухолевых клеток и что мы секвенировали ДНК в плазме со средней глубиной секвенирования, составляющей однократное покрытие гаплоидного генома, мы встретим 9 миллионов (3x109 x0,3%) однонуклеотидных вариаций (ОНВ) вследствие ошибок секвенирования. Тем не менее, ожидается, что большинство из однонуклеотидных мутаций встретится только на одной из двух гомологичных хромосом. При глубине секвенирования, составляющей однократное покрытие гаплоидного генома образца со 100% опухолевой ДНК, мы ожидаем обнаружить лишь половину из 3000 мутаций, т.е. 1500 мутаций. При секвенировании образца плазмы, содержащего 10% ДНК опухолевого происхождения на одно покрытие гаплоидного генома, мы ожидаем обнаружить лишь 150 (1500x10%) связанных с раком однонуклеотидных мутаций. Таким образом, отношение сигнал/шум для детектирования связанных с раком мутаций составляет 1 на 60000. Такое очень низкое отношение сигнал/шум позволяет предположить, что достоверность применения данного подхода для того, чтобы различить нормальных и раковых пациентов, будет очень низкой, если мы используем в качестве параметра просто все однонуклеотидные изменения в биологическом образце (например, в плазме).An earlier study on hepatocellular carcinoma showed that there are approximately 3,000 single nucleotide mutations (SNPs) in the entire cancer genome (Tao Y et al. 2011 Proc Natl Acad Sci USA; 108: 12042–12047). Assuming that only 10% of all DNA in the circulation originated from tumor cells and that we sequenced plasma DNA with an average sequencing depth of 1x haploid genome coverage, we would encounter 9 million (3x109 x0.3%) SNPs due to sequencing errors. However, most of the SNPs are expected to occur on only one of the two homologous chromosomes. At a sequencing depth of 1x haploid genome coverage in a sample with 100% tumor DNA, we would expect to detect only half of the 3,000 mutations, i.e., 100% of the SNPs in the plasma were sequencing. 1500 mutations. When sequencing a plasma sample containing 10% tumor-derived DNA per haploid genome coverage, we expect to detect only 150 (1500x10%) cancer-associated single nucleotide mutations. Thus, the signal-to-noise ratio for detecting cancer-associated mutations is 1 in 60,000. This very low signal-to-noise ratio suggests that the reliability of this approach to discriminate between normal and cancer patients will be very low if we simply use all single nucleotide changes in a biological sample (e.g., plasma) as a parameter.
Ожидается, что с прогрессированием технологий секвенирования частота ошибок секвенирования будет постоянно уменьшаться. Также можно проанализировать один и тот же образец, применяя более чем одну платформу секвенирования, и посредством сравнения результатов секвенирования на разных платформах точно определить считываемые последовательности, вероятно содержащие ошибки секвенирования. Другой подход состоит в анализе двух образцов, взятых в различные моменты времени из одного и того же субъекта. Тем не менее, такие подходы требуют больших затрат времени.It is expected that with the advancement of sequencing technologies, the rate of sequencing errors will steadily decrease. It is also possible to analyze the same sample using more than one sequencing platform and, by comparing the sequencing results from different platforms, pinpoint the sequence reads likely to contain sequencing errors. Another approach is to analyze two samples taken at different time points from the same subject. However, such approaches are time-consuming.
В одном варианте реализации одним из способов увеличения отношения сигнал/шум при детектировании однонуклеотидных мутаций в плазме пациентов с раковыми заболеваниями является учет только такой мутации, которая встречается в образце несколько раз. В выбранных платформах секвенирования могут быть наиболее распространены ошибки секвенирования, включающие определенные замены нуклеотидов, и они будут влиять на результаты секвенирования тестируемого образца и конститутивного образца ДНК как тестируемого субъекта, так и контрольных субъектов. Тем не менее, как правило, ошибки секвенирования происходят случайным образом.In one embodiment, one method for increasing the signal-to-noise ratio in detecting single nucleotide mutations in the plasma of patients with cancer is to only consider a mutation that occurs multiple times in a sample. In selected sequencing platforms, sequencing errors involving certain nucleotide substitutions may be the most common and will affect the sequencing results of the test sample and the constituent DNA sample of both the test subject and the control subjects. However, sequencing errors typically occur randomly.
Вероятность ошибки секвенирования экспоненциально уменьшается, когда наблюдают одну и ту же замену в одном и том же положении нуклеотида в нескольких фрагментах ДНК. С другой стороны, на вероятность детектирования истинного связанного с раком мутационного изменения в образце влияет глубина секвенирования и фракционная концентрация опухолевой ДНК в образце. Вероятность детектирования мутации в нескольких фрагментах ДНК будет повышаться с увеличением глубины секвенирования и фракционной концентрации опухолевой ДНК. В различных вариантах реализации с применением образцов, содержащих внеклеточную опухолевую ДНК (таких как плазма), фракционная концентрация может составлять 5%, 10%, 20% и 30%. В одном варианте реализации фракционная концентрация составляет менее чем 50%.The probability of sequencing error decreases exponentially when the same substitution at the same nucleotide position is observed in multiple DNA fragments. On the other hand, the probability of detecting a true cancer-associated mutational change in a sample is affected by the sequencing depth and the fractional concentration of tumor DNA in the sample. The probability of detecting a mutation in multiple DNA fragments will increase with increasing sequencing depth and fractional concentration of tumor DNA. In various embodiments using samples containing extracellular tumor DNA (such as plasma), the fractional concentration may be 5%, 10%, 20%, and 30%. In one embodiment, the fractional concentration is less than 50%.
На фиг. 4 представлена таблица 400, в которой показано количество связанных с раком однонуклеотидных мутаций, правильно детектированных с применением встречаемости различных их количеств в качестве критерия для классификации мутации как присутствующей в образце согласно вариантам реализации настоящего изобретения. Также показаны количества положений нуклеотидов, в которых ошибочно обнаружили мутацию вследствие ошибки секвенирования, основываясь на тех же критериях классификации. Частоту ошибок секвенирования принимают равной 0,1% (Minoche и др. Genome Bio 2011, 12:R112). Фракционную концентрацию ДНК опухолевого происхождения в образце принимают равной 10%.Fig. 4 is a table 400 showing the number of cancer-associated single nucleotide mutations correctly detected using the frequency of different amounts as a criterion for classifying a mutation as present in a sample according to embodiments of the present invention. Also shown are the numbers of nucleotide positions at which a mutation was erroneously detected due to sequencing error based on the same classification criteria. The sequencing error rate is assumed to be 0.1% (Minoche et al. Genome Bio 2011, 12:R112). The fractional concentration of tumor-derived DNA in the sample is assumed to be 10%.
На фиг. 4 показано, что отношение между количеством связанных с раком мутаций, детектированных в плазме, и количеством ложноположительных сигналов будет экспоненциально возрастать с увеличением количества наблюдений одной и той же замены в образце, в котором выявляют мутацию, когда фракционную концентрацию ДНК опухолевого происхождения в образце принимают равной 10%. Другими словами, как чувствительность, так и специфичность детектирования связанной с раком мутации будет улучшаться. Кроме того, на чувствительность детектирования связанных с раком мутаций будетFig. 4 shows that the ratio between the number of cancer-associated mutations detected in plasma and the number of false positive signals will increase exponentially with the number of observations of the same substitution in the sample in which the mutation is detected, when the fractional concentration of tumor-derived DNA in the sample is taken to be 10%. In other words, both the sensitivity and specificity of cancer-associated mutation detection will improve. In addition, the sensitivity of cancer-associated mutation detection will be
- 14 048297 влиять глубина секвенирования. При секвенировании со 100-кратным покрытием гаплоидного генома можно обнаружить 2205 (73,5%) из 3000 мутаций, даже с применением критерия встречаемости конкретной мутации в по меньшей мере 4 фрагментах ДНК в образце. Можно использовать другие значения минимального количества фрагментов, такие как 3, 5, 8, 10 и больше 10.- 14 048297 influence the sequencing depth. With 100-fold coverage sequencing of the haploid genome, 2205 (73.5%) of 3000 mutations can be detected, even with the criterion of occurrence of a particular mutation in at least 4 DNA fragments in the sample. Other values of the minimum number of fragments can be used, such as 3, 5, 8, 10, and more than 10.
На фиг. 5 представлена таблица 500, в которой показано ожидаемое количество ложноположительных локусов и ожидаемое количество мутаций, детектированных когда фракционную концентрацию ДНК опухолевого происхождения в образце принимают равной 5%. При более низкой фракционной концентрации ДНК опухолевого происхождения в образце, будет необходима большая глубина секвенирования для достижения такой же чувствительности детектирования связанных с раком мутаций. Для сохранения специфичности также будет необходим более строгий критерий. Например, потребуется использовать критерий встречаемости в образце отдельной мутации в по меньшей мере 5 фрагментах ДНК, вместо критерия встречаемости в по меньшей мере 4 фрагментах в случае фракции опухолевой ДНК, составляющей 10%. В табл. 400 и 500 предложено руководство по выбору порогового значения с учетом кратности покрытия и концентрации опухолевой ДНК, которые можно предположить или измерить, как описано в данной заявке.Fig. 5 shows Table 500, which shows the expected number of false positive loci and the expected number of mutations detected when the fractional concentration of tumor-derived DNA in the sample is assumed to be 5%. At a lower fractional concentration of tumor-derived DNA in the sample, a higher sequencing depth will be required to achieve the same sensitivity for detecting cancer-associated mutations. A more stringent criterion will also be required to maintain specificity. For example, a criterion of occurrence of a single mutation in a sample in at least 5 DNA fragments would need to be used, instead of a criterion of occurrence in at least 4 fragments in the case of a tumor DNA fraction of 10%. Tables 400 and 500 provide guidance on selecting a threshold value based on the fold coverage and the concentration of tumor DNA that can be inferred or measured as described in this application.
Другим преимуществом применения критериев более чем однократного детектирования однонуклеотидной замены для определения мутации является то, что в результате этого ожидают минимизацию детектирования ложноположительных результатов, которые дают однонуклеотидные изменения в незлокачественных тканях. Так как нуклеотидные изменения могут происходить в процессе митоза нормальных клеток, каждая здоровая клетка в организме может содержать множество однонуклеотидных изменений. Данные изменения потенциально могут приводить к ложноположительным результатам. Тем не менее, изменения из клетки будут попадать в плазму/сыворотку после гибели клетки. Хотя ожидатся, что различные нормальные клетки несут различные наборы мутаций, маловероятно, что мутации, встречающиеся в одной клетке, будут присутствовать в множестве копий в плазме/сыворотке. В противоположность этому, в плазме/сыворотке ожидают обнаружить множество копий мутаций из опухолевых клеток, так как рост опухоли по природе клональный. Таким образом, множество клеток из одного клона будут погибать и высвобождать ДНК с характерными мутациями, типичными для данных клонов.Another advantage of using more than a single single nucleotide substitution detection criteria to define a mutation is that it is expected to minimize the detection of false positives that result from single nucleotide changes in non-malignant tissues. Since nucleotide changes can occur during mitosis of normal cells, each healthy cell in the body may contain multiple single nucleotide changes. These changes could potentially result in false positives. However, the changes will be released from the cell into the plasma/serum after cell death. Although different normal cells are expected to carry different sets of mutations, mutations that occur in a single cell are unlikely to be present in multiple copies in the plasma/serum. In contrast, multiple copies of mutations from tumor cells are expected to be found in the plasma/serum because tumor growth is clonal in nature. Thus, many cells from a single clone will die and release DNA with characteristic mutations typical for these clones.
В одном варианте реализации перед проведением секвенирования можно осуществить целевое обогащение определенными областями генома. Данный этап целевого обогащения может увеличить глубину секвенирования интересующих областей при таком же суммарном количестве проведенных секвенирований. В еще одном варианте реализации сначала можно осуществить раунд секвенирования с относительно небольшой глубиной секвенирования. Затем материал можно обогатить областями, в которых выявлена по меньшей мере одна однонуклеотидная замена, а затем провести второй раунд секвенирования с большей кратностью покрытия. Затем к результатам секвенирования с целевым обогащением можно применить критерий множественной встречаемости для определения мутации.In one embodiment, targeted enrichment for certain regions of the genome may be performed prior to sequencing. This targeted enrichment step may increase the depth of sequencing of regions of interest with the same total number of sequencing runs. In another embodiment, a round of sequencing may first be performed with a relatively low depth of sequencing. The material may then be enriched for regions in which at least one single nucleotide substitution is detected, and then a second round of sequencing may be performed with a higher fold coverage. A multiple occurrence criterion may then be applied to the results of the targeted enrichment sequencing to determine the mutation.
VII. Динамические пороговые значения.VII. Dynamic thresholds.
Выше описано, что можно применять пороговое значение N для количества считываемых последовательностей, в которых детектирован вариант (потенциальная мутация), чтобы определить, можно ли признать, что локус содержит мутацию (например, содержит OHM), которую необходимо учесть. Применение такого порога может уменьшить количество ложноположительных результатов. В обсуждении ниже предложены способы выбора порогового значения для различных локусов. В следующих вариантах реализации мы предполагаем, что существует один преобладающий раковый клон. Аналогичный анализ можно осуществить для случаев, включающих несколько клонов раковых клеток, высвобождающих различные количества опухолевой ДНК в плазму.As described above, a threshold N can be applied to the number of reads in which a variant (potential mutation) is detected to determine whether a locus can be considered to contain a mutation (e.g., contains OHM) that should be considered. Applying such a threshold can reduce the number of false positives. The discussion below suggests methods for selecting a threshold for different loci. In the following embodiments, we assume that there is one predominant cancer clone. A similar analysis can be performed for cases involving multiple clones of cancer cells releasing different amounts of tumor DNA into the plasma.
А. Количество связанных с раком мутаций, детектированных в плазме.A. Number of cancer-associated mutations detected in plasma.
На количество связанных с раком мутаций, детектированных в плазме, может влиять множество параметров, например: (1) количество мутаций в опухолевой ткани (NT) - суммарное количество мутаций, присутствующих в опухолевой ткани, представляет собой максимальное количество связанных с опухолью мутаций, детектируемых в плазме пациента; (2) фракционная концентрация ДНК опухолевого происхождения в плазме (f) -чем больше фракционная концентрация ДНК опухолевого происхождения в плазме, тем выше будет вероятность детектирования в плазме связанных с опухолью мутаций; (3) глубина секвенирования (D) - глубина секвенирования относится к количеству раз, которое считывают последовательность при секвенировании области. Например, средняя глубина секвенирования, составляющая 10 раз, означает, что каждый нуклеотид в секвенированной области покрывается в среднем 10 считываемыми последовательностями. Вероятность детектирования связанной с раком мутации будет возрастать при увеличении глубины секвенирования; и (4) минимальное количество раз, которое нуклеотидную замену обнаруживают в плазме, чтобы определить, что она является потенциально связанной с раком мутацией (r), которое представляет собой пороговое значение, используемое для того, чтобы отличить ошибки секвенирования от реальных связанных с раком мутаций.The number of cancer-associated mutations detected in plasma can be influenced by many parameters, such as: (1) the number of mutations in tumor tissue (NT) - the total number of mutations present in tumor tissue represents the maximum number of tumor-associated mutations detectable in patient plasma; (2) fractional concentration of tumor-derived DNA in plasma (f) - the higher the fractional concentration of tumor-derived DNA in plasma, the higher the probability of detecting tumor-associated mutations in plasma will be; (3) sequencing depth (D) - sequencing depth refers to the number of times the sequence is read when sequencing a region. For example, an average sequencing depth of 10x means that each nucleotide in the sequenced region is covered by an average of 10 sequence reads. The probability of detecting a cancer-associated mutation will increase as the sequencing depth increases; and (4) the minimum number of times a nucleotide substitution is detected in plasma to determine that it is a potential cancer-associated mutation (r), which is a threshold used to distinguish sequencing errors from true cancer-associated mutations.
В одном варианте реализации для того, чтобы прогнозировать количество связанных с раком мутаций, детектированных в плазме, используют пуассоновское распределение. Допуская, что мутация присутствует в некотором положении нуклеотида на одной из двух гомологичных хромосом, при глубинеIn one embodiment, a Poisson distribution is used to predict the number of cancer-associated mutations detected in plasma. Assuming that a mutation is present at some nucleotide position on one of two homologous chromosomes, at a depth
- 15 048297 секвенирования D, ожидаемое количество раз, которое мутация присутствует в плазме (MP), рассчитывают как:- 15 048297 sequencing D, the expected number of times the mutation is present in plasma (M P ) is calculated as:
MP=Dxf/2.M P = Dxf/2.
Вероятность детектирования мутации в плазме (Pb) в отдельном сайте мутации рассчитывают как:The probability of detecting a mutation in plasma (Pb) at a particular mutation site is calculated as:
Pb = 1 - Σ ПуассонОМР) = 0 где r (пороговое значение) представляет собой количество раз, которое нуклеотидная замена детектирована в плазме, для того чтобы определить, что она представляет собой потенциально связанную с опухолью мутацию;Pb = 1 - Σ Poisson R ) = 0 where r (cutoff value) is the number of times a nucleotide substitution is detected in plasma to determine that it represents a potential tumor-associated mutation;
Пуассон(|. MP) представляет собой пуассоновское распределение вероятности встречаемости/раз при среднем количестве MP.Poisson(|. M P ) is the Poisson distribution of the probability of occurrence/times given the average number of MPs.
Суммарное количество связанных с раком мутаций. которые ожидают обнаружить в плазме (NP). можно рассчитать как:The total number of cancer-associated mutations expected to be found in plasma (N P ) can be calculated as:
NP=NTxPb.N P =NTxPb.
где NT представляет собой количество мутаций. присутствующих в опухолевой ткани.where NT represents the number of mutations present in the tumor tissue.
На следующих диаграммах показаны проценты связанных с опухолью мутаций. которые ожидают обнаружить в плазме. применяя различные критерии встречаемости (r) для определения потенциальной мутации и различные глубины секвенирования.The following graphs show the percentages of tumor-associated mutations expected to be found in plasma using different frequency (r) criteria for defining a potential mutation and different sequencing depths.
На фиг. 6А представлена диаграмма 600. на которой показана частота детектирования связанных с раком мутаций в плазме с фракционными концентрациями ДНК опухолевого происхождения. составляющими 10% и 20%. и с применением встречаемостей (r). равных четырем и шести. в качестве критериев для определения потенциальных связанных с раком мутаций. При одной и той же г. более высокая фракционная концентрация ДНК опухолевого происхождения в плазме приведет к детектированию в плазме большего количества связанных с раком мутаций. При одной и той же фракционной концентрации ДНК опухолевого происхождения в плазме. более высокая r приведет к детектированию меньшего количества мутаций.Fig. 6A is a diagram 600 showing the detection rate of cancer-associated mutations in plasma with fractional concentrations of tumor-derived DNA of 10% and 20% and using frequencies (r) of four and six as criteria for identifying potential cancer-associated mutations. For the same r, a higher fractional concentration of tumor-derived DNA in plasma will result in the detection of more cancer-associated mutations in plasma. For the same fractional concentration of tumor-derived DNA in plasma, a higher r will result in the detection of fewer mutations.
В. Количество ложноположителъных однонуклеотидных изменений. детектированных вследствие ошибки.B. The number of false positive single nucleotide changes detected due to error.
Однонуклеотидные изменения в ДНК плазмы в результатах секвенирования могут встречаться вследствие ошибок секвенирования и выравнивания. Количество положений нуклеотидов с ложноположительными однонуклеотидными изменениями можно предсказать математически на основании биномиального распределения. Параметры. влияющие на количество ложноположительных сайтов (NFP). могут включать: (1) частоту ошибок секвенирования (Е) - частоту ошибок секвенирования определяют как долю неправильно определенных при секвенировании нуклеотидов; (2) глубину секвенирования (D) чем больше глубина секвенирования. тем больше будет количество положений нуклеотидов. в которых выявится ошибка секвенирования; (3) минимальное количество детектирований одной и той же нуклеотидной замены. чтобы определить. что она является потенциально связанной с раком мутацией (r); и (4) суммарное количество положений нуклеотидов внутри интересующего фрагмента (NI).Single nucleotide changes in plasma DNA in sequencing results may occur due to sequencing and alignment errors. The number of nucleotide positions with false-positive single nucleotide changes can be predicted mathematically based on the binomial distribution. Parameters affecting the number of false-positive sites (N FP ) may include: (1) sequencing error rate (E) - the sequencing error rate is defined as the proportion of nucleotides incorrectly identified during sequencing; (2) sequencing depth (D) - the greater the sequencing depth, the greater the number of nucleotide positions at which a sequencing error will be detected; (3) the minimum number of detections of the same nucleotide substitution to determine that it is a potential cancer-associated mutation (r); and (4) the total number of nucleotide positions within the fragment of interest (NI).
Возникновение мутаций. как правило. считают случайным процессом. Следовательно. с увеличением критериев встречаемости для определения потенциальной мутации. количество ложноположительных положений нуклеотидов будет экспоненциально уменьшаться. В некоторых из существующих платформ секвенирования определенное окружение последовательности в большей степени подвержено ошибкам секвенирования. Примеры такого окружения последовательности включают мотив GGC. гомополимеры (например. ААААААА) и простые повторы (например. АТ АТ АТ АТ АТ).The occurrence of mutations is generally considered to be a random process. Therefore, as the frequency criteria for defining a potential mutation increase, the number of false positive nucleotide positions will decrease exponentially. In some of the existing sequencing platforms, certain sequence environments are more susceptible to sequencing errors. Examples of such sequence environments include the GGC motif, homopolymers (e.g. AAAAAAAA), and simple repeats (e.g. AT AT AT AT AT).
Такие окружения последовательности по существу будут увеличивать количество ложных однонуклеотидных замен или вставок/делеций (Nakamura K и др. Nucleic Acids Res 2011;39.е90 и Minoche AE и др. Genome Biol 2011; 12. R112). Кроме того. последовательности повторов. такие как гомополимеры и простые повторы. при вычислениях будут вызывать неоднозначность выравнивания и. следовательно. приводить к ложноположительным результатам для однонуклеотидных вариаций.Such sequence environments will inherently increase the number of false single nucleotide substitutions or insertions/deletions (Nakamura K et al. Nucleic Acids Res 2011;39.e90 and Minoche AE et al. Genome Biol 2011; 12. R112). In addition, repeat sequences such as homopolymers and simple repeats will introduce alignment ambiguity into the calculations and hence lead to false positive results for single nucleotide variations.
Чем больше интересующий участок. тем большее количество ложноположительных положений нуклеотидов будут наблюдать. Если необходимо найти мутации во всем геноме. тогда интересующая область будет представлять собой весь геном и количество исследуемых нуклеотидов будет составлять 3 миллиарда. С другой стороны. если сфокусировать внимание на экзонах. то интересующая область будет состоять из нуклеотидов. кодирующих экзоны. количество которых приблизительно составляет 45 млн.The larger the region of interest, the greater the number of false positive nucleotide positions that will be observed. If we want to find mutations in the entire genome, then the region of interest will be the entire genome and the number of nucleotides to be examined will be 3 billion. On the other hand, if we focus on exons, then the region of interest will consist of nucleotides encoding exons, the number of which is approximately 45 million.
Количество ложноположительных положений нуклеотидов. связанных с ошибками секвенирования. можно определить на основании следующих расчетов. Вероятность (PEr) того. что одна и та же нуклеотидная замена встретится в одном и том же положении вследствие ошибок секвенирования. можно рассчитать как:The number of false positive nucleotide positions due to sequencing errors can be determined using the following calculations. The probability (P Er ) that the same nucleotide substitution will occur at the same position due to sequencing errors can be calculated as:
- 16 048297- 16 048297
PSr = C(D,r)E где C(D,r) представляет собой количество возможных комбинаций выборки r элементов из общего количества элементов D;P Sr = C(D,r)E where C(D,r) is the number of possible combinations of a sample of r elements from the total number of elements D;
r представляет собой значение встречаемости для определения потенциальной мутации;r is the frequency value for determining the potential mutation;
D представляет собой глубину секвенирования; иD represents the sequencing depth; and
E представляет собой частоту ошибок секвенирования.E represents the sequencing error rate.
C(D,r) можно рассчитать как:C(D,r) can be calculated as:
D!D!
Количество положений нуклеотидов (NFP), ложноположительных по мутациям, можно рассчитать как: A'f-p = где NI представляет собой суммарное количество положений нуклеотидов в интересующей области.The number of nucleotide positions (NFP) false positive for mutations can be calculated as: A'f-p = where NI is the total number of nucleotide positions in the region of interest.
На фиг. 6В представлена диаграмма 650, на которой показано ожидаемое количество положений нуклеотидов, которые ошибочно классифицировали как содержащие нуклеотидную замену с применением критериев встречаемости (r) 4, 5, 6 и 7 в зависимости от глубины секвенирования. В данном расчете за интересующий участок принимают целый геном (3 миллиарда положений нуклеотидов). Частоту ошибок секвенирования принимают равной 0,3% от секвенированных нуклеотидов. Видно, что значение r оказывает существенное влияние на ложноположительные результаты. Но по фиг. 6А можно увидеть, что при большем значении r также уменьшается количество детектированных мутаций, по меньшей мере до тех пор, пока не будут применяться значительно большие глубины секвенирования.Fig. 6B is a plot 650 showing the expected number of nucleotide positions that were misclassified as containing a nucleotide substitution using r criteria of 4, 5, 6, and 7 as a function of the sequencing depth. In this calculation, the region of interest is the entire genome (3 billion nucleotide positions). The sequencing error rate is set to 0.3% of the sequenced nucleotides. It can be seen that the r value has a significant impact on false positives. However, it can be seen from Fig. 6A that a higher r value also reduces the number of detected mutations, at least until significantly higher sequencing depths are used.
В. Выбор минимальной встречаемости (r).B. Selecting the minimum occurrence (r).
Выше обсуждалось, что количество истинных связанных с раком мутированных сайтов и ложноположительных сайтов вследствие ошибок секвенирования будет увеличиваться с увеличением глубины секвенирования. Тем не менее, уровни их увеличения будут различны. Следовательно, можно использовать выбор глубины секвенирования и значения r для того, чтобы максимизировать детектирование истинных связанных с раком мутаций, при этом сохраняя количество ложноположительных сайтов на низком уровне.It was discussed above that the number of true cancer-associated mutated sites and false-positive sites due to sequencing errors will increase with increasing sequencing depth. However, the rates of their increase will be different. Therefore, the choice of sequencing depth and r value can be used to maximize the detection of true cancer-associated mutations while keeping the number of false-positive sites low.
На фиг. 7А представлена диаграмма 700, на которой показано количество истинных связанных с раком мутированных сайтов и ложноположительных сайтов для различных глубин секвенирования. Суммарное количество связанных с раком мутаций в опухолевой ткани принимают равным 3000 и фракционную концентрацию ДНК опухолевого происхождения в плазме принимают равной 10%. Частоту ошибок секвенирования принимают равной 0,3%. На подписи к фигуре ИП обозначает истинно положительные сайты, в которых соответствующая мутация присутствует в опухолевой ткани, ЛП обозначает ложноположительные сайты, в которых в опухолевой ткани присутствует не соответствующая мутация и изменения нуклеотидов, присутствующие в результатах секвенирования, выявлены вследствие ошибок секвенирования.Fig. 7A is a diagram 700 showing the number of true cancer-associated mutated sites and false positive sites for different sequencing depths. The total number of cancer-associated mutations in the tumor tissue is assumed to be 3000 and the fractional concentration of tumor-derived DNA in plasma is assumed to be 10%. The sequencing error rate is assumed to be 0.3%. In the figure legend, TRS denotes true positive sites in which the corresponding mutation is present in the tumor tissue, FP denotes false positive sites in which an inappropriate mutation is present in the tumor tissue and nucleotide changes present in the sequencing results are due to sequencing errors.
По диаграмме 700 видно, что при 110-кратной глубине секвенирования мы обнаружим приблизительно 1410 истинных связанных с раком мутаций, если в качестве критерия мы используем минимальную встречаемость, равную 6 (r=6), чтобы определить потенциальный сайт мутации в плазме. Используя данный критерий, мы обнаружим лишь приблизительно 20 ложноположительных сайтов. Если в качестве критерия мы используем минимальную встречаемость, равную 7 (r=7), чтобы определить потенциальную мутацию, количество связанных с раком мутаций, которые можно обнаружить, уменьшится на 470 (до приблизительно 940). Следовательно, критерий r=6 позволит с большей чувствительностью обнаружить в плазме связанные с раком мутации.From the 700 plot, we can see that at 110X sequencing depth, we will detect approximately 1410 true cancer-associated mutations if we use a minimum frequency of 6 (r=6) as a criterion to define a potential mutation site in plasma. Using this criterion, we will only detect approximately 20 false positive sites. If we use a minimum frequency of 7 (r=7) as a criterion to define a potential mutation, the number of cancer-associated mutations that can be detected decreases by 470 (to approximately 940). Therefore, the criterion r=6 will allow for more sensitive detection of cancer-associated mutations in plasma.
С другой стороны, при 200-кратной глубине секвенирования количество детектированных истинных связанных с раком мутаций будет составлять приблизительно 2800 и 2600, если мы используем для определения потенциальных мутаций критерии минимальной встречаемости (r), равные 6 и 7, соответственно. Используя два данных значения r, мы получим количества ложноположительных сайтов приблизительно 740 и 20, соответственно. Следовательно, при 200-кратной глубине секвенирования применение более строгого критерия r=7 для определения потенциальной мутации позволит существенно уменьшить количество ложноположительных сайтов, при этом не оказывая значительного отрицательного влияния на чувствительность детектирования истинных связанных с раком мутаций.On the other hand, at 200x depth of sequencing, the number of detected true cancer-associated mutations will be approximately 2800 and 2600 if we use the minimum frequency (r) criteria of 6 and 7, respectively, to define potential mutations. Using these two r values, we obtain the numbers of false positive sites of approximately 740 and 20, respectively. Therefore, at 200x depth of sequencing, using the more stringent criterion of r=7 to define a potential mutation will significantly reduce the number of false positive sites without significantly affecting the sensitivity of detecting true cancer-associated mutations.
С. Динамическое пороговое значение для результатов секвенирования для детектирования потенциальных мутаций в плазме.C. Dynamic threshold value for sequencing results for detection of potential mutations in plasma.
Глубина секвенирования каждого нуклеотида в интересующей области будет различна. Если мы будем применять фиксированное пороговое значение для встречаемости нуклеотидной замены, чтобы определить потенциальную мутацию в плазме, для нуклеотидов, которые покрыты большим количеством считываемых последовательностей (т.е. секвенированы с большей глубиной), будут выше вероятThe depth of sequencing of each nucleotide in the region of interest will vary. If we apply a fixed threshold for the frequency of a nucleotide substitution to define a potential mutation in plasma, nucleotides that are covered by a greater number of sequence reads (i.e., sequenced to a greater depth) will be more likely to be detected.
- 17 048297 ности ошибочного детектирования в них вариации вследствие ошибки секвенирования, при отсутствии такого изменения в опухолевой ткани, по сравнению с нуклеотидами, которые секвенированы с меньшей глубиной. В одном варианте реализации для преодоления данной проблемы применяют динамическое пороговое значение r к различным положениям нуклеотидов, в соответствии с фактической глубиной секвенирования конкретного положения нуклеотида и в соответствии с желательным верхним пределом вероятности определения ложноположительных вариаций.- 17 048297 probability of erroneous detection of a variation therein due to a sequencing error, in the absence of such a change in the tumor tissue, compared to nucleotides that are sequenced at a lower depth. In one embodiment, to overcome this problem, a dynamic threshold value r is applied to different nucleotide positions, in accordance with the actual sequencing depth of a particular nucleotide position and in accordance with a desired upper limit of the probability of detecting false positive variations.
В одном варианте реализации максимально допустимый уровень ложноположительных вариаций можно зафиксировать как 1 на 1,5x108 положений нуклеотидов. При данном максимально допустимом уровне ложноположительных вариаций суммарное количество ложноположительных сайтов, которые будут обнаруживаться во всем геноме, будет менее 20. Значение r для различных глубин секвенирования можно определить по кривым, показанным на фиг. 6В, и данные пороговые значения показаны в табл. 1. В других вариантах реализации можно применять другие различные максимально допустимые уровни ложноположительных вариаций, например, 1 на 3x108, 1 на 108 или 1 на 6x107. Соответствующее суммарное количество ложноположительных сайтов будет составлять менее чем 10, 30 и 50, соответственно.In one embodiment, the maximum allowable false positive variation rate may be fixed as 1 in 1.5x108 nucleotide positions. With this maximum allowable false positive variation rate, the total number of false positive sites that will be detected in the entire genome will be less than 20. The r value for different sequencing depths can be determined from the curves shown in Fig. 6B, and these thresholds are shown in Table 1. In other embodiments, other different maximum allowable false positive variation rates may be used, such as 1 in 3x108, 1 in 108, or 1 in 6x107 . The corresponding total number of false positive sites will be less than 10, 30, and 50, respectively.
Табл. 1. Минимальное количество раз, которое нуклеотидную замену обнаруживают в плазме, чтобы определить, что она является потенциальной мутацией (r), для различных глубин секвенирования конкретного положения нуклеотида. Максимальный уровень ложноположительных вариаций зафиксирован как 1 на 1,5x108 нуклеотидов.Table 1. Minimum number of times a nucleotide substitution is detected in plasma to determine that it is a potential mutation (r), for different sequencing depths of a particular nucleotide position. The maximum false-positive variation rate was recorded as 1 in 1.5x108 nucleotides.
Таблица 1Table 1
D. Секвенирование с целевым обогащением.D. Targeted enrichment sequencing.
На фиг. 7А показано, что большая глубина секвенирования может привести к лучшей чувствительности обнаружения связанных с раком мутаций, при этом количество ложноположительных сайтов сохраняется на низком уровне благодаря возможности применения более высокого значения r. Например, при 110-кратной глубине секвенирования можно детектировать в плазме 1410 истинных связанных с раком мутаций, применяя значение r, равное 6, тогда как количество обнаруженных истинных связанных с раком мутаций будет составлять 2600, если глубину секвенирования увеличить до 200 раз и применить значение r, равное 7. Два указанных набора результатов дадут ожидаемое количество ложноположительных сайтов, приблизительно равное 20.Fig. 7A shows that a higher sequencing depth can result in better sensitivity for detecting cancer-associated mutations while keeping the number of false positive sites low due to the ability to use a higher r value. For example, at a sequencing depth of 110x, 1410 true cancer-associated mutations can be detected in plasma using an r value of 6, whereas the number of true cancer-associated mutations detected would be 2600 if the sequencing depth were increased to 200x and an r value of 7 were used. These two sets of results would yield an expected number of false positive sites of approximately 20.
Хотя секвенирование всего генома до 200-кратной глубины относительно дорогостояще в настоящее время, одним возможным способом достижения такой глубины секвенирования является фокусировка на меньшей интересующей области. Анализ целевой области можно осуществить, например, но не ограничиваясь перечисленными способами, путем применения затравок ДНК или РНК для захвата интересующих областей генома посредством гибридизации. Захваченные области затем осаждают, например, с помощью магнитных средств, а затем подвергают секвенированию. Такой целевой захват можно осуществить, например, применяя систему целевого обогащения Agilent SureSelect, систему целевого обогащения Roche Nimblegen и систему целевого ресеквенирования Illumina. Другим подходом является проведение амплификации целевых областей с помощью ПЦР, а затем проведение секвенирования. В одном варианте реализации интересующая область представляет собой экзом. В таком варианте реализации можно осуществить целевой захват всех экзонов ДНК в плазме, и обогащенную экзонными областями ДНК из плазмы затем можно секвенировать.Although whole genome sequencing to 200x depth is currently relatively expensive, one possible way to achieve such sequencing depth is to focus on a smaller region of interest. Targeted region analysis can be accomplished, for example, but not limited to, by using DNA or RNA primers to capture genomic regions of interest via hybridization. The captured regions are then precipitated, for example, by magnetic means, and then sequenced. Such targeted capture can be accomplished, for example, using the Agilent SureSelect Targeted Enrichment System, the Roche Nimblegen Targeted Enrichment System, and the Illumina Targeted Resequencing System. Another approach is to amplify the target regions using PCR and then sequence. In one embodiment, the region of interest is the exome. In such an embodiment, all exons of DNA in plasma can be targeted captured, and the exonic region-enriched DNA from the plasma can then be sequenced.
Вдобавок к возможности большей глубины секвенирования, фокусировка на определенных областях вместо анализа всего генома позволит значительно уменьшить количество положений нуклеотидов в области поиска и приведет к уменьшению количества ложноположительных сайтов при такой же частоте ошибок секвенирования.In addition to the potential for greater sequencing depth, focusing on specific regions rather than analyzing the entire genome will significantly reduce the number of nucleotide positions in the search region and result in fewer false positive sites with the same sequencing error rate.
На фиг. 7В представлена диаграмма 750, на которой показано прогнозируемое количество ложноположительных сайтов при проведении анализа полного генома (ПГ) и всех экзонов. Для каждого типа анализа использовали два различных значения r, равные 5 и 6. При 200-кратной глубине секвенирования, если для определения мутаций в плазме используют r=5, прогнозируемое количество ложноположительных сайтов составляет приблизительно 23000 и 230 для всего генома и всех экзонов, соответственно.Fig. 7B is a plot 750 showing the predicted number of false positive sites when performing whole genome (WG) and all exons analysis. Two different r values of 5 and 6 were used for each type of analysis. At 200x depth of sequencing, if r=5 is used to detect mutations in plasma, the predicted number of false positive sites is approximately 23,000 and 230 for the whole genome and all exons, respectively.
- 18 048297- 18 048297
Если для определения мутаций в плазме используют r=6, прогнозируемое количество ложноположительных сайтов составляет 750 и 7, соответственно. Следовательно, ограничение количества нуклеотидов в интересующей области может значительно уменьшить количество ложноположительных сайтов при анализе наличия мутаций в ДНК плазмы.If r=6 is used to detect mutations in plasma, the predicted number of false positive sites is 750 and 7, respectively. Therefore, limiting the number of nucleotides in the region of interest can significantly reduce the number of false positive sites when analyzing for mutations in plasma DNA.
При секвенировании с захватом экзона или даже захватом экзома количество нуклеотидов в области поиска уменьшается. Следовательно, даже если мы позволим более высокий уровень ложноположительных вариаций для детектирования связанных с раком мутаций, абсолютное количество ложноположительных сайтов можно сохранить на относительно низком уровне. Допущение более высокого уровня ложноположительных вариаций позволит применять менее строгий критерий минимальной встречаемости (r) для детектирования однонуклеотидных вариаций в плазме. Это приведет к более высокой чувствительности детектирования истинных связанных с раком мутаций.With exon-captured or even exome-captured sequencing, the number of nucleotides in the search region is reduced. Therefore, even if we allow a higher false-positive variation rate for detecting cancer-associated mutations, the absolute number of false-positive sites can be kept relatively low. Allowing a higher false-positive variation rate will allow a less stringent minimum frequency criterion (r) to be applied for detecting single-nucleotide variations in plasma. This will lead to higher sensitivity in detecting true cancer-associated mutations.
В одном варианте реализации мы можем применять максимально допустимый уровень ложноположительных вариаций, равный 1,5х106. При данном уровне ложноположительных вариаций суммарное количество ложноположительных сайтов внутри целевых экзонов будет составлять лишь 20. Значения r для различных глубин секвенирования с применением максимально допустимого уровня ложноположительных вариаций, равного 1,5х106, показаны в табл. 2. В других вариантах реализации можно применять другие различные максимально допустимые уровни ложноположительных вариаций, например, 1 на 3х106, 1 на 106 или 1 на 6х105. Соответствующее суммарное количество ложноположительных сайтов будет меньше, чем 10, 30 и 50, соответственно. В одном варианте реализации различным классам мутаций можно приписывать различные веса, описанные выше.In one embodiment, we may use a maximum false positive rate of 1.5 x 10 6 . With this false positive rate, the total number of false positive sites within the target exons will be only 20. The r values for various depths of read using a maximum false positive rate of 1.5 x 10 6 are shown in Table 2. In other embodiments, different maximum false positive rates may be used, such as 1 in 3 x 10 6 , 1 in 10 6 , or 1 in 6 x 10 5 . The corresponding total number of false positive sites will be less than 10, 30, and 50, respectively. In one embodiment, different weights may be assigned to different classes of mutations, as described above.
Табл. 2. Минимальное количество раз, которое нуклеотидная замена присутствует в плазме, для того, чтобы определить, что она является потенциальной мутацией (r), для различных глубин секвенирования конкретного положения нуклеотида. Максимальный уровень ложноположительных вариаций зафиксирован на уровне 1 на 1,5 х106 нуклеотидов.Table 2. Minimum number of times a nucleotide substitution is present in plasma to be considered a potential mutation (r), for different sequencing depths of a given nucleotide position. The maximum false-positive variation rate was found to be 1 in 1.5 x 10 6 nucleotides.
Таблица 2Table 2
VIII. Детектирование рака.VIII. Cancer detection.
Выше упоминалось, что количество маркеров последовательности в измененных локусах можно применять для определения различными способами параметра, который сравнивают с порогом, чтобы классифицировать уровень рака. Фракционная концентрация вариантный считываемых последовательностей по сравнению со всеми считываемыми последовательностями в локусе или во множестве локусов представляет собой другой параметр, который можно использовать для этой цели. Ниже представлены некоторые примеры вычисления указанного параметра и порога.It was mentioned above that the number of sequence markers at altered loci can be used to determine in various ways a parameter that is compared to a threshold to classify the cancer level. The fractional concentration of variant reads compared to all reads at a locus or at multiple loci is another parameter that can be used for this purpose. Some examples of calculating this parameter and threshold are given below.
А. Определение параметра.A. Definition of the parameter.
Если КГ гомозиготен в определенном локусе по первой аллели и в биологическом образце (например, в плазме) наблюдается вариантная аллель, то фракционную концентрацию можно рассчитать как 2p/(p+q), где p представляет собой количество маркеров последовательности, содержащих вариантную аллель, и q представляет собой количество маркеров последовательности, содержащих первую аллель КГ. В данной формуле предполагается, что только в одном из гаплотипов опухоли присутствует вариант, что, как правило, будет соответствовать действительности. Таким образом, для каждого гомозиготного локуса можно рассчитать фракционную концентрацию. Фракционные концентрации можно усреднить. В другом варианте реализации число p может включать количество маркеров последовательности для всех локусов и, аналогично числу q, определять фракционную концентрацию. Настоящим описан пример.If the HA is homozygous at a particular locus for the first allele and the variant allele is present in a biological sample (e.g., plasma), the fractional concentration can be calculated as 2p/(p+q), where p is the number of sequence markers containing the variant allele and q is the number of sequence markers containing the first allele of the HA. This formula assumes that only one of the tumor haplotypes contains the variant, which will generally be the case. Thus, for each homozygous locus, the fractional concentration can be calculated. The fractional concentrations can be averaged. In another embodiment, the number p can include the number of sequence markers for all loci and, similarly to the number q, determine the fractional concentration. An example is now described.
Осуществляли полногеномное исследование наличия однонуклеотидных вариантов (ОНВ) опухолевого происхождения в плазме 4 пациентов с ГКК. Мы секвенировали опухолевую ДНК и ДНК из лейкоцитарной пленки со средними глубинами, равными 29,5-кратному (диапазон от 27-кратного до 33кратного) и 43-кратному (диапазон от 39-кратного до 46-кратного) покрытию гаплоидного генома, соответственно. Сравнивали результаты массового параллельного секвенирования (МПС) опухолевой ДНК и ДНК из лейкоцитарной пленки для каждого из 4 пациентов с ГКК, и выявляли ОНВ, присутствующие вA genome-wide assay was performed to identify tumor-related single nucleotide variants (SNVs) in the plasma of four patients with HCC. We sequenced tumor and buffy coat DNA at mean depths of 29.5-fold (range, 27-fold to 33-fold) and 43-fold (range, 39-fold to 46-fold) haploid genome coverage, respectively. Massively parallel sequencing (MPS) results from tumor and buffy coat DNA were compared for each of the four patients with HCC, identifying SNVs present in
- 19 048297 опухолевой ДНК, но не в ДНК из лейкоцитарной пленки, с помощью строгого биоинформационного алгоритма. Для данного алгоритма требуется, чтобы предполагаемый ОНВ присутствовал в по меньшей мере пороговом количестве секвенированных фрагментов опухолевой ДНК (т.е. в соответствующем секвенированном маркере), чтобы его можно было классифицировать как истинный ОНВ. Пороговое количество определяют путем учета глубины секвенирования конкретного нуклеотида и частоты ошибок секвенирования, например, описанных в данной заявке.- 19,048,297 tumor DNA, but not in the buffy coat DNA, using a rigorous bioinformatics algorithm. This algorithm requires that a putative NVB be present in at least a threshold number of sequenced tumor DNA fragments (i.e., in the corresponding sequenced marker) in order to be classified as a true NVB. The threshold number is determined by taking into account the sequencing depth of a particular nucleotide and the sequencing error rate, such as those described in this application.
На фиг. 8 представлена табл. 800, на которой показаны результаты для 4 пациентов с ГКК до и после лечения, включая фракционные концентрации ДНК опухолевого происхождения в плазме согласно вариантам реализации настоящего изобретения. Количество связанных с опухолью ОНВ находилось в диапазоне от 1334 до 3171 в 4 случаях ГКК. Приведен перечень соотношений таких ОНВ, которые были детектированы в плазме до и после лечения. До лечения в плазме обнаружили 15-94% связанных с опухолью ОНВ. После лечения их процент составлял 1,5-5,5%. Таким образом, количество детектированных ОНВ действительно коррелирует с уровнем рака. Таким образом, показали, что количество ОНВ можно применять в качестве параметра для классификации уровня рака.Fig. 8 is a table 800 showing the results for 4 patients with HCC before and after treatment, including fractional concentrations of tumor-derived DNA in plasma according to embodiments of the present invention. The number of tumor-associated NVs ranged from 1334 to 3171 in the 4 cases of HCC. A list of the ratios of such NVs that were detected in the plasma before and after treatment is provided. Before treatment, 15-94% of tumor-associated NVs were detected in the plasma. After treatment, their percentage was 1.5-5.5%. Thus, the number of NVs detected does correlate with the cancer grade. Thus, it was shown that the number of NVs can be used as a parameter for classifying the cancer grade.
Фракционные концентрации ДНК опухолевого происхождения в плазме определяли путем фракционного подсчета количества мутантных последовательностей по сравнению с суммарным количеством последовательностей (т.е. мутантных плюс дикого типа). Формула для такого расчета следующая: 2p/(p+q), где 2 учитывает, что в опухоли мутирован только один гаплотип. Полученные фракционные концентрации хорошо коррелировали с таковыми, определенными с помощью полногеномного анализа суммарной потери аллелей (GAAL) (Chan KC и др. Clin Chem 2013; 59:211-24), и уменьшались после хирургического вмешательства. Таким образом, показали, что фракционная концентрация также является пригодным параметром для определения уровня рака.Fractional concentrations of tumor-derived DNA in plasma were determined by fractional counting of mutant sequences compared to the total number of sequences (i.e. mutant plus wild type). The formula for this calculation is 2p/(p+q), where 2 takes into account that only one haplotype is mutated in the tumor. The obtained fractional concentrations correlated well with those determined by genome-wide analysis of total allelic loss (GAAL) (Chan KC et al. Clin Chem 2013; 59:211–24) and decreased after surgery. Thus, the fractional concentration was shown to be a useful parameter for determining the cancer grade.
Фракционная концентрация, полученная путем анализа ОНВ, может выражать опухолевую нагрузку. У пациента с раковым заболеванием с большей опухолевой нагрузкой (например, с большей выявленной фракционной концентрацией) будет повышена частота соматических мутаций по сравнению с пациентом с меньшей опухолевой нагрузкой. Таким образом, варианты реализации также можно применять для прогнозирования. Обычно, у пациентов с раковыми заболеваниями с большей опухолевой нагрузкой прогноз хуже, чем у пациентов с меньшей опухолевой нагрузкой. Таким образом, у первой из упомянутых групп будет повышенный риск умереть от указанного заболевания. В некоторых вариантах реализации, если можно определить абсолютную концентрацию ДНК в биологическом образце, например, в плазме, (например, применяя ПЦР в реальном времени или флуорометрию), то абсолютную концентрацию связанных с опухолью генетических аберраций можно определить и использовать для клинического детектирования, и/или мониторинга, и/или прогнозирования.The fractional concentration obtained by analyzing the NVB can express the tumor burden. A patient with a cancer with a higher tumor burden (e.g., with a higher detected fractional concentration) will have an increased frequency of somatic mutations compared to a patient with a lower tumor burden. Thus, embodiments can also be used for prognosis. In general, patients with cancers with a higher tumor burden have a worse prognosis than patients with a lower tumor burden. Thus, the former group will have an increased risk of dying from said disease. In some embodiments, if the absolute concentration of DNA in a biological sample, such as plasma, can be determined (e.g., using real-time PCR or fluorometry), then the absolute concentration of tumor-associated genetic aberrations can be determined and used for clinical detection and/or monitoring and/or prognosis.
В. Определение порога.B. Determining the threshold.
Табл. 800 можно использовать для определления порога. Выше упоминалось, что количество ОНВ и фракционная концентрация, определенная с помощью анализа ОНВ, коррелирует с уровнем рака. Порог можно определить в индивидуальном порядке. Например, для определения порога можно использовать значение до лечения. В различных вариантах реализации порог может представлять собой абсолютную величину изменения относительно значения до лечения. Подходящим порогом может быть уменьшение количества ОНВ или фракционной концентрации на 50%. Такой порог позволит классифицировать более низкий уровень рака для каждого из случаев в табл. 800. Следует отметить, что такой порог может зависеть от глубины секвенирования.Table 800 can be used to determine a threshold. As mentioned above, the amount of NBC and the fractional concentration determined by the NBC assay correlate with the cancer grade. The threshold can be determined on an individual basis. For example, the pre-treatment value can be used to determine the threshold. In various embodiments, the threshold can be an absolute change from the pre-treatment value. A suitable threshold can be a 50% decrease in the amount of NBC or the fractional concentration. Such a threshold would classify each case in Table 800 as a lower cancer grade. It should be noted that such a threshold can be dependent on the sequencing depth.
В одном варианте реализации порог можно применять для всех образцов, и он может учитывать или может не учитывать значения данного параметра до лечения. Например, порог из 100 ОНВ можно применять для классификации субъекта как не имеющего рак или имеющего низкий уровень рака. Данный порог из 100 ОНВ удовлетворяется каждым из четырех случаев в табл. 800. Если в качестве параметра применяют фракционную концентрацию, при пороге, составляющем 1,0%, у ГКК1 - ГКК3 будут классифицировать практически нулевой уровень рака, и при втором пороге, составляющем 1,5%, у ГКК4 будут классифицировать низкий уровень рака. Таким образом, более чем один порог можно применять для получения более чем двух классификаций.In one embodiment, the threshold may be applied to all samples and may or may not take into account the pre-treatment values of a given parameter. For example, a threshold of 100 NHBs may be used to classify a subject as having no cancer or having a low cancer level. This threshold of 100 NHBs is satisfied by each of the four cases in Table 800. If fractional concentration is used as the parameter, at a threshold of 1.0%, HCC1 through HCC3 would be classified as having virtually no cancer, and at a second threshold of 1.5%, HCC4 would be classified as having a low cancer level. Thus, more than one threshold may be used to obtain more than two classifications.
Чтобы наглядно продемонстрировать другие возможные пороговые значения, мы проанализировали наличие в плазме здоровых контролей связанных с опухолью ОНВ. У здоровых субъектов можно осуществить множество измерений, чтобы определить диапазон количества вариаций, ожидаемых в биологическом образце по сравнению с конститутивным геномом.To illustrate other possible cutoff values, we analyzed the presence of tumor-associated OHBs in the plasma of healthy controls. In healthy subjects, multiple measurements can be made to determine the range of variation expected in a biological sample compared to the constitutive genome.
На фиг. 9 представлена табл. 900, на которой показано детектирование связанных с ГКК ОНВ у 16 здоровых контрольных субъектов согласно вариантам реализации настоящего изобретения. Табл. 900 можно применять для оценки специфичности подхода анализа ОНВ. 16 здоровых контролей перечислены в различных рядах. В колонках приведены ОНВ, детектированные для конкретных пациентов с ГКК, и показаны количества считываемых последовательностей в измененных локусах, содержащих вариантную аллель, и количество считываемых последовательностей с аллелью дикого типа (т.е. аллелью из КГ). Например, для ГКК1 в контроле С01 было 40 вариантных считываемых последовательностей в таких измененных локусах, но 31261 считываемых последовательностей аллели дикого типа. В последней коFig. 9 is a Table 900 showing the detection of HCC-related NVs in 16 healthy controls according to embodiments of the present invention. Table 900 can be used to evaluate the specificity of the NV assay approach. The 16 healthy controls are listed in different rows. The columns list the NVs detected for individual HCC patients and show the numbers of reads at the altered loci containing the variant allele and the number of reads with the wild-type allele (i.e., the allele from CG). For example, for HCC1 in control C01, there were 40 variant reads at such altered loci but 31,261 reads of the wild-type allele. In the latter row,
- 20 048297 лонке показана суммарная фракционная концентрация для всех ОНВ для пациентов с ГКК1. Так как связанные с ГКК ОНВ специфичны для пациентов с ГКК, присутствующие связанные с ГКК ОНВ представляют собой ложноположительные результаты. Если пороговые значения, описанные в данной заявке, применить к данным выявленным вариантам последовательности, все такие ложноположительные результаты будут отфильтрованы.- 20 048297 lonke shows the summed fractional concentration for all NBCs for patients with HCC1. Since HCC-related NBCs are specific to patients with HCC, the present HCC-related NBCs represent false positives. If the cutoff values described in this application are applied to these identified sequence variants, all such false positives will be filtered out.
Присутствие небольшого количества таких предполагаемых связанных с опухолью мутаций в плазме 16 здоровых контролей представляет стохастический шум данного способа, и вероятно связано с ошибками секвенирования. Средняя фракционная концентрация, оцененная для такого шума, составляла 0,38%. Данные значения представляют диапазон для здоровых субъектов. Таким образом, пороговое значение для классификации нулевого уровня рака для ГКК может составлять приблизительно 0,5%, поскольку наибольшая фракционная концентрация составляла 0,43%. Таким образом, если из пациента с ГКК удалить все раковые клетки, будут ожидать присутствие данных низких фракционных концентраций.The presence of a small number of these putative tumor-associated mutations in the plasma of 16 healthy controls represents the stochastic noise of the method, and is likely due to sequencing errors. The median fractional concentration estimated for this noise was 0.38%. These values represent the range for healthy subjects. Thus, the cutoff value for classification of a zero cancer level for HCC may be approximately 0.5%, since the highest fractional concentration was 0.43%. Thus, if all cancer cells were removed from a patient with HCC, these low fractional concentrations would be expected to be present.
Снова возвращаясь к табл. 800, если в качестве порога для нулевого уровня рака использовать значение 0,5 %, то результаты для плазмы пациентов с ГКК1 и ГКК3 после лечения определят как нулевой уровень на основании анализа ОНВ. ГКК2 можно классифицировать на один уровень выше, чем нулевой. ГКК4 также можно классифицировать на один уровень выше, чем нулевой, или еще более высокий уровень, но все же относительно низкий уровень по сравнению с образцами до лечения.Returning again to Table 800, if 0.5% is used as the threshold for a cancer level of zero, then the results for plasma from patients with HCC1 and HCC3 after treatment would be classified as zero based on the NBC analysis. HCC2 would be classified as one level higher than zero. HCC4 would also be classified as one level higher than zero, or even higher, but still relatively low compared to the pretreatment samples.
В одном варианте реализации, в котором указанный параметр соответствует количеству измененных локусов, порог может быть нулевым (т.е. один измененный локус может свидетельствовать о ненулевом уровне рака). Тем не менее, при многих параметрах (например, глубины), порог будет выше, например, будет иметь абсолютное значение 5 или 10. В одном варианте реализации, в котором за индивидом наблюдали после лечения, порог может представлять собой некоторый процент ОНВ (детектированных путем непосредственного анализа опухолей), выявленных в образце. Если пороговое значение для необходимого в некотором локусе вариантных считываемых последовательностей достаточно велико, наличие лишь одного измененного локуса может указывать на ненулевой уровень рака.In one embodiment, where the parameter is the number of altered loci, the threshold may be zero (i.e., one altered locus may indicate a non-zero cancer level). However, for many parameters (e.g., depth), the threshold will be higher, such as an absolute value of 5 or 10. In one embodiment, where the individual is followed after treatment, the threshold may be a certain percentage of DATs (directly detectable tumors) detected in the sample. If the threshold for the number of variant reads needed at a locus is high enough, the presence of only one altered locus may indicate a non-zero cancer level.
Таким образом, количественный анализ вариаций (например, однонуклеотидных вариаций) в ДНК из биологического образца (например, из плазмы) можно применять для диагностики, мониторинга и прогнозирования рака. Для детектирования рака количество однонуклеотидных вариаций, детектированных в плазме исследованного субъекта, можно сравнить с таковым для группы здоровых субъектов. Детектирование в плазме здоровых субъектов однонуклеотидных вариаций может происходить вследствие ошибок секвенирования, неклональных мутаций в кровяных клетках и других органах. Было показано, что клетки у нормальных здоровых субъектов могут нести небольшое количество мутаций (Conrad DF и др. Nat Genet 2011;43:712-4), как показано в табл. 900. Таким образом, суммарное количество детектированных однонуклеотидных вариаций в плазме группы очевидно здоровых субъектов можно применять в качестве референсного диапазона для того, чтобы определить, присутствует ли в плазме исследованного пациента аномально высокое количество однонуклеотидных вариаций, соответствующее ненулевому уровню рака.Thus, quantitative analysis of variations (e.g., single nucleotide variations) in DNA from a biological sample (e.g., plasma) can be used to diagnose, monitor, and prognosticate cancer. The number of single nucleotide variations detected in the plasma of a test subject can be compared with that in a group of healthy subjects to detect cancer. Detection of single nucleotide variations in the plasma of healthy subjects can be due to sequencing errors, non-clonal mutations in blood cells, and other organs. It has been shown that cells from normal healthy subjects can carry a small number of mutations (Conrad DF et al. Nat Genet 2011;43:712-4), as shown in Table 900. Thus, the total number of single nucleotide variations detected in the plasma of a group of apparently healthy subjects can be used as a reference range to determine whether an abnormally high number of single nucleotide variations corresponding to a non-zero level of cancer is present in the plasma of a test patient.
Здоровых субъектов, используемых для определения референсного диапазона, можно подобрать по возрасту и полу для соответствия исследуемым субъектам. В более раннем исследовании было показано, что количество мутаций в соматических клетках увеличивается с возрастом (Cheung NK и др., JAMA 2012; 307:1062-71). Таким образом, накопление клонов клеток по мере старения является нормой, даже если они относительно доброкачественные большую часть времени или если им потребуется очень большое время, чтобы стать клинически значимыми. В одном варианте реализации референсные уровни можно получить для различных групп субъектов, например, с различным возрастом, полом, этнической принадлежностью и другими параметрами (например, курение, заболевание гепатитом, алкоголизм, лекарственный анамнез).Healthy subjects used to establish a reference range can be matched by age and gender to match the subjects being studied. An earlier study showed that the number of mutations in somatic cells increases with age (Cheung NK et al., JAMA 2012; 307:1062-71). Thus, the accumulation of clones of cells as we age is normal, even if they are relatively benign most of the time or if they take a very long time to become clinically significant. In one embodiment, reference levels can be obtained for different groups of subjects, such as those with different ages, genders, ethnicities, and other parameters (e.g., smoking status, hepatitis, alcoholism, drug history).
Референсный диапазон может изменяться в зависимости от используемого порогового значения (т.е. присутствие в локусе необходимого количества измененных маркеров последовательности), а также предположительного уровня ложноположительных вариаций и других переменных (например, возраста). Таким образом, референсный диапазон можно определить для конкретного набора одного или более критериев, и для определения параметра для образца будут применять такие же критерии. Тогда указанный параметр можно сравнить с референсным диапазоном, поскольку оба определяли, применяя одинаковые критерии.The reference range may vary depending on the threshold used (i.e. the presence of a required number of altered sequence markers at the locus), as well as the expected level of false positive variations and other variables (e.g. age). Thus, the reference range can be defined for a specific set of one or more criteria, and the same criteria will be used to determine the parameter for the sample. The specified parameter can then be compared with the reference range, since both were determined using the same criteria.
Выше упоминалось, что в вариантах реализации можно использовать несколько пороговых значений для определения уровня рака. Например, с помощью первого уровня можно определить отсутствие признаков рака для параметров ниже порога и по меньшей мере первый уровень рака, который может представлять собой преднеопластический уровень. Другие уровни могут соответствовать различным стадиям рака.It was mentioned above that in embodiments, several threshold values can be used to determine the cancer level. For example, using the first level, it is possible to determine the absence of signs of cancer for parameters below the threshold and at least the first level of cancer, which can represent a pre-neoplastic level. Other levels can correspond to different stages of cancer.
С. Зависимость экспериментальных переменных.C. Dependence of experimental variables.
Глубина секвенирования может быть важна для определения минимального порога детектирования минорного (например, опухолевого) генома. Например, если применять глубину секвенирования, равную 10 гаплоидным геномам, то минимальная концентрация опухолевой ДНК, которую можно обнаружить,Sequencing depth may be important for determining the minimum detection threshold for a minor (e.g., tumor) genome. For example, if a sequencing depth of 10 haploid genomes is used, the minimum concentration of tumor DNA that can be detected is
- 21 048297 даже с помощью технологии секвенирования без каких-либо ошибок, составляет 1/5, т.е. 20%. С другой стороны, если применять глубину секвенирования, равную 100 гаплоидным геномам, то минимальная концентрация опустится до 2%. Данный анализ относится к случаю, когда анализируют только один мутированный локус. Тем не менее, если анализируют большее количество мутированных локусов, то минимальная концентрация опухолевой ДНК может быть ниже, и ее определяют с помощью функции биномиальной вероятности. Например, если глубина секвенирования 10-кратная и фракционная концентрация опухолевой ДНК составляет 20%, то вероятность детектирования мутации составляет 10%. Тем не менее, если присутствует 10 мутаций, то вероятность детектирования по меньшей мере одной мутации будет составлять 1-(1-10%)10=65%.- 21 048297 even with the sequencing technology without any errors is 1 / 5 , i.e. 20%. On the other hand, if a sequencing depth of 100 haploid genomes is used, the minimum concentration will drop to 2%. This analysis applies to the case where only one mutated locus is analyzed. However, if a larger number of mutated loci are analyzed, the minimum tumor DNA concentration may be lower and is determined using the binomial probability function. For example, if the sequencing depth is 10-fold and the fractional tumor DNA concentration is 20%, the probability of detecting a mutation is 10%. However, if there are 10 mutations, the probability of detecting at least one mutation will be 1-(1-10%) 10 = 65%.
Существует несколько следствий увеличения глубины секвенирования. Чем больше глубина секвенирования, тем больше ошибок секвенирования будет наблюдаться, см. фиг. 4 и 5. Тем не менее, при большей глубине секвенирования будет легче отличить ошибки секвенирования от мутаций вследствие клональной экспансии субпопуляции клеток (например, раковых клеток), так как ошибки секвенирования будут встречаться в геноме случайно, а мутации будут встречаться в одном и том же положении для данной популяции клеток.There are several implications of increasing the sequencing depth. The greater the sequencing depth, the more sequencing errors will be observed, see Figs. 4 and 5. However, with greater sequencing depth, it will be easier to distinguish sequencing errors from mutations due to clonal expansion of a subpopulation of cells (e.g., cancer cells), since sequencing errors will occur randomly in the genome and mutations will occur at the same position for a given cell population.
Чем больше глубина секвенирования, тем больше мутаций будет детектировано в здоровых клетках. Тем не менее, если не происходит клональная экспансия данных здоровых клеток и их мутационные профили различны, то мутации в данных здоровых клетках можно отличить от мутаций по частотам встречаемости в плазме (например, применяя пороговое значение N для необходимого количества считываемых последовательностей, в которых детектирована мутация, например, N должно быть равно 2, 3, 4, 5 или больше).The greater the sequencing depth, the more mutations will be detected in healthy cells. However, if there is no clonal expansion of these healthy cells and their mutation profiles are different, then mutations in these healthy cells can be distinguished from mutations by their frequencies in plasma (e.g., by applying a threshold N for the required number of sequence reads in which a mutation is detected, e.g., N should be 2, 3, 4, 5, or more).
Выше упоминалось, что порог может зависеть от количества мутаций в здоровых клетках, которые будут клонально размножаться, и, следовательно, их могут не отличить от других механизмов. Такая изменчивость, которую можно ожидать, может быть получена при анализе здоровых субъектов. Так как клональная экспансия происходит с течением времени, на изменчивость, которую наблюдают у здоровых субъектов, может влиять возраст пациента, и, таким образом, порог может зависеть от возраста. D. Комбинации целевых подходов.It was mentioned above that the threshold may depend on the number of mutations in healthy cells that will clonally expand and therefore may not be distinguishable from other mechanisms. Such variability, which may be expected, may be obtained by analyzing healthy subjects. Since clonal expansion occurs over time, the variability observed in healthy subjects may be affected by the patient's age, and thus the threshold may be age dependent. D. Combinations of Targeted Approaches.
В некоторых вариантах реализации случайное секвенирование можно применять в комбинации с целевыми подходами. Например, можно осуществить случайное секвенирование образца плазмы при поступлении пациента с раковым заболеванием. Можно проанализировать отклонения числа копий и ОНВ в результатах секвенирования ДНК в плазме. Области, в которых выявлены отклонения (например, амплификация/делеция или высокая плотность ОНВ), можно целенаправленно взять для серийного мониторинга. Мониторинг можно осуществить через какой-либо период времени, или осуществить незамедлительно после случайного секвенирования, фактически как единую процедуру. Для целевого анализа можно успешно применять подходы захвата на основе гибридизации в жидкой фазе для обогащения плазмы ДНК для неинвазивной пренатальной диагностики (Liao GJ и др. Clin Chem 2011;57:92-101). Такие методики упоминаются выше. Таким образом, направленные и случайные подходы можно применять в комбинации для детектирования и мониторинга рака.In some embodiments, random sequencing can be used in combination with targeted approaches. For example, a plasma sample can be randomly sequenced upon admission to a patient with cancer. Copy number and NVD abnormalities in the DNA sequencing results from the plasma can be analyzed. Regions that show abnormalities (e.g., amplification/deletion or high NVD density) can be targeted for serial monitoring. Monitoring can be performed over a period of time or performed immediately after random sequencing, essentially as a single procedure. For targeted analysis, liquid-phase hybridization-based capture approaches can be successfully used to enrich plasma DNA for noninvasive prenatal diagnosis (Liao GJ et al. Clin Chem 2011;57:92-101). Such techniques are mentioned above. Thus, targeted and random approaches can be used in combination for cancer detection and monitoring.
Таким образом, можно осуществить целевое секвенирование локусов, в которых с применением нецелевого полногеномного подхода, упомянутого выше, обнаружили потенциальные мутации. Такое целевое секвенирование можно осуществить, применяя методики гибридизации в растворе или твердофазной гибридизации (например, применяя Agilent SureSelect, NimbleGen Sequence Capture, или систему целевого ресеквенирования Illumina), а затем массовое параллельное секвенирование. Другой подход представляет собой осуществление амплификации (например, системы на основе ПЦР) для целевого секвенирования (Forshew Т и др. Sci Transl Med 2012; 4: 135ra68).Thus, targeted sequencing can be performed on loci where potential mutations have been identified using the untargeted whole genome approach mentioned above. Such targeted sequencing can be performed using solution hybridization or solid phase hybridization techniques (e.g., using Agilent SureSelect, NimbleGen Sequence Capture, or the Illumina Targeted Resequencing System) followed by massively parallel sequencing. Another approach is to perform amplification (e.g., PCR-based systems) for targeted sequencing (Forshew T et al. Sci Transl Med 2012; 4: 135ra68).
IX. Фракционная концентрация.IX. Fractional concentration.
Фракционную концентрацию опухолевой ДНК можно применять для определения порогового значения необходимого количества вариаций в локусе до того, как в локусе обнаружили мутацию. Например, если известно, что фракционная концентрация относительно высока, то можно применять высокое пороговое значение для отсеивания большего количества ложноположительных результатов, поскольку известно, что для истинного ОНВ должно присутствовать относительно высокое количество вариантных считываемых последовательностей. С другой стороны, если фракционная концентрация оказалась низкой, то может потребоваться нижнее пороговое значение, чтобы не упустить некоторые из ОНВ. В данном случае фракционную концентрацию будут определять с помощью способа, отличного от анализа ОНВ, где она используется в качестве параметра.The fractional concentration of tumor DNA can be used to determine a cutoff value for the amount of variation required at a locus before a mutation is detected at the locus. For example, if the fractional concentration is known to be relatively high, a high cutoff value can be used to filter out more false positives, since it is known that a relatively high number of variant reads must be present for a true NVD. On the other hand, if the fractional concentration is found to be low, a lower cutoff value may be needed to ensure that some NVDs are not missed. In this case, the fractional concentration would be determined using a method different from the NVD assay, where it is used as a parameter.
Для определения фракционной концентрации можно применять различные методики, некоторые из которых описаны в данной заявке. Данные методики можно применять для определения фракционной концентрации ДНК опухолевого происхождения в смеси, например, в биоптате, содержащем смесь опухолевых клеток и незлокачественных клеток, или в образце плазмы из пациента с раковым заболеванием, содержащем ДНК, высвобожденную из опухолевых клеток, и ДНК, высвобожденную из незлокачественных клеток.Various techniques can be used to determine the fractional concentration, some of which are described in this application. These techniques can be used to determine the fractional concentration of tumor-derived DNA in a mixture, such as in a biopsy containing a mixture of tumor cells and non-malignant cells, or in a plasma sample from a patient with cancer containing DNA released from tumor cells and DNA released from non-malignant cells.
- 22 048297- 22 048297
A. GAAL.A. GAAL.
Полногеномный анализ суммарной потери аллелей (GAAL) позволяет анализировать локусы, которые утратили гетерозиготность (Chan KC и др. Clin Chem 2013; 59:211-24). Для гетерозиготного сайта конститутивного генома (КГ) в опухоли часто обнаруживают локус, в котором произошла делеция одной из аллелей. Таким образом, считываемые последовательности для такого локуса выявят большее количество одной аллели, чем другой, при этом выявленное различие пропорционально фракционной концентрации опухолевой ДНК в образце. Пример такого расчета приведен далее.Genome-wide analysis of total allele loss (GAAL) allows analysis of loci that have lost heterozygosity (Chan KC et al. Clin Chem 2013; 59:211-24). For a heterozygous site of the housekeeping genome (GH) in a tumor, a locus is often found in which one of the alleles has been deleted. Thus, the reads for such a locus will reveal more of one allele than the other, with the difference being proportional to the fractional concentration of tumor DNA in the sample. An example of such a calculation is given below.
ДНК, выделенную из лейкоцитарной пленки и опухолевых тканей пациентов с ГКК, генотипировали с помощью системы Affymetrix Genome-Wide Human SNP Array 6.0. Результаты, полученные для микрочипа, обрабатывали с помощью Affymetrix Genotyping Console версии 4.1. Анализ генотипирования и определение однонуклеотидных полиморфизмов (ОНП) осуществляли с помощью алгоритма Birdseed версии 2. Результаты генотипирования для лейкоцитарных пленок и опухолевых тканей использовали для определения областей с утратой гетерозиготности (LOH) и для осуществления анализа числа копий. Анализ числа копий осуществляли с использованием параметров по умолчанию Genotyping Console от Affymetrix, с минимальным размером геномных фрагментов 100 п.о. и минимальным количеством генетических маркеров внутри фрагмента, равным 5.DNA isolated from buffy coats and tumor tissues of patients with HCC was genotyped using the Affymetrix Genome-Wide Human SNP Array 6.0 system. Results obtained for the microarray were processed using Affymetrix Genotyping Console version 4.1. Genotyping analysis and determination of single nucleotide polymorphisms (SNPs) were performed using the Birdseed algorithm version 2. Genotyping results for buffy coats and tumor tissues were used to determine regions of loss of heterozygosity (LOH) and to perform copy number analysis. Copy number analysis was performed using the default parameters of the Affymetrix Genotyping Console, with a minimum genomic fragment size of 100 bp and a minimum number of genetic markers within a fragment equal to 5.
Области с LOH обнаруживали как области с 1 копией в опухолевой ткани и 2 копиями в лейкоцитарной пленке, при этом ОНП в данных областях были гетерозиготными в лейкоцитарной пленке, но гомозиготными в опухолевой ткани. Для области генома, в которой детектирована LOH в опухолевой ткани, аллели ОНП, которые присутствовали в лейкоцитарной пленке, но отсутствовали или проявляли меньшую интенсивность в опухолевых тканях, считали аллелями на удаленном фрагменте фрагмента хромосомы. Аллели, которые присутствовали в как в лейкоцитарной пленке, так и в опухолевой ткани, считали полученными из неудаленного фрагмента фрагмента хромосомы. Для всех фрагментов хромосом с утратой одной копии в опухоли считали суммарное количество считываемых последовательностей с утратой аллелей и без утраты аллелей. Разность данных двух значений использовали для вычисления фракционной концентрации ДНК опухолевого происхождения (FGAAL) в образце, применяя следующее уравнение:Regions with LOH were detected as regions with 1 copy in tumor tissue and 2 copies in the buffy coat, and SNPs in these regions were heterozygous in the buffy coat but homozygous in tumor tissue. For a genomic region in which LOH was detected in tumor tissue, SNP alleles that were present in the buffy coat but absent or at a lower intensity in tumor tissues were considered to be alleles on the deleted fragment of the chromosome fragment. Alleles that were present in both the buffy coat and tumor tissue were considered to be derived from the undeleted fragment of the chromosome fragment. For all chromosome fragments with one copy loss in the tumor, the total number of read sequences with and without allelic loss was calculated. The difference between these two values was used to calculate the fractional concentration of tumor-derived DNA (F GAAL ) in the sample using the following equation:
_ N6es дел - Ыдел_ N6es del - Ыdel
Fgaal N6es дел где N без дел представляет собой суммарное количество считываемых последовательностей без утраты аллелей и N дел представляет собой суммарное количество считываемых последовательностей с утратой аллелей.Fgaal N6es div where N div is the total number of reads without allele loss and N div is the total number of reads with allele loss.
В. Оценка с применением геномного представления.B. Assessment using genomic representation.
Проблема методики GAAL состоит в том, что определяют конкретные локусы (т.е. такие локусы, в которых детектированы области с утратой гетерозиготности (LOH)) и используют только считываемые последовательности, выровненных с такими локусами. Такое требование может привести к необходимости дополнительных этапов и, таким образом, к повышению стоимости. Здесь описан вариант реализации, в котором используют только число копий, например, плотность считываемых последовательностей.The problem with the GAAL method is that it defines specific loci (i.e., loci where loss of heterozygosity (LOH) regions are detected) and only uses read sequences aligned to these loci. This requirement may lead to additional steps and thus higher costs. An implementation is described here that uses only copy number, e.g., read density.
Хромосомные аберрации, например, амплификации и делеции, часто наблюдают в геномах раковых клеток. Хромосомные аберрации, наблюдаемые в раковых тканях, обычно происходят на субхромосомных областях, и такие аберрации могут быть короче, чем 1 мегабаза. Кроме того, связанные с раком хромосомные аберрации гетерогенны у различных пациентов, и, следовательно, у различных пациентов могут быть поражены различные фрагменты. Также в геноме раковой клетки нередко обнаруживают десятки, сотни или даже тысячи вариаций числа копий. Каждый из перечисленных факторов затрудняет определение концентрации опухолевой ДНК.Chromosomal aberrations, such as amplifications and deletions, are frequently observed in the genomes of cancer cells. Chromosomal aberrations observed in cancer tissues typically occur at subchromosomal regions, and such aberrations can be shorter than 1 megabase. In addition, cancer-associated chromosomal aberrations are heterogeneous among patients, and therefore different fragments may be affected in different patients. Also, tens, hundreds, or even thousands of copy number variations are often found in the genome of a cancer cell. Each of these factors makes it difficult to determine the concentration of tumor DNA.
Варианты реализации включают анализ количественных изменений, происходящих в результате связанных с опухолью хромосомных аберраций. В одном варианте реализации образцы ДНК, включающие ДНК, происходящую из раковых клеток и нормальных клеток, секвенируют, применяя массовое параллельное секвенирование, например, с помощью платформы секвенирования Illumina HiSeq2000. Полученная ДНК может представлять собой внеклеточную ДНК из плазмы или другого подходящего биологического образца.Embodiments include analysis of quantitative changes resulting from tumor-associated chromosomal aberrations. In one embodiment, DNA samples comprising DNA derived from cancer cells and normal cells are sequenced using massively parallel sequencing, such as using the Illumina HiSeq2000 sequencing platform. The resulting DNA may be cell-free DNA from plasma or another suitable biological sample.
Области хромосом, которые амплифицировались в опухолевых тканях, с большей вероятностью будут секвенированы, а области, которые удалились в опухолевых тканях, с меньшей вероятностью будут секвенированы. В результате, плотность считываемых последовательностей, выравниваемых с амплифицированными областями, будет повышена и плотность считываемых последовательностей, выровненных с удаленными областями, будет понижена. Степень вариации пропорциональна фракционной концентрации ДНК опухолевого происхождения в смеси ДНК. Чем выше доля ДНК из опухолевой ткани, тем большее изменение будет вызвано хромосомными аберрациями.Chromosome regions that are amplified in tumor tissues are more likely to be sequenced, and regions that are deleted in tumor tissues are less likely to be sequenced. As a result, the density of sequence reads that align to amplified regions will be increased, and the density of sequence reads that align to deleted regions will be decreased. The degree of variation is proportional to the fractional concentration of tumor-derived DNA in the DNA mixture. The higher the proportion of tumor-derived DNA, the greater the variation that will be caused by chromosomal aberrations.
1. Оценка образца с высокой концентрацией опухоли.1. Evaluation of a sample with high tumor concentration.
ДНК выделяли из опухолевых тканей четырех пациентов с печеночно-клеточной карциномой. ДНК фрагментировали, применяя систему разрушения ДНК ультразвуком Covaria, и секвенировали, применяяDNA was isolated from tumor tissues of four patients with hepatocellular carcinoma. DNA was fragmented using the Covaria sonic DNA disruption system and sequenced using
- 23 048297 описанную платформу Illumina HiSeq2000 (Chan KC и др. Clin Chem 2013; 59:211-24). Считываемые последовательности выравнивали с референсным геномом человека (hg18). Геном затем разделяли на фрагменты (области) по 1 мегабазе и для каждого фрагмента рассчитывали плотность считываемых последовательностей после поправки на GC-сдвиг, как было описано (Chen EZ и др. PLoS One. 2011; 6:е21791).- 23 048297 described Illumina HiSeq2000 platform (Chan KC et al. Clin Chem 2013; 59:211–24). Read sequences were aligned to the human reference genome (hg18). The genome was then divided into 1-Mb fragments (regions) and the density of read sequences was calculated for each fragment after correction for GC bias as described (Chen EZ et al. PLoS One. 2011; 6:e21791).
После выравнивания считываемых последовательностей с референсным геномом можно вычислить плотность считываемых для различных областей. В одном варианте реализации плотность считываемой последовательности представляет собой соотношение, определяемое как количество считываемых последовательностей, картированных на конкретном фрагменте (например, области размером 1 мегабаза), деленное на суммарное количество считываемых последовательностей, которые можно выровнять с референсным геномом (например, с уникальным положением в референсном геноме). Ожидают, что для фрагментов, которые перекрываются с областями хромосом, амплифицированными в опухолевой ткани, плотности считываемых последовательностей будут выше, чем для фрагментов без таких перекрываний. С другой стороны, ожидают, что для фрагментов, которые перекрываются с областями хромосом, содержащими делецию, плотности считываемых последовательностей будут ниже, чем для фрагментов без таких перекрываний. На величину различия плотностей считываемых последовательностей между областями с хромосомными аберрациями и без них преимущественно влияет доля ДНК опухолевого происхождения в образце и степень амплификации/делеции в опухолевых клетках.After alignment of the read sequences with the reference genome, the read density for the various regions can be calculated. In one embodiment, the read density is a ratio defined as the number of read sequences mapped to a particular fragment (e.g., a 1-megabase region) divided by the total number of read sequences that can be aligned to the reference genome (e.g., to a unique position in the reference genome). Fragments that overlap with chromosomal regions amplified in tumor tissue are expected to have higher read densities than fragments without such overlaps. On the other hand, fragments that overlap with chromosomal regions containing a deletion are expected to have lower read densities than fragments without such overlaps. The magnitude of the difference in the densities of read sequences between regions with and without chromosomal aberrations is mainly influenced by the proportion of tumor-derived DNA in the sample and the degree of amplification/deletion in tumor cells.
Можно применять различные статистические модели, чтобы определить фрагменты с плотностями считываемых последовательностей, соответствующими различным типам хромосомных аберраций. В одном варианте реализации можно применять модель смеси нормальных распределений (McLachlan G и Peel D. Multvariate normal mixtures. In Finite mixture models 2004: стр. 81-116. John Wiley & Sons Press). Также можно применять другие статистические модели, например, модель смеси биномиальных распределений и модель пуассоновской регрессии (McLachlan G и Peel D. Mixtures with non-normal components, Finite mixture models 2004: стр. 135-174. John Wiley & Sons Press).Various statistical models can be used to identify fragments with read densities corresponding to different types of chromosomal aberrations. In one embodiment, a normal mixture model can be used (McLachlan G and Peel D. Multvariate normal mixtures. In Finite mixture models 2004: pp. 81-116. John Wiley & Sons Press). Other statistical models can also be used, such as a binomial mixture model and a Poisson regression model (McLachlan G and Peel D. Mixtures with non-normal components, Finite mixture models 2004: pp. 135-174. John Wiley & Sons Press).
Плотность считываемой последовательности фрагмента можно нормировать, применяя плотность считываемой последовательности того же фрагмента, определенную с помощью секвенирования ДНК из лейкоцитарной пленки. На плотности считываемых последовательностей для различных фрагментов может влиять контекст последовательности конкретной хромосомной области, и, таким образом, нормировка позволяет более точно определить области с аберрациями. Например, картируемость (которая относится к вероятности выравнивания последовательности с ее исходным положением) различных областей хромосом может различаться. Кроме того, полиморфизм числа копий (т.е. вариации числа копий) также будут влиять на плотности считываемых последовательностей фрагментов. Следовательно, нормировка на ДНК из лейкоцитарной пленки потенциально может минимизировать количество вариаций, связанных с различием в контексте последовательности между различными областями хромосом.The read density of a fragment can be normalized by applying the read density of the same fragment determined by buffy coat DNA sequencing. The read densities of different fragments can be affected by the sequence context of a particular chromosomal region, and thus normalization allows for more precise identification of regions with aberrations. For example, the mappability (which refers to the probability of aligning a sequence to its original position) of different chromosomal regions can differ. In addition, copy number polymorphism (i.e., copy number variations) will also affect the read densities of fragments. Therefore, normalization to buffy coat DNA can potentially minimize the amount of variation due to differences in sequence context between different chromosomal regions.
На фиг. 10А показан график 1000 распределения плотностей считываемых последовательностей образца опухоли из пациента с ГКК согласно вариантам реализации настоящего изобретения. Опухолевую ткань получали после хирургической резекции из пациента с ГКК. Ось x представляет собой log2 отношения (R) плотности считываемой последовательности из опухолевой ткани к таковой из лейкоцитарной пленки пациента. Ось y представляет собой количество фрагментов.Fig. 10A shows a graph 1000 of the distribution of read densities of a tumor sample from a patient with HCC according to embodiments of the present invention. The tumor tissue was obtained after surgical resection from a patient with HCC. The x-axis represents the log 2 ratio (R) of the read density of the tumor tissue to that of the patient's buffy coat. The y-axis represents the number of fragments.
Пики можно подогнать под кривую распределения, чтобы показать области с делецией, амплификацией и без хромосомных аберраций, применяя модель смеси нормальных распределений. В одном варианте реализации количество пиков можно определить с помощью информационного критерия Акаике (AIC) для всех различных правдоподобных значений. Центральный пик с log2R=0 (т.е. R=1) представляет собой области без каких-либо хромосомных аберраций. Левый пик (относительно центрального) представляет собой области с утратой одной копии. Правый пик (относительно центрального) представляет собой области с приобретением одной копии.The peaks can be fitted to a distribution curve to show regions with deletion, amplification, and no chromosomal aberrations using a mixture model of normal distributions. In one embodiment, the number of peaks can be determined using the Akaike information criterion (AIC) for all different likelihood values. The central peak with log 2 R=0 (i.e., R=1) represents regions without any chromosomal aberrations. The left peak (relative to the central one) represents regions with a loss of one copy. The right peak (relative to the central one) represents regions with a gain of one copy.
Фракционную концентрацию ДНК опухолевого происхождения может отражать расстояние между пиками, представляющими амплифицированные и удаленные области. Чем больше указанное расстояние, тем выше будет фракционная концентрация ДНК опухолевого происхождения в образце. Фракционную концентрацию ДНК опухолевого происхождения в образце можно определить с помощью подхода геномного представления, обозначенного FGR, применяя следующее уравнение: Fgr=R пржый-R левый, где R правый представляет собой значение R для правого пика и R левый представляет собой значение R для левого пика. Наибольшее различие будет представлять 1, что соответствует 100%. Оценили, что фракционная концентрация ДНК опухолевого происхождения в образце опухоли, полученном из пациента с ГКК, составляла 66%, где значения R правый и R левый составляли 1,376 и 0,712 соответственно.The fractional concentration of tumor DNA can be reflected by the distance between the peaks representing the amplified and deleted regions. The greater the said distance, the higher the fractional concentration of tumor DNA in the sample. The fractional concentration of tumor DNA in the sample can be determined using the genomic representation approach denoted as FGR, using the following equation: F gr = R right - R left , where R right is the R value for the right peak and R left is the R value for the left peak. The largest difference will be represented by 1, which corresponds to 100%. The fractional concentration of tumor DNA in the tumor sample obtained from a patient with HCC was estimated to be 66%, where the R right and R left values were 1.376 and 0.712, respectively.
Чтобы подтвердить полученный результат, также применяли способ полногеномного анализа суммарной потери аллелей (GAAL) для независимого определения фракционной концентрации соотношения опухолевой ДНК (Chan KC и др. Clin Chem 2013; 59:211-24). В табл. 3 показаны фракционные концентрации ДНК опухолевого происхождения в опухолевых тканях четырех пациентов с ГКК, определенные с применением подходов геномного представления (FGR) и GAAL (FGAAL). Значения, определенные с помощью данных двух различных подходов, хорошо согласуются друг с другом.To confirm the obtained result, the genome-wide analysis of total allele loss (GAAL) method was also used to independently determine the fractional concentration of tumor DNA ratio (Chan KC et al. Clin Chem 2013; 59:211-24). Table 3 shows the fractional concentrations of tumor-derived DNA in tumor tissues of four patients with HCC determined using the genomic representation (FGR) and GAAL (FGAAL) approaches. The values determined by these two different approaches are in good agreement with each other.
- 24 048297- 24 048297
Таблица 3Table 3
Показывающая фракционную концентрацию, определенную с помощью GAAL и геномного представления (GR)Showing fractional concentration determined using GAAL and genomic representation (GR)
2. Оценка образца с низкой концентрацией опухоли.2. Evaluation of a sample with low tumor concentration.
Описанный выше анализ показал, что наш способ геномного представления можно применять для измерения фракционной концентрации опухолевой ДНК, когда более чем 50% образца ДНК имеет опухолевое происхождение, т.е. когда опухолевая ДНК представляет собой доминирующую часть. В предыдущем анализе мы показали, что данный способ также можно применять по отношению к образцам, в которых ДНК опухолевого происхождения представляет минорную часть (т.е. ниже 50%). Образцы, которые могут содержать минорную часть опухолевой ДНК, включают, но не ограничены перечисленны ми: кровь, плазму, сыворотку, мочу, плевральную жидкость, спинномозговую жидкость, слезы, слюну, асцитную жидкость и кал пациентов с раковыми заболеваниями. В некоторых образцах фракционная концентрация ДНК опухолевого происхождения может составлять 49%, 40%, 30%, 20%, 10%, 5%, 2%, 1%, 0,5%, 0,1% или менее.The above analysis showed that our genomic representation method can be used to measure the fractional concentration of tumor DNA when more than 50% of the sample DNA is of tumor origin, i.e., when tumor DNA represents the dominant fraction. In a previous analysis, we showed that this method can also be applied to samples in which tumor DNA represents a minor fraction (i.e., less than 50%). Samples that may contain a minor fraction of tumor DNA include, but are not limited to, blood, plasma, serum, urine, pleural fluid, cerebrospinal fluid, tears, saliva, ascites fluid, and stool from patients with cancer. In some samples, the fractional concentration of tumor DNA may be 49%, 40%, 30%, 20%, 10%, 5%, 2%, 1%, 0.5%, 0.1%, or less.
Для таких образцов пики плотности варианта считываемой последовательности, представляющие области с амплификацией и делецией, могут быть не такими явными, как для образцов, содержащих относительно высокую концентрацию ДНК опухолевого происхождения, описанных выше. В одном варианте реализации области с хромосомными аберрациями в раковых клетках можно обнаружить путем сравнения с референсными образцами, в которых, как известно, не содержится раковая ДНК. Например, в качестве эталона можно применять плазму субъектов, не страдающих раком, чтобы определить нормативный диапазон плотностей варианта считываемой последовательностей для областей хромосом. Плотность считываемой последовательности исследуемого субъекта можно сравнить с ее значением для референсной группы. В одном варианте реализации можно определить среднее значение и стандартное отклонение (СО) плотности считываемой последовательности. Для каждого фрагмента плотность считываемой последовательности исследуемого субъекта сравнивают со средним значением в референсной группе, чтобы определить z-показатель, применяя следующую формулу:For such samples, the peaks in the density of the variant read sequence representing the regions with amplification and deletion may not be as obvious as for the samples containing a relatively high concentration of tumor-derived DNA described above. In one embodiment, regions of chromosomal aberrations in cancer cells can be detected by comparison with reference samples that are known to be free of cancer DNA. For example, plasma from subjects without cancer can be used as a reference to determine the normative range of the variant read sequence densities for chromosomal regions. The read sequence density of the subject of interest can be compared with its value for the reference group. In one embodiment, the mean value and standard deviation (SD) of the read sequence density can be determined. For each fragment, the read sequence density of the subject of interest is compared with the mean value in the reference group to determine a z-score using the following formula:
(gRtsct - GRaTa.n) z - показатель =-----------------СОэтал , где GR тест представляет собой плотность считываемой последовательности пациента с раковым заболеванием;(gRtsct - GRaTa.n) z - score =-----------------СОref, where GR test is the density of the read sequence of a patient with cancer;
G Ra тал представляет собой среднее значение плотности считываемой последовательности референсных субъектов и СОэтал представляет СО плотностей считываемых последовательностей референсных субъектов.G Ra tal represents the average value of the density of the read sequence of the reference subjects and SD etal represents the SD of the densities of the read sequences of the reference subjects.
Области с z-показателем <-3 указывают на существенную недостаточность представления плотности считываемой последовательности для конкретного фрагмента у пациента с раковым заболеванием, позволяя предположить наличие делеции в опухолевой ткани. Области с z-показателем >3 указывают на существенную избыточность представления плотности считываемой последовательности для конкретного фрагмента у пациента с раковым заболеванием, позволяя предположить наличие амплификации в опухолевой ткани.Regions with a z-score <-3 indicate significant underrepresentation of read density for a particular fragment in a patient with cancer, suggesting the presence of a deletion in tumor tissue. Regions with a z-score >3 indicate significant overrepresentation of read density for a particular fragment in a patient with cancer, suggesting the presence of an amplification in tumor tissue.
Затем можно построить распределение z-показателей для всех фрагментов, чтобы определить области с различными количествами приобретений и утрат копий, например, с делецией 1 или 2 копий хромосомы; и амплификацией с приобретением 1, 2, 3 и 4 дополнительных копий хромосомы. В некоторых случаях может быть вовлечена более чем одна хромосома или более чем одна область хромосомы.A distribution of z-scores can then be constructed for all fragments to identify regions with different amounts of copy gains and losses, such as deletions of 1 or 2 copies of a chromosome; and amplifications with gains of 1, 2, 3, and 4 extra copies of a chromosome. In some cases, more than one chromosome or more than one region of a chromosome may be involved.
На фиг. 10В показан график 1050 распределения z-показателей для всех фрагментов в плазме пациента с ГКК согласно вариантам реализации настоящего изобретения. Пики (слева направо), представляющие утрату 1 копии, отсутствие изменения копий, приобретение 1 копии и приобретение 2 копий, подогнали к распределению z-показателей. Области с различными типами хромосомных аберраций затем можно выявить, например, применяя модель смеси нормальных распределений, описанную выше.Fig. 10B shows a plot 1050 of the z-score distribution for all fragments in the plasma of a patient with HCC according to embodiments of the present invention. Peaks (from left to right) representing 1 copy loss, no copy change, 1 copy gain, and 2 copy gain were fitted to the z-score distribution. Regions with different types of chromosomal aberrations can then be identified, for example, by applying the normal mixture model described above.
Фракционную концентрацию раковой ДНК в образце (F) затем можно вывести из плотностей считываемых последовательностей фрагментов, в которых детектировано приобретение одной копии или утрата одной копии. Фракционную концентрацию, определенную для конкретного фрагмента, можно рассчитать с помощью уравнения:The fractional concentration of cancer DNA in the sample (F) can then be inferred from the read densities of fragments in which one copy gain or one copy loss is detected. The fractional concentration determined for a particular fragment can be calculated using the equation:
Г =G =
Il;|gRt9<:t — GRsTan)|x2)Il;|gRt9<:t — GRsTan)|x2)
СКэталSKateal
X 100%X 100%
-25 048297-25 048297
Это уравнение также можно представить в виде:This equation can also be represented as:
F = (|z _ показатель х С0зтал|)/( (GRsran))) х 2 а также можно переписать как:F = (|z _ index x С0зтал|)/((GRsran))) x 2 and can also be rewritten as:
F = Iz - показатель! X КБ х 2 где КВ представляет собой коэффициент вариации измерения плотности считываемой последовательности референсных субъектов; и кв= СОэтаЛСйэталF = Iz - indicator! X KB x 2 where KB is the coefficient of variation of the density measurement of the read sequence of reference subjects; and kv = COetaLSyetal
В одном варианте реализации результаты, полученные для фрагментов, объединяют. Например, можно усреднить z-показатели фрагментов, в которых выявили приобретение 1 копии, или можно усреднить полученные для них значения F. В другом варианте реализации значение z-показателя, используемое для вывода F, определяют с помощью статистической модели и представляют в виде пиков, показанных на фиг. 10В и фиг. 11. Например, z-показатель для правого пика можно применять для определения фракционной концентрации областей, в которых детектировано приобретение 1 копии.In one embodiment, the results obtained for the fragments are combined. For example, the z-scores of the fragments in which the acquisition of 1 copy was detected can be averaged, or the F values obtained for them can be averaged. In another embodiment, the z-score value used to derive F is determined using a statistical model and is represented as the peaks shown in Fig. 10B and Fig. 11. For example, the z-score for the right peak can be used to determine the fractional concentration of regions in which the acquisition of 1 copy was detected.
В другом варианте реализации все фрагменты с z-показателем <-3 и z-показателем >3 можно отнести к областям с утратой одной копии и приобретением одной копии, соответственно, так как данные два типа хромосомных аберраций наиболее распространены. Такое приближение наиболее полезно, когда количество фрагментов с хромосомными аберрациями относительно мало и подгонка к нормальному распределению не может быть точной.In another embodiment, all fragments with a z-score <-3 and a z-score >3 can be assigned to regions with one copy loss and one copy gain, respectively, since these two types of chromosomal aberrations are the most common. This approximation is most useful when the number of fragments with chromosomal aberrations is relatively small and the fit to a normal distribution cannot be exact.
На фиг. 11 показан график 1100 распределения z-показателей для плазмы из пациента с ГКК согласно вариантам реализации настоящего изобретения. Хотя количество фрагментов, перекрывающихся с хромосомными аберрациями, относительно мало, все фрагменты с z-показателем <-3 и z-показателем >3 подогнали к нормальным распределениям утраты одной копии и приобретения одной копии, соответственно.Fig. 11 shows a graph 1100 of the z-score distribution for plasma from a patient with HCC according to embodiments of the present invention. Although the number of fragments overlapping with chromosomal aberrations is relatively small, all fragments with a z-score <-3 and a z-score >3 were fitted to normal distributions of one copy loss and one copy gain, respectively.
Фракционные концентрации ДНК опухолевого происхождения в плазме четырех пациентов с ГКК определяли, применяя анализ GAAL и подход на основе GR. Результаты представлены в табл. 4. Видно, что полученное фракционное представление хорошо коррелирует между анализом GAAL и анализом GR.Fractional concentrations of tumor-derived DNA in plasma of four patients with HCC were determined using the GAAL assay and the GR-based approach. The results are presented in Table 4. It is evident that the obtained fractional representation correlates well between the GAAL assay and the GR assay.
Таблица 4Table 4
Фракционная концентрация в плазме ДНК опухолевого происхождения, полученная с помощью ________анализа хромосомных аберраций________Fractional plasma concentration of tumor DNA obtained by ________chromosomal aberration analysis________
С. Способ определения фракционной концентрации.C. Method for determining fractional concentration.
На фиг. 12 представлена блок-схема способа 1200 определения фракционной концентрации опухолевой ДНК в биологическом образце, содержащем внеклеточную ДНК согласно вариантам реализации настоящего изобретения. Способ 1200 можно осуществить с помощью различных вариантов реализации, включая варианты реализации, описанные выше.Fig. 12 is a flow chart of a method 1200 for determining a fractional concentration of tumor DNA in a biological sample containing extracellular DNA according to embodiments of the present invention. The method 1200 can be implemented using various embodiments, including the embodiments described above.
В блоке 1210 получают один или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце. Блок 1210 можно осуществить, как описано в данной заявке для других способов. Например, можно секвенировать из образца плазмы один конец фрагмента ДНК. В другом варианте реализации можно секвенировать оба конца фрагмента ДНК, что позволяет оценить длину фрагмента.In block 1210, one or more sequence markers are obtained for each of a plurality of DNA fragments in the biological sample. Block 1210 may be performed as described in this application for other methods. For example, one end of a DNA fragment may be sequenced from a plasma sample. In another embodiment, both ends of the DNA fragment may be sequenced, which allows the length of the fragment to be estimated.
В блоке 1220 определяют положения в геноме маркеров последовательности. Положения в геноме можно определить, например, как описано в данной заявке, путем выравнивания маркеров последовательности с референсным геномом. Если секвенируют оба конца фрагмента, то спаренные маркеры можно выровнять в виде пары с расстоянием между двумя маркерами, которое должно быть меньше, чем определенное расстояние, например, 500 или 1000 оснований.In block 1220, the positions of the sequence markers in the genome are determined. The positions in the genome can be determined, for example, as described in this application, by aligning the sequence markers with a reference genome. If both ends of the fragment are sequenced, then the paired markers can be aligned as a pair with the distance between the two markers being less than a certain distance, for example, 500 or 1000 bases.
В блоке 1230 для каждой из множества областей генома определяют соответствующее количество фрагментов ДНК, принадлежащих данной области генома, с помощью маркеров последовательности, расположенных в геноме внутри данной области генома. Области генома могут представлять собой неперекрывающиеся фрагменты равной длины в референсном геноме. В одном варианте реализации можно сосчитать количество маркеров, которые выровнили с фрагментом. Таким образом, с каждым фрагментом может быть выровнено соответствующее количество маркеров. Можно построить гистограмму, иллюстрирующую частоту выравнивания с фрагментами определенного количества маркеров.In block 1230, for each of the plurality of genomic regions, a corresponding number of DNA fragments belonging to the given genomic region are determined using sequence markers located in the genome within the given genomic region. The genomic regions may be non-overlapping fragments of equal length in a reference genome. In one embodiment, the number of markers that are aligned with a fragment may be counted. Thus, a corresponding number of markers may be aligned with each fragment. A histogram may be constructed illustrating the frequency of alignment with fragments of a certain number of markers.
-26048297-26048297
Способ 1200 можно осуществить для областей генома, каждая из которых имеет одинаковую длину (например, для фрагментов по 1 мегабазе), при этом области не перекрываются. В других вариантах реализации можно применять различные длины, которые могут быть учтены, и области могут перекрываться.Method 1200 can be performed for regions of the genome, each of which has the same length (for example, for fragments of 1 megabase), and the regions do not overlap. In other embodiments, different lengths can be used, which can be taken into account, and the regions can overlap.
В блоке 1240 соответствующее количество нормируют с получением соответствующей плотности. В одном варианте реализации нормировка соответствующего количества с получением соответствующей плотности включает применение такого же суммарного количества выровненных референсных маркеров для определения соответствующей плотности и референсной плотности. В другом варианте реализации соответствующее количество можно поделить на суммарное количество выровненных референсных маркеров.In block 1240, the corresponding quantity is normalized to obtain the corresponding density. In one embodiment, normalizing the corresponding quantity to obtain the corresponding density includes using the same total number of aligned reference markers to determine the corresponding density and the reference density. In another embodiment, the corresponding quantity can be divided by the total number of aligned reference markers.
В блоке 1250 соответствующую плотность сравнивают с референсной плотностью, чтобы выявить в данной области генома утрату 1 копии или приобретение 1 копии. В одном варианте реализации вычисляют различие между соответствующей плотностью и референсной плотностью (например, в рамках определения z-показателя) и сравнивают с пороговым значением. В различных вариантах реализации референсную плотность можно получить для образца из здоровых клеток (например, для лейкоцитарной пленки) или для соответствующих количеств таких же клеток (например, получив срединное или среднее значение, при допущении, что в большинстве областей нет утраты или приобретения копий).In block 1250, the corresponding density is compared with a reference density to detect a loss of 1 copy or a gain of 1 copy in a given region of the genome. In one embodiment, the difference between the corresponding density and the reference density is calculated (e.g., as part of determining a z-score) and compared with a threshold value. In various embodiments, the reference density can be obtained for a sample of healthy cells (e.g., for a buffy coat) or for corresponding quantities of the same cells (e.g., by obtaining a median or average value, assuming that most regions do not have copy losses or gains).
В блоке 1260 первую плотность рассчитывают по одной или более соответствующим плотностям, в которых детектирована утрата 1 копии, или по одной или более соответствующим плотностям, в которых детектировано приобретение 1 копии. Первая плотность может соответствовать только одной области генома, или ее можно определить по плотностям нескольких областей генома. Например, первую плотность можно вычислить по соответствующим плотностям с утратой 1 копии. Соответствующие плотности дают возможность измерить величину различия плотностей, возникшего в результате делеции указанной области в опухоли, позволяя получить концентрацию опухоли. Аналогично, если первая плотность относится к соответствующим плотностям с приобретением 1 копии, то можно получить величину различия плотностей, возникшего в результате дупликации данной области в опухоли. В разделах выше описаны различные примеры того, как можно применять плотности нескольких областей для определения средней плотности, чтобы использовать ее для определения первой плотности.In block 1260, the first density is calculated from one or more corresponding densities in which a loss of 1 copy is detected, or from one or more corresponding densities in which a gain of 1 copy is detected. The first density may correspond to only one region of the genome, or it may be determined from the densities of several regions of the genome. For example, the first density may be calculated from the corresponding densities with a loss of 1 copy. The corresponding densities make it possible to measure the magnitude of the density difference that resulted from the deletion of the specified region in the tumor, allowing one to obtain the tumor concentration. Similarly, if the first density is related to the corresponding densities with a gain of 1 copy, then the magnitude of the density difference that resulted from the duplication of the given region in the tumor may be obtained. The sections above describe various examples of how densities of several regions may be used to determine an average density, which may be used to determine the first density.
В блоке 1270 фракционную концентрацию рассчитывают путем сравнения первой плотности с другой плотностью с получением разности. Полученную разность нормируют на референсную плотность, что можно осуществить в блоке 1270. Например, разность можно нормировать на референсную плотность путем деления разности на референсную плотность. В другом варианте реализации разность может быть нормирована в описанных ранее блоках.In block 1270, the fractional concentration is calculated by comparing the first density with another density to obtain a difference. The resulting difference is normalized to a reference density, which can be done in block 1270. For example, the difference can be normalized to the reference density by dividing the difference by the reference density. In another embodiment, the difference can be normalized in the previously described blocks.
В одном варианте реализации другая плотность представляет собой референсную плотность, например, описанную выше в разделе 2. Таким образом, вычисление фракционной концентрации может включать умножение разности на два. В другом варианте реализации другая плотность представляет собой вторую плотность, рассчитанную по соответствующим плотностям с выявленной утратой 1 копии (где первую плотность рассчитывают, применяя соответствующие плотности, в которых детектировано приобретение 1 копии), например, описанным выше в разделе 1. В данном случае нормированную разность можно определить путем вычисления первого отношения (например, R правый) первой плотности к референсной плотности и вычисления второго отношения (R левый) второй плотности к референсной плотности, при этом разность находится между первым отношением и вторым отношением. Выше описано, что можно определить область генома, в которой детектирована утрата 1 копии или приобретение 1 копии, путем подгонки пиков к кривой распределения гистограммы соответствующих плотностей.In one embodiment, the other density is a reference density, such as described above in section 2. Thus, calculating the fractional concentration may include multiplying the difference by two. In another embodiment, the other density is a second density calculated from the corresponding densities in which a loss of 1 copy was detected (where the first density is calculated using the corresponding densities in which a gain of 1 copy was detected), such as described above in section 1. In this case, the normalized difference can be determined by calculating a first ratio (e.g., R right ) of the first density to the reference density and calculating a second ratio (R left ) of the second density to the reference density, where the difference is between the first ratio and the second ratio. As described above, it is possible to determine the region of the genome in which a loss of 1 copy or a gain of 1 copy is detected by fitting the peaks to a distribution curve of a histogram of the corresponding densities.
Вкратце, варианты реализации позволяют анализировать геномное представление ДНК в плазме в различных областях хромосом, чтобы одновременно определить, амплифицирована ли или удалена ли хромосомная область в опухолевой ткани, и, если указанная область амплифицирована или удалена, использовать данное геномное представление для вычисления фракционной концентрации ДНК опухолевого происхождения. В некоторых вариантах реализации применяют модель смеси нормальных распределений, чтобы проанализировать общее распределение геномного представления различных фрагментов для определения геномного представления, связанного с различными типами отклонений, а именно с приобретениями 1, 2, 3 или 4 копий и потерями 1 или 2 копий.Briefly, embodiments allow analyzing the genomic representation of DNA in plasma in various chromosomal regions to simultaneously determine whether a chromosomal region in tumor tissue is amplified or deleted, and, if said region is amplified or deleted, using this genomic representation to calculate the fractional concentration of tumor-derived DNA. In some embodiments, a mixture model of normal distributions is used to analyze the overall distribution of the genomic representation of various fragments to determine the genomic representation associated with various types of abnormalities, namely, gains of 1, 2, 3, or 4 copies and losses of 1 or 2 copies.
Описанные варианты реализации обладают несколькими преимуществами над другими способами, например, над подходом полногеномного анализа суммарной потери аллелей (GAAL) (заявка на патент США 13/308473; Chan KC и др. Clin Chem 2013; 59:211-24) и анализом связанных с опухолью однонуклеотидных мутаций (Forshew T и др. Sci Transl Med. 2012; 4:136ra68). Все считываемые последовательности, картированные на областях с хромосомными аберрациями, можно применять для определения плотности считываемой последовательности указанной области, и, следовательно, они информативны в отношении фракционной концентрации опухолевой ДНК. С другой стороны, в анализе GAAL информативными будут только считываемые последовательности, покрывающие отдельные нуклеотиды, которые гетерозиготны у индивида и расположены внутри хромосомной области с приобретением или потерей хромосомы. Аналогично, в анализе связанных с раком мутаций только считываемые последовательности, покрывающие мутации, будут полезны для вычисления концентрации опухолевой ДНК. Следовательно, варианты реализации могут обеспечить более экономически эффективное использование резульThe described embodiments have several advantages over other methods, such as the genome-wide analysis of total allele loss (GAAL) approach (US patent application 13/308,473; Chan KC et al. Clin Chem 2013; 59:211-24) and tumor-associated single nucleotide mutation analysis (Forshew T et al. Sci Transl Med. 2012; 4:136ra68). All reads mapped to regions with chromosomal aberrations can be used to determine the read density of said region and are therefore informative regarding the fractional concentration of tumor DNA. On the other hand, in the GAAL analysis, only reads covering individual nucleotides that are heterozygous in an individual and located within the chromosomal region with a gain or loss of a chromosome will be informative. Similarly, in cancer-associated mutation analysis, only sequence reads covering mutations will be useful for calculating tumor DNA concentration. Therefore, embodiments may provide more cost-effective use of the results.
- 27 048297 татов секвенирования, так как может потребоваться относительно меньшее количество считываемых последовательностей при секвенировании по сравнению с другими подходами для достижения такой же степени достоверности оценки фракционной концентрации ДНК опухолевого происхождения.- 27,048,297 sequencing reads, as relatively fewer sequencing reads may be required compared to other approaches to achieve the same degree of confidence in estimating the fractional concentration of tumor-derived DNA.
X. Альтернативные методики.X. Alternative methods.
Помимо использования в качестве критерия для определения того, что локус содержит истинную мутацию, количества раз, которое отдельная мутация наблюдается в маркере последовательности (с помощью чего корректируют положительное прогнозируемое значение), можно применять другие методики вместо или вдобавок к применению порогового значения, чтобы получить большее прогнозируемое значение для идентификации раковой мутации. Например, при обработке результатов секвенирования можно применять биоинформационные фильтры различной строгости, например, учитывая показатель качества секвенированного нуклеотида. В одном варианте реализации можно применять секвенаторы ДНК и химические компоненты для секвенирования с различными профилями ошибок секвенирования. Секвенаторы и химические компоненты с меньшей частотой ошибок секвенирования позволят получить более высокие положительные предсказательные значения. Можно также осуществлять повторное секвенирование одного и того же фрагмента ДНК, чтобы увеличить достоверность секвенирования. Одна возможная стратегия представляет собой стратегию секвенирования кольцевых консенсусных последовательностей от Pacific Biosciences.In addition to using the number of times a particular mutation is observed in a sequence marker as a criterion for determining whether a locus contains a true mutation (which adjusts the positive predictive value), other techniques can be used instead of or in addition to the threshold to obtain a higher predictive value for identifying a cancer mutation. For example, bioinformatic filters of varying stringency can be used when processing sequencing results, such as by taking into account the quality score of the sequenced nucleotide. In one embodiment, DNA sequencers and sequencing chemistries with different sequencing error profiles can be used. Sequencers and chemistries with lower sequencing error rates will yield higher positive predictive values. It is also possible to resequence the same DNA fragment to increase the confidence in the sequencing. One possible strategy is the circular consensus sequencing strategy from Pacific Biosciences.
В другом варианте реализации для интерпретации полученных результатов можно учитывать информацию о размере секвенированных фрагментов. Так как в плазме ДНК опухолевого происхождения короче, чем ДНК неопухолевого происхождения (см. заявку на патент США № 13/308473), то положительное прогнозируемое значение для более короткого фрагмента ДНК в плазме, содержащего потенциальную мутацию опухолевого происхождения, будет выше, чем таковое для более длинного фрагмента ДНК в плазме. Данные о размерах можно легко получить, осуществляя секвенирование спаренных концов ДНК в плазме. В качестве альтернативы можно применять секвенаторы ДНК, которые считывают длинные молекулы, таким образом, позволяя получить полную длину фрагмента ДНК в плазме. Также можно осуществить фракционирование ДНК в образце плазмы по размерам перед секвенированием ДНК. Примеры способов, которые можно применять для фракционирования по размерам, включают электрофорез в геле, применение микрофлюидного подхода (например, системы LabChip XT Caliper) и эксклюзионных центрифужных колонок.In another embodiment, information on the size of the sequenced fragments can be used to interpret the results obtained. Since tumor-derived DNA is shorter in plasma than non-tumor-derived DNA (see U.S. Patent Application No. 13/308,473), the positive predictive value for a shorter DNA fragment in plasma containing a potential tumor-derived mutation will be higher than that for a longer DNA fragment in plasma. Size data can be readily obtained by paired-end sequencing of DNA in plasma. Alternatively, DNA sequencers that read long molecules can be used, thereby allowing the full length of the DNA fragment in plasma to be obtained. It is also possible to size fractionate the DNA in the plasma sample prior to DNA sequencing. Examples of methods that can be used for size fractionation include gel electrophoresis, the use of a microfluidic approach (e.g., the LabChip XT Caliper system), and size exclusion spin columns.
В еще одном варианте реализации будут ожидать, что фракционная концентрация связанных с опухолью мутаций в плазме у пациента с негематологическим раком будет выше, если сосредоточиться на более коротких фрагментах ДНК в плазме. В одном варианте реализации можно сравнить фракционную концентрацию связанных с опухолью мутаций в фрагментах ДНК плазмы из двух или более различных распределений по размеру. У пациента с негематологическим раком будут наблюдаться более высокие фракционные концентрации связанных с опухолью мутаций в более коротких фрагментах по сравнению с более длинными фрагментами.In another embodiment, the fractional concentration of tumor-associated mutations in plasma in a patient with non-hematological cancer will be expected to be higher when focusing on shorter DNA fragments in plasma. In one embodiment, the fractional concentration of tumor-associated mutations in plasma DNA fragments from two or more different size distributions can be compared. A patient with non-hematological cancer will have higher fractional concentrations of tumor-associated mutations in shorter fragments compared to longer fragments.
В некоторых вариантах реализации можно объединить результаты секвенирования для двух или более аликвот одного и того же образца крови или для двух или более образцов крови, полученных в то же время или в разные моменты времени. Положительное прогнозируемое значение потенциальных связанных с опухолью мутаций, наблюдаемых в более чем одной аликвоте или в более чем одном образце, будет более высоким. Положительное прогнозируемое значение будет повышаться с количеством образцов, в которых выявлена такая мутация. Потенциальные мутации, которые присутствуют в образцах плазмы, взятых в различные моменты времени, можно считать потенциальными мутациями.In some embodiments, the sequencing results for two or more aliquots of the same blood sample, or for two or more blood samples obtained at the same time or at different time points, may be combined. The positive predictive value of potential tumor-associated mutations observed in more than one aliquot or in more than one sample will be higher. The positive predictive value will increase with the number of samples in which such a mutation is detected. Potential mutations that are present in plasma samples taken at different time points may be considered potential mutations.
XI. Примеры.XI. Examples.
Далее представлены примеры методик и результатов, но не следует считать, что они ограничивают варианты реализации настоящего изобретения.The following are examples of methods and results, but they should not be considered as limiting the embodiments of the present invention.
А. Материалы и методы.A. Materials and methods.
Для сбора образцов привлекали пациентов с печеночно-клеточной карциномой (ГКК), носителей хронического гепатита В и пациента с одновременным раком груди и яичников. У всех пациентов с ГКК из клиники Барселоны был рак печени на стадии заболевания А1. Образцы периферической крови собирали у всех участников в пробирки, содержащие ЭДТА. Опухолевые ткани пациентов с ГКК получали в процессе хирургической резекции рака.Samples were collected from patients with hepatocellular carcinoma (HCC), chronic hepatitis B carriers, and a patient with simultaneous breast and ovarian cancer. All HCC patients from the Barcelona Clinic had liver cancer at stage A1 disease. Peripheral blood samples were collected from all participants in tubes containing EDTA. Tumor tissues from HCC patients were obtained during surgical resection of the cancer.
Образцы периферической крови центрифугировали при 1600 g в течение 10 мин при 4°С. Полученную плазму снова центрифугировали при 16000 g в течение 10 мин при 4°С, а затем хранили при 80°С. Выделяли молекулы внеклеточной ДНК из 4,8 мл плазмы согласно протоколу для выделения ДНК из крови и биологической жидкости из набора QIAamp DSP DNA Blood Mini (Qiagen). ДНК из плазмы для каждого из случаев концентрировали с помощью концентратора SpeedVac (Savant DNA120; Thermo Scientific) до конечного объема 40 мкл для последующего получения библиотеки секвенирования ДНК.Peripheral blood samples were centrifuged at 1600 g for 10 min at 4°C. The resulting plasma was centrifuged again at 16,000 g for 10 min at 4°C and then stored at 80°C. Cell-free DNA molecules were isolated from 4.8 ml of plasma according to the protocol for DNA isolation from blood and biological fluids from the QIAamp DSP DNA Blood Mini kit (Qiagen). Plasma DNA for each case was concentrated using a SpeedVac concentrator (Savant DNA120; Thermo Scientific) to a final volume of 40 μl for subsequent DNA sequencing library preparation.
Геномную ДНК выделяли из образцов лейкоцитарной пленки пациентов согласно протоколу для выделения ДНК из крови и биологической жидкости из набора QIAamp DSP DNA Blood Mini. ДНК выделяли из опухолевых тканей с помощью набора QIAamp DNA Mini (Qiagen).Genomic DNA was isolated from buffy coat samples of patients according to the protocol for DNA isolation from blood and biological fluid from the QIAamp DSP DNA Blood Mini kit. DNA was isolated from tumor tissues using the QIAamp DNA Mini kit (Qiagen).
Конструировали библиотеки секвенирования образцов геномной ДНК с помощью набора PairedSequencing libraries of genomic DNA samples were constructed using the Paired kit
- 28 048297- 28 048297
End Sample Preparation Kit (Illumina), согласно инструкциям производителя. Вкратце, 1-5 микрограмм геномной ДНК сначала расщепляли на фрагменты размером 200 п.о. с помощью устройства для ультразвуковой фрагментации Covaris S220 Focused-ultrasonicator. Впоследствии, застраивали концы молекул ДНК с помощью ДНК-полимеразы Т4 и фрагмента Кленова ДНК-полимеразы; затем применяли полинуклеотидкиназу Т4 для фосфорилирования 5'-концов. Получали 3'-выступ с помощью фрагмента Кленова, лишенного 3'-5'-экзонуклеазной активности. Олигонуклеотидные адаптеры Illumina лигировали с липкими концами. Лигированную с адаптером ДНК амплифицировали с помощью 12 циклов ПЦР. Так как молекулы ДНК в плазме представляли собой короткие фрагменты и количества общей ДНК в образцах плазмы были относительно малы, мы пропустили этапы фрагментации и использовали 15 циклов ПЦР для конструирования библиотек ДНК из образцов плазмы.End Sample Preparation Kit (Illumina), according to the manufacturer's instructions. Briefly, 1-5 micrograms of genomic DNA were first sheared into 200 bp fragments using a Covaris S220 Focused-ultrasonicator. Subsequently, the ends of the DNA molecules were filled in using T4 DNA polymerase and the Klenow fragment of DNA polymerase; then, T4 polynucleotide kinase was used to phosphorylate the 5' ends. A 3' overhang was generated using a Klenow fragment lacking 3'-5' exonuclease activity. Illumina oligonucleotide adapters were ligated to the sticky ends. The adapter-ligated DNA was amplified using 12 cycles of PCR. Because the DNA molecules in plasma were short fragments and the amounts of total DNA in plasma samples were relatively small, we skipped the fragmentation steps and used 15 cycles of PCR to construct DNA libraries from plasma samples.
Биоанализатор Agilent 2100 (Agilent Technologies) применяли для проверки качества и размера библиотек лигированных с адаптерами ДНК. Библиотеки ДНК затем анализировали с помощью набора для количественного анализа библиотек КАРА (Кара Biosystems), следуя инструкциям производителя. Библиотеку ДНК разбавляли и гибридизовали с проточными кюветами для секвенирования спаренных концов. Кластеры ДНК получали с помощью системы для получения кластеров cBot (Illumina) с помощью 2 версии набора TruSeq PE Cluster Generation (Illumina), после чего проводили 512 цикл или 762 циклов секвенирования на системе HiSeq 2000 (Illumina) с помощью 2 версии набора TruSeq SBS (Illumina).An Agilent 2100 Bioanalyzer (Agilent Technologies) was used to check the quality and size of the adapter-ligated DNA libraries. DNA libraries were then analyzed using the KAPA library quantification kit (Kara Biosystems) following the manufacturer's instructions. Library DNA was diluted and hybridized to paired-end sequencing flow cells. DNA clusters were generated using the cBot Cluster Generation System (Illumina) with the TruSeq PE Cluster Generation Kit Version 2 (Illumina), followed by 512 or 762 cycles of sequencing on a HiSeq 2000 System (Illumina) with the TruSeq SBS Kit Version 2 (Illumina).
Результаты секвенирования спаренных концов анализировали посредством программы для выравнивания коротких олигонуклеотидов Short Oligonucleotide Alignment Program 2 (SOAP2) в режиме спаренных концов. Для каждой считываемой последовательности со спаренными концами по 50 п.о. или 75 п.о. с каждого конца выравнивали с референсным геномом человека без маскировки повторов (hg18). При выравнивании каждого конца допускали несовпадение 2 нуклеотидов. Геномные координаты данных потенциальных выравниваний для 2 концов затем анализировали, чтобы определить, удается ли выровнять любую комбинация 2 концов с одной и той же хромосомой в правильной ориентации с размером вставки, меньшим или равным 600 п.о., и с картированием в одном положении в референсном геноме человека. Дублированные считываемые последовательности определяли как считываемые последовательности спаренных концов, в которых начальное и конечное положения в геноме человека вставленной молекулы ДНК были идентичны; дублированные считываемые последовательности удаляли, как описано ранее (Lo и др. Sci Transl Med 2010; 2: 61ra91).Paired-end sequencing results were analyzed with the Short Oligonucleotide Alignment Program 2 (SOAP2) in paired-end mode. For each paired-end sequence read, 50 bp or 75 bp from each end were aligned to the human reference genome without repeat masking (hg18). A mismatch of 2 nucleotides was allowed in each end alignment. The genomic coordinates of these potential 2-end alignments were then analyzed to determine whether any combination of the 2 ends could align to the same chromosome in the correct orientation with an insert size less than or equal to 600 bp and mapping to the same position in the human reference genome. Duplicate sequence reads were defined as paired-end sequence reads in which the start and end positions in the human genome of the inserted DNA molecule were identical; Duplicate read sequences were removed as described previously (Lo et al. Sci Transl Med 2010; 2:61ra91).
В некоторых вариантах реализации секвенировали пары образцов опухолевой и конститутивной ДНК, чтобы определить связанные с опухолью однонуклеотидные варианты (ОНВ). В некоторых вариантах реализации мы сосредоточились на ОНВ, встречающихся в гомозиготных сайтах в конститутивной ДНК (в данном примере ДНК получали из лейкоцитарной пленки). В принципе, любой вариант нуклеотида, детектированный в результатах секвенирования опухолевых тканей, но отсутствующий в конститутивной ДНК, может представлять собой потенциальную мутацию (т.е. ОНВ). Вследствие ошибок секвенирования (0,1% - 0,3% секвенированных нуклеотидов), тем не менее, в геноме будут детектированы миллионы ложноположительных результатов, если однократное появление любой нуклеотидной замены в результатах секвенирования опухолевой ткани рассматривать как связанный с опухолью ОНВ. Одним из способов уменьшения количества ложноположительных результатов будет установление критерия неоднократной встречаемости одной и той же нуклеотидной замены в результатах секвенирования для опухолевой ткани, перед тем, как назвать потенциальную мутацию связанным с опухолью ОНВ.In some embodiments, pairs of tumor and housekeeping DNA samples were sequenced to identify tumor-associated single nucleotide variants (SNVs). In some embodiments, we focused on SNVs occurring at homozygous sites in the housekeeping DNA (in this example, the DNA was obtained from the buffy coat). In principle, any nucleotide variant detected in the tumor tissue sequencing results but not in the housekeeping DNA could represent a potential mutation (i.e., a SNV). Due to sequencing errors (0.1% - 0.3% of sequenced nucleotides), however, millions of false positives would be detected in the genome if a single occurrence of any nucleotide substitution in the tumor tissue sequencing results was considered a tumor-associated SNV. One way to reduce the number of false positives would be to establish a criterion for the repeated occurrence of the same nucleotide substitution in sequencing results for tumor tissue before calling a potential mutation a tumor-associated NVG.
Так как возникновение ошибок секвенирования представляет собой стохастический процесс, количество ложноположительных результатов вследствие ошибок секвенирования будет экспоненциально уменьшаться с увеличением необходимого количества детектирований ОНВ, чтобы посчитать потенциальную мутацию связанным с опухолью ОНВ. С другой стороны, количество ложноположительных результатов будет увеличиваться с увеличением глубины секвенирования. Такие взаимоотношения можно прогнозировать с помощью функций пуассоновского и биномиального распределения. В вариантах реализации можно определить динамический порог встречаемости, чтобы считать, что наблюдаемый ОНВ связан с опухолью. В вариантах реализации могут учитываться фактическое покрытие конкретного нуклеотида в результатах секвенирования для опухоли, частота ошибок секвенирования, максимально допустимый уровень ложноположительных вариаций и желательная чувствительность для детектирования мутации.Since the occurrence of sequencing errors is a stochastic process, the number of false positives due to sequencing errors will decrease exponentially with an increase in the required number of NV detections to consider a potential mutation as a tumor-associated NV. On the other hand, the number of false positives will increase with an increase in the sequencing depth. Such relationships can be predicted using Poisson and binomial distribution functions. In embodiments, a dynamic threshold of occurrence can be determined to consider an observed NV as tumor-associated. In embodiments, the actual coverage of a particular nucleotide in the sequencing results for the tumor, the sequencing error rate, the maximum acceptable level of false positive variations, and the desired sensitivity for detecting the mutation can be taken into account.
В некоторых примерах мы установили очень строгие критерии для уменьшения количества ложноположительных результатов. Например, можно потребовать полного отсутствия мутации в результатах секвенирования конститутивной ДНК и 20-кратной глубины секвенирования конкретного положения нуклеотида. В некоторых вариантах реализации установление порога встречаемости позволяло добиться частоты ложноположительных результатов, меньшей чем 10-7. В некоторых примерах мы также отсеивали ОНВ, которые были детектированы в центромерных, теломерных областях и областях низкой сложности, чтобы минимизировать ложноположительные результаты вследствие артефактов выравнивания. Кроме того, также удаляли предполагаемые ОНВ, картированные как известные ОНП, представленные в базе данных dbSNP сборки 135.In some examples, we set very stringent criteria to reduce the number of false positives. For example, we may require that the mutation be completely absent from the housekeeping DNA sequencing results and that the sequencing depth at a particular nucleotide position be 20×. In some embodiments, we set a threshold to achieve a false positive rate of less than 10 -7 . In some examples, we also removed SNPs that were detected in centromeric, telomeric, and low-complexity regions to minimize false positives due to alignment artifacts. In addition, we also removed putative SNPs that mapped to known SNPs present in the dbSNP build 135 database.
- 29 048297- 29 048297
В. До и после резекции.B. Before and after resection.
На фиг. 13А показана табл. 1300 анализа мутаций в плазме пациента с раком яичника и раком молочной железы на момент диагностики согласно вариантам реализации настоящего изобретения. Здесь мы продемонстрировали пример пациента с двусторонним раком яичников и раком молочной железы. Результаты секвенирования ДНК из плазмы сравнивали с результатами секвенирования конститутивной ДНК пациента (из лейкоцитарной пленки). Однонуклеотидные изменения, которые присутствовали в плазме, но не в конститутивной ДНК, расценивали как потенциальные мутации. Брали образцы рака яичников с правой и левой стороны пациента из двух локализаций с каждой стороны, т.е. получали всего четыре образца опухоли. Мутациями опухоли считали мутации, детектированные во всех четырех тканях опухоли яичника в четырех различных локализациях.Fig. 13A shows a table 1300 of the analysis of mutations in the plasma of a patient with ovarian cancer and breast cancer at the time of diagnosis according to embodiments of the present invention. Here, we have shown an example of a patient with bilateral ovarian cancer and breast cancer. The results of DNA sequencing from the plasma were compared with the results of sequencing the patient's constitutive DNA (from the buffy coat). Single nucleotide changes that were present in the plasma but not in the constitutive DNA were considered potential mutations. Ovarian cancer samples were taken from the right and left sides of the patient from two locations on each side, i.e., a total of four tumor samples were obtained. Mutations detected in all four ovarian tumor tissues at four different locations were considered tumor mutations.
При секвенировании ДНК плазмы обнаружили более 3,6 миллиона однонуклеотидных изменений за по меньшей мере один раз. Среди данных изменений лишь 2064 также обнаружили в опухолевых тканях, и положительное прогнозируемое значение составило 0,06%. При применении критерия по меньшей мере двухкратного детектирования в плазме, количество потенциальных мутаций значительно уменьшилось на 99,5% до 18885. Количество опухолевых мутаций уменьшилось лишь на 3% до 2003 и положительное прогнозируемое значение повысилось до 11%.Plasma DNA sequencing detected more than 3.6 million single nucleotide changes at least once. Of these changes, only 2,064 were also detected in tumor tissues, and the positive predictive value was 0.06%. When applying the criterion of at least two detections in plasma, the number of potential mutations significantly decreased by 99.5% to 18,885. The number of tumor mutations decreased by only 3% to 2,003, and the positive predictive value increased to 11%.
При применении критерия по меньшей мере пятикратного детектирования в плазме, обнаружили лишь 2572 потенциальные мутации и среди них 1814 представляли собой мутации, детектированные во всех опухолевых тканях, таким образом, положительное прогнозируемое значение составило 71%. Для детектирования потенциальных мутаций можно применять другие критерии количества детектирований (например, 2, 3, 4, 6, 7, 8, 9, 10 и т.д.) в зависимости от необходимой чувствительности и положительного прогнозируемого значения. Чем большее значение встречаемости используют в качестве критерия, тем больше будет положительное прогнозируемое значение и меньше будет чувствительность.When using the criterion of at least fivefold detection in plasma, only 2572 potential mutations were detected and among them, 1814 were mutations detected in all tumor tissues, thus the positive predictive value was 71%. Other criteria of the number of detections (e.g., 2, 3, 4, 6, 7, 8, 9, 10, etc.) can be used to detect potential mutations depending on the required sensitivity and positive predictive value. The higher the frequency value used as the criterion, the higher the positive predictive value will be and the lower the sensitivity.
На фиг. 13В показана табл. 1350 анализа мутаций в плазме пациента с двусторонним раком яичников и раком молочной железы после резекции опухоли согласно вариантам реализации настоящего изобретения. Осуществляли хирургическую резекцию опухоли у пациента. Образец крови брали через день после резекции опухолей яичника и рака молочной железы. Затем секвенировали ДНК в плазме. В данном примере анализировали лишь мутации из рака яичников. В образце плазмы обнаружили более 3 миллионов потенциальных мутаций по меньшей мере однократно. Тем не менее, при применении критерия по меньшей мере пяти детектирований количество потенциальных мутации уменьшилось до 238. Существенное уменьшение наблюдали при сравнении с количеством потенциальных мутации в образце, взятом при диагностике, при применении того же критерия детектирования пяти мутаций.Fig. 13B shows Table 1350 of the analysis of mutations in the plasma of a patient with bilateral ovarian cancer and breast cancer after tumor resection according to embodiments of the present invention. A tumor was surgically resected from the patient. A blood sample was taken one day after the resection of the ovarian and breast cancer tumors. The DNA in the plasma was then sequenced. In this example, only mutations from the ovarian cancer were analyzed. More than 3 million potential mutations were detected at least once in the plasma sample. However, when using the criterion of at least five detections, the number of potential mutations was reduced to 238. A significant reduction was observed when compared to the number of potential mutations in the sample taken at diagnosis when using the same criterion of detecting five mutations.
В одном варианте реализации количество однонуклеотидных изменений, детектированных в плазме, можно применять в качестве параметра для детектирования рака, мониторинга пациента с раковым заболеванием и составления прогноза для него. Встречаемость различных их количеств можно применять в качестве критерия, чтобы добиться желательной чувствительности и специфичности. У пациента с большей опухолевой нагрузкой и, следовательно, худшим прогнозом, будут ожидать больший мутационный груз, наблюдаемый в плазме.In one embodiment, the number of single nucleotide changes detected in plasma can be used as a parameter for detecting cancer, monitoring a patient with cancer, and making a prognosis for him. The occurrence of different amounts can be used as a criterion to achieve a desired sensitivity and specificity. A patient with a higher tumor burden, and therefore a worse prognosis, will be expected to have a higher mutational load observed in the plasma.
Для такого анализа можно установить профиль мутационного груза для различных типов рака. С целью мониторинга, будет видно, что мутационный груз в плазме пациента, который отвечает на лечение, будет уменьшаться. Если опухоль возвратилась, например, в процессе рецидива, то будут ожидать увеличение мутационного груза. Такой мониторинг позволит контролировать эффективность выбранного способа лечения пациента и обнаружить появление устойчивости к конкретному лечению.For such analysis, it is possible to establish a profile of the mutational load for different types of cancer. For monitoring purposes, it will be seen that the mutational load in the plasma of a patient who responds to treatment will decrease. If the tumor returns, for example, during a relapse, then an increase in the mutational load will be expected. Such monitoring will allow one to control the effectiveness of the chosen method of treatment of the patient and to detect the emergence of resistance to a particular treatment.
С помощью анализа конкретных мутаций, которые можно наблюдать в результатах секвенирования ДНК из плазмы, можно также определить мишени, которые будут прогнозировать чувствительность (например, мутации в гене рецептора эпидермального фактора роста и ответ на лечение ингибитором тирозинкиназы) и устойчивость к конкретному целевому лечению (например, мутации KRAS при колоректальном раке и устойчивость к лечению панитумумабом и цетуксимабом), и могут направлять планирование режимов лечения.By analyzing specific mutations that can be observed in plasma DNA sequencing results, it is also possible to identify targets that will predict sensitivity (e.g., mutations in the epidermal growth factor receptor gene and response to tyrosine kinase inhibitor treatment) and resistance to a specific targeted therapy (e.g., KRAS mutations in colorectal cancer and resistance to panitumumab and cetuximab treatment), and can guide the planning of treatment regimens.
Выше был приведен пример для двустороннего рака яичников. Также можно осуществить аналогичный анализ мутаций рака молочной железы, а затем отследить мутации обоих данных типов рака в плазме. Можно также применять аналогичную стратегию для отслеживания мутаций первичного рака и его метастазы или метастаз.The example above was for bilateral ovarian cancer. One could also perform a similar analysis of breast cancer mutations and then track the mutations of both cancer types in the plasma. One could also use a similar strategy to track the mutations of the primary cancer and its metastasis or metastases.
Варианты реализации будут полезны для скрининга на наличие рака у кажущихся здоровыми субъектов или у субъектов с определенными факторами риска (например, статусом курения, статусом носительства вируса (у субъектов-носителей вируса гепатита, субъектов, инфицированных вирусом папилломы человека)). Мутационный груз, который можно наблюдать в плазме таких субъектов, позволит выявить риск того, что у субъекта разовьется симптоматический рак в течение определенного периода времени. Таким образом, будут ожидать, что у субъектов с большим мутационным грузом в плазме риск повышен по сравнению с таковыми с меньшим мутационным грузом. Более того, временной профиль такого мутационного груза в плазме также будет мощным индикатором риска. Например, если у субъекта раз в год проверяют мутационный груз в плазме и если мутационные грузы постепенно увеличиваютEmbodiments will be useful for screening for cancer in apparently healthy subjects or in subjects with certain risk factors (e.g., smoking status, virus carrier status (in subjects who are hepatitis B virus carriers, subjects infected with human papillomavirus)). The mutational load that can be observed in the plasma of such subjects will allow one to identify the risk that the subject will develop symptomatic cancer over a certain period of time. Thus, subjects with a large mutational load in their plasma would be expected to have an increased risk compared to those with a lower mutational load. Moreover, the time profile of such mutational load in plasma would also be a powerful indicator of risk. For example, if a subject is tested for mutational load in plasma once a year and if the mutational loads gradually increase
- 30 048297 ся, то данного субъекта следует направить на дополнительный скрининг рака, например, с применением рентгенографии органов грудной клетки, ультразвука, компьютерной томографии, магнитнорезонансной визуализации или позитронно-эмиссионной томографии.- 30 048297 then the subject should be referred for additional cancer screening, such as chest x-ray, ultrasound, computed tomography, magnetic resonance imaging, or positron emission tomography.
С. Динамические пороговые значения для выявления мутаций в результатах секвенирования ДНК плазмы.C. Dynamic thresholds for mutation detection in plasma DNA sequencing results.
Для данного исследования привлекли четырех пациентов с печеночно-клеточной карциномой (ГКК) и одного пациента с раком яичников и молочной железы. Для последнего из упомянутых пациентов мы сконцентрировались на анализе рака яичников. Образцы крови собирали из каждого пациента до и после хирургической резекции опухолей. Также собирали иссеченные опухолевые ткани. ДНК выделяли из опухолевой ткани, белые кровяные клетки из образца крови до операции и образцов плазмы до и после операции секвенировали, применяя систему секвенирования HiSeq2000 (Illumina). Результаты секвенирования выравнивали с последовательностью референсного генома человека (hg18), применяя пакет программ для выравнивания коротких олигонуклеотидов Short Oligonucleotide Alignment Package 2 (SOAP2) (Li R и др. Bioinformatics 2009; 25: 1966-1967). Последовательности ДНК белых кровяных клеток считали конститутивными последовательностями ДНК для каждого исследуемого субъекта.Four patients with hepatocellular carcinoma (HCC) and one patient with ovarian and breast cancer were recruited for this study. For the latter patient, we focused on the analysis of ovarian cancer. Blood samples were collected from each patient before and after surgical resection of the tumors. Excised tumor tissues were also collected. DNA was isolated from tumor tissue, and white blood cells from the preoperative blood sample and preoperative and postoperative plasma samples were sequenced using the HiSeq2000 sequencing system (Illumina). Sequencing results were aligned to the human reference genome sequence (hg18) using the Short Oligonucleotide Alignment Package 2 (SOAP2) (Li R et al. Bioinformatics 2009; 25: 1966–1967). White blood cell DNA sequences were considered as constitutive DNA sequences for each study subject.
В данном примере связанные с опухолью OHM сначала выявляли по результатам секвенирования ДНК плазмы и КГ, не учитывая опухолевые ткани. Затем полученные для плазмы результаты сравнивали с результатами секвенирования, полученными для опухолевых тканей (в качестве золотого стандарта), чтобы установить достоверность полученных результатов. В этом отношении, получали золотой стандарт путем сравнения результатов секвенирования опухолевых тканей с конститутивной последовательности, чтобы определить мутации в опухолевых тканях. В данном анализе мы сфокусировали внимание на положениях нуклеотидов, в которых конститутивная ДНК исследуемого субъекта была гомозиготной.In this example, tumor-associated OHMs were first identified using plasma and CG DNA sequencing results, ignoring tumor tissues. The plasma results were then compared with tumor tissue sequencing results (as a gold standard) to establish the validity of the results. In this regard, the gold standard was obtained by comparing tumor tissue sequencing results with the constitutive sequence to identify mutations in tumor tissues. In this analysis, we focused on the nucleotide positions at which the constitutive DNA of the subject was homozygous.
1. Ненаправленный полногеномный анализ.1. Untargeted whole-genome analysis.
Глубины секвенирования для белых кровяных клеток, опухолевых тканей и ДНК из плазмы каждого пациента показаны в табл. 5.Sequencing depths for white blood cells, tumor tissues, and plasma DNA from each patient are shown in Table 5.
Таблица 5Table 5
Срединные глубины секвенирования различных _________________образцов для четырех случаев ГКК_________________Median sequencing depths of different _________________ samples for four cases of HCC_________________
Динамические пороговые значения для минимальных встречаемостей для детектирования мутаций в плазме (r), показанные в табл. 1, использовали для определения мутаций в плазме каждого пациента. Так как глубина секвенирования каждого локуса может изменяться, пороговое значение может изменяться, что фактически обеспечивает зависимость порогового значения от суммарного количества считываемых последовательностей локуса. Например, хотя срединная глубина составляет менее 50 (табл. 5), глубина секвенирования отдельных локусов может сильно изменяться и покрытие может составлять >100 раз.Dynamic thresholds for the minimum frequencies for detecting mutations in plasma (r) shown in Table 1 were used to detect mutations in each patient's plasma. Since the depth of sequencing at each locus can vary, the threshold can vary, effectively making the threshold dependent on the total number of sequence reads at the locus. For example, although the median depth is less than 50 (Table 5), the depth of sequencing at individual loci can vary greatly and coverage can be >100x.
Вдобавок к ошибкам секвенирования, другим источником ошибок будет выравнивание. Чтобы минимизировать данный тип ошибок, считываемые последовательности, содержащие мутацию, заново выравнивали с референсным геномом, применяя программу для выравнивания Bowtie (Langmead В и др. Genome Biol 2009, 10:R25). Только считываемые последовательности, которые можно было выровнять с уникальным положением в референсном геноме с помощью SOAP2 и Bowtie, применяли для последующего анализа мутаций в плазме. Также можно применять другие комбинации пакетов программного обеспечения для выравнивания, основанные на различных алгоритмах.In addition to sequencing errors, another source of error will be alignment. To minimize this type of error, sequence reads containing a mutation were realigned to the reference genome using the Bowtie alignment program (Langmead B et al. Genome Biol 2009, 10:R25). Only sequence reads that could be aligned to a unique position in the reference genome using SOAP2 and Bowtie were used for subsequent mutation analysis in plasma. Other combinations of alignment software packages based on different algorithms can also be used.
Для того чтобы дополнительно минимизировать ошибки секвенирования и выравнивания в фактических результатах секвенирования, мы применяли два дополнительных алгоритма фильтрации, чтобы определить положения нуклеотидов, в которых выявили однонуклеотидные вариации в считываемых последовательностях: (1) > 70% считываемых последовательностей, содержащих мутации, можно заново выровнять с такой же геномной координатой, применяя Bowtie с качеством картирования >Q20 (т.е. вероятность неправильного выравнивания <1 %); (2) >70% считываемы последовательностей, содержащихTo further minimize sequencing and alignment errors in the actual sequencing results, we applied two additional filtering algorithms to identify nucleotide positions where we identified single nucleotide variations in the sequence reads: (1) >70% of sequence reads containing mutations could be re-aligned to the same genomic coordinate using Bowtie with a mapping quality of >Q20 (i.e., <1% misalignment probability); (2) >70% of sequence reads containing
- 31 048297 мутации, находились за пределами 5 п.о. от обоих концов (т.е. 5'- и З'-концов) считываемых последовательностей. Такой принцип фильтрации установили, так как ошибки секвенирования были более широко распространены в обоих концах считываемых последовательностей.- 31,048,297 mutations were located outside 5 bp from both ends (i.e. 5' and 3' ends) of the read sequences. This filtering principle was established because sequencing errors were more widespread at both ends of the read sequences.
Мы также исследовали факторы, влияющие на детектирование опухоли, без какой-либо информации о геноме опухоли. Один такой параметр представлял собой фракционную концентрацию ДНК опухолевого происхождения в плазме. Данный параметр можно расценивать как другой параметр золотого стандарта, и его определили с целью сравнения с известной информацией о геноме опухоли, полученной с применением GAAL.We also investigated factors influencing tumor detection without any tumor genomic information. One such parameter was the fractional concentration of tumor-derived DNA in plasma. This parameter can be regarded as another gold standard parameter and was determined for comparison with known tumor genomic information obtained using GAAL.
В табл. 6 показаны вариации нуклеотидов, детектированные в плазме до и после лечения. Для ГКК1, без какой-либо информации о геноме опухоли, обнаружили всего 961 однонуклеотидную вариацию. Среди данных вариаций нуклеотидов, детектированных в плазме, 828 представляли собой связанные с раком мутации. После хирургической резекции ГКК суммарное количество вариаций нуклеотидов уменьшилось до 43, и ни одна из них не являлась связанной с раком мутацией.Table 6 shows the nucleotide variations detected in plasma before and after treatment. For HCC1, without any tumor genomic information, a total of 961 single nucleotide variations were detected. Among these nucleotide variations detected in plasma, 828 were cancer-associated mutations. After surgical resection of HCC, the total number of nucleotide variations decreased to 43, and none of them were cancer-associated mutations.
Для сравнения, фракционная концентрация ДНК опухолевого происхождения в образце плазмы до операции составляла 53%, и ее определили с помощью известной информации о геноме опухоли. У ГКК2, ГКК3 и ГКК4, без какой-либо информации о геномах опухоли, выявили количества однонуклеотидных вариаций в плазме в диапазоне от 27 до 32, для образцов плазмы до операции. Полученные результаты соответствуют математическому прогнозированию того, что при приблизительно 20-кратной глубине секвенирования в плазме можно обнаружить очень низкий процент связанных с раком мутаций, и большинство вариаций последовательности, детектированных в плазме, были следствием ошибок секвенирования. После резекции опухоли не наблюдалось существенного изменения количества детектированных вариаций последовательности. С целью сравнения, фракционные концентрации ДНК опухолевого происхождения в плазме находились в диапазоне от 2,1 до 5%, и их выявили с помощью известной информации о геномах опухолей.For comparison, the fractional concentration of tumor-derived DNA in the preoperative plasma sample was 53%, which was determined using the known tumor genomic information. GCC2, GCC3, and GCC4, without any tumor genomic information, had plasma single nucleotide variation counts ranging from 27 to 32 in preoperative plasma samples. These results are consistent with the mathematical prediction that at approximately 20x sequencing depth, a very low percentage of cancer-associated mutations can be detected in plasma, and most sequence variations detected in plasma were due to sequencing errors. There was no significant change in the number of sequence variations detected after tumor resection. For comparison, the fractional concentrations of tumor-derived DNA in plasma ranged from 2.1 to 5%, which were determined using the known tumor genomic information.
Таблица 6Table 6
Вариации нуклеотидов, детектированные в плазмеNucleotide variations detected in plasma
2. Целевое обогащение экзонами.2. Targeted exon enrichment.
Выше обсуждалось, что увеличение глубины секвенирования интересующей области может повысить как чувствительность, так и специфичность определения связанных с раком мутаций в плазме и, следовательно, увеличить дискриминационную мощность между пациентами с раковыми заболеваниями и не страдающими раком субъектами. Хотя увеличение глубины секвенирования всего генома все еще очень дорогостоящее, одной альтернативой будет обогащение некоторыми фрагментами для секвенирования. В одном варианте реализации можно для секвенирования можно провести направленное обогащение выбранными экзонами или фактически всем экзомом. Данный подход может значительно увеличить глубину секвенирования целевой области без увеличения суммарного количества считываемых последовательностей.It was discussed above that increasing the sequencing depth of a region of interest can increase both the sensitivity and specificity of detecting cancer-associated mutations in plasma and, therefore, increase the discriminatory power between cancer patients and non-cancer subjects. Although increasing the sequencing depth of the entire genome is still very expensive, one alternative would be to enrich for some fragments for sequencing. In one embodiment, targeted enrichment for selected exons or virtually the entire exome can be performed for sequencing. This approach can significantly increase the sequencing depth of a target region without increasing the total number of sequence reads.
Библиотеки секвенирования ДНК в плазме пациентов с ГКК и пациента, страдающего раком яичников (и груди), захватывали, применяя набор для целевого обогащения экзомом Agilent SureSelect All Exon. Обогащенные экзонами библиотеки секвенирования затем секвенировали, применяя систему секвенирования HiSeq 2000.DNA sequencing libraries from plasma of HCC patients and a patient with ovarian (and breast) cancer were captured using the Agilent SureSelect All Exon Targeted Exome Enrichment Kit. Exon-enriched sequencing libraries were then sequenced using the HiSeq 2000 Sequencing System.
Считываемые последовательности выравнивали с референсным геномом человека (hg18). ПослеThe read sequences were aligned with the human reference genome (hg18). After
- 32 048297 выравнивания анализировали наличие однонуклеотидных вариаций в считываемых последовательностях, уникально картированных на экзонах. Для определения однонуклеотидных вариаций в плазме при анализе захваченного экзома применяли динамические пороговые значения, показанные в табл. 2.- 32,048,297 alignments were analyzed for the presence of single nucleotide variations in read sequences uniquely mapped to exons. Dynamic thresholds shown in Table 2 were used to detect single nucleotide variations in plasma during captured exome analysis.
На фиг. 14А представлена табл. 1400, на которой показано детектирование однонуклеотидных вариаций в ДНК из плазмы ГКК1. Без какой-либо информации о геноме опухоли мы выявили в результатах целевого секвенирования всего 57 однонуклеотидных вариаций в плазме. При последующей проверке достоверности результатов секвенирования, полученных для опухолевых тканей, обнаружили, что 55 представляют собой истинные связанные с опухолью мутации. Ранее обсуждалось, что фракционная концентрация ДНК опухолевого происхождения в плазме до операции составляла 53%. После резекции опухоли в результатах целевого секвенирования, полученных для плазмы, не обнаружили однонуклеотидных вариаций. Полученные результаты указывают на то, что анализ количества однонуклеотидных вариаций в плазме можно применять для мониторинга прогрессирования заболевания у пациентов с раковыми заболеваниями.Fig. 14A is a table showing the detection of single nucleotide variations in plasma DNA from HKK1. Without any tumor genome information, we detected a total of 57 single nucleotide variations in plasma from targeted sequencing. Upon subsequent validation of the tumor sequencing results, 55 were found to be true tumor-associated mutations. It was previously discussed that the fractional concentration of tumor-derived DNA in plasma was 53% before surgery. After tumor resection, no single nucleotide variations were detected in plasma from targeted sequencing. These results indicate that plasma single nucleotide variation abundance analysis can be used to monitor disease progression in cancer patients.
На фиг. 14В представлена табл. 1450, на которой показано детектирование однонуклеотидных вариаций в ДНК из плазмы ГКК2. Без какой-либо информации о геноме опухоли мы выявили в результатах целевого секвенирования плазмы всего 18 однонуклеотидных вариаций. Все данные мутации были детектированы в опухолевых тканях. Ранее обсуждалось, что фракционная концентрация ДНК опухолевого происхождения в плазме до операции составляла 5%. После резекции опухоли в плазме не обнаружили однонуклеотидных вариаций. По сравнению с ГКК1, у которого фракционная концентрация ДНК опухолевого происхождения в плазме была выше, в случае ГКК2 в плазме обнаружили меньшее количество однонуклеотидных вариаций. Полученные результаты позволяют предположить, что количество однонуклеотидных вариаций в плазме можно применять в качестве параметра, который отражает фракционную концентрацию ДНК опухолевого происхождения в плазме и, следовательно, опухолевую нагрузку у пациента, так как показали, что концентрация ДНК опухолевого происхождения в плазме положительно коррелировала с опухолевой нагрузкой (Chan KC и др. Clin Chem 2005; 51:2192-5).Fig. 14B is a table showing the detection of single nucleotide variations in plasma DNA of HKK2. Without any tumor genome information, we detected a total of 18 single nucleotide variations in the plasma targeted sequencing results. All of these mutations were detected in tumor tissues. It was discussed earlier that the fractional concentration of tumor-derived DNA in plasma was 5% before surgery. No single nucleotide variations were detected in plasma after tumor resection. Compared with HKK1, which had a higher fractional concentration of tumor-derived DNA in plasma, fewer single nucleotide variations were detected in plasma in HKK2. The obtained results suggest that the amount of single nucleotide variations in plasma can be used as a parameter that reflects the fractional concentration of tumor-derived DNA in plasma and, consequently, the tumor burden in a patient, as it was shown that the concentration of tumor-derived DNA in plasma was positively correlated with tumor burden (Chan KC et al. Clin Chem 2005; 51:2192-5).
На фиг. 15А представлена табл. 1500, на которой показано детектирование однонуклеотидных вариаций в ДНК из плазмы ГКК3. Без какой-либо информации о геноме опухоли мы не наблюдали в результатах целевого секвенирования каких-либо однонуклеотидных вариаций в образцах плазмы как до, так и после резекции. Вероятно, это может быть следствием относительно низкой фракционной концентрации (2,1%) ДНК опухолевого происхождения в плазме данного пациента. Предположили, что дополнительное увеличение глубины секвенирования улучшит чувствительность детектирования связанных с раком мутаций в случаях с низкой фракционной концентрацией ДНК опухолевого происхождения.Figure 15A is a table showing the detection of single nucleotide variations in plasma DNA from HKK3. Without any tumor genomic information, we did not observe any single nucleotide variations in the targeted sequencing results in plasma samples either before or after resection. This may likely be due to the relatively low fractional concentration (2.1%) of tumor-derived DNA in the plasma of this patient. We hypothesized that further increasing the sequencing depth would improve the sensitivity of detection of cancer-associated mutations in cases with low fractional concentration of tumor-derived DNA.
На фиг. 15В представлена табл. 1550, на которой показано детектирование однонуклеотидных вариаций в ДНК из плазмы ГКК4. Без какой-либо информации о геноме опухоли мы выявили в результатах целевого секвенирования плазмы всего 3 однонуклеотидные вариации. Все данные мутации были детектированы в опухолевых тканях. По сравнению с ГКК1 и ГКК2, у которых фракционные концентрации ДНК опухолевого происхождения в плазме были выше, в случае ГКК4, у которого фракционная концентрация опухолевой ДНК в плазме составляла 2,6%, обнаружили меньшее количество однонуклеотидных вариаций в плазме. Полученные результаты позволяют предположить, что количество однонуклеотидных вариаций в плазме можно применять в качестве параметра, который отражает фракционную концентрацию ДНК опухолевого происхождения в плазме и опухолевую нагрузку у пациента.Fig. 15B is a table showing the detection of single nucleotide variations in plasma DNA of HKK4. Without any tumor genome information, we detected only 3 single nucleotide variations in the plasma targeted sequencing results. All of these mutations were detected in tumor tissues. Compared with HKK1 and HKK2, which had higher fractional concentrations of tumor-derived DNA in plasma, HKK4, which had a fractional concentration of tumor DNA in plasma of 2.6%, had fewer single nucleotide variations in plasma. These results suggest that the amount of single nucleotide variations in plasma can be used as a parameter that reflects the fractional concentration of tumor-derived DNA in plasma and the tumor burden of a patient.
На фиг. 16 представлена табл. 1600, на которой показано детектирование однонуклеотидных вариаций в ДНК плазмы пациента с раком яичников (и груди). Без какой-либо информации о геноме опухоли мы выявили в результатах целевого секвенирования плазмы всего 64 однонуклеотидные вариации. 59 из них были детектированы в тканях опухолей яичника. Предполагаемая фракционная концентрация в плазме ДНК, происходящей из опухоли яичника, составляла 46%. После резекции рака яичников обнаружили существенное уменьшение суммарного количества однонуклеотидных вариаций в плазме.Fig. 16 is a table 1600 showing the detection of single nucleotide variations in plasma DNA from a patient with ovarian (and breast) cancer. Without any information about the tumor genome, we identified a total of 64 single nucleotide variations in the plasma targeted sequencing results. Of these, 59 were detected in ovarian tumor tissues. The estimated fractional concentration of ovarian tumor-derived DNA in plasma was 46%. A significant reduction in the total number of single nucleotide variations in plasma was found after resection of ovarian cancer.
Вдобавок к применению системы целевого обогащения SureSelect (Agilent), мы также применяли систему целевого обогащения Nimblegen SeqCap EZ Exome+UTR (Roche) для обогащения последовательностями из экзонов для секвенирования. Система Nimblegen SeqCap покрывает экзонные области генома, а также 5'- и 3'-нетранслируемые области. Анализировали образцы из плазмы четырех пациентов с ГКК до лечения, двух здоровых контрольных субъектов и двух носителей хронического гепатита В, не страдающих раком (табл. 7). В других вариантах реализации можно применять другие системы целевого обогащения, включая, но не ограничиваясь системами с жидкофазной или твердофазной гибридизацией.In addition to using the SureSelect Targeted Enrichment System (Agilent), we also used the Nimblegen SeqCap EZ Exome+UTR Targeted Enrichment System (Roche) to enrich sequences from exons for sequencing. The Nimblegen SeqCap System covers exonic regions of the genome as well as the 5' and 3' untranslated regions. Plasma samples from four pretreatment HCC patients, two healthy controls, and two non-cancer chronic hepatitis B carriers were analyzed (Table 7). In other embodiments, other targeted enrichment systems can be used, including but not limited to liquid-phase or solid-phase hybridization systems.
Табл. 7. Результаты секвенирования экзома четырех пациентов с ГКК (ГКК1-4) с применением системы целевого обогащения Nimblegen SeqCap EZ Exome+UTR для захвата последовательности. Анализ секвенирования плазмы ГКК3 до лечения был недостаточно оптимальным вследствие более высокого процента дуплицированных при ПЦР считываемых последовательностей.Table 7. Exome sequencing results from four HCC patients (HCC1-4) using the Nimblegen SeqCap EZ Exome+UTR Targeted Enrichment System for sequence capture. Pre-treatment HCC3 plasma sequencing analysis was suboptimal due to a higher percentage of PCR-duplicate reads.
- 33 048297- 33 048297
Таблица 7Table 7
У двух носителей хронического гепатита В и двух здоровых контрольных субъектов обнаружили одну или менее однонуклеотидных вариаций, которые удовлетворяли динамическим пороговым критериям (табл. 8). У трех из четырех пациентов с ГКК количество вариаций последовательности, детектированных в плазме, которые удовлетворяли динамическому пороговому требованию, составляло по меньшей мере 8. У ГКК3 не было детектировано ОНВ, которые бы удовлетворяли динамическому пороговому значению. В секвенированных считываемых последовательностях данного образца наблюдалось повышенное соотношение дуплицированных при ПЦР считываемых последовательностей, что приводило к меньшему количеству недуплицированных секвенированных считываемых последовательностей. После хирургической резекции опухоли наблюдалось заметное уменьшение количества ОНВ, детектированных в плазме.In two chronic hepatitis B carriers and two healthy controls, one or fewer single nucleotide variations were detected that met the dynamic threshold criteria (Table 8). In three of the four HCC patients, the number of sequence variations detected in plasma that met the dynamic threshold requirement was at least 8. In HCC3, no SNPs were detected that met the dynamic threshold. The sequenced reads of this sample had an increased ratio of PCR-duplicated reads, resulting in fewer non-duplicated sequenced reads. A marked decrease in the number of SNPs detected in plasma was observed after surgical resection of the tumor.
Табл. 8. Результаты секвенирования экзома у 2 носителей хронического гепатита В (ВГВ1 и ВГВ2) и 2 здоровых контрольных субъектов (контроль1 и контроль2) с применением системы целевого обогащения Nimblegen SeqCap EZ Exome+UTR для захвата последовательности.Table 8. Exome sequencing results from 2 chronic hepatitis B carriers (HBV1 and HBV2) and 2 healthy controls (control1 and control2) using the Nimblegen SeqCap EZ Exome+UTR Targeted Enrichment System for sequence capture.
Таблица 8Table 8
XII. Гетерогенность опухоли.XII. Tumor heterogeneity.
Количественный анализ однонуклеотидных мутаций в биологическом образце (например, плазме/сыворотке) также полезен для анализа гетерогенности опухоли, как внутриопухолевой, так и межопухолевой гетерогенности. Внутриопухолевая гетерогенность относится к существованию нескольких клонов опухолевых клеток внутри одной и той же опухоли. Межопухолевая гетерогенность относится к существованию нескольких клонов опухолевых клеток в двух или более опухолях одного и того же гистологического типа, но присутствующих в различных локализациях (либо в тех же органах, либо в различных органах). При некоторых типах опухолей существование опухолевой гетерогенности является плохим прогностическим показателем (Yoon HH и др. J Clin Oncol 2012; 30: 3932-3938; Merlo LMF и др. Cancer Prev Res 2010; 3: 1388-1397). При некоторых типах опухолей чем больше степень опухолевой гетерогенности, тем выше будет вероятность прогрессирования опухоли или развития устойчивых клонов после направленного лечения.Quantitative analysis of single nucleotide mutations in a biological specimen (e.g. plasma/serum) is also useful for analyzing tumor heterogeneity, both intratumoral and intertumoral heterogeneity. Intratumoral heterogeneity refers to the existence of multiple tumor cell clones within the same tumor. Intertumoral heterogeneity refers to the existence of multiple tumor cell clones in two or more tumors of the same histologic type but present in different locations (either in the same organs or in different organs). In some tumor types, the existence of tumor heterogeneity is a poor prognostic indicator (Yoon HH et al. J Clin Oncol 2012; 30: 3932-3938; Merlo LMF et al. Cancer Prev Res 2010; 3: 1388-1397). For some tumor types, the greater the degree of tumor heterogeneity, the higher the likelihood of tumor progression or the development of resistant clones after targeted treatment.
Хотя полагают, что раковые заболевания возникают в результате клональной экспансии одной опухолевой клетки, рост и развитие рака будет приводить к накоплению новых и различных мутаций в различных частях рака. Например, когда у пациента с раковым заболеванием развиваются метастазы, в опухоли, расположенной в исходном органе, и в метастатической опухоли будет множество одинаковых мутаций. Тем не менее, раковые клетки из двух локализаций также будут нести уникальный набор мутаций, которые отсутствуют в другой локализации опухоли. Ожидают, что мутации, которые одинаковы в двух локализациях, будут присутствовать в больших концентрациях, чем мутации, которые наблюдаются лишь в одной локализации опухоли.Although cancers are thought to arise from the clonal expansion of a single tumor cell, the growth and progression of cancer will result in the accumulation of new and different mutations in different parts of the cancer. For example, when a patient with cancer develops metastases, the tumor in the original organ and the metastatic tumor will have many of the same mutations. However, cancer cells from the two sites will also carry a unique set of mutations that are not present in the other site of the tumor. Mutations that are the same in the two sites are expected to be present in greater concentrations than mutations that are found in only one site of the tumor.
А. Пример.A. Example.
Мы проанализировали плазму крови пациента с двусторонним раком яичников и раком молочной железы. Обе опухоли яичника представляли собой серозную аденокарциному. Левая была размером 6 см и правая была размером 12 см в самом длинном направлении. Также присутствовало несколько метастазWe analyzed the blood plasma of a patient with bilateral ovarian cancer and breast cancer. Both ovarian tumors were serous adenocarcinoma. The left one was 6 cm and the right one was 12 cm in the longest dimension. Several metastases were also present.
- 34 048297 в толстом кишечнике и сальнике. ДНК, выделенную из лейкоцитов, секвенировали, применяя платформу для секвенирования путем синтеза от Illumina в среднем с 44-кратным покрытием гаплоидного генома. Дополнительно анализировали однонуклеотидные мутации в плазме для положений нуклеотидов, в которых присутствовала только одна аллель, т.е. гомозиготная аллель.- 34 048297 in the colon and omentum. DNA isolated from leukocytes was sequenced using the Illumina sequencing-by-synthesis platform with an average of 44-fold coverage of the haploid genome. In addition, single nucleotide mutations in plasma were analyzed for nucleotide positions at which only one allele was present, i.e., the homozygous allele.
ДНК выделяли из четырех различных локализаций левой и правой опухолей и секвенировали, применяя платформу секвенирования Illumina. Две локализации (локализации А и В) были из правой опухоли и другие две локализации (локализации С и D) были из левой опухоли. Локализации А и В находились приблизительно в 4 см друг от друга. Расстояние между локализациями С и D также составляло приблизительно 4 см. Образцы плазмы собирали из пациента до и после хирургической резекции опухолей яичника. Затем выделяли ДНК из плазмы пациента. Глубины секвенирования опухолей из локализаций А, В, С и D, а также из образцов плазмы показаны в табл. 9.DNA was isolated from four different sites of the left and right tumors and sequenced using the Illumina sequencing platform. Two sites (sites A and B) were from the right tumor and the other two sites (sites C and D) were from the left tumor. Sites A and B were approximately 4 cm apart. The distance between sites C and D was also approximately 4 cm. Plasma samples were collected from the patient before and after surgical resection of the ovarian tumors. DNA was then isolated from the patient's plasma. The sequencing depths of tumors from sites A, B, C, and D and from the plasma samples are shown in Table 9.
Таблица 9Table 9
Глубина секвенирования опухолей из локализаций А, В, С и DSequencing depth of tumors from localizations A, B, C and D
В данном примере для детектирования одной связанной с опухолью однонуклеотидной мутации положение нуклеотида секвенировали по меньшей мере 20 раз в опухолевой ткани и 30 раз в конститутивной ДНК. В других вариантах реализации можно применять другие глубины секвенирования, например, 35, 40, 45, 50, 60, 70, 80, 90, 100 и >100 раз. Снижение стоимости секвенирования позволит с гораздо большей готовностью осуществлять секвенирование с большей глубиной. Положение нуклеотида гомозиготно в конститутивной ДНК, тогда как в опухолевой ткани наблюдается замена нуклеотида. Критерий встречаемости замены нуклеотида в опухолевой ткани зависит от суммарной глубины секвенирования конкретного положения нуклеотида в опухолевой ткани. Для 20-30-кратного покрытия нуклеотида встречаемость замены нуклеотида (пороговое значение) составит по меньшей мере пять раз. Для 31-50кратного покрытия встречаемость замены нуклеотида составит по меньшей мере шесть раз. Для 51-70кратного покрытия необходимая встречаемость составит по меньшей мере семь раз. Данные критерии получены в результате прогнозирования с применением пуассоновского распределения чувствительности детектирования истинных мутаций и ожидаемого количества ложноположительных локусов.In this example, to detect a single tumor-associated single nucleotide mutation, the nucleotide position was sequenced at least 20 times in the tumor tissue and 30 times in the constitutive DNA. In other embodiments, other sequencing depths may be used, such as 35, 40, 45, 50, 60, 70, 80, 90, 100, and >100 times. Reducing the cost of sequencing will allow sequencing to be performed much more readily at greater depths. The nucleotide position is homozygous in the constitutive DNA, while a nucleotide substitution is observed in the tumor tissue. The criterion for the occurrence of a nucleotide substitution in the tumor tissue depends on the total sequencing depth of a particular nucleotide position in the tumor tissue. For 20-30-fold nucleotide coverage, the occurrence of a nucleotide substitution (threshold value) will be at least five times. For 31-50x coverage, the occurrence of a nucleotide substitution is at least six times. For 51-70x coverage, the required occurrence is at least seven times. These criteria are derived from predictions using the Poisson distribution of the detection sensitivity of true mutations and the expected number of false positive loci.
На фиг. 17 представлена табл. 1700, на которой показаны прогнозируемые чувствительности различных требований встречаемости и глубин секвенирования. Чувствительность будет соответствовать количеству истинных мутаций, детектированных при конкретной глубине покрытия с применением конкретного порогового значения. Чем выше глубина секвенирования, тем с большей вероятностью обнаруFigure 17 shows Table 1700, which shows the predicted sensitivities of different frequency requirements and sequencing depths. The sensitivity will correspond to the number of true mutations detected at a particular coverage depth using a particular threshold. The higher the sequencing depth, the more likely it is that a mutation will be detected.
- 35 048297 жат мутацию для данного порогового значения, так как будет получено больше считываемых последовательностей с мутацией. Для более высоких пороговых значений вероятность обнаружить мутацию будет меньше, поскольку критерий будет более строгим.- 35 048297 yield a mutation for a given threshold, since more reads with the mutation will be obtained. For higher thresholds, the probability of detecting a mutation will be lower, since the criterion will be more stringent.
На фиг. 18 представлена табл. 1800, на которой показаны прогнозируемые количества ложноположительных локусов для различных пороговых значений и различных глубин секвенирования. Количество ложноположительных результатов возрастает с увеличением глубины секвенирования, так как осуществляют больше считываемых последовательностей. Тем не менее, для порогового значения, равного пяти или более, не прогнозируется получение ложноположительных результатов, даже при глубине секвенирования, составляющей 70 раз. В других вариантах реализации можно применять различные критерии встречаемости, чтобы добиться желательной чувствительности и специфичности.Fig. 18 is a table 1800 showing the predicted numbers of false positive loci for different thresholds and different sequencing depths. The number of false positives increases with increasing sequencing depth because more sequence reads are performed. However, for a threshold of five or more, no false positives are predicted, even at a sequencing depth of 70 times. In other embodiments, different occurrence criteria can be used to achieve the desired sensitivity and specificity.
На фиг. 19 показана древовидная диаграмма, иллюстрирующая количество мутаций, детектированных в различных локализациях опухоли. Мутации определяли путем непосредственного секвенирования опухолей. В локализации А обнаружили 71 мутацию, которая специфична для данной опухоли, а в локализации В обнаружили 122 специфичные для данной локализации мутации, даже с учетом того, что они находились на расстоянии всего 4 см друг от друга. 10 мутаций наблюдали одновременно в локализациях А и В. В локализации С обнаружили 168 мутаций, которые специфичны для данной опухоли, а в локализации D обнаружили 248 специфичных для данной локализации мутаций, даже с учетом того, что они находились на расстоянии всего 4 см друг от друга. 12 мутаций наблюдали одновременно в локализациях С и D. Обнаружили существенную гетерогенность в мутационных профилях для различных локализаций опухоли. Например, 248 мутаций были детектированы только в локализации опухоли D, но не детектированы в других трех локализациях опухоли. Всего было детектировано 2129 мутаций во всех локализациях. Таким образом, многие мутации были одинаковы в различных опухолях. Таким образом, было всего семь групп ОНВ. Не наблюдалось различий среди данных четырех областей в отношении вариаций числа копий.Figure 19 is a tree diagram illustrating the number of mutations detected at different tumor sites. Mutations were determined by direct sequencing of the tumors. Site A contained 71 tumor-specific mutations and site B contained 122 site-specific mutations, even though they were only 4 cm apart. Ten mutations were observed simultaneously at sites A and B. Site C contained 168 tumor-specific mutations and site D contained 248 site-specific mutations, even though they were only 4 cm apart. Twelve mutations were observed simultaneously at sites C and D. Significant heterogeneity was found in the mutational profiles among the different tumor sites. For example, 248 mutations were detected only at site D but not at the other three tumor sites. A total of 2129 mutations were detected across all sites. Thus, many mutations were similar across tumors. Thus, there were only seven ONV groups. No differences were observed among these four regions with respect to copy number variations.
На фиг. 20 представлена табл. 2000, на которой показано количество фрагментов, несущих мутации опухолевого происхождения, в образце плазмы до лечения и после лечения. Также показаны выявленные фракционные концентрации ДНК опухолевого происхождения, несущей соответствующие мутации. Категория мутации относится к локализации(ям) опухоли, в которой обнаружили данную мутацию. Например, категория мутации А относится к мутации, присутствующей только в локализации А, тогда как категория мутации ABCD относится к мутации, присутствующей во всех четырех локализациях опухоли.Fig. 20 is a table 2000 showing the number of fragments carrying tumor-derived mutations in a plasma sample before and after treatment. Also shown are the detected fractional concentrations of tumor-derived DNA carrying the corresponding mutations. The mutation category refers to the tumor site(s) in which the mutation was detected. For example, mutation category A refers to a mutation present only in site A, whereas mutation category ABCD refers to a mutation present in all four tumor sites.
Из 2129 мутаций, которые присутствовали во всех четырех локализациях опухоли, 2105 (98,9%) были детектированы в по меньшей мере одном фрагменте ДНК в плазме. С другой стороны, из 609 мутаций, которые присутствовали только в одной из четырех локализаций опухоли, лишь 77 (12,6%) были детектированы в по меньшей мере одном фрагменте ДНК в плазме. Следовательно, количественный анализ однонуклеотидных мутаций в плазме можно применять для выявления относительной распространенности данных мутаций в опухолевых тканях. Данная информация будет полезна для исследования гетерогенности рака. В данном примере вариацию считали потенциальной мутацией, если ее наблюдали в результатах секвенирования хотя бы один раз.Of the 2129 mutations that were present in all four tumor sites, 2105 (98.9%) were detected in at least one plasma DNA fragment. On the other hand, of the 609 mutations that were present in only one of the four tumor sites, only 77 (12.6%) were detected in at least one plasma DNA fragment. Therefore, quantitative analysis of single nucleotide mutations in plasma can be used to identify the relative prevalence of these mutations in tumor tissues. This information will be useful for studying cancer heterogeneity. In this example, a variation was considered a potential mutation if it was observed in the sequencing results at least once.
Внутри каждой группы ОНВ определяли фракционные концентрации циркулирующей опухолевой ДНК. Фракционные концентрации опухолевой ДНК в плазме до хирургического вмешательства и после хирургического вмешательства, которые определяли по ОНВ, присутствующим во всех 4 областях (т.е. группа ABCD), составляли 46% и 0,18%, соответственно. Данные процентные соотношения хорошо коррелировали с таковыми, полученными при анализе GAAL: 46% и 0,66%. Мутации, присутствующие во всех 4 областях (т.е. группа ABCD), вносили наибольший фракционный вклад в ДНК опухолевого происхождения в плазме.Fractional concentrations of circulating tumor DNA were determined within each NBC group. Fractional concentrations of tumor DNA in plasma before and after surgery, as determined by NBCs present in all 4 regions (i.e., group ABCD), were 46% and 0.18%, respectively. These percentages correlated well with those obtained by GAAL analysis: 46% and 0.66%. Mutations present in all 4 regions (i.e., group ABCD) made the largest fractional contribution to tumor-derived DNA in plasma.
Фракционные концентрации ДНК опухолевого происхождения в плазме до операции, которые определяли по ОНВ из групп АВ и CD, составляли 9,5 и 1,1%, соответственно. Данные концентрации соответствовали относительным размерам опухолей правого и левого яичников. Фракционные концентрации ДНК опухолевого происхождения, которые определяли по уникальным для одной области ОНВ (т.е. из групп А, В, С и D), как правило, были низкими. Полученные результаты позволяют предположить, что для точного измерения суммарной опухолевой нагрузки у пациента с раковым заболеванием применение полногеномного подхода выстрела из дробового ружья позволяет получить более типичную картину по сравнению с более традиционным подходом нацеливания на определенные связанные с опухолью мутации. В последнем из упомянутых подходов, если лишь у подмножества опухолевых клеток есть целевые мутации, то можно упустить важную информацию в отношении угрожающего рецидива или прогрессирования заболевания, вызванного опухолевыми клетками, не содержащими целевые мутации, или можно упустить возникновение устойчивого к лечению клона.Fractional tumor-derived DNA concentrations in preoperative plasma, as determined by OHBs from groups AB and CD, were 9.5 and 1.1%, respectively. These concentrations corresponded to the relative sizes of right and left ovarian tumors. Fractional tumor-derived DNA concentrations, as determined by region-unique OHBs (i.e., from groups A, B, C, and D), were generally low. These results suggest that the use of a whole-genome shotgun approach may provide a more representative picture of the overall tumor burden in a patient with cancer than the more traditional approach of targeting specific tumor-associated mutations. In the latter approach, if only a subset of tumor cells have the target mutations, important information regarding the risk of relapse or disease progression caused by tumor cells lacking the target mutations may be missed, or the emergence of a treatment-resistant clone may be missed.
На фиг. 21 представлена диаграмма 2100, на которой показаны распределения встречаемости в плазме мутаций, детектированных в одной локализации опухоли, и мутаций, детектированных во всех четырех локализациях опухоли. На столбчатой диаграмме 2100 показаны результаты для двух типов мутаций: (1) мутаций, детектированных лишь в одной локализации, и (2) мутаций, детектированных во всех четырех локализациях опухоли. На горизонтальной оси представлено количество раз, которое мутацияFig. 21 is a diagram 2100 that shows the distributions of the plasma frequencies of mutations detected at one tumor site and mutations detected at all four tumor sites. The bar diagram 2100 shows the results for two types of mutations: (1) mutations detected at only one site and (2) mutations detected at all four tumor sites. The horizontal axis shows the number of times a mutation
- 36 048297 детектирована в плазме. На вертикальной оси показан процент мутаций, которые соответствуют конкретному значению на горизонтальной оси. Например, приблизительно 88% мутаций типа (1) встретились в плазме лишь один раз. Можно видеть, что мутации, которые встретились в одной локализации, обнаруживали преимущественно один раз, и не более четырех раз. Мутации, присутствующие только в одной локализации опухоли, обнаруживались в плазме гораздо реже по сравнению с мутациями, присутствующими во всех четырех локализациях опухоли.- 36 048297 were detected in plasma. The vertical axis shows the percentage of mutations that correspond to a specific value on the horizontal axis. For example, approximately 88% of type (1) mutations occurred in plasma only once. It can be seen that mutations that occurred in one location were detected predominantly once, and not more than four times. Mutations present in only one tumor location were detected in plasma much less frequently compared to mutations present in all four tumor locations.
Одно из применений данного способа состоит в том, что практикующие врачи получают возможность оценить массу опухолевых клеток, несущих различные классы мутаций. Часть данных мутаций потенциально можно будет компенсировать целевыми агентами. Ожидают, что агенты, нацеленные на мутации, которые содержатся в большем количестве опухолевых клеток, будут обладать ярко выраженным терапевтическим действием.One application of this method is that it allows clinicians to assess the mass of tumor cells that carry different classes of mutations. Some of these mutations could potentially be compensated for by targeted agents. Agents that target mutations that are present in a larger number of tumor cells are expected to have a pronounced therapeutic effect.
На фиг. 22 представлена диаграмма 2200, на которой показано прогнозируемое распределение встречаемости в плазме мутаций, происходящих от гетерогенной опухоли. Указанная опухоль включает две группы мутаций. Одна группа мутаций присутствует во всех опухолевых клетках, а другая группа мутаций присутствует лишь в 1/4 опухолевых клеток, на основании приближения, что две локализации представляют опухоли каждого яичника. Суммарную фракционную концентрацию ДНК опухолевого происхождения в плазме принимали равной 40%. Предположили, что образец плазмы секвенировали со средней глубиной 50 раз на положение нуклеотида. Согласно данному прогнозируемому распределению встречаемости в плазме, мутации, которые присутствовали во всех опухолевых тканях, можно было отличить от мутаций, присутствующих лишь в 1/4 опухолевых клеток по их встречаемости в плазме. Например, в качестве порогового значения можно применять встречаемость 6 раз. Для мутаций, присутствующих во всех опухолевых клетках, 92,3% мутаций будет присутствовать в плазме по меньшей мере 6 раз. Напротив, для мутаций, которые присутствуют в 1/4 опухолевых клеток, лишь 12,4% мутаций будет присутствовать в плазме по меньшей мере 6 раз.Fig. 22 is a diagram 2200 showing the predicted distribution of plasma occurrence of mutations originating from a heterogeneous tumor. The tumor includes two groups of mutations. One group of mutations is present in all tumor cells and the other group of mutations is present in only 1/4 of the tumor cells, based on the approximation that the two locations represent tumors from each ovary. The total fractional concentration of tumor-derived DNA in plasma was taken to be 40%. It was assumed that the plasma sample was sequenced with an average depth of 50 times per nucleotide position. According to this predicted distribution of plasma occurrence, mutations that were present in all tumor tissues could be distinguished from mutations that were present in only 1/4 of the tumor cells by their plasma occurrence. For example, an occurrence of 6 times could be used as a threshold value. For mutations present in all tumor cells, 92.3% of the mutations will be present in plasma at least 6 times. In contrast, for mutations present in 1/4 of the tumor cells, only 12.4% of the mutations will be present in plasma at least 6 times.
На фиг. 23 представлена табл. 2300, демонстрирующая специфичность вариантов реализации для 16 здоровых контрольных субъектов. Образцы их ДНК из плазмы секвенировали со срединным покрытием 30 раз. Осуществляли детектирование мутаций, которые присутствовали в плазме описанного выше пациента с раком яичников, в образцах плазмы данных здоровых субъектов. Мутации, присутствующие в опухоли пациента с раком яичников, очень редко обнаруживали в результатах секвенирования плазмы здоровых контрольных субъектов, и ни одна из категорий мутаций не встречалась с фракционной концентрацией >1%. Полученные результаты показали, что данный способ детектирования высоко специфичен.Fig. 23 is a table 2300 showing the specificity of the embodiments for 16 healthy control subjects. Their plasma DNA samples were sequenced with median coverage 30 times. Mutations that were present in the plasma of the ovarian cancer patient described above were detected in the plasma samples of these healthy subjects. Mutations present in the tumor of the ovarian cancer patient were very rarely detected in the sequencing results of the plasma of the healthy controls, and none of the mutation categories occurred at a fractional concentration of >1%. The results showed that this detection method is highly specific.
В. Способ.B. Method.
На фиг. 24 представлена блок-схема способа 2400 анализа гетерогенности одной или более опухолей субъекта согласно вариантам реализации настоящего изобретения. Некоторые этапы способа 2400 можно осуществить, как описано в данной заявке.Fig. 24 is a flow chart of a method 2400 for analyzing heterogeneity of one or more tumors of a subject according to embodiments of the present invention. Some steps of the method 2400 can be performed as described herein.
В блоке 2410 получали конститутивный геном субъекта. В блоке 2420 получали один или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце субъекта, при этом биологический образец содержал внеклеточную ДНК. В блоке 2430 определяли положения в геноме маркеров последовательности. В блоке 2440 маркеры последовательности сравнивали с конститутивным геномом, чтобы определить первое количество первых локусов. В каждом из первых локусов количество маркеров последовательности с вариантной последовательностью относительно конститутивного генома было выше порогового значения, где пороговое значение больше единицы.At block 2410, a constituent genome of the subject is obtained. At block 2420, one or more sequence markers are obtained for each of a plurality of DNA fragments in a biological sample of the subject, wherein the biological sample contains extracellular DNA. At block 2430, the genomic positions of the sequence markers are determined. At block 2440, the sequence markers are compared to the constituent genome to determine a first number of first loci. At each of the first loci, the number of sequence markers with a variant sequence relative to the constituent genome is above a threshold value, where the threshold value is greater than one.
В блоке 2450 рассчитывали меры гетерогенности одной или более опухолей на основании соответствующих первых количеств из набора первых положений в геноме. В одном аспекте, указанные меры могут дать значение, которое представляет собой количество мутаций, которые одинаковы среди опухолей, по сравнению с количеством мутаций, которые отличаются среди опухолей. Здесь различные опухоли могут существовать как один объект, с различными опухолями внутри объекта, которые могут представлять собой то, что обычно называют внутриопухолевой гетерогенностью. Указанная мера также может относиться к тому, присутствуют ли мутации в одной или нескольких опухолях, или мутации присутствуют во многих или в большинстве опухолей. Можно рассчитать более чем одну меру гетерогенности.In block 2450, measures of heterogeneity of one or more tumors are calculated based on the corresponding first numbers from the set of first positions in the genome. In one aspect, said measures can provide a value that represents the number of mutations that are the same among tumors, compared to the number of mutations that are different among tumors. Here, different tumors can exist as a single entity, with different tumors within the entity, which can represent what is commonly referred to as intratumor heterogeneity. Said measure can also relate to whether mutations are present in one or more tumors, or whether mutations are present in many or most tumors. More than one measure of heterogeneity can be calculated.
В блоке 2460 меру гетерогенности можно сравнить с пороговым значением, чтобы определить классификацию уровня гетерогенности. Одну или более мер можно применять различными способами. Например, одну или более мер гетерогенности можно применять для прогнозирования вероятности прогрессирования опухоли. Чем выше гетерогенность некоторых опухолей, тем выше вероятность, что они будут прогрессировать, и тем выше вероятность возникновения устойчивого клона после лечения (например, направленного лечения).In block 2460, the heterogeneity measure may be compared to a threshold value to determine a classification of the level of heterogeneity. One or more measures may be applied in various ways. For example, one or more heterogeneity measures may be applied to predict the likelihood of tumor progression. The higher the heterogeneity of some tumors, the higher the likelihood that they will progress, and the higher the likelihood that a resistant clone will emerge after treatment (e.g., targeted therapy).
С. Меры гетерогенности опухоли.C. Measures of tumor heterogeneity.
Одним примером меры гетерогенности является количество зон концентраций различных групп мутаций в плазме. Например, если у пациента преобладает два опухолевых клона и если данные клоны присутствуют в различных концентрациях, то мы будем ожидать увидеть две различные мутации с различными концентрациями в плазме. Данные различные значения можно вычислить путем определения фракционной концентрации для различных наборов мутаций, где каждый набор соответствует одной изOne example of a measure of heterogeneity is the number of concentration zones of different groups of mutations in plasma. For example, if a patient has two predominant tumor clones, and if these clones are present in different concentrations, then we would expect to see two different mutations with different concentrations in plasma. These different values can be calculated by determining the fractional concentration for different sets of mutations, where each set corresponds to one of
- 37 048297 опухолей.- 37,048,297 tumors.
Каждую из данных концентраций можно назвать зоной концентрации или классом концентрации. Если у пациента присутствует больше клонов, то будет наблюдаться больше зон/классов концентрации. Таким образом, чем больше зон, тем выше гетерогенность. Количество зон концентрации можно наблюдать при нанесении на график фракционных концентраций для различных мутаций. Можно построить гистограмму различных концентраций, где различные пики соответствуют различным опухолям (или различным клонам одной опухоли). У мутаций, которые одинаковы у всех или некоторых опухолей (или клонов опухоли), вероятно будет больший пик. Данные пики можно проанализировать, чтобы определить, какие меньшие пики объединены с получением большего пика. Можно применять процедуру подгонки, например, аналогичную процедуре подгонки на фиг. 10В и 11.Each of these concentrations can be called a concentration zone or concentration class. If a patient has more clones, then more concentration zones/classes will be observed. Thus, the more zones, the higher the heterogeneity. The number of concentration zones can be observed by plotting the fractional concentrations for different mutations. A histogram of the different concentrations can be constructed, with the different peaks corresponding to different tumors (or different clones of a single tumor). Mutations that are common in all or some tumors (or tumor clones) are likely to have a larger peak. These peaks can be analyzed to determine which smaller peaks combine to form a larger peak. A fitting procedure can be used, for example, similar to the fitting procedure in Figs. 10B and 11.
В одном варианте реализации гистограмма представляет собой график, на котором ось у представляет собой количество (например, число или пропорцию) локусов и ось х представляет собой фракционную концентрацию. Мутации, которые одинаковы у всех или некоторых опухолей, дадут более высокую фракционную концентрацию. Размер пика будет представлять количество локусов, которые дают определенную фракционную концентрацию. Относительный размер пиков при низкой и высокой концентрации будет отражать степень гетерогенности опухолей (или клонов опухоли). Больший пик при высокой концентрации отражает, что большинство мутаций одинаковы в большинстве или во всех опухолях (или клонах опухоли), и свидетельствует о меньшей степени гетерогенности опухоли. Если пик при низкой концентрации больше, то большинство мутаций одинаковы в нескольких опухолях (или в нескольких клонах опухоли). Это будет свидетельствовать о более высокой степени гетерогенности опухоли.In one embodiment, the histogram is a graph in which the y-axis represents the number (e.g., number or proportion) of loci and the x-axis represents the fractional concentration. Mutations that are common in all or some tumors will result in a higher fractional concentration. The size of the peak will represent the number of loci that result in a particular fractional concentration. The relative size of the peaks at low and high concentration will reflect the degree of heterogeneity of the tumors (or tumor clones). A larger peak at high concentration reflects that most mutations are common in most or all tumors (or tumor clones), and indicates a lower degree of tumor heterogeneity. If the peak at low concentration is larger, then most mutations are common in several tumors (or tumor clones), indicating a higher degree of tumor heterogeneity.
Чем больше присутствует пиков, тем больше присутствует сайт-специфичных мутаций. Каждый пик может соответствовать различному набору мутаций, где набор мутаций происходит из подмножества опухолей (например, только из одной или двух опухолей, как описано выше). В примере на фиг. 19 может быть всего 7 пиков: 4 пика, каждый из которых для единственной локализации, которые обладают, вероятно, наименьшей концентрацией (в зависимости от относительного размера опухолей), два пика для локализации АВ и локализации CD и один пик для мутаций, одинаковых во всех локализациях.The more peaks present, the more site-specific mutations are present. Each peak may correspond to a different set of mutations, where the set of mutations originates from a subset of tumors (e.g., from only one or two tumors, as described above). In the example in Fig. 19, there may be a total of 7 peaks: 4 peaks each for a single site that are likely to have the lowest concentration (depending on the relative size of the tumors), two peaks for site AB and site CD, and one peak for mutations that are the same in all sites.
Положение пиков также может указывать на относительный размер опухолей. Большая концентрация будет коррелировать с большей опухолью, так как большая опухоль будет высвобождать больше опухолевой ДНК в образец, например, в плазму. Таким образом, можно оценить массу опухолевых клеток, несущих различные классы мутаций.The position of the peaks can also indicate the relative size of the tumors. A higher concentration will correlate with a larger tumor, as a larger tumor will release more tumor DNA into a sample, such as plasma. In this way, the mass of tumor cells carrying different classes of mutations can be estimated.
Другой пример меры гетерогенности представляет собой соотношение мутированных сайтов с относительно малым количеством вариантных считываемых последовательностей (например, 4, 5 или 6) по сравнению с соотношением мутированных сайтов с относительно большим количеством вариантных считываемых последовательностей (например, 9-13). Снова возвращаясь к фиг. 22 можно увидеть, что для специфичных для конкретной локализации мутаций вариантных считываемых последовательностей меньше (что также приводит к меньшей фракционной концентрации). Для общих для локализаций мутаций вариантных считываемых последовательностей больше (что также приводит к большей фракционной концентрации). Первое соотношение при 6 считываемых последовательностях (меньшее число), деленное на второе соотношение при 10 считываемых последовательностях (большее число) выражает меру гетерогенности. Если отношение мало, то присутствует несколько мутаций, специфичных для конкретной локализации, и, таким образом, уровень гетерогенности низкий. Если отношение велико (или по меньшей мере больше, чем значения, определенные для известных образцов), то уровень гетерогенности выше.Another example of a measure of heterogeneity is the ratio of mutated sites with a relatively small number of variant reads (e.g., 4, 5, or 6) compared to the ratio of mutated sites with a relatively large number of variant reads (e.g., 9-13). Referring again to Fig. 22, for site-specific mutations, there are fewer variant reads (also resulting in a lower fractional concentration). For site-general mutations, there are more variant reads (also resulting in a higher fractional concentration). The first ratio, with 6 reads (the lower number), divided by the second ratio, with 10 reads (the higher number), expresses a measure of heterogeneity. If the ratio is small, there are few site-specific mutations and thus the level of heterogeneity is low. If the ratio is large (or at least larger than the values determined for known samples), the level of heterogeneity is higher.
D. Определение пороговых значений.D. Determination of threshold values.
Пороговые значения можно определить по субъектам, опухоли которых взяли на биопсию (например, как описано выше), чтобы непосредственно определить уровень гетерогенности. Указанный уровень можно определить различными способами, например, с помощью отношения специфичных для конкретной локализации мутаций к общим для локализаций мутациям. Биологические образцы (например, образцы плазмы) затем можно проанализировать, чтобы определить меры гетерогенности, при этом мера гетерогенности для биологических образцов может быть связана с уровнем гетерогенности, определенным при непосредственном анализе клеток опухолей.Thresholds can be determined from subjects whose tumors have been biopsied (e.g., as described above) to directly determine the level of heterogeneity. This level can be determined in a variety of ways, such as using the ratio of site-specific mutations to site-common mutations. Biological samples (e.g., plasma samples) can then be analyzed to determine measures of heterogeneity, whereby the heterogeneity measure for biological samples can be related to the level of heterogeneity determined by direct analysis of tumor cells.
Такая процедура позволит откалибровать пороговые значения относительно уровней гетерогенности. Если мера гетерогенности в данном анализе попадает между двумя пороговыми значениями, то можно оценить, что уровень гетерогенности находится между уровнями, соответствующими пороговым значениям.This procedure will calibrate the thresholds relative to the heterogeneity levels. If the heterogeneity measure in a given analysis falls between two thresholds, then the heterogeneity level can be estimated to be between the levels corresponding to the thresholds.
В одном варианте реализации калибровочную кривую можно рассчитать по уровням гетерогенности, определенным для биоптатов, и соответствующей мере гетерогенности, определенной для образца плазмы (или другого образца). В таком примере уровни гетерогенности числовые, где данные числовые уровни могут соответствовать различным классификациям. Различные диапазоны числовых уровней могут соответствовать различным диагнозам, например, различным стадиям рака.In one embodiment, a calibration curve may be calculated from heterogeneity levels determined for biopsies and a corresponding measure of heterogeneity determined for a plasma sample (or other sample). In such an example, the heterogeneity levels are numerical, where these numerical levels may correspond to different classifications. Different ranges of numerical levels may correspond to different diagnoses, such as different stages of cancer.
Е. Способ с применением фракционной концентрации из геномного представления.E. Method using fractional concentration from genomic representation.
Гетерогенность опухоли также можно проанализировать, применяя фракционную концентрацию, например, определенную с применением вариантов реализации согласно способу 1200. Области генома,Tumor heterogeneity can also be analyzed using fractional concentration, such as determined using embodiments of method 1200. Genomic regions,
- 38 048297 в которых детектирована утрата одной копии, могут происходить из различных опухолей. Таким образом, фракционная концентрация, определенная для различных областей генома, может отличаться в зависимости от того, присутствует ли амплификация (или делеция для утраты 1 копии) только в одной опухоли или в нескольких опухолях. Таким образом, для фракционных концентраций, определенных с помощью вариантов реализации способа 1200, можно применять одинаковые меры гетерогенности.- 38 048297 in which a loss of one copy is detected may originate from different tumors. Thus, the fractional concentration determined for different regions of the genome may differ depending on whether the amplification (or deletion for a loss of 1 copy) is present only in one tumor or in several tumors. Thus, the same measures of heterogeneity can be applied to the fractional concentrations determined using embodiments of the method 1200.
Например, можно обнаружить, что одна область генома соответствует утрате 1 копии, и можно определить фракционную концентрацию только по соответствующей плотности в данной области генома (соответствующую плотность можно использовать в качестве фракционной концентрации). Можно построить гистограмму по различным соответствующим плотностям путем вычисления количества областей с различными плотностями. Если только у одной опухоли, или одного клона опухоли, или одной метастазы опухоли обнаружили приобретение копии в конкретной области, то плотность данной области будет меньше, чем плотность области, в которой обнаружили приобретение копии в нескольких опухолях, или нескольких клонах опухоли, или нескольких метастазах опухоли (т.е. фракционная концентрация опухолевой ДНК в общей для мутаций области будет больше, чем в области с отдельной мутацией). Таким образом, меры гетерогенности, описанные выше, можно применять к пикам, детектированным по приобретению или утрате числа копий в различных областях, а также к фракционной концентрации в различных локализациях, в которых выявили распределение фракционных концентраций.For example, one may find that one region of the genome corresponds to a loss of 1 copy, and one may determine the fractional concentration from the corresponding density in that region of the genome alone (the corresponding density may be used as the fractional concentration). One may construct a histogram from the different corresponding densities by counting the number of regions with different densities. If only one tumor, or one tumor clone, or one tumor metastasis was found to have a copy gain in a particular region, the density of that region will be less than the density of a region in which copy gain was found in several tumors, or several tumor clones, or several tumor metastases (i.e., the fractional concentration of tumor DNA in a region common to mutations will be greater than in a region with an individual mutation). Thus, the measures of heterogeneity described above may be applied to peaks detected from copy gains or losses in different regions, as well as to the fractional concentration at different locations in which the distribution of fractional concentrations was detected.
В одном варианте реализации, если для построения гистограммы применяют соответствующие плотности, можно получить разделение приобретений и утрат. Области, в которых обнаружили приобретение, можно проанализировать отдельно путем построения гистограммы только для приобретений, и отдельную гистограмму можно построить только для утрат. При применении фракционной концентрации пики утрат и приобретений можно проанализировать вместе. Например, для фракционных концентраций можно использовать разность (например, в виде абсолютного значения) с референсной плотностью, и, следовательно, фракционные концентрации для приобретений и утрат могут вносить вклад в один и тот же пик.In one embodiment, if the corresponding densities are used to construct the histogram, a separation of gains and losses can be obtained. Regions in which a gain was detected can be analyzed separately by constructing a histogram only for gains, and a separate histogram can be constructed only for losses. When fractional concentration is used, the peaks of losses and gains can be analyzed together. For example, for fractional concentrations, the difference (e.g., as an absolute value) from a reference density can be used, and therefore, the fractional concentrations for gains and losses can contribute to the same peak.
XIII. Компьютерная система.XIII. Computer system.
В любых компьютерных системах, упомянутых в данной заявке, может применяться любое подходящее количество подсистем. Примеры таких подсистем показаны на фиг. 25 в компьютерном устройстве 2500. В некоторых вариантах реализации компьютерная система включает отдельное компьютерное устройство, где подсистемы могут представлять собой компоненты компьютерного устройства. В других вариантах реализации компьютерная система может включать несколько компьютерных устройств, каждое из которых представляет собой подсистему, с внутренними компонентами.In any computer systems mentioned in this application, any suitable number of subsystems may be used. Examples of such subsystems are shown in Fig. 25 in a computer device 2500. In some embodiments, the computer system includes a single computer device, where the subsystems may be components of the computer device. In other embodiments, the computer system may include multiple computer devices, each of which is a subsystem, with internal components.
Подсистемы, показанные на фиг. 25, взаимосвязаны посредством системной шины 2575. Показаны дополнительные подсистемы, такие как принтер 2574, клавиатура 2578, жесткий диск 2579, монитор 2576, который соединен с видеоадаптером 2582, и другие подсистемы. Периферические устройства и устройства ввода/вывода (I/O), которые соединены с контроллером ввода/вывода 2571, можно подсоединить к компьютерной системе с помощью любого количества средств, известных в данной области, таких как порт последовательного ввода-вывода 2577. Например, порт последовательного ввода-вывода 2577 или внешний интерфейс 2581 (например, локальную сеть Ethernet, беспроводную сеть Wi-Fi и т.д.) можно применять для подсоединения компьютерной системы 2500 к глобальной компьютерной сети, такой как Интернет, к устройству ввода мышь или к сканеру. Взаимосвязь посредством системной шины 2575 позволяет центральному процессору 2573 обмениваться данными с каждой подсистемой и контролировать выполнение инструкций от системной памяти 2572 или жесткого диска 2579, а также обмениваться информацией между подсистемами. Системная память 2572 и/или жесткий диск 2579 может включать машиночитаемые носители. Любые значения, упомянутые в данной заявке, могут передаваться от одного компонента к другому компоненту и могут выводиться пользователю.The subsystems shown in Fig. 25 are interconnected by a system bus 2575. Additional subsystems such as a printer 2574, a keyboard 2578, a hard drive 2579, a monitor 2576 which is connected to a video adapter 2582, and other subsystems are shown. Peripheral devices and input/output (I/O) devices which are connected to the input/output controller 2571 may be connected to the computer system by any number of means known in the art, such as a serial input/output port 2577. For example, a serial input/output port 2577 or an external interface 2581 (e.g., an Ethernet local area network, a Wi-Fi wireless network, etc.) may be used to connect the computer system 2500 to a wide area network such as the Internet, to a mouse input device, or to a scanner. The interconnection via the system bus 2575 allows the central processor 2573 to exchange data with each subsystem and control the execution of instructions from the system memory 2572 or the hard disk 2579, as well as exchange information between the subsystems. The system memory 2572 and/or the hard disk 2579 may include computer-readable media. Any values mentioned in this application may be transferred from one component to another component and may be output to a user.
Компьютерная система может включать множество одинаковых компонентов или подсистем, например, соединенных друг с другом через внешний интерфейс 2581 или через внутренний интерфейс. В некоторых вариантах реализации компьютерные системы, подсистемы или устройства могут обмениваться информацией через сеть. В таких случаях один компьютер можно считать клиентом, а другой компьютер - сервером, где каждый может представлять собой часть одной и той же компьютерной системы. Как клиент, так и сервер может включать несколько систем, подсистем или компонентов.A computer system may include multiple identical components or subsystems, such as those connected to each other via an external interface 2581 or via an internal interface. In some embodiments, computer systems, subsystems, or devices may exchange information via a network. In such cases, one computer may be considered a client and another computer a server, where each may be part of the same computer system. Both a client and a server may include multiple systems, subsystems, or components.
Должно быть очевидно, что любой из вариантов реализации настоящего изобретения можно осуществить в виде логических схем устройства управления с применением аппаратного обеспечения (например, специализированной интегральной микросхемы или программируемой пользователем вентильной матрицы) и/или с применением компьютерного программного обеспечения, как правило, с программируемым процессором в модульной или интегральной форме. В данной заявке процессор включает многоядерный процессор на одном и том же интегральном чипе или несколько обрабатывающих модулей, расположенных на одной печатной плате или объединенных в сеть. На основании описания и идеи, предложенных в данной заявке, среднему специалисту в данной области будут известны и понятны другие пути и/или способы осуществления вариантов реализации настоящего изобретения с применением аппаратного обеспечения и комбинаций аппаратного обеспечения и программного обеспечения.It should be obvious that any of the embodiments of the present invention can be implemented in the form of logic circuits of a control device using hardware (for example, an application-specific integrated circuit or a field-programmable gate array) and/or using computer software, typically with a programmable processor in modular or integrated form. In this application, the processor includes a multi-core processor on the same integrated chip or several processing modules located on a single printed circuit board or combined into a network. Based on the description and idea proposed in this application, other ways and/or methods for implementing embodiments of the present invention using hardware and combinations of hardware and software will be known and understood by a person of ordinary skill in the art.
- 39 048297- 39 048297
Любые компоненты или функции программного обеспечения, описанные в данной заявке, можно осуществить в виде программного кода, который выполнит процессор, применяя любой подходящий язык программирования, такой как, например, Java, C++ или Perl, с применением, например, обычных или объектно-ориентированных методик. Программный код можно хранить в виде ряда инструкций или команд на машиночитаемых носителях для хранения и/или передачи, подходящие носители включают оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), магнитный носитель, такой как жесткий диск или дискету, или оптический носитель, такой как компакт-диск (CD) или DVD (универсальный цифровой диск), флеш-память и тому подобные носители. Машиночитаемые носители могут представлять собой любую комбинацию таких устройств хранения или передачи.Any software components or functions described in this application may be implemented as program code that will be executed by a processor using any suitable programming language, such as, for example, Java, C++ or Perl, using, for example, conventional or object-oriented techniques. The program code may be stored as a series of instructions or commands on machine-readable storage and/or transmission media, suitable media include random access memory (RAM), read-only memory (ROM), magnetic media such as a hard disk or floppy disk, or optical media such as a compact disc (CD) or DVD (digital versatile disk), flash memory and the like. Machine-readable media may be any combination of such storage or transmission devices.
Такие программы также могут кодироваться и передаваться с помощью несущих сигналов, пригодных для передачи через проводные, оптические и/или беспроводные сети, соответствующих множеству протоколов, включая Интернет. В связи с этим, машиночитаемые носители согласно варианту реализации настоящего изобретения можно получить, применяя информационный сигнал, кодируемый такими программами. Машиночитаемые носители, кодированные с помощью программного кода, можно упаковать вместе с совместимым устройством или предоставить отдельно от других устройств (например, посредством загрузки через Интернет). Любые такие машиночитаемые носители могут находиться внутри или на едином программном продукте (например, жестком диске, CD или всей компьютерной системе), и могут присутствовать внутри или на различных программных продуктах внутри системы или сети. Компьютерная система может включать монитор, принтер или другое подходящее устройство отображения для предоставления пользователю любого из результатов, упомянутых в данной заявке.Such programs may also be encoded and transmitted using carrier signals suitable for transmission over wired, optical and/or wireless networks corresponding to a variety of protocols, including the Internet. In this regard, computer-readable media according to an embodiment of the present invention may be obtained using an information signal encoded by such programs. Computer-readable media encoded with a program code may be packaged together with a compatible device or provided separately from other devices (e.g., via download via the Internet). Any such computer-readable media may be located within or on a single program product (e.g., a hard disk, a CD, or an entire computer system), and may be present within or on different program products within a system or network. The computer system may include a monitor, printer, or other suitable display device for providing any of the results mentioned in this application to a user.
Любой из способов, описанных в данной заявке, можно полностью или частично осуществить с помощью компьютерной системы, включающей один или более процессоров, которые можно сконфигурировать для осуществления указанных этапов. Таким образом, варианты реализации могут быть направлены на компьютерные системы, сконфигурированные для осуществления этапов любого из способов, описанных в данной заявке, возможно с различными компонентами, осуществляющими соответствующие этапы или соответствующую группу этапов. Хотя этапы пронумерованы, этапы согласно способам, описанным в данной заявке, можно осуществить одновременно или в другом порядке. Кроме того, блоки данных этапов можно применять с блоками других этапов из других способов. Также, весь этап или блоки этапа могут быть необязательными. Кроме того, любой из этапов любого из способов можно осуществить с помощью модулей, схем или других средств для осуществления данных этапов.Any of the methods described in this application can be implemented in whole or in part by a computer system including one or more processors that can be configured to perform the specified steps. Thus, embodiments can be directed to computer systems configured to perform the steps of any of the methods described in this application, possibly with different components performing the corresponding steps or a corresponding group of steps. Although the steps are numbered, the steps according to the methods described in this application can be performed simultaneously or in a different order. In addition, the blocks of these steps can be used with blocks of other steps from other methods. Also, the entire step or blocks of a step can be optional. In addition, any of the steps of any of the methods can be implemented using modules, circuits or other means for implementing these steps.
В частности, предлагается к осуществлению способ детектирования рака или предзлокачественного изменения у субъекта, причем указанный способ включает:In particular, a method for detecting cancer or a pre-malignant change in a subject is proposed for implementation, wherein said method includes:
получение конститутивного генома субъекта;obtaining the constitutive genome of the subject;
получение одного или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце субъекта, причем указанный биологический образец включает внеклеточную ДНК;obtaining one or more sequence markers for each of a plurality of DNA fragments in a biological sample of a subject, wherein said biological sample comprises cell-free DNA;
определение положений в геноме маркеров последовательности;determination of the positions of sequence markers in the genome;
сравнение маркеров последовательности с конститутивным геномом для определения первого количества первых локусов, при этом:comparison of sequence markers with the constitutive genome to determine the first number of first loci, whereby:
в каждом из первых локусов количество маркеров последовательности с вариантной последовательностью относительно конститутивного генома выше порогового значения, где указанное пороговое значение больше единицы;in each of the first loci, the number of sequence markers with a variant sequence relative to the constitutive genome is above a threshold value, where the specified threshold value is greater than one;
определение параметра на основании числа маркеров последовательности с вариантной последовательностью в первых локусах; и сравнение этого параметра с пороговым значением для определения классификаций уровня рака у субъекта.determining a parameter based on the number of sequence markers with a variant sequence in the first loci; and comparing this parameter with a threshold value to determine the classifications of the level of cancer in the subject.
В данном способе пороговое значение можно определить по одному или более образцам от одного или большего числа других субъектов.In this method, the threshold value may be determined from one or more samples from one or more other subjects.
Пороговое значение для локуса может зависеть от суммарного количества маркеров последовательности, которые располагаются в данном локусе генома.The threshold value for a locus may depend on the total number of sequence markers that are located in a given locus of the genome.
Для по меньшей мере двух из первых локусов могут применить различные пороговые значения.For at least two of the first loci, different threshold values may be applied.
Указанный способ может дополнительно включать динамическое определение первого порогового значения для одного из первых локусов, причем указанный один из локусов находится внутри первой области.The method may further comprise dynamically determining a first threshold value for one of the first loci, wherein said one of the loci is located within the first region.
В этом случае первое пороговое значение можно определить на основании глубины секвенирования одного из первых локусов или на основании уровня ложноположительных результатов, который зависит от уровня ошибок секвенирования, глубины секвенирования первой области и количества положений нуклеотидов в первой области.In this case, the first threshold value can be determined based on the sequencing depth of one of the first loci or based on the false positive rate, which depends on the sequencing error rate, the sequencing depth of the first region, and the number of nucleotide positions in the first region.
В последнем варианте первое пороговое значение можно определить на основании числа истинно положительных значений в первой области. Причем необязательно расчет числа истинно положительных значений для первого порогового значения на основании глубины секвенирования D и фракционной концентрации f ДНК опухолевого происхождения в биологическом образце. Например, для определенияIn the latter case, the first threshold value can be determined based on the number of true positive values in the first region. Moreover, it is not necessary to calculate the number of true positive values for the first threshold value based on the sequencing depth D and the fractional concentration f of tumor DNA in the biological sample. For example, to determine
- 40 048297 числа истинно положительных значений можно применить пуассоновское распределение вероятностей согласно формуле: где Pb представляет собой вероятность детектирования истинно положительных значений, r представляет собой первое пороговое значение, и MP=Dxf/2.- 40 048297 numbers of true positive values, we can apply the Poisson probability distribution according to the formula: where Pb is the probability of detecting true positive values, r is the first threshold value, and M P = Dxf/2.
В качестве варианта, в случае динамического определения первого порогового значения для одного из первых локусов первое пороговое значение можно определить, применяя любой из следующих критериев:Alternatively, in the case of dynamically determining the first threshold for one of the first loci, the first threshold can be determined using any of the following criteria:
если глубина секвенирования меньше 50, то первое пороговое значение равно 5, если глубина секвенирования составляет 50-110, то первое пороговое значение равно 6, если глубина секвенирования составляет 111-200, то первое пороговое значение равно 7, если глубина секвенирования составляет 201-310, то первое пороговое значение равно 8, если глубина секвенирования составляет 311-450, то первое пороговое значение равно 9, если глубина секвенирования составляет 451-620, то первое пороговое значение равно 10, и если глубина секвенирования составляет 621-800, то первое пороговое значение равно 11.if the sequencing depth is less than 50, the first threshold is 5, if the sequencing depth is 50-110, the first threshold is 6, if the sequencing depth is 111-200, the first threshold is 7, if the sequencing depth is 201-310, the first threshold is 8, if the sequencing depth is 311-450, the first threshold is 9, if the sequencing depth is 451-620, the first threshold is 10, and if the sequencing depth is 621-800, the first threshold is 11.
Указанный в описании способа параметр может представлять собой собой взвешенную сумму первого количества первых локусов, при этом вклад каждого из первых локусов взвешен по показателю значимости, присвоенному соответствующим первым локусам. Альтернативно, этот параметр может включать сумму маркеров последовательности, в которых выявлена вариантная последовательность в первом количестве первых локусов. Причем, например, эта сумма может представлять собой взвешенную сумму, и при этом первый вес одного из первых локусов отличается от второго веса второго из первых локусов. В качестве варианта, первый вес может быть больше, чем второй вес, и при этом один из первых локусов может быть связан с раком, а второй из первых локусов может быть не связан с раком.The parameter specified in the description of the method may be a weighted sum of the first number of first loci, wherein the contribution of each of the first loci is weighted by the significance indicator assigned to the corresponding first loci. Alternatively, this parameter may include the sum of the sequence markers in which the variant sequence is detected in the first number of first loci. Moreover, for example, this sum may be a weighted sum, and wherein the first weight of one of the first loci differs from the second weight of the second of the first loci. As an option, the first weight may be greater than the second weight, and wherein one of the first loci may be associated with cancer, and the second of the first loci may not be associated with cancer.
В одном из воплощений указанный параметр может представлять собой первое количество первых локусов.In one embodiment, said parameter may be a first number of first loci.
В описанном выше способе определение положения в геноме маркера последовательности может включать:In the above method, determining the position of a sequence marker in the genome may include:
выравнивание по меньшей мере части маркеров последовательности с референсным геномом, при этом при выравнивании маркера последовательности допускается одно или более несовпадений между маркером последовательности и конститутивным геномом. Причем, необязательно сравнение маркеров последовательности с конститутивным геномом может включать:aligning at least a portion of the sequence markers with a reference genome, wherein the alignment of the sequence marker allows for one or more mismatches between the sequence marker and the constituent genome. Moreover, the comparison of the sequence markers with the constituent genome may optionally include:
сравнение конститутивного генома с референсным геномом для определения второго количества вторых локусов, содержащих вариант по сравнению с референсным геномом;comparing the constitutive genome with the reference genome to determine a second number of second loci containing a variant compared to the reference genome;
определение на основании выравнивания третьего количества третьих локусов, при этом:determination based on the alignment of the third number of third loci, where:
в каждом из третьих локусов количество маркеров последовательности с вариантной последовательностью по сравнению с референсным геномом выше порогового значения; и вычисление разности между третьим количеством и вторым количеством с получением первого количества первых локусов.in each of the third loci, the number of sequence markers with a variant sequence compared to the reference genome is above a threshold value; and calculating the difference between the third number and the second number to obtain the first number of the first loci.
Вычисление разности между третьим количеством и вторым количеством может позволить определить определенные локусы из первых локусов.Calculating the difference between the third quantity and the second quantity can allow one to identify specific loci from the first loci.
В этом случае определение указанного параметра может включать:In this case, the definition of the specified parameter may include:
для каждого локуса из первого количества первых локусов:for each locus from the first number of first loci:
определение количества маркеров последовательности, которые выравниваются с локусом и содержат вариант последовательности в данном локусе; и определение параметра на основании соответствующих количеств.determining the number of sequence markers that align with the locus and contain the sequence variant at that locus; and determining a parameter based on the corresponding numbers.
В описанном выше способе конститутивный геном можно получить из конститутивного образца субъекта, который содержит более 50% конститутивной ДНК.In the above method, a constitutive genome can be obtained from a constitutive sample of a subject that contains more than 50% constitutive DNA.
В описанном выше способе определение положения в геноме маркера последовательности может включать:In the above method, determining the position of a sequence marker in the genome may include:
выравнивание по меньшей мере части маркеров последовательности с конститутивным геномом, при этом при выравнивании маркера последовательности допускается одно или более несовпадений между маркером последовательности и конститутивным геномом. Причем, необязательно сравнение маркеров последовательности с конститутивным геномом включает:aligning at least a portion of the sequence markers with the constituent genome, wherein the alignment of the sequence marker allows for one or more mismatches between the sequence marker and the constituent genome. Moreover, the comparison of the sequence markers with the constituent genome optionally includes:
определение, на основании выравнивания, маркеров последовательности, которые содержат вариант последовательности в некотором положении в геноме по сравнению с конститутивным геномом субъекта;determining, based on the alignment, sequence markers that contain a sequence variant at some position in the genome compared to the constituent genome of the subject;
для каждого положения в геноме, в котором обнаружена вариантная последовательность:for each position in the genome where a variant sequence is found:
определение соответствующего первого количества маркеров последовательности, которые выравниваются с указанным положением в геноме и содержат вариант последовательности в данном положении в геноме;determining a corresponding first number of sequence markers that align with the specified position in the genome and contain the sequence variant at the given position in the genome;
определение параметра на основании соответствующих первых количеств.determination of the parameter based on the corresponding first quantities.
В этом воплощении определение параметра на основании соответствующих первых количеств может включать:In this embodiment, determining the parameter based on the corresponding first quantities may include:
сложение соответствующих первых количеств с получением первой суммы; и применение первой суммы для определения параметра.adding the corresponding first quantities to obtain a first sum; and applying the first sum to determine the parameter.
- 41 048297- 41 048297
Причем, необязательно применение первой суммы для определения параметра может включать: вычитание количества положений в геноме, в которых обнаружена вариантная последовательность, из первой суммы.Moreover, it is not necessary to use the first sum to determine the parameter; it may include: subtracting the number of positions in the genome in which the variant sequence was detected from the first sum.
В качестве варианта, применение первой суммы для определения параметра может включать: нормировку первой суммы на основании количества выровненных маркеров последовательности. Описанный способ может дополнительно включать:Alternatively, the use of the first sum to determine the parameter may include: normalizing the first sum based on the number of aligned sequence markers. The described method may further include:
получение конститутивного образца у субъекта, который содержит более 90% конститутивной ДНК;obtaining a constitutive sample from a subject that contains more than 90% constitutive DNA;
осуществление случайного секвенирования фрагментов ДНК в конститутивном образце с получением одного или более вторых маркеров последовательности для каждого из множества фрагментов ДНК в конститутивном образце;performing random sequencing of DNA fragments in the constitutive sample to obtain one or more second sequence markers for each of a plurality of DNA fragments in the constitutive sample;
выравнивание по меньшей мере части вторых маркеров последовательности с референсным геномом, при этом при выравнивании второго маркера последовательности допускается несовпадение между вторым маркером последовательности и конститутивным геномом в М или меньшем количестве положений в геноме, где М представляет собой целое значение, равное или большее, чем единица; и конструирование конститутивного генома на основании вторых маркеров последовательности и выравнивания.aligning at least a portion of the second sequence markers with a reference genome, wherein the alignment of the second sequence marker allows for a mismatch between the second sequence marker and the constitutive genome at M or fewer positions in the genome, where M is an integer value equal to or greater than one; and constructing the constitutive genome based on the second sequence markers and the alignment.
В этом случае необязательно конститутивный образец может представлять собой биологический образец и конструирование конститутивного генома может включать:In this case, the constitutive sample may not necessarily be a biological sample and construction of the constitutive genome may involve:
определение консенсусной последовательности, которое включает определение гомозиготного локуса или гетерозиготного локуса, содержащего две аллели; и применение консенсусной последовательности в конститутивном геноме.determination of a consensus sequence, which involves determination of a homozygous locus or a heterozygous locus containing two alleles; and application of the consensus sequence to the constitutive genome.
Описанный способ также дополнительно может включать:The described method may also additionally include:
получение биологического образца, взятого у субъекта; и осуществление случайного секвенирования фрагментов ДНК в биологическом образце для получения одного или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце.obtaining a biological sample taken from a subject; and performing random sequencing of DNA fragments in the biological sample to obtain one or more sequence markers for each of a plurality of DNA fragments in the biological sample.
В описанном способе один или более маркеров последовательности необязательно можно получить в результате случайного секвенирования фрагментов ДНК в биологическом образце.In the described method, one or more sequence markers may optionally be obtained by random sequencing of DNA fragments in a biological sample.
В описанном способе биологический образец может представлять собой мочу, плевральную жидкость, асцитную жидкость, перитонеальную жидкость, слюну, спинномозговую жидкость или образец кала.In the described method, the biological sample may be urine, pleural fluid, ascitic fluid, peritoneal fluid, saliva, cerebrospinal fluid, or a stool sample.
В описанном способе параметр может представлять собой, в качестве альтернативы, фракционную концентрацию ДНК опухолевого происхождения.In the described method, the parameter may alternatively represent the fractional concentration of tumor-derived DNA.
Соответственно также предлагается также компьютерный продукт, включающий не временный машиночитаемый носитель, на котором хранится набор инструкций, которые, при их исполнении контролируют осуществление компьютерной системой описанного выше способа.Accordingly, a computer product is also proposed that includes a non-temporary machine-readable medium on which a set of instructions are stored that, when executed, control the implementation of the method described above by the computer system.
Также предлагается к осуществлению способ анализа гетерогенности одной или более опухолей субъекта, причем указанный способ включает:It is also proposed to implement a method for analyzing the heterogeneity of one or more tumors of a subject, wherein said method includes:
получение конститутивного генома субъекта;obtaining the constitutive genome of the subject;
получение одного или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце субъекта, причем указанный биологический образец включает внеклеточную ДНК;obtaining one or more sequence markers for each of a plurality of DNA fragments in a biological sample of a subject, wherein said biological sample comprises cell-free DNA;
определение положений в геноме маркеров последовательности;determination of the positions of sequence markers in the genome;
сравнение маркеров последовательности с конститутивным геномом для определения первого количества первых локусов, при этом:comparison of sequence markers with the constitutive genome to determine the first number of first loci, whereby:
в каждом из первых локусов количество маркеров последовательности с вариантной последовательностью относительно конститутивного генома выше порогового значения, где указанное пороговое значение больше единицы; и вычисление меры гетерогенности одной или более опухолей на основании соответствующих первых количеств из набора первых положений в геноме.at each of the first loci, the number of sequence markers with a variant sequence relative to the constitutive genome is above a threshold value, where said threshold value is greater than one; and calculating a measure of heterogeneity of one or more tumors based on the corresponding first quantities from the set of first positions in the genome.
Такой способ дополнительно может включать:This method may additionally include:
сравнение меры гетерогенности с одним или более пороговыми значениями для определения классификации уровня гетерогенности.comparing a measure of heterogeneity with one or more threshold values to determine a classification of the level of heterogeneity.
В этом случае одно или более пороговых значений можно определить по одному или большему числу других субъектов, которым делали биопсию опухоли и можно проводить анализ для определения мутаций в биоптатах опухолей для определения уровня гетерогенности, и при этом меру гетерогенности биологического образца, содержащего внеклеточную ДНК, от одного или более других субъектов можно использовать для определения порогового значения.In this case, one or more threshold values may be determined from one or more other subjects who have had a tumor biopsy and an analysis may be performed to determine mutations in the tumor biopsies to determine the level of heterogeneity, and a measure of heterogeneity of a biological sample containing cell-free DNA from one or more other subjects may be used to determine the threshold value.
В таком варианте осуществления сравнение меры гетерогенности с одним или более пороговыми значениями может включать:In such an embodiment, comparing the heterogeneity measure to one or more threshold values may include:
ввод меры гетерогенности в калибровочную функцию, которая выдает уровень гетерогенности на основании меры гетерогенности.inputting a measure of heterogeneity into a calibration function that outputs a level of heterogeneity based on the measure of heterogeneity.
В качестве варианта, способ анализа гетерогенности одной или более опухолей субъекта предуAlternatively, a method for analyzing the heterogeneity of one or more tumors in a subject provides
- 42 048297 сматривает, что одна или более мер включают суммарное количество первых положений в геноме, в которых более чем один фрагмент ДНК выравнивают с конститутивной ДНК, хотя он содержит вариантную последовательность в данном положении в геноме.- 42 048297 considers that one or more measures include the total number of first positions in the genome at which more than one DNA fragment aligns with the constitutive DNA, although it contains a variant sequence at that position in the genome.
В качестве еще одного варианта, способ анализа гетерогенности одной или более опухолей субъекта предусматривает, что вычисляют множество мер гетерогенности, при этом вычисление мер гетерогенности включает:As another embodiment, a method for analyzing heterogeneity of one or more tumors of a subject comprises calculating a plurality of heterogeneity measures, wherein calculating the heterogeneity measures comprises:
для каждого из первых локусов, вычисление доли маркеров последовательности, содержащих вариантную последовательность;for each of the first loci, calculating the proportion of sequence markers containing the variant sequence;
построение гистограммы количества первых локусов для значений указанных соотношений; и идентификацию количества пиков на гистограмме.constructing a histogram of the number of first loci for the values of the specified ratios; and identifying the number of peaks in the histogram.
В этом случае мера гетерогенности может соответствовать количеству обнаруженных пиков или включать отношение высот двух пиков.In this case, the heterogeneity measure may correspond to the number of peaks detected or include the ratio of the heights of two peaks.
Каждое соотношение может представлять собой фракционную концентрацию опухолевой ДНК, измеренную в конкретном первом локусе.Each ratio may represent the fractional concentration of tumor DNA measured at a particular first locus.
В качестве еще одного варианта, мера гетерогенности может соответствовать отношению первой доли первых локусов, содержащих первое конкретное количество маркеров последовательности с вариантной последовательностью, и второй доли первых локусов, содержащих второе определенное количество маркеров последовательности с вариантной последовательностью.As another option, the measure of heterogeneity may correspond to the ratio of a first proportion of first loci containing a first specified number of sequence markers with a variant sequence to a second proportion of first loci containing a second specified number of sequence markers with a variant sequence.
В этом случае первое конкретное количество может быть меньше, чем второе определенное количество.In this case, the first specific quantity may be less than the second specific quantity.
Причем, необязательно первое конкретное количество может представлять собой первый диапазон и второе конкретное количество собой второй диапазон, при этом первый диапазон ниже, чем второй диапазон.Moreover, it is not necessary that the first specific quantity represent the first range and the second specific quantity represent the second range, wherein the first range is lower than the second range.
Также необязательно первое конкретное количество и второе определенное количество могут соответствовать фракционной концентрации или абсолютному количеству маркеров последовательности с вариантной последовательностью.Also, optionally, the first specific amount and the second specific amount may correspond to a fractional concentration or an absolute amount of sequence markers with a variant sequence.
Еще в одном варианте меру гетерогенности можно определить по гистограмме количества первых локусов, соответствующих каждому из соответствующих первых количеств.In another variant, the measure of heterogeneity can be determined from the histogram of the number of first loci corresponding to each of the corresponding first quantities.
В этом случае набор первых идентифицированных положений в геноме может включать первое подмножество и второе подмножество, при этом одна или более мер может включать первую гистограмму соответствующих первых количеств, соответствующих первому подмножеству, и вторую гистограмму соответствующих вторых количеств, соответствующих второму подмножеству.In this case, the set of first identified positions in the genome may include a first subset and a second subset, wherein the one or more measures may include a first histogram of corresponding first counts corresponding to the first subset and a second histogram of corresponding second counts corresponding to the second subset.
Еще в одном варианте мера гетерогенности может включать долю первых локусов, включающих соответствующие первые количества выше определенного значения.In another embodiment, the heterogeneity measure may include the proportion of first loci that include the corresponding first quantities above a certain value.
К осуществлению также предлагается способ определения фракционной концентрации опухолевой ДНК в биологическом образце, содержащем внеклеточную ДНК, причем указанный способ включает:A method for determining the fractional concentration of tumor DNA in a biological sample containing extracellular DNA is also proposed for implementation, wherein said method includes:
получение одного или более маркеров последовательности для каждого из множества фрагментов ДНК в биологическом образце;obtaining one or more sequence markers for each of a plurality of DNA fragments in a biological sample;
определение положений в геноме маркеров последовательности;determination of the positions of sequence markers in the genome;
для каждой из множества областей генома:for each of the many regions of the genome:
определение соответствующего количества фрагментов ДНК внутри данной области генома с помощью маркеров последовательности, расположенных в геноме внутри данной области генома;determination of the corresponding number of DNA fragments within a given region of the genome using sequence markers located in the genome within a given region of the genome;
нормировка соответствующего количества с получением соответствующей плотности; и сравнение соответствующей плотности с референсной плотностью для выявления в данной области генома утрату 1 копии или приобретение 1 копии;normalizing the corresponding quantity to obtain the corresponding density; and comparing the corresponding density with a reference density to detect the loss of 1 copy or the gain of 1 copy in a given region of the genome;
вычисление первой плотности по одной или большему числу соответствующих плотностей, в которых обнаружена утрата 1 копии, или по одной или большему числу соответствующих плотностей, в которых обнаружено приобретение 1 копии; и вычисление фракционной концентрации путем:calculating the first density from one or more corresponding densities in which a loss of 1 copy is detected, or from one or more corresponding densities in which a gain of 1 copy is detected; and calculating the fractional concentration by:
сравнения первой плотности с другой плотностью с получением разности, при этом разность нормируют на референсную плотность.comparison of the first density with another density to obtain the difference, and the difference is normalized to the reference density.
Такой способ может дополнительно включать:This method may additionally include:
построение гистограммы количества областей генома, обладающих различными соответствующими плотностями;construction of a histogram of the number of genomic regions with different corresponding densities;
идентификацию количества пиков на гистограмме; и вычисление меры гетерогенности по отношению количества областей генома из одного или более первых пиков к количеству областей генома из одного или более вторых пиков.identifying a number of peaks in the histogram; and calculating a measure of heterogeneity based on the ratio of the number of genomic regions in one or more first peaks to the number of genomic regions in one or more second peaks.
Необязательно на гистограмме можно использовать значения фракционных концентраций, определенные отдельно для каждой области генома при построении гистограммы.It is not necessary to use fractional concentration values in the histogram, determined separately for each region of the genome when constructing the histogram.
Необязательно плотности первых пиков может соответствовать первому конкретному количеству, и плотности вторых пиков может соответствовать второму конкретному количеству.Optionally, the densities of the first peaks may correspond to a first specific amount, and the densities of the second peaks may correspond to a second specific amount.
В этом случае первое конкретное количество может представлять собой первый диапазон, и второе конкретное количество может представлять собой второй диапазон, при этом предусматривается, чтоIn this case, the first specific quantity may represent a first range, and the second specific quantity may represent a second range, provided that
--
Claims (54)
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US61/662,878 | 2012-06-21 | ||
US61/682,725 | 2012-08-13 | ||
US61/695,795 | 2012-08-31 | ||
US61/711,172 | 2012-10-08 | ||
US13/801,748 | 2013-03-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
EA048297B1 true EA048297B1 (en) | 2024-11-15 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020200122B2 (en) | Mutational analysis of plasma DNA for cancer detection | |
EA048297B1 (en) | MUTATIONAL ANALYSIS OF DNA IN PLASMA FOR CANCER DETECTION | |
EA047100B1 (en) | DNA MUTATION ANALYSIS IN PLASMA FOR CANCER DETECTION | |
EA042093B1 (en) | DNA MUTATION ANALYSIS IN PLASMA FOR CANCER DETECTION |