JP2020530261A - 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法 - Google Patents
未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法 Download PDFInfo
- Publication number
- JP2020530261A JP2020530261A JP2019570089A JP2019570089A JP2020530261A JP 2020530261 A JP2020530261 A JP 2020530261A JP 2019570089 A JP2019570089 A JP 2019570089A JP 2019570089 A JP2019570089 A JP 2019570089A JP 2020530261 A JP2020530261 A JP 2020530261A
- Authority
- JP
- Japan
- Prior art keywords
- nucleic acid
- alleles
- allele
- sample
- contributor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 261
- 239000000203 mixture Substances 0.000 title claims abstract description 167
- 230000015556 catabolic process Effects 0.000 title 1
- 238000006731 degradation reaction Methods 0.000 title 1
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 348
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 282
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 282
- 238000009826 distribution Methods 0.000 claims abstract description 211
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 67
- 108700028369 Alleles Proteins 0.000 claims description 423
- 108020004414 DNA Proteins 0.000 claims description 198
- 238000012163 sequencing technique Methods 0.000 claims description 185
- 230000008569 process Effects 0.000 claims description 76
- 208000003028 Stuttering Diseases 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 48
- 239000002773 nucleotide Substances 0.000 claims description 48
- 125000003729 nucleotide group Chemical group 0.000 claims description 47
- 238000003205 genotyping method Methods 0.000 claims description 32
- 102000053602 DNA Human genes 0.000 claims description 21
- 230000000670 limiting effect Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 13
- 238000013138 pruning Methods 0.000 claims description 12
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 230000001052 transient effect Effects 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 abstract description 20
- 230000000735 allogeneic effect Effects 0.000 abstract description 6
- 239000000523 sample Substances 0.000 description 278
- 239000012634 fragment Substances 0.000 description 53
- 210000004027 cell Anatomy 0.000 description 49
- 238000012545 processing Methods 0.000 description 41
- 230000003321 amplification Effects 0.000 description 40
- 238000003199 nucleic acid amplification method Methods 0.000 description 40
- 238000012360 testing method Methods 0.000 description 38
- 239000000047 product Substances 0.000 description 32
- 210000000349 chromosome Anatomy 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 26
- 238000007481 next generation sequencing Methods 0.000 description 25
- 102000040430 polynucleotide Human genes 0.000 description 25
- 108091033319 polynucleotide Proteins 0.000 description 25
- 239000002157 polynucleotide Substances 0.000 description 25
- 238000003860 storage Methods 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 24
- 238000013507 mapping Methods 0.000 description 22
- 238000007400 DNA extraction Methods 0.000 description 20
- 210000004369 blood Anatomy 0.000 description 18
- 239000008280 blood Substances 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000002068 genetic effect Effects 0.000 description 18
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 17
- 210000002381 plasma Anatomy 0.000 description 17
- 206010028980 Neoplasm Diseases 0.000 description 16
- 239000011324 bead Substances 0.000 description 16
- 230000008774 maternal effect Effects 0.000 description 15
- 238000002360 preparation method Methods 0.000 description 15
- 238000011002 quantification Methods 0.000 description 15
- 239000012472 biological sample Substances 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 13
- 201000011510 cancer Diseases 0.000 description 13
- 108091092356 cellular DNA Proteins 0.000 description 13
- 238000003745 diagnosis Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 13
- 239000012530 fluid Substances 0.000 description 13
- 210000001519 tissue Anatomy 0.000 description 13
- 108091034117 Oligonucleotide Proteins 0.000 description 12
- 238000013467 fragmentation Methods 0.000 description 12
- 238000006062 fragmentation reaction Methods 0.000 description 12
- 210000002966 serum Anatomy 0.000 description 12
- 238000009396 hybridization Methods 0.000 description 11
- 238000012408 PCR amplification Methods 0.000 description 10
- 206010036790 Productive cough Diseases 0.000 description 10
- 150000002500 ions Chemical class 0.000 description 10
- 239000003550 marker Substances 0.000 description 10
- 210000003802 sputum Anatomy 0.000 description 10
- 208000024794 sputum Diseases 0.000 description 10
- 238000001574 biopsy Methods 0.000 description 9
- 230000002759 chromosomal effect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 210000002700 urine Anatomy 0.000 description 9
- 238000013382 DNA quantification Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000002441 reversible effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000001143 conditioned effect Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 6
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 210000000056 organ Anatomy 0.000 description 6
- 102000054765 polymorphisms of proteins Human genes 0.000 description 6
- 210000003296 saliva Anatomy 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- 238000003556 assay Methods 0.000 description 5
- -1 but not limited to Chemical class 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- 238000009223 counseling Methods 0.000 description 5
- 210000005259 peripheral blood Anatomy 0.000 description 5
- 239000011886 peripheral blood Substances 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 210000004243 sweat Anatomy 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 210000001138 tear Anatomy 0.000 description 5
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 4
- 208000031404 Chromosome Aberrations Diseases 0.000 description 4
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 4
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 4
- 239000013060 biological fluid Substances 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 229960002685 biotin Drugs 0.000 description 4
- 239000011616 biotin Substances 0.000 description 4
- 238000005251 capillar electrophoresis Methods 0.000 description 4
- 238000004113 cell culture Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000002299 complementary DNA Substances 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 238000007672 fourth generation sequencing Methods 0.000 description 4
- 238000005194 fractionation Methods 0.000 description 4
- 238000013412 genome amplification Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000003793 prenatal diagnosis Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000001712 DNA sequencing Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 3
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 3
- 235000014676 Phragmites communis Nutrition 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 208000036878 aneuploidy Diseases 0.000 description 3
- 231100001075 aneuploidy Toxicity 0.000 description 3
- 235000020958 biotin Nutrition 0.000 description 3
- 238000005119 centrifugation Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000000975 dye Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001605 fetal effect Effects 0.000 description 3
- 239000007850 fluorescent dye Substances 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 210000003917 human chromosome Anatomy 0.000 description 3
- 239000007943 implant Substances 0.000 description 3
- 238000011528 liquid biopsy Methods 0.000 description 3
- 230000013011 mating Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 210000004080 milk Anatomy 0.000 description 3
- 239000008267 milk Substances 0.000 description 3
- 235000013336 milk Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000001556 precipitation Methods 0.000 description 3
- 238000002203 pretreatment Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 230000002269 spontaneous effect Effects 0.000 description 3
- 238000005309 stochastic process Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 239000003826 tablet Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000003981 vehicle Substances 0.000 description 3
- 206010003445 Ascites Diseases 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 230000006820 DNA synthesis Effects 0.000 description 2
- 201000010374 Down Syndrome Diseases 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 206010044688 Trisomy 21 Diseases 0.000 description 2
- 210000002593 Y chromosome Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004630 atomic force microscopy Methods 0.000 description 2
- 239000012620 biological material Substances 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000432 density-gradient centrifugation Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 239000000411 inducer Substances 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010369 molecular cloning Methods 0.000 description 2
- 238000013188 needle biopsy Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 150000002972 pentoses Chemical class 0.000 description 2
- 239000010452 phosphate Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 230000028327 secretion Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004627 transmission electron microscopy Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000010207 Bayesian analysis Methods 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- IGXWBGJHJZYPQS-SSDOTTSWSA-N D-Luciferin Chemical compound OC(=O)[C@H]1CSC(C=2SC3=CC=C(O)C=C3N=2)=N1 IGXWBGJHJZYPQS-SSDOTTSWSA-N 0.000 description 1
- 102000004594 DNA Polymerase I Human genes 0.000 description 1
- 108010017826 DNA Polymerase I Proteins 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- CYCGRDQQIOGCKX-UHFFFAOYSA-N Dehydro-luciferin Natural products OC(=O)C1=CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 CYCGRDQQIOGCKX-UHFFFAOYSA-N 0.000 description 1
- 102100031780 Endonuclease Human genes 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- BJGNCJDXODQBOB-UHFFFAOYSA-N Fivefly Luciferin Natural products OC(=O)C1CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 BJGNCJDXODQBOB-UHFFFAOYSA-N 0.000 description 1
- 238000006424 Flood reaction Methods 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- DDWFXDSYGUXRAY-UHFFFAOYSA-N Luciferin Natural products CCc1c(C)c(CC2NC(=O)C(=C2C=C)C)[nH]c1Cc3[nH]c4C(=C5/NC(CC(=O)O)C(C)C5CC(=O)O)CC(=O)c4c3C DDWFXDSYGUXRAY-UHFFFAOYSA-N 0.000 description 1
- 101100465000 Mus musculus Prag1 gene Proteins 0.000 description 1
- 239000013614 RNA sample Substances 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 239000000061 acid fraction Substances 0.000 description 1
- IRLPACMLTUPBCL-FCIPNVEPSA-N adenosine-5'-phosphosulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@@H](CO[P@](O)(=O)OS(O)(=O)=O)[C@H](O)[C@H]1O IRLPACMLTUPBCL-FCIPNVEPSA-N 0.000 description 1
- 150000003838 adenosines Chemical class 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000003040 circulating cell Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 1
- 235000011180 diphosphates Nutrition 0.000 description 1
- BFMYDTVEBKDAKJ-UHFFFAOYSA-L disodium;(2',7'-dibromo-3',6'-dioxido-3-oxospiro[2-benzofuran-1,9'-xanthene]-4'-yl)mercury;hydrate Chemical compound O.[Na+].[Na+].O1C(=O)C2=CC=CC=C2C21C1=CC(Br)=C([O-])C([Hg])=C1OC1=C2C=C(Br)C([O-])=C1 BFMYDTVEBKDAKJ-UHFFFAOYSA-L 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940000406 drug candidate Drugs 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000002436 femur neck Anatomy 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000010408 film Substances 0.000 description 1
- LIYGYAHYXQDGEP-UHFFFAOYSA-N firefly oxyluciferin Natural products Oc1csc(n1)-c1nc2ccc(O)cc2s1 LIYGYAHYXQDGEP-UHFFFAOYSA-N 0.000 description 1
- 238000001917 fluorescence detection Methods 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 239000008241 heterogeneous mixture Substances 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229940124276 oligodeoxyribonucleotide Drugs 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- JJVOROULKOMTKG-UHFFFAOYSA-N oxidized Photinus luciferin Chemical compound S1C2=CC(O)=CC=C2N=C1C1=NC(=O)CS1 JJVOROULKOMTKG-UHFFFAOYSA-N 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 150000004713 phosphodiesters Chemical group 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000001742 protein purification Methods 0.000 description 1
- 238000000734 protein sequencing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 125000002264 triphosphate group Chemical class [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000002569 water oil cream Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Biochemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Finishing Walls (AREA)
Abstract
Description
本出願は、参照によりその全体が本明細書に組み込まれている、2017年6月20日に出願した米国仮特許出願第62/552,618号の優先権を主張するものである。
nij〜BN(ni, pij)
nijは、座位iでの対立遺伝子jの対立遺伝子数であり; niは、座位iでの総対立遺伝子数であり;pijは、座位iでの対立遺伝子jの確率を示す確率パラメータである。
BB(nij|ni, μ, k)。
sik〜BN(ni(k+1), ri)
sikは、対立遺伝子kであるように見えるが実際には対立遺伝子k+lのスタッターエラーから生じる、スタッター対立遺伝子の座位iでのスタッター対立遺伝子数であり; ni(k+1)は、座位iでの対立遺伝子k+lの当初の対立遺伝子数であり;riは、座位iに関するスタッター率である。
本明細書で言及される、全ての特許、特許出願、及びこれらの参考文献中に開示された全ての配列を含むその他の刊行物は、個々の刊行物、特許、又は特許出願のそれぞれが参照により組み込まれることをあたかも特別に且つ個々に示すのと同じ程度まで、参照により本明細書に明らかに組み込まれる。引用される全ての文献は、関連する部分が、本明細書のそれらの引用の文脈によって示される目的のために、それらの全体が参照により本明細書に組み込まれる。しかし、いかなる文献の引用も、本開示に関する先行技術であることを認めるものと解釈されるべきではない。
他に指示しない限り、本明細書に開示される方法及びシステムの実施は、当業者の範囲内にある分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質及びDNA配列決定、及び組換えDNAの分野で一般に使用される従来の技法及び装置を含む。そのような技法及び装置は当業者に公知であり、数多くのテキスト及び参考資料に記載されている(例えば、Sambrook等、「Molecular Cloning: A Laboratory Manual」、第3版(Cold Spring Harbor)、[2001]);及びAusubel等、「Current Protocols in Molecular Biology」[1987]参照)。
本開示は、様々な利点及び技術的改善をもたらす、未知の遺伝子型の2つ以上の寄与体の核酸を含む核酸混合物試料のデコンボリューションのための方法及びシステムを提供する。例えば、一部の実現例は、確率的混合物モデル化、ベイズ推定技法、及び数値最適化アルゴリズムを適用して、寄与体の遺伝子型を知ることなく混合物中の寄与体DNAを定量する。
図1A〜図1Cは、寄与体DNA定量のために設計された、バイオインフォマティクスアルゴリズム及び統計的モデルの概略を示す。図1Aは、配列決定をベースにした同種異系DNA検出のための実験パイプラインを示す。図1Bは、対立遺伝子計数の非バイアスリードマッピングワークフローを示す。図1Cは、マーカー座位当たりの対立遺伝子数に関する階層的、確率的混合物モデルを示す。
1)血液試料は、2つの個体から、DNAを含有するものを得る。
2)NAの適切なタイプ、例えば細胞DNA又は無細胞DNA(cfDNA)を、適用例に応じて抽出する。
3)ゲノムの特定のバリアント部位又は多型部位を標的とし、PCR増幅及びハイブリダイゼーション等の手法によって濃縮する。バリアント部位は、ヒト又は細菌の多様な集団の中で変化し得るように事前に選択される。或いは、非標的全ゲノム配列決定を行うことができ、全てのバリアント部位がカバーされることになる。
4)濃縮されたDNAを、標的ゲノム領域に関して濃縮される配列決定リードを得るために、以下に記述されるものの一部等のNGS技法によって配列決定する。
正式には、寄与体DNA定量(CDQ)の問題は、下記の通り述べられる: 2つの寄与体から構成されるDNA試料の配列決定データにより、試料中の各寄与体の割合が決定される。寄与体ゲノムの遺伝子型が未知である場合、CDQ問題を、盲検寄与体DNA定量(盲検-CDQ)と呼び;その反対を、非盲検-CDQと呼ぶ。一部の実現例に関する一部の記述は、ドナー及びレシピエントとしての2つの寄与体に言及するが、それらは方法の適用例を、臓器提供の場に限定するものではない。一部の実現例に関する以下の一部の記述において、寄与体又はその寄与体はドナーと均等であり、その他の寄与体は、ドニーと均等である。
盲検-CDQに関する計算方法には、2つの主な工程がある:
1)対立遺伝子計数:各標的マーカー部位に関する各対立遺伝子からの配列決定リードの非バイアス計数に関するバイオインフォマティクスワークフロー(図1B)、及び
2)寄与体DNA定量:寄与体DNAの割合を定量するために、階層的確率的モデル及び関連した数値最適化アルゴリズムを使用する(図1C)。
図2Aは、核酸試料中の1つ又は複数の寄与体の核酸(例えば、DNA又はRNA)の1つ又は複数の割合を定量するためのプロセス200を例示するブロック図を示す。核酸試料は、寄与体及び少なくとも1つのその他の寄与体の核酸(例えば、DNA又はRNA)を含む。方法は、1つ又は複数のプロセッサ及びシステムメモリ、例えば以下に記述されるシステムを含むコンピュータシステムで実現される。本明細書の記述は、一部の実現例及び適用例でDNAに言及するが、当業者なら、本明細書に記述される実現例を使用して、RNA及びその他の形の核酸も分析できることが理解される。本明細書に記述される様々な実現例は、1つ又は複数の寄与体由来の核酸の核酸試料を分析するのに使用することができる。一部の実現例では、方法及びシステムは、1つ又は複数の寄与体の核酸の1つ又は複数の割合を定量するために提供される。本明細書の一部の記述では、試料が2つ以上の寄与体由来の核酸を含むことができるので、核酸試料を混合物試料と呼ぶ。しかし、「混合物」という用語の使用は、試料が2つ以上の寄与体の核酸を含む可能性を示し、試料が単一の寄与体のみからの核酸を含む可能性を排除しないことが理解される。後者の場合、1又は100%のパーセンテージの割合(又は誤差の範囲内の値)が1つの寄与体に関して決定され得る。
nij〜BN(ni, pij)
式中、nijは、座位iでの対立遺伝子jに関する核酸配列リードの対立遺伝子数であり; niは、座位iでの総リード数であり;pijは、座位iでの対立遺伝子jの確率を示す確率パラメータである。座位にある全ての可能性のある対立遺伝子に関する対立遺伝子の確率は、合計して1になる。
L(n1,…nj|β,π)=ΠiΣg1jg2j BN(nij, pij(g1j, g2j,λ,β))・P(g1j, g2j|π)
式中、L(n1,…nj|β,π)は、パラメータβ(寄与体の1つの核酸の割合)及びπ(母集団対立遺伝子頻度)が与えられた、対立遺伝子1からjに関する対立遺伝子数n1からnjを観察する尤度であり; pij(g1j, g2j,λ,β)は、対立遺伝子j(g1j, g2j)の2つの寄与体の遺伝子型に基づく、座位iにある対立遺伝子jの確率を示す確率パラメータであり;P(g1j, g2j|π)は、母集団対立遺伝子頻度(π)が与えられた、2つの寄与体に関する対立遺伝子jの遺伝子型を観察する事前接合確率である。
nij"〜BN(ni", pij)
式中、nij"は、座位iでの対立遺伝子jに関する、抽出された核酸分子の対立遺伝子数であり; ni"は、座位iでの、合計抽出核酸分子数であり;pijは、座位iでの対立遺伝子jの確率を示す確率パラメータである。
nij|nij", ni"〜BN(ni, nij"/ni")
式中、nijは、座位iでの対立遺伝子jに関する核酸配列リードの対立遺伝子数であり; ni"は、座位iでの抽出された核酸分子の総数であって、全ゲノムコピー数n"に等しいものであり; niは、座位iでの総リード数であり;nij"は、座位iでの対立遺伝子jに関する抽出された核酸分子の数である。
ni1"/n"〜Beta((n"-1)pi1,(n"-1)pi2)
式中、pi1は、座位iでの第1の対立遺伝子の確率を示す確率パラメータであり;pi2は、座位iでの第2の対立遺伝子の確率を示す確率パラメータである。
BB(ni1, ni2|ni,(n"-1)・p1(g11, g21,λ,β),(n"-1)・p2(g11, g21,λ,β))
式中、ni2は、座位iでの第2の対立遺伝子に関する核酸配列リードの対立遺伝子数であり; p1(g11, g21,λ,β)は、第1の対立遺伝子に関する第1の寄与体の遺伝子型(g11)及び第1の対立遺伝子に関する第2の寄与体の遺伝子型(g21)、並びに配列決定誤差λ及び寄与体割合βに基づく第1の対立遺伝子の確率を示す、確率パラメータであり;p2(g11, g21,λ,β)は、第1の対立遺伝子に関する第1の寄与体の遺伝子型(g11)及び第1の対立遺伝子に関する第2の寄与体の遺伝子型(g21)、並びに配列決定誤差λ及び寄与体割合βに基づく第2の対立遺伝子の確率を示す、確率パラメータである。
L(n1, n2|β, n",λ,π)=
ΠiΣg11g21 BB(ni1, ni2|ni, (n"-1)・p1(g11, g21,λ,β), (n"-1)・p2(g11, g21,λ,β))・P(g11, g21|π)
式中、L(n1, n2|β, n",λ,π)は、パラメータβ、n"、λ、及びπが与えられた、第1の対立遺伝子に関する対立遺伝子数(n1)及び第2の対立遺伝子に関する対立遺伝子数(n2)を観察する尤度であり;P(g11,g21|π)は、母集団対立遺伝子頻度(π)が与えられた第1の対立遺伝子に関する第1の寄与体の遺伝子型(g11)及び第1の対立遺伝子に関する第2の寄与体の遺伝子型(g21)を観察する、事前接合確率である。
xt+1=xt+yt+1
式中、xt+1は、増幅のt+1サイクル後の所与の対立遺伝子の核酸コピーであり; xtは、増幅のtサイクル後の所与の対立遺伝子の核酸コピーであり; yt+1は、t+1サイクルで発生した新しいコピーであって、二項分布yt+1〜BN(xt, rt+1)に従うものであり;rt+1は、t+1サイクルに関する増幅率である。
ni1'/(ni1'+ni2')〜Beta(n"・ρi・pi1, n"・ρi・pi2)
式中、ni1'は、座位iでの第1の対立遺伝子に関する増幅核酸分子の対立遺伝子数であり; ni2'は、座位iでの第2の対立遺伝子に関する増幅核酸分子の対立遺伝子数であり; n"は、任意の座位での全抽出核酸分子数であり; ρiは、平均増幅率rに関する定数であり; pi1は、座位iでの第1の対立遺伝子の確率であり;pi2は、座位iでの第2の対立遺伝子の確率である。一部の実現例では、ρiが(1+r)/(1-r)/[1-(1+r)-t]である。一部の実現例では、ρiは、(1+r)/(1-r)として近似される。
BB(ni1, ni2|ni, n"・ρi・pi1, n"・ρi・pi2)
式中、ni2は、座位iでの第2の対立遺伝子に関する核酸配列リードの対立遺伝子数であり; pi1は、座位iでの第1の対立遺伝子の確率を示す確率パラメータであり;pi2は、座位iでの第2の対立遺伝子の確率を示す確率パラメータである。
BB(ni1, ni2|ni,(1+r)/(1-r)・pi1(g11, g21,λ,β), (1+r)/(1-r)・pi2(g11, g21,λ,β))
式中rは増幅率であり;pi2は、座位iでの第2の対立遺伝子の確率を示す確率パラメータである。
L(n1, n2|β, r,λ,π)=
ΠiΣg11g21 [BB(ni1, ni2 | ni, (1+r)/(1-r)・p1(g11, g21,λ,β), (1+r)/(1-r)・p2(g11, g21,λ,β))・P(g11, g21|π)]
式中、L(n1, n2|β, r,λ,π)は、パラメータβ、r、λ、及びπが与えられた、第1の対立遺伝子に関する対立遺伝子数(n1)及び第2の対立遺伝子に関する対立遺伝子数(n2)を観察する尤度である。
BB(ni1, ni2|ni, c'・ni・pi1(g11, g21,λ,β), c'・ni・pi2(g11, g21,λ,β))
式中、c'は、最適化されるパラメータであり;pi2は、座位iでの第2の対立遺伝子の確率を示す、確率パラメータである。
L (n1, n2|β, c',λ,π)=
ΠiΣg11g21[BB(ni1, ni2 | ni, c'・ni・p1(g11, g21,λ,β), c'・ni・p2(g11, g21,λ,β))・P(g11, g21|π)]。
ni1'/(ni1'+ni2')〜Beta([n''・(1+ ri)/2-1]pi1,[n''・(1+ri)/2-1]pi2)
式中、ni1'は、座位iでの第1の対立遺伝子に関して増幅された核酸分子の対立遺伝子数であり; ni2'は、座位iでの第2の対立遺伝子に関して増幅された核酸分子の対立遺伝子数であり; n"は、全抽出核酸分子数であり; riは、座位iでの増幅率であり; pi1は、座位iでの第1の対立遺伝子の確率であり;pi2は、座位iでの第2の対立遺伝子の確率である。
BB(ni1, ni2|ni,(n''・(1+ri)/2-1)・p1(g11, g21,λ,β), (n''・(1+ri)/2-1)・p2(g11, g21,λ,β))。
L(n1, n2|β, n",λ,π)=ΠiΣg11g21 BB(ni1, ni2|ni, (n''・(1+ri)/2-1)・p1(g11, g21,λ,β), (n''・(1+ri)/2-1)・p2(g11, g21,λ,β))・P(g11, g21|π)
を含み、式中、L(n1, n2|β, n",λ,π)は、パラメータβ、n"、λ、及びπが与えられた、第1の対立遺伝子に関する対立遺伝子数n1及び第2の対立遺伝子に関する対立遺伝子数n2を観察する尤度である。
sik〜BN(ni(k+1), ri)
式中、sikは、対立遺伝子kであるように見えるが実際には対立遺伝子k+1のスタッターエラーから生ずる、スタッター対立遺伝子の座位iでのスタッター対立遺伝子数であり; ni(k+1)は、座位iでの対立遺伝子k+1の当初の対立遺伝子数であり;riは、座位iに関するスタッター率である。
核酸(例えば、DNA又はRNA)配列決定リードをゲノムにマッピングするための従来の計算方法は、使用される参照ゲノムによってバイアスさせることができる。各バリアント部位に関するただ1つの対立遺伝子(参照対立遺伝子)が参照ゲノム中に存在するので、リードと参照との間のミスマッチは、既存のリードマッピングアルゴリズムにおける配列決定誤差として処理される。問題は、非参照対立遺伝子を含有するリードが、配列決定誤差を含有するとして処理されたとき、アラインメントの信頼性(スコア)が低下し、したがって、後続のフィルタリング工程で、高い信頼性でマッピングされたリードとして保持され難いことである。このマッピングバイアスは、対立遺伝子数を歪ませることになり(図1B)、その後、寄与体DNA割合の推定を損なわせる。
配列決定誤差がないと仮定する
本発明者等は、DNAを試料に供給する、ndドナー細胞及びnrレシピエント細胞があると仮定する。これらの細胞に基づいて、実現例は、少量の寄与体割合を、β=nd/(nd+nr)と定義する。特定の座位のそれぞれにあるドナー及びレシピエントの遺伝子型に応じて、2つの対立遺伝子は異なる割合を有し(詳細は、Table 2(表2)参照)、それらを計算するための一般式は、p1=[g11(1-β)+c・g21・β]/2及びp2=[g12(1-β)+g22・β]/2である。g11及びg12はレシピエントの遺伝子型であり、即ちレシピエントゲノムの対立遺伝子1及び2のコピーであり;g21及びg22はドナーの遺伝子型であり、即ちドナーゲノムの対立遺伝子1及び2のコピーであることに留意されたい。
2つの公知の対立遺伝子がバリアント部位にある場合、配列決定誤差は、2つの公知の対立遺伝子を2つの残りのヌクレオチドにこの座位で変換することに加え、1つの対立遺伝子を別の対立遺伝子に変換することになる。その結果、配列決定されたリード内の対立遺伝子割合は、NGS入力DNA試料中の対立遺伝子割合から逸脱することになる。
λN1#: N1から、3ヌクレオチド非N1ヌクレオチドのいずれかまでの変異確率である。
p1'=p1-p1・λN1#+p2・λN2N1
p2'=p2-p2λN2#+p1・λN1N2
p0'=p1・(λN1#-λN1N2)+p2・(λN2#-λN2N1)。
p1'=p1・(1-3・λ)+p2・λ
p2'=p2・(1-3・λ)+p1・λ
p0'=2λ。
p1'=(p1・(1-3・λ)+p2・λ)/(1-2λ)
p2'=(p2・(1-3・λ)+p1・λ)/(1-2λ)、
ここでo(λ2)は近似誤差であり、これは下記のように書き直される。
p1'=p1・(1-λ)+p2・λ
p2'=p2・(1-λ)+p1・λ
次いで、寄与体の遺伝子型に応じて、寄与体割合βを、観察された対立遺伝子割合p1'と連結する式を、Table 3(表3)に列挙する。
3つの確率的モデル(図1C)は、一般的実験パイプライン(図1A)での3つの主要な構成要素をモデル化するために提示する: 1) DNA抽出; 2)標的DNAを濃縮するための手法としてのDNA増幅(例えば、PCR); 3)配列決定(例えば、NGS配列決定)。
p1、p1i:座位iに関する対立遺伝子1の確率。下付き文字iは、実現例が単一座位に焦点を当てるときには省略されることに留意されたい。
p1、p2i:座位iに関する対立遺伝子2の確率
n1、n1i、n2、n2i:座位iに関する対立遺伝子1及び対立遺伝子2のリード数
n、ni=n1i+n2i:座位iに関する2つの公知の対立遺伝子の総リード数
g11、g12、g11i、g12i:レシピエントの遺伝子型、即ちレシピエントのゲノムにおける対立遺伝子1及び2のコピー
g21、g22、g21i、g22i:ドナーの遺伝子型、即ちドナーのゲノムにおける対立遺伝子1及び2のコピー
B( ):ベータ関数
Beta( )、BN( )、Pois( )、Gamma( ):ベータ分布、二項分布、及びポアソン分布、及びガンマ分布
N:試料中でDNAを供給した細胞の数
β:試料中のドナー由来のものであるDNAのパーセンテージと定義された、ドナーDNA割合。
nr=N・(1-β)、nd=N・β:試料中のDNAを供給したレシピエント及びドナー細胞の数
cfDNA又は細胞DNAが血液試料から抽出されたとき、得られたDNAは、DNAの大きいプールからの小さい試料であり、したがって実現例は、2つのポアソン分布として、各座位で、2つの対立遺伝子の数をモデル化する。したがって、総数n"に対して条件付けられる座位での対立遺伝子1に関するDNAコピー(n1")は、二項分布: n1"〜BN(n", p1)に従い、平均μ0=n"・p1及び分散δ0 2=n"・p1・p2である。ドナー割合β<0.2、δ0 2≒μ0。
本発明者等は、PCR産物中の対立遺伝子1の数の確率分布を得るために、確率過程としてPCR増幅プロセスをモデル化する。xtを、PCR増幅のtサイクル後の所与の対立遺伝子のDNAコピーとし、rtを、tサイクルでの増幅率とし、ytを、tサイクルで発生した新しいコピーとする。DNAの各小片が、増幅されDNAプールに加えられた確率rtを有すると仮定することにより、実現例は、増幅に関する下記のモデルを有する:
xt+1=xt+yt+1、ここでyt+1〜BN(xt, rt+1)は、パラメータとしてxt及びrt+1を持つ二項分布に従う。
PCRプロセスxt+1=xt+yt+1(式中、yt+1〜BN(xt, rt+1))は、離散時間純出生過程であり:時間tの所与のサイクルで、DNAの各コピーは、一部の率rtで独立して「出生する」。純出生過程の連続時間バージョンは、ユール・ファリー過程として周知である。連続時間出生過程では、所与の時間tでの座位に関する最終コピー数は、負の二項分布に従うことが公知である。実現例は、PCRサイクル数が1に近くないとき、離散時間出生過程を近似するのに同じ分布を使用することができる。
負の二項確率変数(r.v.)は、i.i.d.幾何r.v.sの合計として書くことができる。指数分布は、幾何分布の連続バージョンであることが公知である。したがって、ガンマ分布に従うi.i.d.指数r.v.sの合計は、負の二項である二項r.v.sの合計の連続バージョンである。
μt+1=μt・(1+rt+1)
δt+1 2=μt・rt+1・(1-rt+1)+δt 2・(1+rt+1)2、
ここでμt=E(xt)、δt 2=var(xt)。
μt=μ0・(1+r)t
δt 2=μ0・(1+r)t・[(1+r)t-1]・(1-r)/(1+r)+δ0 2・(1+r)2t
θ=[(1+r)t-1]・(1-r)/(1+r)+δ0 2/μ0・(1+r)t
k=μ0・(1+r)t/[[(1+r)t-1]・(1-r)/(1+r)+δ0 2/μ0・(1+r)t]。
θ1=[(1+r)t-1]・(1-r)/(1+r)+p2・(1+r)t
θ2=[(1+r)t-1]・(1-r)/(1+r)+p1・(1+r)t
k1=n"p1/[[1-(1+r)-t]・(1-r)/(1+r)+p2]
k2=n"p2/[[1-(1+r)-t]・(1-r)/(1+r)+p1]。
θ1=[(1+r)t-1]・(1-r)/(1+r)
θ2=[(1+r)t-1]・(1-r)/(1+r)
k1=n1"・(1+r)/(1-r)/[1-(1+r)-t]
k2=n2"・(1+r)/(1-r)/[1-(1+r)-t]。
n1'/(n1'+n2')〜Beta(n1"・ρ, n2"・ρ)
であり、
式中、ρ=(1+r)/(1-r)/[1-(1+r)-t]、又は近似的にρ=(1+r)/(1-r)は、サイクル数tが大きいとき、増幅率rに関する定数であり、これはPCRプロセスのみに依存する。特定の座位では、座位特異的PCR増幅率を捕獲するためにni1'/(ni1'+ni2')〜Beta(ni1"・ρi, ni2"・ρi)と書かれる。
ni1'/(ni1'+ni2')〜Beta(n"・ρi・pi1, n"・ρi・pi2)。
NGS配列決定は、シーケンサに供給されたDNA分子のプールからサンプリングし、これらの分子の配列を読み出すプロセスである。PCR産物中の座位iに関する対立遺伝子1の割合は、ni1'/(ni1'+ni2')である。この割合は、対立遺伝子1リードが配列決定結果で生ずる確率を決定する。座位当たりのリードの総数niに対して条件付けると、ni1の分布、座位の対立遺伝子1リード数は、二項分布ni1〜BN(ni, n1'/(n1'+n2'))とモデル化される。
寄与体(ドナー/レシピエント)遺伝子型が完全に公知である場合、それらは、上述の構成要素モデルのパラメータとして直接組み込むことができる(Table 2(表2)又はTable 3(表3)を使用して)。しかし、遺伝子型が未知である場合、実現例は、臨床の適用例でしばしば入手可能なドナーとレシピエントとの間の遺伝的関係性情報を利用することができる。
例として、父-子ドナー-レシピエント遺伝子型(GT)接合分布を、下式を使用して計算する:
P(レシピエント=Me GT、ドナー=Father GT)=Σmother GT[P(Me GT|Father GT, Mother GT)・P(Father GT, Mother GT)]、
式中、P(Me GT|Father GT, Mother GT)及びP(Father GT, Mother GT)の値は、それぞれ、Table 5(表5)の第3及び4欄から得られる。
例として、Me-兄弟ドナー-レシピエント遺伝子型接合分布を、親ゲノムが与えられた2つの兄弟遺伝子型条件付き独立性に基づいて、下式を使用して計算する:
P(レシピエント=Me GT、ドナー=Sibling GT)=Σmother GTΣfather GT [P(Me GT |Father GT, Mother GT)・P(Sibling GT|Father GT, Mother GT)・P(Father GT, Mother GT)]、
式中、P(Me GT|Father GT, Mother GT)、P(Sibling GT|Father GT, Mother GT)、及びP(Father GT, Mother GT)の値は、Table 5(表5)、第3欄及び第4欄からそれぞれ得られる。
例として、叔父/叔母-甥/姪ドナー-レシピエント遺伝子型接合分布を、下式を使用して計算する:
P(レシピエント=Me GT、ドナー=Uncle GT)
=Σgrand mother GTΣgrand father GTΣmother GTΣfather GT [P(Me GT|Father GT, Mother GT)・P(Mother GT)・P(Father GT|GrandFather GT, GrandMother GT)・P(Uncle GT|GrandFather, GrandMother GT)・P(GrandFather GT, GrandMother GT)]
=Σmother GTΣfather GT P(Me GT|Father GT, Mother GT)・P(Mother GT)・P(Father GT, Uncle GT)、
式中、P(Me GT|Father GT, Mother GT)の値はtable 5(表5)の第3欄から得られ、P(Father GT, Uncle GT)は、P(レシピエント=Me GT、ドナー=Sibling GT)と同じである。
確率的混合物モデルの構成要素を一体化して、寄与体DNA定量(CDQ)の問題の解決策を得る。各SNP部位ごとの母集団対立遺伝子頻度πは、dbSNP等の公開データベースから得ることができる。最も情報量の多いSNPを選択する場合、即ちπ=0.5のSNPを選択する場合、全ての座位に関してπ=0.5を設定することができ、P(g11,g21)は、先のセクションで記述したように遺伝的関連性事前分布とすることができる。
完全モデルの基本バージョンは、DNA抽出モデル及びPCRモデルを無視し、配列決定モデルを考慮するだけである。各座位ごとに、参照対立遺伝子に関する配列決定リード数を二項分布(図1C)、ni1〜BN(ni1, pi1)によってモデル化し、ここでパラメータpi1(g11, g21, λ, β)の値は、座位に関するドナー-レシピエント遺伝子型組合せの関数である(Table 2(表2)及びTable 3(表3))。遺伝子型が未知であるとすれば、実現例は、事前分布としてP(g11, g21|π)を持つ各座位ごとに9つの可能性のある遺伝子型組合せを周辺化する(Table 6(表6)及びTable 7(表7))。全座位にわたる完全尤度関数は、全ての座位に関する周辺分布の積である:
L(n1, n2|β,π)=ΠiΣg11g21 BN(ni1, pi1(g11, g21,λ,β))・P(g11, g21|π)、ここでπは公知のパラメータであり、βはドナーDNA割合である。
より進化したモデルは、DNA抽出モデル並びに配列決定モデルを組み合わせる。実現例は、PCR工程を無視し(即ち、各座位ごとに、PCR産物中の対立遺伝子割合は、DNA試料中の対立遺伝子割合と同じであると仮定する)、DNAサンプリング及び配列決定工程をモデル化するだけである。各座位ごとに、入力DNA試料中の対立遺伝子数に関する二項分布がある。これはNGS配列決定に提供された入力DNA中の対立遺伝子割合の座位ごとの変動を獲得する。
pi1=a/(a+b)
pi1・(1-pi1)/n"=ab/(a+b)2/(a+b+1)。
BB(ni1, ni2|ni,(n"-1)・p1(g11, g21,λ,β), (n"-1)・p2(g11, g21,λ,β)。
L(n1, n2|β, n",λ,π)=ΠiΣg11g21 BB(ni1, ni2|ni,(n"-1)・p1(g11, g21,λ,β), (n"-1)・p2(g11, g21,λ,β))・P(g11, g21|π)。
DNA抽出モデルを無視し、所与の座位に関する公知の遺伝子型組合せを仮定すると、PCRモデル: ni1'/(ni1'+ni2')〜Beta(n"・ρi・pi1, n"・ρi・pi2)及び配列決定モデルni1〜BN(ni, n1'/(n1'+n2'))は、ベータ二項分布: BB(ni1, ni2 | ni, n"・ρi・pi1, n"・ρi・pi2)に組み合わせることができる。両方の基礎をなす座位特異的PCR増幅率ρiは、未知であることに留意されたい。実現例が、全ての座位が同じ固有の増幅率を有すると仮定する場合、実現例は、BB(ni1, ni2|ni, c・pi1(g11, g21,β), c・pi2(g11, g21,β))を有する。
抽出-PCR-配列決定の一般的実験パイプラインにおける3つ全ての構成要素は、実現例がDNA抽出とPCRモデルとを1つのモデルに組み合わせ且つそれを単一ベータ分布によって近似する場合、ベータ二項によって一緒にモデル化することができる。直感的に、PCR産物中の対立遺伝子1割合の予想値(n1'/n'、Table 4(表4)参照)はp1のままであるが、n1'/n'の不確実さ(分散)はDNA抽出及びPCR工程の両方に由来する。DNA抽出及びPCRを一緒にモデル化するようベータ分布beta(a,b)を得るために、実現例は、下記の法則: E(ni1'/n')= E(E(ni1'/ni'|ni1''/n'')、及びvar(ni1'/n')=var(E(ni1'/ni'|ni1''/n''))+E(var(ni1'/ni'|ni1''/n''))に基づいて、ni1'/n'の無条件平均及び分散を計算する。これは: E(ni1'/n')=pi1、及びvar(ni1'/n')=pi1pi2/n''+pi1pi2/(n"・ρi+1)-p1p2/[n''・(n"・ρi+1)]を与え、式中、ρi=(1+ri)/(1-ri)>1は、増幅率riに関連する定数である。n"は大きいので、実現例は下記の近似var(ni1'/n')=pi1pi2/[n''・(1+ri)/2]を有する。次いでDNA抽出及びPCRをモデル化する最良のベータ分布は、Beta([n''・(1+ri)/2-1]pi1,[n''・(1+ri)/2-1]pi2)である。これは、cfDNA/gDNA抽出に関するベータ分布Beta((n"-1)pi1,(n"-1)pi2)に近く、それでも分散はここでより大きいことに留意されたい。ri=0.8から0.95である典型的なPCR反応では、実現例はn''・(1+ri)/2=0.9・n''から0.975・n''を有する。
L(n1, n2|β, n",π)=ΠiΣg11g21 BB(ni1, ni2|ni, (n''・(1+ri)/2-1)・p1(g11, g21,λ,β), (n''・(1+ri)/2-1)・p2(g11, g21,λ,β))・P(g11, g21|π)。
寄与体DNA割合を推定するための数値の最適化
寄与体DNA割合βは、全尤度関数L(n1, n2|β)を最大限にする値と推定される。上述のように、DNAがここで及びその他の実施例で言及されるが、RNA及びその他の核酸分子を同様にプロセシングし分析してもよい。また、実施例は核酸混合物試料に言及するが、試料は、単一寄与体の核酸のみを含んでいてもよく、その場合、寄与体割合は1と推定され又は1からの誤差の範囲内と推定することが可能である。L(n1, n2|β)の計算中、多数の小さい確率値が乗じられる。小さい確率を乗じたときに数値のアンダーフローを回避するために、実現例は、全ての合算及び乗算を対数スケールで行う。対数スケール上での小さい確率の合計は、下記の通り行われる。1)対数確率の最大値をxmaxとして得る; 2)最大値により全ての対数確率値から差し引く; 3)得られた値を累乗し次いで合計する; 4)得られた合計を対数変換する; 5)対数確率の最大値を加減する。log(exp(x1-xmax)+exp(x2-xmax)+…+exp(xn-xmax))+xmax。
推定値の信頼区間の下限は、クラメール・ラオの不等式: var(θML)≧1/I(θML)に基づいて決定され、式中、θMLは、パラメータθの最大尤度推定値であり、I(θML)は、θMLでのフィッシャー情報である。これに基づいて、上述の尤度関数におけるβ及びcの分散を推定することができる。標準誤差は、クラメール・ラオの限界に従ってsqrt(1/H)と推定され、ここでHは、近似することができ且つBFGS-準ニュートン法で推定されるヘッシアン行列である。
β=1/(1+e-η)、
c=eκ。
I(β)=I(η)(1/(β(1-β))2
I(c)=I(k)(1/c)2。
std(β)=std(η)・β・(1-β)
std(β)=std(η)・c。
混合物デコンボリューション:観察されたカウント数をDとし、寄与体頻度f及び座位当たりの遺伝子型構成Gを推測する
下記の実現例は、法医学的適用例に適切である。本明細書に記述されるプロセスは、まず、それらの事前確率上でシータ及びGを周辺化する間に(以下に記述する)最大尤度推定値fを得、次いでそれらの推定値に対して条件付けて全ての遺伝子型構成に関する事後確率を計算する。プロセスは、妥当とされる遺伝子型構成のトップ-Nリスト及び関連する確率と共に、fのMLEを報告する。遺伝子型構成は、座位当たりで(全ての寄与体にわたって)及び座位当たりの寄与体当たりで報告される。このセクションの下での寄与体頻度fは、上述の寄与体割合βに対応する。Gは、寄与体の遺伝子型を示し、上述のg11、g21に対応する。データDは、上記対立遺伝子数nに対応する。
手法:プロセスでは、一般母集団から引き出された(公知の母集団対立遺伝子頻度を使用して)N-寄与体試料中にあるクエリ遺伝子型の事前確率P(GQ)と、観察された試料中にある(母集団からランダムに引き出されたその他の寄与体と共に)クエリ遺伝子型の事後確率P(GQ|D)とを計算し、次いでこれら2つの確率間の対数比を、証拠の尺度として報告する。P(GQ|D)=P(D|GQ)P(GQ)/P(D)であることに留意され、したがって報告された証拠は(均等に)尤度比P(D|GQ)/P(D|Grandom)として記述することもできるようになるが、それはデータP(D)の周辺確率が、母集団からランダムに引き出された寄与体に対して条件付けられるデータの確率(P(D|Grandom)と同じものだからである。
中心となる計算は、入力としてf及びシータの値を得る関数であり、全ての座位に関して、f及びシータに対して条件付けられるデータの周辺対数確率(即ち、G上で周辺化された対数尤度)を、遺伝子型特異的確率上で合計(遺伝子型事前確率によって重みが付けられた)を行うことによって計算する。次いでこれらを、シータに関する(離散型の同じ重みの)分布上で合計して、G及びシータ上で周辺化された対数尤度を得る。実現例は、Gの個々の値に関して合計(シータ上)も保持し、したがって(正規化後に)実現例は、全ての座位にある全ての遺伝子型に関して事後確率を有するようになるが、これはfを条件とし、しかしシータ上で周辺化されたものである。座位当たりの周辺対数尤度は累積され、全データ集合に関する単一対数尤度として戻され、それでもfに対して条件付けられるものである。実現例は、この計算を、頻度ベクトルfに関して可能性のある値の格子の全ての点で行い、尤度が最大である格子点をピックアップすることによってfに関するMLEを得る。頻度格子を、均等に間を空けた2.5%の間隔で設定し、それに加えて全ての頻度での余分な点を均等に設定し(既に表れていない場合)、このとき頻度は非昇順で列挙され且つ合計で1になるという拘束がある。これは2つの寄与体に関して21点の格子を、又は3つの寄与体に関して155点の格子をもたらす(4つの寄与体の場合はまだ実現されておらず、より粗い格子が必要となる可能性があり; 3つの寄与体の場合は、最初により粗い格子を使用し、次いで格子の興味ある部分でズーム・インした後に第2の工程として精製することによって、高速化することもできる)。
全対数尤度は、座位特異的対数尤度の合計であり: log P(D|theta,f)=\suml log P(Dl|theta,f)である。
・ 各寄与体頻度ベクトルごとに、実現例は、予想される対立遺伝子当たりのリード数と観察された数とを比較し、対立遺伝子に関してRMSEを計算する
・ この計算は、スタッターを考慮に入るが、完全尤度計算よりも非常に安価である
・ 頻度ベクトルの最小RMSEを使用する(構成が妥当とされる頻度ベクトルがある?)。「最良のRMSE」(下記参照)では、実現例は、頻度ベクトルの平均を使用する(全体としてデータ集合が与えられた、完全に非現実的なものとなり得る最良の当て嵌め頻度ベクトルを使用する場合はブレークする)。
・ 観察が、以下の基準の両方により予想に十分近い場合は、構成を保持する:
・ 絶対閾値(0.2): RMSEが最大リード数のこの割合よりも大きい構成を刈り込む
・ 相対閾値(5): RMSEが「最良のRMSE」(上記参照)からのこの因子よりも大きい構成を刈り込む
生成モデルは、「当初の」試料中の座位当たりの潜在的に検出可能な分子の固定数を規定する(犯罪現場から又はプロセシングの後半段階で収集された物理的試料に対応し得る)。実現例は、それら対立遺伝子が遺伝子型構成に割り当てられた寄与体の寄与体頻度に比例して、これらの分子が対立遺伝子当たりで分割されると仮定する。次いでこれらの分子のそれぞれが、検出され又は検出されず、したがって所与の対立遺伝子に関して検出された分子の数は二項プロセスによって支配されるようになる。検出確率(即ち、二項パラメータ)は、対立遺伝子ごと(及び座位ごと)に様々になってもよく、全ての座位で、実現例は、2つのパラメータによって支配されるベータ事前確率を割り当てる:
平均(平均検出確率)
包含範囲(検出されたUMIの総数)は座位ごとに様々である。原則として、このことは、ベータ分布の平均が座位ごとに変わるべきであることを意味する。一部の実現例は、座位全体にわたって固定された平均を保持し、代わりに試料中の分子の数を座位ごとに変化させる。このことは、同じにものになるべきである(2つのパラメータは高度に相関することが予想されるので、それらを個別のパラメータとして処理することはそれらをほとんど確認されないものとすると考えられる)。平均パラメータは、値0.1にハードコードされ;分子の総数は、この平均パラメータ並びにスタッター率(下記参照)を考慮して、観察された包含範囲から外挿することによって設定される。
対立遺伝子kに関する尤度計算のスタッターフリーバージョンは、「実際の」(非スタッター)検出の予想量が非ゼロであるとき(少なくとも1つの寄与体の遺伝子型でのkに起因して)、及びスタッター検出の予想量(スタッター率、及び「スタッター隣接」対立遺伝子k+1に割り当てられた分子の数から計算された)が閾値よりも下であるときに、スタッター率がゼロであり且つ計算上のショートカットとしても使用される場合に、適用可能である。
第2の尤度計算は、スタッターが関連あるものとして決定される少数の場合に使用される(上記参照)。UMI数がMである対立遺伝子kで、一部の実現例は、0からMまでの全ての値mを、問題となっている対立遺伝子由来のUMIの数に関して可能性のある値と見なし、残りの(M-m)UMIは対立遺伝子k+1由来である。これらの場合の1つに関する尤度は、真のカウント数に関する尤度と、スタッター数に関する尤度との積である(Nが、対立遺伝子k+1での当初のUMIの数に等しく、二項頻度がスタッター率に等しい、二項モデルの下で)。全尤度は、これらの場合の全ての(線形-ドメイン)合計である。
本発明者等は、2つのタイプのドロップアウトを区別する:
自然ドロップアウト:これは、二項プロセスが、寄与体の遺伝子型に存在する対立遺伝子に関してゼロのカウント数をもたらすときである。全ての潜在的対立遺伝子を明らかに表すのではなく(潜在的対立遺伝子の網羅的リストがないので不可能、又は費用がかかる可能性もある)、一部の実現例は、特別な「ダミー」試料外対立遺伝子を使用する。この対立遺伝子は、任意の遺伝子型構成で存在してもよく、ゼロのUMI数を有し、通常の対立遺伝子のように処理される。自然ドロップアウトは、低頻度寄与体の対立遺伝子に生ずる可能性があるが、高頻度寄与体の対立遺伝子には非常に生じ難い。
個々の寄与体の遺伝子型の事前確率は、ハーディ・ワインベルグのモデルの下で、母集団対立遺伝子頻度から計算する:対立遺伝子頻度がpであるホモ接合遺伝子型に関してP(G)=p^2、及び対立遺伝子頻度がp及びqであるヘテロ接合遺伝子型に関してP(G)=2pq。多数の寄与体遺伝子型構成の事前確率は、寄与体当たりの事前確率の積である。これは、遺伝子型構成が構築される時に予備プロセシング中に計算され、全ての周辺尤度計算で再使用される。ドロップアウトを説明するために、一部の実現例は、固定された事前確率を持つダミードロップアウト対立遺伝子を付加して、実験測定に基づいて設定されるようにし;母集団対立遺伝子頻度は、それに応じてディスカウントされる。
本明細書で使用される試料は、「無細胞」(例えば、cfDNA)又は細胞結合(例えば、細胞DNA)された核酸を含有する。無細胞DNAを含む無細胞核酸は、血漿、血清、及び尿を含むがこれらに限定されない生体試料から、当技術分野で公知の様々な方法によって得ることができる(例えば、Fan等、Proc Natl Acad Sci 105:16266-16271 [2008]; Koide等、Prenatal Diagnosis 25:604-607 [2005]; Chen等、Nature Med. 2: 1033-1035 [1996]; Lo等、Lancet 350: 485-487 [1997]; Botezatu等、Clin Chem. 46: 1078-1084, 2000;及びSu等、J Mol. Diagn. 6: 101-107 [2004]参照)。無細胞DNAを試料中の細胞から分離するため、分別、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈殿、若しくは高スループット細胞分別、及び/又はその他の分離方法を含むがこれらに限定されない様々な方法を、使用することができる。cfDNAの手動及び自動化分離に関する市販のキットが入手可能である(Roche Diagnostics社、Indianapolis、IN、Qiagen社、Valencia、CA、Macherey-Nagel社、Duren、DE)。cfDNAを含む生体試料は、染色体異数性及び/又は様々な多型を検出することができる配列決定アッセイによって、染色体異常、例えばトリソミー21の存在又は不在を決定するアッセイで使用されてきた。
一実施形態では、本明細書に記載の方法は、次世代配列決定技術(NGS)を利用し得、複数の試料を、ゲノム分子として(すなわち、シングルプレックス配列決定)、又は単一の配列決定実行において、インデックス付きゲノム分子を含むプールされた試料として(例えば、マルチプレックス配列決定)、個別に配列決定することを可能にする。これらの方法は、DNA配列の最大数億のリードを生成し得る。様々な実施形態において、ゲノム核酸の配列、及び/又はインデックス付きゲノム核酸の配列は、例えば、本明細書に記載の次世代配列決定技術(NGS)を使用して決定され得る。様々な実施形態において、NGSを使用して取得された大量の配列データの分析は、本明細書に記載される1つ又は複数のプロセッサを使用して実行され得る。
一部の実現例では、調製された試料(例えば、配列決定ライブラリ)は、核酸の混合物をデコンボリューションするための手順の一部として配列決定される。任意の多数の配列決定技術が利用され得る。
配列決定データの分析及びそこから得られる診断は、典型的には、様々なコンピュータ実行アルゴリズム及びプログラムを使用して実行される。したがって、特定の実施形態は、1つ又は複数のコンピュータシステム又は他のプロセシングシステムに記憶又は転送されるデータを含むプロセスを使用する。本明細書で開示される実施形態は、これらの動作を実行するための装置にも関する。この装置は、必要な目的のために特別に構築されてもよいし、又はコンピュータに記憶されたコンピュータプログラム及び/又はデータ構造によって選択的に起動又は再構成される汎用コンピュータ(又はコンピュータのグループ)であってもよい。一部の実施形態では、プロセッサのグループは、列挙された分析操作の一部又は全てを共同で(例えば、ネットワーク又はクラウドコンピューティングを介して)及び/又は並行して実行する。本明細書に記載の方法を実行するためのプロセッサ又はプロセッサのグループは、プログラマブルデバイス(例えば、CPLD及びFPGA)等のマイクロコントローラ及びマイクロプロセッサ、並びにゲートアレイASIC又は汎用マイクロプロセッサ等の非プログラマブルデバイスを含む様々なタイプのものであり得る。
試験試料中の核酸を配列決定することにより得られたリード
リードを参照ゲノム又は他の参照配列(単数又は複数)にアラインメントすることにより得られたタグ
参照ゲノム又は配列
配列タグ密度-参照ゲノム又は他の参照配列の2つ以上の領域(通常は染色体又は染色体セグメント)のそれぞれのタグのカウント又は数
特定の染色体又は対象となる染色体セグメントに関して染色体又は染色体セグメントを正規化する同一性
対象となる染色体又はセグメントから取得した染色体又は染色体セグメント(又は他の領域)の量と、対応する正規化染色体又はセグメント
影響を受けるか、影響を受けないか、又はコールなしとして染色体量をコールするための閾値
染色体量の実際のコール
診断(コールに関連する臨床状態)
コール及び/又は診断から派生したさらなる試験の推奨事項
コール及び/又は診断から派生した処置及び/又はモニタリング計画
試料収集
配列決定に先立つ試料プロセシング
配列決定
配列データを分析し、1つ又は複数の寄与体の核酸を含む核酸試料を定量すること
診断
診断及び/又はコールを、患者又は医療提供者に報告すること
さらなる処置、検査、及び/又はモニタリングのための計画を開発すること
計画の実行
カウンセリング
この実施例は、実際のDNA混合物試料から得られたデータを使用して、一部の実現例が、本明細書に開示された確率的アプローチを使用しない従来の技術よりも、DNA混合物試料の定量において、より高い精度及び信頼性、並びにより低い経験的バイアスを提供し得ることを示す。
E=[ri-pi(β)]T・[ri-pi(β)]
ここで、rは観測された対立遺伝子の画分、pi=G・βは、座位iの予想される対立遺伝子の画分であり、これはβの線形関数であり、Gはn座位及びdドナーの遺伝子型の行列であり、βは未知の寄与体画分の長さdベクトルである。3番目の方法(NaiveLM)のデータは、Table 8(表8)の5行目に示す。
Seq又はEPS方法で寄与体の画分を定量するために、寄与体の遺伝子型情報を使用しなかったが、NaiveLM方法で使用されたことは注目に値する。Seq方法とEPS方法は、寄与体の遺伝子型情報を使用する必要がなかったという事実にもかかわらず、NaiveLM方法よりも小さい変動係数値で示されるように、より信頼され得る結果を生み出した。更に、Seq方法及びEPS方法は、NaiveLM方法よりも小さいCVB値で示されるように、バイアスが低くなった。Table 8(表8)では、3つの方法の中で最良の結果を太字で示している。つまり、確率的混合物モデルを使用する2つの方法は、線形回帰法よりも信頼性が高く、正確で、偏りの少ない結果を生じた。
図7A〜図7Fは、実際のDNA混合物試料から得られたデータを使用して、一部の実現例がDNA混合物試料を効果的に定量及びデコンボリューションし得ることを示す実施例の結果を示す。この実施例は、一部の実現例がDNA混合デコンボリューションのシグナルレベルを改善し得ることを示している。この実施例では、データは狭い事前確率を使用して分析した。
図8A〜図8Dは、シミュレーションデータを使用して、一部の実現例がDNA混合物試料を効果的に定量及びデコンボリューションし得ることを示す実施例の結果を示している。この実施例は、一部の実現例がDNA混合物デコンボリューションのシグナルレベルを改善し得ることを示している。
Claims (44)
(a)コンピュータシステムによって、核酸試料から得られ、1つ又は複数の多型座位にある1つ又は複数の対立遺伝子にマッピングされた核酸配列リードを受け取る工程と、
(b)核酸配列リードを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型座位にある1つ又は複数の対立遺伝子のそれぞれに関する対立遺伝子数を決定する工程と、
(c)確率的混合物モデルを対立遺伝子数に適用し、確率分布を使用して1つ又は複数の多型座位にある対立遺伝子数をモデル化する、確率的混合物モデルを使用する工程であって、確率分布が核酸配列リードの誤差を説明する工程と、
(d)確率的混合物モデルを使用して、1つ又は複数のプロセッサによって、核酸試料中の1つ又は複数の寄与体の核酸の1つ又は複数の割合を定量する工程と、
(e)1つ又は複数の寄与体の中の特定の寄与体が特定の遺伝子型を有する事後確率を決定する工程と、
(f)事後確率に基づいて、核酸試料が特定の寄与体由来の核酸を含むことをコールする工程と
を含む方法。
(i)遺伝子型構成の事前確率に、遺伝子型構成の尤度を乗じる工程と、
(ii)(i)の積を、遺伝子型空間の合計によって正規化する工程と、
(iii)特定の遺伝子型を含有する遺伝子型構成を合計して、事後確率を得る工程と
を含む、請求項1に記載の方法。
全ての寄与体上で、寄与体が全ての座位にある特定の遺伝子型を有する事後確率を合計する工程と、
合計された確率に基づいて、特定された多座位遺伝子型が任意の寄与体中に現れることを決定する工程と
を更に含む、請求項1に記載の方法。
nij〜BN(ni, pij)
式中、
nijは、座位iでの対立遺伝子jに関する対立遺伝子数であり、
niは、座位iでの総対立遺伝子数であり、
pijは、座位iでの対立遺伝子jの確率を示す確率パラメータである、
請求項12に記載の方法。
(i)核酸試料中の1つ若しくは複数の寄与体の1つの核酸の割合、若しくはβ、
(ii)1つ若しくは複数の寄与体の遺伝子型、若しくはG、及び/又は
(iii)核酸配列リードの誤差、若しくはθ
の関数である、請求項13に記載の方法。
BB(nij|ni,μ, k)
を有する、請求項18に記載の方法。
複数の潜在的割合値、及び(b)で決定された対立遺伝子数の尤度関数を使用して、複数の尤度値を計算する工程と、
最大尤度値に関連付けられた潜在的割合ベクトルを特定する工程と、
特定された潜在的割合ベクトルを使用して、核酸試料中の1つ又は複数の寄与体の核酸の1つ又は複数の割合を定量する工程と
を含む、請求項20に記載の方法。
sik〜BN(ni(k+1), ri)
式中、
sikは、対立遺伝子kであるように見えるが実際には対立遺伝子k+1のスタッターエラーから生じる、スタッター対立遺伝子の座位iでのスタッター対立遺伝子数であり、
ni(k+1)は、座位iでの対立遺伝子k+1の当初の対立遺伝子数であり、
riは、座位iに関するスタッター率である、
請求項25に記載の方法。
最短及び最長の観察された整数値対立遺伝子間の全ての整数を内挿し、
任意の観察された非整数値対立遺伝子を付加し、
得られた値及び閾値の最大値を戻すこと
によって推定される、請求項31に記載の方法。
(a)核酸試料から得られ、1つ又は複数の多型座位にある1つ又は複数の対立遺伝子にマッピングされた核酸配列リードを受け取り、
(b)核酸配列リードを使用して、1つ又は複数の多型座位にある1つ又は複数の対立遺伝子のそれぞれに関する対立遺伝子数を決定し、
(c)確率的混合物モデルを対立遺伝子数に適用し、核酸配列リードの誤差を説明する確率分布を使用して1つ又は複数の多型座位にある対立遺伝子数をモデル化する、確率的混合物モデルを使用し、
(d)確率的混合物モデルを使用して、核酸試料中の1つ又は複数の寄与体の核酸の1つ又は複数の割合を定量し、
(e)1つ又は複数の寄与体の中の特定の寄与体が特定の遺伝子型を有する事後確率を決定し、
(f)事後確率に基づいて、核酸試料が特定の寄与体由来の核酸を含むことをコールする
ように構成される1つ又は複数のプロセッサとを含むコンピュータシステム。
(a)核酸試料から得られ、1つ又は複数の多型座位にある1つ又は複数の対立遺伝子にマッピングされた核酸配列リードを受け取るためのコード、
(b)核酸配列リードを使用して、1つ又は複数の多型座位にある1つ又は複数の対立遺伝子のそれぞれに関する対立遺伝子数を決定するためのコード、
(c)確率的混合物モデルを対立遺伝子数に適用し、核酸配列リードの誤差を説明する確率分布を使用して1つ又は複数の多型座位にある対立遺伝子数をモデル化する、確率的混合物モデルを使用するためのコード、
(d)確率的混合物モデルを使用して、核酸試料中の1つ又は複数の寄与体の核酸の1つ又は複数の割合を定量するためのコード、
(e)1つ又は複数の寄与体の中の特定の寄与体が特定の遺伝子型を有する確率を決定するためのコード、及び
(f)事後確率に基づいて、核酸試料が特定の寄与体由来の核酸を含むことをコールするためのコード
を含む、非一過性コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762522618P | 2017-06-20 | 2017-06-20 | |
US62/522,618 | 2017-06-20 | ||
PCT/US2018/038222 WO2018236827A1 (en) | 2017-06-20 | 2018-06-19 | METHODS FOR ACCURATE COMPUTATIONAL DECOMPOSITION OF DNA MIXTURES FROM UNKNOWN GENOTYPIC CONTRIBUTORS |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020530261A true JP2020530261A (ja) | 2020-10-22 |
JP7009516B2 JP7009516B2 (ja) | 2022-01-25 |
Family
ID=62875309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019570089A Active JP7009516B2 (ja) | 2017-06-20 | 2018-06-19 | 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US11990208B2 (ja) |
EP (1) | EP3642744A1 (ja) |
JP (1) | JP7009516B2 (ja) |
KR (1) | KR102543270B1 (ja) |
CN (1) | CN110770839A (ja) |
AU (1) | AU2018289385B2 (ja) |
CA (1) | CA3067418C (ja) |
IL (1) | IL271147A (ja) |
SG (1) | SG11201911530RA (ja) |
WO (1) | WO2018236827A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK3117012T3 (da) | 2014-03-14 | 2019-05-13 | Caredx Inc | Fremgangsmåder til overvågning af immunosuppressive terapier hos en transplantmodtager |
CA3067418C (en) | 2017-06-20 | 2022-08-16 | Illumina, Inc. | Methods for accurate computational decomposition of dna mixtures from contributors of unknown genotypes |
US20230348982A1 (en) * | 2020-06-05 | 2023-11-02 | Sirona Genomics, Inc. | Methods of identifying markers of graft rejection |
WO2022076574A1 (en) * | 2020-10-08 | 2022-04-14 | Claret Bioscience, Llc | Methods and compositions for analyzing nucleic acid |
CN112342303A (zh) * | 2020-12-04 | 2021-02-09 | 郑州高新生物技术有限公司 | 一种基于ngs的人类y染色体str和snp遗传标记联合检测体系及检测方法 |
WO2022197591A1 (en) * | 2021-03-16 | 2022-09-22 | University Of North Texas Health Science Center At Fort Worth | Forensic dna mixture interpretation with single-cell profiling |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006519977A (ja) * | 2002-11-11 | 2006-08-31 | アフィメトリックス インコーポレイテッド | Dnaコピー数変化を同定するための方法 |
US20120264121A1 (en) * | 2011-04-12 | 2012-10-18 | Verinata Health, Inc. | Resolving genome fractions using polymorphism counts |
JP2016184429A (ja) * | 2005-11-26 | 2016-10-20 | ナテラ, インコーポレイテッド | 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1910537A1 (en) | 2005-06-06 | 2008-04-16 | 454 Life Sciences Corporation | Paired end sequencing |
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
CN101889074A (zh) | 2007-10-04 | 2010-11-17 | 哈尔西恩莫尔丘勒公司 | 采用电子显微镜对核酸聚合物测序 |
JP2011530750A (ja) * | 2008-08-08 | 2011-12-22 | ナビジェニクス インコーポレイティド | 個人化された行動計画についての方法及びシステム |
US20130196862A1 (en) * | 2009-07-17 | 2013-08-01 | Natera, Inc. | Informatics Enhanced Analysis of Fetal Samples Subject to Maternal Contamination |
US9260745B2 (en) | 2010-01-19 | 2016-02-16 | Verinata Health, Inc. | Detecting and classifying copy number variation |
US11322224B2 (en) * | 2010-05-18 | 2022-05-03 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
US9029103B2 (en) | 2010-08-27 | 2015-05-12 | Illumina Cambridge Limited | Methods for sequencing polynucleotides |
EP2860265B1 (en) | 2011-02-24 | 2016-10-26 | The Chinese University of Hong Kong | Determining fetal DNA percentage for twins |
WO2014014498A1 (en) | 2012-07-20 | 2014-01-23 | Verinata Health, Inc. | Detecting and classifying copy number variation in a fetal genome |
WO2013130848A1 (en) | 2012-02-29 | 2013-09-06 | Natera, Inc. | Informatics enhanced analysis of fetal samples subject to maternal contamination |
CN204440396U (zh) | 2012-04-12 | 2015-07-01 | 维里纳塔健康公司 | 用于确定胎儿分数的试剂盒 |
KR101850437B1 (ko) | 2015-04-14 | 2018-04-20 | 이원다이애그노믹스(주) | 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법 |
CA3067418C (en) | 2017-06-20 | 2022-08-16 | Illumina, Inc. | Methods for accurate computational decomposition of dna mixtures from contributors of unknown genotypes |
SG11201911538YA (en) | 2017-06-20 | 2020-01-30 | Illumina Inc | Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes |
-
2018
- 2018-06-19 CA CA3067418A patent/CA3067418C/en active Active
- 2018-06-19 SG SG11201911530RA patent/SG11201911530RA/en unknown
- 2018-06-19 US US16/622,814 patent/US11990208B2/en active Active
- 2018-06-19 KR KR1020197037926A patent/KR102543270B1/ko active IP Right Grant
- 2018-06-19 WO PCT/US2018/038222 patent/WO2018236827A1/en unknown
- 2018-06-19 EP EP18740011.4A patent/EP3642744A1/en active Pending
- 2018-06-19 JP JP2019570089A patent/JP7009516B2/ja active Active
- 2018-06-19 AU AU2018289385A patent/AU2018289385B2/en active Active
- 2018-06-19 CN CN201880041562.7A patent/CN110770839A/zh active Pending
-
2019
- 2019-12-03 IL IL271147A patent/IL271147A/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006519977A (ja) * | 2002-11-11 | 2006-08-31 | アフィメトリックス インコーポレイテッド | Dnaコピー数変化を同定するための方法 |
JP2016184429A (ja) * | 2005-11-26 | 2016-10-20 | ナテラ, インコーポレイテッド | 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 |
US20120264121A1 (en) * | 2011-04-12 | 2012-10-18 | Verinata Health, Inc. | Resolving genome fractions using polymorphism counts |
Also Published As
Publication number | Publication date |
---|---|
CN110770839A (zh) | 2020-02-07 |
US11990208B2 (en) | 2024-05-21 |
JP7009516B2 (ja) | 2022-01-25 |
NZ759473A (en) | 2021-10-29 |
AU2018289385A1 (en) | 2019-12-12 |
IL271147A (en) | 2020-01-30 |
CA3067418A1 (en) | 2018-12-27 |
EP3642744A1 (en) | 2020-04-29 |
WO2018236827A1 (en) | 2018-12-27 |
KR102543270B1 (ko) | 2023-06-13 |
KR20200010463A (ko) | 2020-01-30 |
US20220262460A1 (en) | 2022-08-18 |
CA3067418C (en) | 2022-08-16 |
AU2018289385B2 (en) | 2022-01-20 |
SG11201911530RA (en) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12087401B2 (en) | Using cell-free DNA fragment size to detect tumor-associated variant | |
JP6659672B2 (ja) | 胎児染色体部分異数性およびコピー数変動の検出 | |
AU2018375008B2 (en) | Methods and systems for determining somatic mutation clonality | |
JP7009516B2 (ja) | 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法 | |
JP7009518B2 (ja) | 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム | |
NZ759784A (en) | Liquid sample loading | |
NZ759784B2 (en) | Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes | |
NZ759848B2 (en) | Liquid sample loading | |
NZ759848A (en) | Method and apparatuses for screening |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210301 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7009516 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |