Nothing Special   »   [go: up one dir, main page]

DE202019005627U1 - Methylierungsmarker und gezielte Methylierungssondenpanels - Google Patents

Methylierungsmarker und gezielte Methylierungssondenpanels Download PDF

Info

Publication number
DE202019005627U1
DE202019005627U1 DE202019005627.0U DE202019005627U DE202019005627U1 DE 202019005627 U1 DE202019005627 U1 DE 202019005627U1 DE 202019005627 U DE202019005627 U DE 202019005627U DE 202019005627 U1 DE202019005627 U1 DE 202019005627U1
Authority
DE
Germany
Prior art keywords
cancer
probes
fragments
genome
regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202019005627.0U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail Inc
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of DE202019005627U1 publication Critical patent/DE202019005627U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/159Reduction of complexity, e.g. amplification of subsets, removing duplicated genomic regions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Virology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

Ein Assay-Panel zum Anreichern von cfDNA-Molekülen, beinhaltend:
mindestens 1000 Polynukleotidsonden beinhalten, wobei jede der mindestens 1000 Sonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Polynukleotid zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist,
wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in krebsbefallenen Proben ein anomales Methylierungsmuster aufweist.

Description

  • BEZUGNAHME AUF ANDERE PATENTANMELDUNGEN
  • Diese Gebrauchsmusteranmeldung beansprucht den Vorzug der vorläufigen US-Patentanmeldung Nr. 62/651,643 , eingereicht am 2. April 2018, und der vorläufigen US-Patentanmeldung Nr. 62/738,271 , eingereicht am 28. September 2018, die beide hiermit durch Bezugnahme in ihrer Gesamtheit eingebunden sind.
  • ALLGEMEINER STAND DER TECHNIK
  • DNA-Methylierung spielt eine wichtige Rolle bei der Regulierung der Genexpression. Aberrante DNA-Methylierung ist an vielen Krankheitsprozessen, einschließlich Krebs, beteiligt. Die Erstellung eines DNA-Methylierungsprofils unter Verwendung von Methylierungssequenzierung (z. B. Bisulfit-Gesamtgenomsequenzierung (WGBS)) wird zunehmend als ein wertvolles diagnostisches Werkzeug für den Nachweis, die Diagnose und/oder die Überwachung von Krebs erkannt. Zum Beispiel können spezifische Muster differenziell methylierter Regionen als molekulare Marker für verschiedene Krankheiten nützlich sein.
  • Allerdings ist die WGBS für einen Produktassay nicht ideal geeignet. Der Grund ist, dass die gewaltige Mehrheit des Genoms entweder bei Krebs nicht differenziell methyliert ist oder die lokale CpG-Dichte zu niedrig ist, um ein belastbares Signal bereitzustellen. Nur wenige Prozent des Genoms sind wahrscheinlich zur Klassifizierung nützlich.
  • Des Weiteren gab es verschiedene Herausforderungen bei der Identifizierung differenziell methylierter Regionen bei verschiedenen Krankheiten. Erstens hat die Bestimmung differenziell methylierter Regionen bei einer krankheitsbefallenen Gruppe nur Gewicht im Vergleich mit einer Gruppe von Kontrollpersonen, sodass, wenn die Kontrollgruppe von kleiner Zahl ist, die Bestimmung mit der kleinen Kontrollgruppe Konfidenz verliert. Außerdem kann bei einer Gruppe von Kontrollpersonen der Methylierungsstatus variieren, was beim Bestimmen, ob die Regionen bei einer krankheitsbefallenen Gruppe differenziell methyliert sind, schwierig zu berücksichtigen sein kann. Davon abgesehen korreliert die Methylierung eines Cytosins an einer CpG-Stelle stark mit der Methylierung an einer folgenden CpG-Stelle. Diese Abhängigkeit einzubeziehen, ist an und für sich eine Herausforderung.
  • Demgemäß ist bislang noch kein kostengünstiges Verfahren zum genauen Diagnostizieren einer Krankheit durch Erkennen differenziell methylierter Regionen verfügbar.
  • ZUSAMMENFASSUNG
  • Der frühe Nachweis von Krebs bei Personen ist wichtig, da er eine frühere Behandlung und daher eine größere Überlebenschance gestattet. Der gezielte Nachweis von Methylierungsmustern, die für Krebs oder Ursprungsgewebe, d. h. das Organ, die Organgruppe, die Körperregion oder die Zellart, in dem/der der Krebs entsteht oder seinen Ursprung hat, spezifisch sind, unter Verwendung von Fragmenten zellfreier DNA (cfDNA) kann den frühen Nachweis von Krebs möglich machen, indem er ein kostengünstiges und nicht invasives Verfahren zum Analysieren von die Krebsklassifizierung betreffenden Informationen bereitstellt. Durch Verwendung eines Panels für eine anvisierte Genomregion, anstatt alle Nukleinsäuren in einer Testprobe zu sequenzieren, auch als „Ganzgenomsequenzierung“ bekannt, kann das Verfahren die Sequenzierungstiefe der Zielregionen erhöhen und die Kosten verglichen mit Ganzgenomsequenzierung (WGS) oder Bisulfit-Ganzgenomsequenzierung (WGBS) senken.
  • Zu diesem Zweck stellt die vorliegende Beschreibung Krebs-Assay-Panels (z. B. Ködersets) zum Erkennen von Krebs und verschiedenen Ursprungsgeweben oder durch Erkennen von Methylierungsmustern der anvisierten Genomregionen bereit. Das Krebs-Assay-Panel kann Methylierungsmuster nachweisen und differenzieren, die für Krebs im Allgemeinen oder für unterschiedliche Krebsarten, wie z. B. (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliäres Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs und (9) Bauchspeicheldrüsenkrebs, spezifisch sind.
  • Krebs-Assay-Panels können ferner für jede Krebsart Informationen bereitstellen, die ein Krebsstadium betreffen. Die vorliegende Beschreibung stellt auch ein Verfahren zum Verwenden von Krebs-Assay-Panels für die Krebsdiagnose bereit, wobei die Krebsdiagnose ferner eine Krebsart und/oder ein Krebsstadium umfasst. Ferner werden hierin Verfahren zum Identifizieren von Genomstellen mit für Krebs oder verschiedene Arten von Krebs spezifischen Methylierungsmustern sowie eine Liste von Genomstellen, die zur Diagnose von Krebs und/oder Krebsursprungsgewebe verwendet werden können, bereitgestellt. Die hierin beschriebenen Verfahren umfassen ferner Verfahren zum Gestalten von Sonden, um Nukleinsäuren, die von den ausgewählten Genomregionen abgeleitet sind, effizient anzureichern, ohne eine übermäßige Menge unerwünschter oder nicht anvisierter Nukleinsäure herabzuziehen, und Verfahren zum Herstellen des Krebs-Assay-Panels mit den Sonden. Ebenfalls beschrieben sind Verfahren zum Anreichern von Nukleinsäuren, die von den ausgewählten Genomregionen abgeleitet sind, mit anderen Mitteln als Einfangen durch Hybridisierung.
  • Hierin offenbart werden Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose, wobei das Assay-Panel mindestens 500 unterschiedliche Paare von Polynukleotidsonden beinhaltet, wobei jedes Paar der mindestens 500 Sondenpaare (i) zwei unterschiedliche Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz von 30 oder mehr Nukleotiden zu überlappen, und (ii) konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist und wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
  • In manchen Ausführungsformen beinhaltet die Überlappungssequenz mindestens 40, 50, 75 oder 100 Nukleotide. In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 50, 60, 70, 80, 90, 100, 120, 150, 200, 300 oder 400 Sondenpaare. In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 1000, 2000, 2500, 5000, 6000, 7500, 10000, 15000, 20000 oder 25 000 Sondenpaare.
  • Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die mindestens 1000 Polynukleotidsonden beinhalten, wobei jede der mindestens 1000 Sonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Polynukleotid zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist und wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
  • In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen. In manchen Ausführungsformen ist jede der Polynukleotidsonden in dem Panel an eine Affinitätseinheit konjugiert. In manchen Ausführungsformen ist die Affinitätseinheit eine Biotineinheit. In manchen Ausführungsformen sind die Trainingsproben Proben, die von einer Vielzahl von Personen stammen, bei denen bestimmt wurde, dass sie Krebs haben. Assay-Panel gemäß einem der obengenannten Ansprüche, wobei eine Genomregion in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist, wenn ein Methylierungszustandsvektor, der die Genomregion in den karzinomatösen Trainingsproben darstellt, in Referenzproben weniger häufig vorhanden ist als ein Schwellenwert. In manchen Ausführungsformen beträgt der Schwellenwert 0,1, 0,01, 0,001 oder 0,0001. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen in den karzinomatösen Trainingsproben entweder hypermethyliert oder hypomethyliert.
  • In manchen Ausführungsformen sind mindestens 80, 85, 90, 92, 95 oder 98 % der mindestens fünf Methylierungsstellen in den karzinomatösen Trainingsproben entweder methyliert oder unmethyliert. In manchen Ausführungsformen beinhalten mindestens 3 %, 5 %, 10 %, 15 % oder 20 %, 30 % oder 40 % der Sonden auf dem Panel kein G (Guanin). In manchen Ausführungsformen weisen mindestens 80, 85, 90, 92, 95, 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen. In manchen Ausführungsformen ist jede der gesamten Sonden auf dem Panel so gestaltet, dass sie Sequenzhomologie oder Sequenzkomplementarität zu weniger als 20, 15, 10 oder 8 Fehltreffer-Genomregionen aufweist. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie identifiziert. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie, kombiniert mit lokaler Alinierung an Beimpfungsorten, identifiziert.
  • In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 1000, 2000, 2500, 5000, 10000, 12000, 15000, 20000 oder 25000 Sonden. In manchen Ausführungsformen beinhalten die mindestens 1000 Sonden oder die mindestens 500 Sondenpaare zusammen mindestens 0,2 Millionen, 0,4 Millionen, 0,6 Millionen, 0,8 Millionen, 1 Million, 2 Millionen oder 4 Millionen Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel mindestens 50, 75, 100 oder 120 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 300, 250, 200 oder 150 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel 100-150 Nukleotide. In manchen Ausführungsformen befinden sich mindestens 30 % der Genomregionen in Exons oder Introns. In manchen Ausführungsformen befinden sich mindestens 15 % der Genomregionen in Exons. In manchen Ausführungsformen befinden sich mindestens 20 % der Genomregionen in Exons. In manchen Ausführungsformen befinden sich weniger als 10 % der Genomregionen in Zwischengenregionen.
  • In manchen Ausführungsformen beinhalten die Krebspanels ferner eine Vielzahl virusspezifischer Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment von cfDNA zu hybridisieren. In manchen Ausführungsformen ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhalten die Krebspanels mindestens 50, 100, 200, 500, 1000, 2000 oder 3000 virusspezifische Sonden.
  • In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer der Tabellen 1 oder 11-15 (oder Kombinationen davon) ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 13 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 14 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 15 ausgewählt.
  • In manchen Ausführungsformen sind die gesamten Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 1 und 11-15 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer der Genomregionen der Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von gesamten Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in einer oder mehreren der Tabellen 1 und 11-15 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
  • Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die eine Vielzahl von Polynukleotidsonden beinhalten, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus einer beliebigen der Tabellen 1-24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist.
  • In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus einer beliebigen der Tabellen 2-10 oder 16-24 (oder einer Kombination davon) ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus einer beliebigen der Tabellen 13, 14 oder 15 ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 13 ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 14 ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 15 ausgewählten Genomregionen oder ist davon abgeleitet.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer beliebigen der Tabellen 1-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer beliebigen der Tabellen 2-10 oder 16-24 (oder Kombinationen davon) entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150, 200, 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in einer beliebigen der Tabellen 1-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen sind die gesamten Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen von einer beliebigen der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15000 Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen. In manchen Ausführungsformen ist jede der Sonden auf dem Panel an eine Affinitätseinheit konjugiert, wobei die Affinitätseinheit keine Nukleinsäureaffinitätseinheit ist. In manchen Ausführungsformen ist die Affinitätseinheit eine Biotineinheit. In manchen Ausführungsformen beinhalten mindestens 3 %, 5 %, 10 %, 15%, 20 %, 30 % oder 40 % der Sonden auf dem Panel kein G (Guanin). In manchen Ausführungsformen weisen mindestens 80 %, 85 %, 90 %, 92 %, 95 % oder 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf.
  • Ferner werden hierin Verfahren zum Bereitstellen von Sequenzinformationen, die über ein Vorliegen oder Nichtvorliegen von Krebs informieren, offenbart, beinhaltend die Schritte des Erhaltens einer Testprobe, die eine Vielzahl von cfDNA-Testmolekülen beinhaltet, des Bearbeitens der cfDNA-Testmoleküle, wodurch bisulfitumgewandelte Testfragmente erhalten werden, des In-Kontakt-Bringens der bisulfitumgewandelten Testfragmente mit einem Assay-Panel, wodurch ein Teilsatz der bisulfitumgewandelten Testfragmente durch Einfangen durch Hybridisierung angereichert wird, und des Sequenzierens des Teilsatzes der bisulfitumgewandelten Testfragmente, wodurch ein Satz Sequenzlesungen erhalten wird. In manchen Ausführungsformen ist das Assay-Panel aus beliebigen der oben beschriebenen Panels ausgewählt.
  • In manchen Ausführungsformen beinhalten manche Verfahren ferner den späteren Schritt des: Bestimmens einer Krebsklassifizierung durch Bewerten des Satzes Sequenzlesungen, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs, ein Krebsstadium, ein Vorliegen oder Nichtvorliegen einer Art von Krebs oder ein Vorliegen oder Nichtvorliegen von mindestens 1, 2, 3, 4 oder 5 unterschiedlichen Arten von Krebs ist.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus einer der Tabellen 1, 12, 13, 14 und 15 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs oder ein Krebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer der Tabellen 1, 12, 13, 14 und 15 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen, wobei das Assay-Panel eine Vielzahl von Polynukleotidsonden beinhaltet, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 2 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 2 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 3 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 3 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 4 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 4 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 5 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 5 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 6 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 6 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 7 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 7 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 8 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 8 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 9 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 9 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 10 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 10 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen, wobei das Assay-Panel eine Vielzahl von Polynukleotidsonden beinhaltet, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 16 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 16 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 17 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 17 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 18 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 18 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 19 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 19 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 20 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 20 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 21 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 21 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 22 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 22 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 23 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 23 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 24 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen wird der Schritt des Bestimmens einer Krebsklassifizierung mit dem Verfahren durchgeführt, das Folgendes beinhaltet: Erzeugen eines Testmerkmalsvektors auf der Basis des Satzes Sequenzlesungen und Anwenden des Testmerkmalsvektors auf ein Modell, das durch einen Trainingsprozess mit einem krebsbefallenen Satz Fragmente von einer oder mehreren Trainingspersonen mit Krebs und einem krebsfreien Satz Fragmente von einer oder mehreren Trainingspersonen ohne Krebs erhalten wurde, wobei sowohl der krebsbefallene Satz Fragmente als auch der krebsfreie Satz Fragmente eine Vielzahl von Trainingsfragmenten beinhalten.
  • In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und eines Trainingsmerkmalsvektors auf der Basis der hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
  • In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und eines Trainingsmerkmalsvektors auf der Basis der hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
  • In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; für jedes Trainingsfragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment; für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs und Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs. In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell.
  • In manchen Ausführungsformen beinhalten die Verfahren ferner das Erhalten einer Krebsprobabilität für die Testprobe auf der Basis des Modells und das Vergleichen der Krebsprobabilität mit einer Schwellenprobabilität, um zu bestimmen, ob die Testprobe von einer Person mit Krebs oder ohne Krebs ist. In manchen Ausführungsformen beinhalten die Verfahren ferner das Verabreichen eines Antikrebsmittels an die Person. In manchen Ausführungsformen beinhalten die Verfahren das Verabreichen eines Antikrebsmittels an eine Person, die mit den hierin offenbarten Verfahren als eine krebsbefallene Person identifiziert wurde. In manchen Ausführungsformen ist das Antikrebsmittel ein chemotherapeutisches Mittel, ausgewählt aus der Gruppe, bestehend aus Alkylierungsmitteln, Antimetaboliten, Anthrazyklinen, Antitumorantibiotika, Disruptoren des Zellskeletts (Taxanen), Topoisomerasehemmern, Mitosehemmern, Kortikosteroiden, Kinasehemmern, Nukleotidanaloga und Mitteln auf Platinbasis.
  • Ferner werden hierin Verfahren offenbart, die Folgendes beinhalten: Erhalten eines Satzes Sequenzlesungen modifizierter Testfragmente, wobei die modifizierten Testfragmente durch Bearbeiten eines Satzes Nukleinsäurefragmente von einer Testperson erhalten werden oder wurden, wobei jedes der Nukleinsäurefragmente einer Vielzahl von aus einer der Tabellen 1-24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, und Anwenden des Satzes Sequenzlesungen oder eines auf der Basis des Satzes Sequenzlesungen erhaltenen Testmerkmalsvektors auf ein Modell, das durch einen Trainingsprozess mit einem krebsbefallenen Satz Fragmente von einer oder mehreren Trainingspersonen mit Krebs und einem krebsfreien Satz Fragmente von einer oder mehreren Trainingspersonen ohne Krebs erhalten wurde, wobei sowohl der krebsbefallene Satz Fragmente als auch der krebsfreie Satz Fragmente eine Vielzahl von Trainingsfragmenten beinhalten.
  • In manchen Ausführungsformen beinhalten die Verfahren ferner den Schritt des Erhaltens des Testmerkmalsvektors, beinhaltend: für jedes der Nukleinsäurefragmente Bestimmen, ob das Nukleinsäurefragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Nukleinsäurefragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist; für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Nukleinsäurefragmente und hypermethylierter Nukleinsäurefragmente; für jedes Nukleinsäurefragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Nukleinsäurefragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Nukleinsäurefragment; Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypomethylierungspunktwertes und Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypermethylierungspunktwertes und Erzeugen des Testmerkmalsvektors auf der Basis der Rangordnung der Nukleinsäurefragmente.
  • In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und eines Trainingsmerkmalsvektors auf der Basis der hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
  • In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; für jedes Trainingsfragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment; für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs und Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs.
  • In manchen Ausführungsformen beinhalten die Verfahren für jede CpG-Stelle in einem Referenzgenom das Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, beinhaltet ferner: das Quantifizieren einer krebsbefallenen Zählung hypomethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen mit Krebs und einer krebsfreien Zählung hypomethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen ohne Krebs und das Quantifizieren einer krebsbefallenen Zählung hypermethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen mit Krebs und einer krebsfreien Zählung hypermethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen ohne Krebs.
  • In manchen Ausführungsformen beinhalten die Verfahren für jede CpG-Stelle in einem Referenzgenom das Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente beinhaltet ferner: zum Erzeugen der Hypomethylierungspunktzahl das Berechnen eines Hypomethylierungsverhältnisses der krebsbefallenen Zählung hypomethylierter Trainingsfragmente zu einer Hypomethylierungssumme der krebsbefallenen Zählung hypomethylierter Trainingsfragmente und der krebsfreien Zählung hypomethylierter Trainingsfragmente und zum Erzeugen der Hypermethylierungspunktzahl das Berechnen eines Hypermethylierungsverhältnisses der krebsbefallenen Zählung hypermethylierter Trainingsfragmente zu einer Hypermethylierungssumme der krebsbefallenen Zählung hypermethylierter Trainingsfragmente und der krebsfreien Zählung hypermethylierter Trainingsfragmente.
  • In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell. In manchen Ausführungsformen wird der Satz Sequenzlesungen durch Verwenden des Assay-Panels gemäß einem beliebigen der oben beschriebenen Panels erhalten.
  • Ferner werden hierin Verfahren zum Gestalten eines Assay-Panels für die Krebsdiagnose offenbart, die die folgenden Schritte beinhalten: Identifizieren einer Vielzahl von Genomregionen, wobei jede der Vielzahl von Genomregionen (i) mindestens 30 Nukleotide beinhaltet und (ii) mindestens fünf Methylierungsstellen beinhaltet, Auswählen eines Teilsatzes der Genomregionen, wobei die Auswahl getroffen wird, wenn cfDNA-Moleküle, die jeder der Genomregionen in krebsbefallenen Trainingsproben entsprechen oder davon abgeleitet sind, ein anomales Methylierungsmuster aufweisen, wobei das anomale Methylierungsmuster mindestens fünf Methylierungsstellen beinhaltet, von denen bekannt ist oder bei denen identifiziert wurde, dass sie entweder hypomethyliert oder hypermethyliert sind, und Gestalten des Assay-Panels, das eine Vielzahl von Sonden beinhaltet, wobei jede der Sonden konfiguriert ist, um an ein modifiziertes Fragment zu hybridisieren, das durch Bearbeiten von cfDNA-Molekülen erhalten wird, die einer oder mehreren des Teilsatzes der Genomregionen entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen.
  • Ferner werden hierin Ködersätze zum Einfangen durch Hybridisierung offenbart, wobei der Ködersatz mindestens 50 unterschiedliche polynukleotidhaltige Sonden beinhaltet, wobei jede der polynukleotidhaltigen Sonden eine Nukleinsäuresequenz aufweist, die entweder (1) in der Sequenz mit einer Sequenz innerhalb einer Genomregion identisch ist, die aus einer beliebigen Genomregion ausgewählt ist, die in einer beliebigen der Tabellen 1-24 aufgelisteten ist, oder (2) hinsichtlich einer Sequenz innerhalb der Genomregion nur durch eine oder mehrere Transitionen variiert, wobei jede Transition von der einen oder den mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen weist jede der polynukleotidhaltigen Sonden eine Nukleinsäuresequenz von mindestens 45 Basenpaaren Länge auf. In manchen Ausführungsformen weisen die polynukleotidhaltigen Sonden eine Nukleinsäuresequenz von nicht mehr als 200 Basenpaaren Länge auf. In manchen Ausführungsformen sind die mindestens 50 unterschiedlichen polynukleotidhaltigen Sonden in mindestens 25 Paare polynukleotidhaltiger Sonden organisiert, wobei jedes Sondenpaar eine erste Sonde und eine zweite Sonde, die sich von der ersten Sonde unterscheidet, beinhaltet, wobei die erste Sonde in der Sequenz mindestens 30 Nukleotide mit der zweiten Sonde überlappt. In manchen Ausführungsformen überlappt die erste Sonde in der Sequenz mindestens 40, 50, 75 oder 100 Nukleotide mit der zweiten Sonde.
  • In manchen Ausführungsformen sind die polynukleotidhaltigen Sonden in mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Paare polynukleotidhaltiger Sonden organisiert. In manchen Ausführungsformen sind die polynukleotidhaltigen Sonden in mindestens 1000, 2000, 2500, 5000, 6000, 7500, 10 000, 15 000, 20 000 oder 25000 Paare polynukleotidhaltiger Sonden organisiert. In manchen Ausführungsformen ist an der Transition ein Uracil oder Thymin positioniert. In manchen Ausführungsformen ist jede der polynukleotidhaltigen Sonden an eine Affinitätseinheit konjugiert, wobei die Affinitätseinheit keine Nukleinsäureaffinitätseinheit ist. In manchen Ausführungsformen beinhaltet die Affinitätseinheit Biotin. In manchen Ausführungsformen beinhaltet jede der polynukleotidhaltigen Sonden weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen. In manchen Ausführungsformen weist der Ködersatz keine Sonden auf, die in der Sequenz homolog oder komplementär zu mehr als 8, 10, 15 oder 20 Fehltreffer-Genomregionen sind.
  • In manchen Ausführungsformen weist der Ködersatz mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 polynukleotidhaltige Sonden auf. In manchen Ausführungsformen weist der Ködersatz mindestens 1000, 2000, 2500, 5000, 10000, 12000, 15000, 20000 oder 25000 polynukleotidhaltige Sonden auf. In manchen Ausführungsformen fehlt es mindestens 3 %, 5 %, 10 %, 15%, 20 %, 30 % oder 40 % aller polynukleotidhaltigen Sonden in dem Ködersatz an G (Guanin). In manchen Ausführungsformen beinhalten die polynukleotidhaltigen Sonden zusammen mindestens 0,01 Millionen, 0,02 Millionen, 0,05 Millionen, 0,2 Millionen, 0,4 Millionen, 0,6 Millionen, 0,8 Millionen, 1 Million, 2 Millionen oder 4 Millionen Nukleotide. In manchen Ausführungsformen beinhaltet jede Sonde der Vielzahl von Polynukleotidsonden mindestens 50, 75, 100 oder 120 Nukleotide. In manchen Ausführungsformen weist jede Sonde der Vielzahl von Polynukleotidsonden weniger als 300, 250, 200 oder 150 Nukleotide auf. In manchen Ausführungsformen weist jede Sonde der Vielzahl von Polynukleotidsonden von 100 bis 150 Nukleotide auf.
  • In manchen Ausführungsformen weisen mindestens 80 %, 85 %, 90 %, 92 %, 95 % oder 98 % der Vielzahl polynukleotidhaltiger Sonden an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, ausgewählt aus den Genomregionen gemäß einer beliebigen der Tabellen 1-24, wobei mindestens 30 % der Genomregionen in Exons oder Introns vorliegen. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, wobei mindestens 15 % der Genomregionen in Exons vorliegen. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, wobei mindestens 20 % der Genomregionen in Exons vorliegen. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, wobei weniger als 10 % der Genomregionen in Zwischengenregionen vorliegen.
  • In manchen Ausführungsformen beinhalten die Ködersätze ferner eine Vielzahl virusspezifischer Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment zu hybridisieren. In manchen Ausführungsformen ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhaltet die Vielzahl virusspezifischer Sonden mindestens 50, 100, 200, 500, 1000, 2000 oder 3000 virusspezifische Sonden. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 2 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 2 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 3 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 3 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 4 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 4 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 5 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 5 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 6 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 6 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 7 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 7 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 8 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 8 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 9 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 9 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 10 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 10 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus einer beliebigen der Tabellen 2-10 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus einer beliebigen der Tabellen 2-10 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 11 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 11 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 12 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 12 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 13 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 13 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 14 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 14 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 15 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 15 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 16 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 16 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 17 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 17 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 18 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 18 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 19 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 19 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 20 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 20 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 21 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 21 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 22 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 22 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 23 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 23 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 24 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 24 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen ist eine Gesamtheit von Polynukleotidsonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer aus einer beliebigen der Tabellen 1-24 ausgewählten Tabelle entsprechen. In manchen Ausführungsformen ist eine Gesamtheit polynukleotidhaltiger Sonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer beliebigen der Tabellen 2-10 oder 16-24 entsprechen. In manchen Ausführungsformen ist eine Gesamtheit polynukleotidhaltiger Sonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in einer beliebigen der Tabellen 1-24 entsprechen. In manchen Ausführungsformen ist eine Gesamtheit polynukleotidhaltiger Sonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen in einer beliebigen der Tabellen 2-10 oder 16-24 entsprechen. In manchen Ausführungsformen variiert die Nukleinsäuresequenz einer jeden der polynukleotidhaltigen Sonden hinsichtlich einer Sequenz innerhalb der Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • Ferner werden hierin Mischungen offenbart, die bisulfitumgewandelte zellfreie DNA und den Ködersatz gemäß einem beliebigen der oben beschriebenen Ködersätze beinhalten.
  • Darüber hinaus werden hierin Verfahren zum Anreichern einer Probe bisulfitumgewandelter zellfreier DNA offenbart, beinhaltend das In-Kontakt-Bringen der Probe bisulfitumgewandelter zellfreier DNA mit dem Ködersatz gemäß einem der Ansprüche 0-0, um eine Mischung zu bilden, und das Anreichern der Probe für einen ersten Satz Genomregionen durch Einfangen durch Hybridisierung.
  • Ferner werden hierin Verfahren zum Bereitstellen von Sequenzinformationen, die über ein Vorliegen oder Nichtvorliegen eines Krebses, ein Krebsstadium oder eine Art von Krebs informieren, offenbart, beinhaltend das Bearbeiten zellfreier DNA von einer biologischen Probe mit einem Desaminierungsmittel, um eine Probe zellfreier DNA zu erzeugen, die desaminierte Nukleotide beinhaltet, und das Anreichern der Probe zellfreier DNA hinsichtlich informationshaltiger Moleküle zellfreier DNA, wobei das Anreichern der Probe zellfreier DNA hinsichtlich informationshaltiger Moleküle zellfreier DNA das In-Kontakt-Bringen der zellfreien DNA mit einer Vielzahl von Sonden beinhaltet, die konfiguriert sind, um an Moleküle zellfreier DNA zu hybridisieren, die Regionen entsprechen, die in einer beliebigen der Tabellen 1-24 identifiziert sind, und das Sequenzieren der angereicherten Moleküle zellfreier DNA, wodurch ein Satz Sequenzlesungen erhalten wird, die über ein Vorliegen oder Nichtvorliegen eines Krebses, ein Krebsstadium oder eine Art von Krebs informieren.
  • In manchen Ausführungsformen beinhaltet die Vielzahl von Sonden eine Vielzahl von Primern und beinhaltet das Anreichern der zellfreien DNA das Amplifizieren (z. B. mittels PCR) der Fragmente zellfreier DNA unter Verwendung der Primer (optional in Abwesenheit von Einfangen durch Hybridisierung). In manchen Ausführungsformen wird die Probe zellfreier DNA durch ein beliebiges geeignetes hierin beschriebenes Verfahren angereichert und beinhaltet die Vielzahl von Sonden die Vielzahl polynukleotidhaltiger Sonden.
  • In manchen Ausführungsformen beinhalten die Verfahren ferner den späteren Schritt des: Bestimmens einer Krebsklassifizierung durch Bewerten des Satzes Sequenzlesungen, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs, ein Krebsstadium, ein Vorliegen oder Nichtvorliegen einer Art von Krebs oder ein Vorliegen oder Nichtvorliegen von mindestens 1, 2, 3, 4 oder 5 unterschiedlichen Arten von Krebs ist.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus einer der Tabellen 1, 11, 12, 13, 14 oder 15 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs oder ein Krebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer der Tabellen 1, 11, 12, 13, 14 oder 15 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 2 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 2 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 3 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 3 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 4 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 4 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 5 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 5 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 6 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 6 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 7 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 7 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 8 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 8 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 9 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 9 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 10 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 10 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 16 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 16 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 17 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 17 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 18 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 18 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 19 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 19 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 20 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 20 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 21 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 21 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 22 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 22 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 23 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 23 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 24 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet das Bestimmen einer Krebsklassifizierung das Erzeugen eines Testmerkmalsvektors auf der Basis des Satzes Sequenzlesungen und das Anwenden des Testmerkmalsvektors auf ein Modell, das durch einen Trainingsprozess mit einem krebsbefallenen Satz Fragmente von einer oder mehreren Trainingspersonen mit Krebs und einem krebsfreien Satz Fragmente von einer oder mehreren Trainingspersonen ohne Krebs erhalten wurde, wobei sowohl der krebsbefallene Satz Fragmente als auch der krebsfreie Satz Fragmente eine Vielzahl von Trainingsfragmenten beinhalten.
  • In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
  • In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; für jedes Trainingsfragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment; für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs und Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs.
  • In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell. In manchen Ausführungsformen beinhalten die Verfahren ferner das Erhalten einer Krebsprobabilität für die Testprobe auf der Basis des Modells und das Vergleichen der Krebsprobabilität mit einer Schwellenprobabilität, um zu bestimmen, ob die Testprobe von einer Person mit Krebs oder ohne Krebs ist. In manchen Ausführungsformen beinhalten die Verfahren ferner das Verabreichen eines Antikrebsmittels an die Person.
  • Ferner werden hierin Verfahren zum Behandeln eines Krebspatienten offenbart, die das Verabreichen eines Antikrebsmittels an eine Person beinhalten, die mit den hierin offenbarten Verfahren als eine krebsbefallene Person identifiziert wurde. In manchen Ausführungsformen ist das Antikrebsmittel ein chemotherapeutisches Mittel, ausgewählt aus der Gruppe, bestehend aus Alkylierungsmitteln, Antimetaboliten, Anthrazyklinen, Antitumorantibiotika, Disruptoren des Zellskeletts (Taxanen), Topoisomerasehemmern, Mitosehemmern, Kortikosteroiden, Kinasehemmern, Nukleotidanaloga und Mitteln auf Platinbasis.
  • Darüber hinaus werden hierin Verfahren zum Bereitstellen von Sequenzinformationen, die über ein Vorliegen oder Nichtvorliegen eines Krebses informieren, offenbart, beinhaltend das In-Kontakt-Bringen zellfreier DNA von einer biologischen Probe mit einem Desaminierungsmittel, um eine Probe zellfreier DNA zu erzeugen, die desaminierte Nukleotide beinhaltet, das Anreichern der zellfreien DNA hinsichtlich einer Vielzahl von DNA-Fragmenten, die zusammen mindestens 100, 200, 500 oder 1000 Genomregionen entsprechen, die aus in einer beliebigen der Tabellen
    1-24 identifizierten Genomregionen ausgewählt sind, und das Sequenzieren der angereicherten Moleküle zellfreier DNA, wodurch ein Satz Sequenzlesungen erhalten wird.
  • In manchen Ausführungsformen involviert das Anreichern der zellfreien DNA nicht das Einfangen durch Hybridisierung. In manchen Ausführungsformen beinhaltet das Anreichern der zellfreien DNA das Amplifizieren der Vielzahl von DNA-Fragmenten. In manchen Ausführungsformen beinhaltet das Amplifizieren der Moleküle zellfreier DNA das In-Kontakt-Bringen der zellfreien DNA mit einer Vielzahl von Sätzen von Primern und das Amplifizieren der Moleküle zellfreier DNA mittels PCR, wobei jeder Primersatz einen Vorwärtsprimer und einen Rückwärtsprimer beinhaltet.
  • Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die mindestens 50 unterschiedliche Paare von Polynukleotidsonden beinhalten, wobei jedes Paar der mindestens 50 Sondenpaare (i) zwei unterschiedliche Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz von 30 oder mehr Nukleotiden zu überlappen, und (ii) konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist, wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
  • In manchen Ausführungsformen beinhaltet die Überlappungssequenz mindestens 40, 50, 75 oder 100 Nukleotide. In manchen Ausführungsformen beinhalten die hierin offenbarten Assay-Panels mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Sondenpaare.
  • Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die mindestens 100 Polynukleotidsonden beinhalten, wobei jede der mindestens 100 Sonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Polynukleotid zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist, wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
  • In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen. In manchen Ausführungsformen ist jede der Sonden auf dem Panel an eine Biotineinheit konjugiert. In manchen Ausführungsformen sind die Trainingsproben Proben, die von einer Vielzahl von Personen stammen, bei denen bestimmt wurde, dass sie Krebs haben. In manchen Ausführungsformen weist eine Genomregion in karzinomatösen Trainingsproben ein anomales Methylierungsmuster auf, wenn ein Methylierungszustandsvektor, der die Genomregion in den karzinomatösen Trainingsproben darstellt, in Referenzproben weniger häufig vorhanden ist als ein Schwellenwert. In manchen Ausführungsformen beträgt der Schwellenwert 0,1, 0,01, 0,001 oder 0,0001.
  • In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen in den karzinomatösen Trainingsproben entweder hypermethyliert oder hypomethyliert. In manchen Ausführungsformen sind mindestens 80, 85, 90, 92, 95 oder 98 % der mindestens fünf Methylierungsstellen in den karzinomatösen Trainingsproben entweder methyliert oder unmethyliert. In manchen Ausführungsformen beinhalten mindestens 3 %, 5 %, 10 %, 15 %, 20 %, 30 % oder 40 % der Sonden auf dem Panel kein G (Guanin). In manchen Ausführungsformen weisen mindestens 80, 85, 90, 92, 95, 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen.
  • In manchen Ausführungsformen ist jede der Sonden auf dem Panel so gestaltet, dass sie Sequenzhomologie oder Sequenzkomplementarität zu weniger als 20, 15, 10 oder 8 Fehltreffer-Genomregionen aufweist. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie identifiziert. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie, kombiniert mit lokaler Alinierung an Beimpfungsorten, identifiziert.
  • In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 100, 200, 300 oder 400 Sonden. In manchen Ausführungsformen beinhalten die mindestens 500 Sondenpaare oder die mindestens 100 Sonden zusammen mindestens 0,01 Millionen, 0,02 Millionen oder 0,05 Millionen Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel mindestens 50, 75, 100 oder 120 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 300, 250, 200 oder 150 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel 100-150 Nukleotide.
  • In manchen Ausführungsformen beinhalten die Assay-Panels ferner eine Vielzahl virusspezifischer Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment von cfDNA zu hybridisieren. In manchen Ausführungsformen ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 50, 100, 200, 500, 1000, 2000 oder 3000 virusspezifische Sonden.
  • In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer oder mehreren der Genomregionen der Tabellen 2-10 oder 16-24 ausgewählt. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen aus einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind.
  • Figurenliste
    • 1A illustriert eine 2x geschindelte Sondengestaltung gemäß einer Ausführungsform, wobei jede Base in einer Zielregion (in dem gepunkteten Rechteck eingefasst) von exakt zwei Sonden abgedeckt wird.
    • 1B illustriert eine Sondengestaltung gemäß einer Ausführungsform, die auf hypomethylierte und/oder hypermethylierte Fragmente in Genomregionen abzielt.
    • 2 ist ein Schema, das einen Prozess zum Erzeugen eines Krebs-Assay-Panels gemäß einer Ausführungsform beschreibt.
    • 3A ist ein Flussdiagramm, das einen Prozess zum Erstellen einer Datenstruktur für eine Kontrollgruppe gemäß einer Ausführungsform beschreibt.
    • 3B ist ein Flussdiagramm, das einen zusätzlichen Schritt des Validierens der Datenstruktur für die Kontrollgruppe von 3A gemäß einer Ausführungsform beschreibt.
    • 4 ist ein Flussdiagramm, das einen Prozess zum Auswählen von Genomregionen zum Gestalten von Sonden für ein Krebs-Assay-Panel gemäß einer Ausführungsform beschreibt.
    • 5 ist eine Illustration einer Beispielberechnung der p-Wert-Punktzahl gemäß einer Ausführungsform.
    • 6A ist ein Flussdiagramm, das einen Prozess zum Trainieren eines Klassifikators auf der Basis hypomethylierter und hypermethylierter Krebs anzeigender Fragmente gemäß einer Ausführungsform beschreibt.
    • 6B ist ein Flussdiagramm, das einen Prozess zum Identifizieren Krebs anzeigender Fragmente, die durch probabilistische Modelle bestimmt werden, gemäß einer Ausführungsform beschreibt.
    • 7A ist ein Flussdiagramm, das einen Prozess zum Sequenzieren eines Fragments zellfreier (cf) DNA gemäß einer Ausführungsform beschreibt.
    • 7B ist eine Illustration des Prozesses von 7A zum Sequenzieren eines Fragments zellfreier (cf) DNA, um einen Methylierungszustandsvektor zu erhalten, gemäß einer Ausführungsform.
    • 8A ist ein Flussdiagramm von Geräten zum Sequenzieren von Nukleinsäureproben gemäß einer Ausführungsform.
    • 8B stellt ein Analysesystem gemäß einer Ausführungsform bereit, das den Methylierungsstatus von cfDNA analysiert.
    • 9 ist eine Grafik der Mengen an DNA-Fragmenten, die an Sonden hybridisieren in Abhängigkeit von der Größe von Überlappungen zwischen den DNA-Fragmenten und den Sonden.
    • 10 vergleicht die Anzahlen Sonden hoher Qualität (hohe Q), niedriger Qualität (niedrige Q) und schlechter Qualität (schlechte Q) unter den Sonden, die auf hypermethylierte Fragmente (Hyper) bzw. hypomethylierte Fragmente (Hypo) abzielen.
    • 11A, 11B und 11C umfassen Grafiken, die das Krebs-log-Quotenverhältnis zeigen, das für verschiedene Krebsarten über unterschiedliche Stadien und Arten von Krebs hinweg bestimmt wurde.
    • 12 fasst die Häufigkeiten von Genomannotationen anvisierter Genomregionen (schwarz) und zufällig ausgewählter Regionen (grau) zusammen.
    • 13A und 13B zeigen drei Grafiken von Daten, die die Konsistenz der Sequenzierung von einer Kontrollgruppe validieren.
    • 14A zeigt die Empfindlichkeit eines Krebsklassifikators, der auf drei unterschiedliche Quellen von Daten - Mscore.testV1, Mscore.testV1.cv und Mscore.testV1.cv.panel - angewandt wurde, bei 95 % Spezifität.
    • 14B zeigt ROC-Kurven (Receiver-Operator Characteristic) für die Leistungsanalyse des Krebsklassifikators an den drei unterschiedlichen Datensätzen.
  • Die folgenden in den Figuren verwendeten Referenzzeichen haben folgende Bedeutung:
    1 methyliert
    2 unmethyliert
    3 binäre Ziele (ziehen beide Arten herab)
    4 semi-binäre Ziele (ziehen eine Art Fragment herab)
    210 Merkmale
    211 Fragmentzählungen
    212 WGBS
    213 Intensität
    214 TCGA
    215 Genom
    216 CpGs
    220 Bezug cfDNA
    221 WGBS-Verfahren 1 - vereintes Modell unter Merkmalserzeugung
    222 WGBS-Verfahren 2 - Begrenzung auf rauscharme Regionen + krebsfreie Klasse
    223 TCGA-Verfahren - Begrenzung auf rauscharme Regionen
    230 Regionenauswahl
    231 allen paarweisen Kombinationen
    232 eine gegenüber allen
    233 Priorisierung von Regionen zur Sondergestaltung unter
    235 Dickdarm
    236 Brust
    501 Berechnen des p-Wertes mit dem Markow-Kettenmodell
    502 <M23, M24, M25, U26>
    503 <M23, M24, M25, M26>
    504 <U23, U24, U25, U26>
    505 Testmethylierungszustandsvektor
    515 Probabilitäten möglicher Methylierungszustandsvektoren
    525 p-Wert des Testmethylierungszustandsvektor
    701 Anfang
    701 Ende
    801 Sequenzlesungen
  • Die Figuren bilden verschiedene Ausführungsformen der vorliegenden Beschreibung nur zu Zwecken der Illustration ab. Ein Fachmann wird aus der folgenden Erörterung ohne Weiteres erkennen, dass alternative Ausführungsformen der hierin illustrierten Strukturen und Verfahren eingesetzt werden können, ohne von den Prinzipien der hierin beschriebenen Beschreibung abzuweichen.
  • DETAILLIERTE BESCHREIBUNG
  • Definitionen
  • Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die Bedeutung, die üblicherweise von einem Fachmann auf dem Gebiet, zu dem diese Beschreibung gehört, verstanden wird. Wie hierin verwendet, haben die folgenden Begriffe die ihnen nachstehend zugeschriebene Bedeutung.
  • Der Begriff „Methylierung“, wie hierin verwendet, bezeichnet einen Prozess, durch den eine Methylgruppe zu einem DNA-Molekül hinzugefügt wird. Zwei der vier Basen von DNA, Cytosin („C“) und Adenin („A“), können methyliert werden. Zum Beispiel kann ein Wasserstoffatom an dem Pyrimidinring einer Cytosinbase in eine Methylgruppe umgewandelt werden, wodurch 5-Methylcytosin gebildet wird. Methylierung tritt tendenziell an Dinukleotidem von Cytosin und Guanin auf, die hierin als „CpG-Stellen“ bezeichnet werden. In anderen Fällen kann Methylierung an einem Cytosin auftreten, das nicht Teil einer CpG-Stelle ist, oder an einem anderen Nukleotid, das nicht Cytosin ist; diese Vorkommnisse sind jedoch seltener. In dieser vorliegenden Offenbarung wird Methylierung der Klarheit halber in Bezug auf CpG-Stellen erörtert. Die hierin beschriebenen Prinzipien sind jedoch gleichermaßen anwendbar für den Nachweis von Methylierung in einem Nicht-CpG-Kontext, umfassend Methylierung von Nicht-Cytosin. Zum Beispiel wurde bei Bakterien-, Pflanzen- und Säugetier-DNA Adenin-Methylierung festgestellt, obgleich dem beträchtlich weniger Beachtung geschenkt wurde.
  • In solchen Ausführungsformen kann der zum Nachweisen von Methylierung verwendete Nasslaborassay von den hierin beschriebenen variieren, wie nach dem Stand der Technik allgemein bekannt ist. Ferner können die Methylierungszustandsvektoren Elemente enthalten, die im Allgemeinen Vektoren von Stellen sind, an denen Methylierung nicht aufgetreten ist (selbst wenn diese Stellen nicht spezifisch CpG-Stellen sind). Mit dieser Substituierung sind die übrigen hierin beschriebenen Prozesse gleich und folglich sind die hierin beschriebenen erfinderischen Konzepte auf diese anderen Formen der Methylierung anwendbar.
  • Der Begriff „Methylierungsstelle“, wie hierin verwendet, bezeichnet eine Stelle in einem DNA-Molekül, an der eine Methylgruppe hinzugefügt werden kann. „CpG“-Stellen sind die üblichsten Methylierungsstellen, aber Methylierungsstellen sind nicht auf CpG-Stellen beschränkt.
  • Zum Beispiel kann DNA-Methylierung an Cytosinen in CHG und CHH auftreten, wobei H Adenin, Cytosin oder Thymin ist. Cytosinmethylierung in Form von 5-Hydroxymethylcytosin (siehe z.B. WO 2010/037001 und WO 2011/127136 , die durch Bezugnahme hierin eingebunden sind) und Merkmale davon können unter Verwendung der hierin offenbarten Verfahren und Prozeduren ebenfalls beurteilt werden.
  • Der Begriff „CpG-Stelle“, wie hierin verwendet, bezeichnet eine Region in einem DNA-Molekül, wo in der linearen Basensequenz entlang der 5'-3'-Richtung auf ein Cytosinnukleotid ein Guaninnukleotid folgt. „CpG“ ist eine Abkürzung für 5'-C-Phosphat-G-3', das heißt Cytosin und Guanin, nur durch eine einzelne Phosphatgruppe getrennt; Phosphat verknüpft in DNA zwei beliebige Nukleotide miteinander. Cytosine in CpG-Dinukleotiden können methyliert werden, sodass sie 5-Methylcytosin bilden.
  • Der Begriff „CpG-Nachweisstelle“, wie hierin verwendet, bezeichnet eine Region in einer Sonde, die konfiguriert ist, um an eine CpG-Stelle eines Ziel-DNA-Moleküls zu hybridisieren. Die CpG-Stelle in dem Ziel-DNA-Molekül kann Cytosin und Guanin, getrennt durch eine einzelne Phosphatgruppe, beinhalten, wobei Cytosin methyliert oder unmethyliert ist. Die CpG-Stelle in dem Ziel-DNA-Molekül kann Uracil und Guanin, getrennt durch eine einzelne Phosphatgruppe, beinhalten, wobei das Uracil durch die Umwandlung von unmethyliertem Cytosin erzeugt ist.
  • Der Begriff „UpG“ ist eine Abkürzung für 5'-U-Phosphat-G-3', das heißt Uracil und Guanin, getrennt durch eine einzelne Phosphatgruppe. UpG kann durch eine Bisulfitbehandlung einer DNA erzeugt werden, die unmethylierte Cytosine in Uracile umwandelt. Cytosine können durch andere nach dem Stand der Technik bekannte Verfahren, wie chemische Modifikation oder Synthese, in Uracile umgewandelt werden.
  • Die Begriffe „hypomethyliert“ oder „hypermethyliert“, wie hierin verwendet, bezeichnen einen Methylierungsstatus eines DNA-Moleküls, das mehrere CpG-Stellen (z. B. mehr als 3, 4, 5, 6, 7, 8, 9, 10 usw.) enthält, wobei ein hoher Prozentsatz der CpG-Stellen (z. B. mehr als 80 %, 85 %, 90 % oder 95 % oder ein beliebiger anderer Prozentsatz innerhalb des Bereichs 50 %-100 %) unmethyliert bzw. methyliert ist.
  • Die Begriffe „Methylierungszustandsvektor“ oder „Methylierungsstatusvektor“, wie hierin verwendet, bezeichnen einen Vektor, der mehrere Elemente enthält, wobei jedes Element den Methylierungsstatus einer Methylierungsstelle in einem DNA-Molekül, das mehrere Methylierungsstellen beinhaltet, in der Reihenfolge anzeigt, in der sie von 5' nach 3' in dem DNA-Molekül vorkommen. Zum Beispiel können < Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 > ... < Ux, Ux+1, Ux+2 > Methylierungsvektoren für DNA-Moleküle sein, die drei Methylierungsstellen beinhalten, wobei M eine methylierte Methylierungsstelle darstellt und U eine unmethylierte Methylierungsstelle darstellt.
  • Der Begriff „abnormales Methylierungsmuster“ oder „anomales Methylierungsmuster“, wie hierin verwendet, bezeichnet einen Methylierungszustandsvektor oder einen Methylierungsstatus eines DNA-Moleküls, das den Methylierungszustandsvektor aufweist, von dem erwartet wird, dass er in einer Probe weniger häufig zu finden ist als ein Schwellenwert. In einer besonderen hierin bereitgestellten Ausführungsform wird der Erwartungsgrad dafür, einen spezifischen Methylierungszustandsvektor in einer gesunden Kontrollgruppe, die gesunde Individuen beinhaltet, zu finden, von einem p-Wert dargestellt. Eine niedrige p-Wert-Punktzahl entspricht dabei im Allgemeinen einem Methylierungszustandsvektor, der im Vergleich mit anderen Methylierungszustandsvektoren innerhalb von Proben von gesunden Individuen in der gesunden Kontrollgruppe relativ unerwartet ist. Eine hohe p-Wert-Punktzahl entspricht im Allgemeinen einem Methylierungszustandsvektor, der im Vergleich mit anderen Methylierungszustandsvektoren, die in Proben von gesunden Individuen in der gesunden Kontrollgruppe zu finden sind, relativ eher erwartet wird. Ein Methylierungszustandsvektor mit einem p-Wert niedriger als ein Schwellenwert (z. B. 0,1, 0,01, 0,001, 0,0001 usw.) kann als ein abnormales Methylierungsmuster definiert werden. Verschiedene nach dem Stand der Technik bekannte Verfahren können verwendet werden, um einen p-Wert oder Erwartungsgrad eines Methylierungsmusters oder eines Methylierungszustandsvektors zu berechnen. Hierin bereitgestellte Beispielverfahren involvieren die Verwendung einer Markow-Kettenprobabilität, die annimmt, dass Methylierungsstatus von CpG-Stellen von Methylierungsstatus benachbarter CpG-Stellen abhängig sind. Hierin bereitgestellte Alternativverfahren berechnen den Erwartungsgrad für das Feststellen eines spezifischen Methylierungszustandsvektors in gesunden Individuen durch Nutzung eines Mischverteilungsmodells, das mehrere Mischungskomponenten umfasst, wobei jedes ein Modell unabhängiger Stellen ist, wobei angenommen wird, dass Methylierung an jeder CpG-Stelle von den Methylierungsstatus an anderen CpG-Stellen unabhängig ist.
  • Hierin bereitgestellte Verfahren verwenden Genomregionen, die ein anomales Methylierungsmuster aufweisen. Es kann bestimmt werden, dass eine Genomregion ein anomales Methylierungsmuster aufweist, wenn cfDNA-Fragmente, die der Genomregion entsprechen oder davon stammen, Methylierungszustandsvektoren aufweisen, die weniger häufig vorkommen als ein Schwellenwert in Referenzproben. Die Referenzproben können Proben von Kontrollpersonen oder gesunden Personen sein. Die Häufigkeit, mit der ein Methylierungszustandsvektor in den Referenzproben vorkommt, kann als eine p-Wert-Punktzahl dargestellt werden. Wenn cfDNA-Fragmente, die der Genomregion entsprechen oder davon stammen, keinen einzelnen, gleichförmigen Methylierungszustandsvektor aufweisen, kann die Genomregion mehrere p-Wert-Punktzahlen für mehrere Methylierungszustandsvektoren aufweisen. In diesem Fall können die mehreren p-Wert-Punktzahlen addiert oder gemittelt werden, bevor sie mit dem Schwellenwert verglichen werden. Verschiedene nach dem Stand der Technik bekannte Verfahren können herangezogen werden, um p-Wert-Punktzahlen zu vergleichen, die der Genomregion und dem Schwellenwert entsprechen, einschließlich, aber nicht beschränkt auf, arithmetisches Mittel, geometrisches Mittel, harmonisches Mittel, Median, Modus usw.
  • Der Begriff „karzinomatöse Probe“, wie hierin verwendet, bezeichnet eine Probe, die genomische DNAs von einem Individuum beinhaltet, bei dem Krebs diagnostiziert wurde. Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs von einer Person mit Krebs sein, sind aber nicht darauf beschränkt. Mit nach dem Stand der Technik bekannten Verfahren, zum Beispiel Bisulfitsequenzierung, können die genomischen DNAs sequenziert werden und kann ihr Methylierungsstatus beurteilt werden. Wenn Genomsequenzen von einer öffentlichen Datenbank (z. B. The Cancer Genome Atlas (TCGA)) erhalten werden oder experimentell durch Sequenzieren eines Genoms von einem Individuum, bei dem Krebs diagnostiziert wurde, erhalten werden, kann „karzinomatöse Probe“ genomische DNAs oder cfDNA-Fragmente mit den Genomsequenzen bezeichnen. Der Begriff „karzinomatöse Proben“ als ein Plural bezeichnet Proben, die genomische DNAs von mehreren Individuen beinhalten, wobei bei jedem Individuum Krebs diagnostiziert wurde. In verschiedenen Ausführungsformen werden karzinomatöse Proben von mehr als 100, 300, 500, 1000, 10000, 20000, 40000, 50 000 oder mehr Individuen, bei denen Krebs diagnostiziert wurde, verwendet.
  • Der Begriff „nicht karzinomatöse Probe“, wie hierin verwendet, bezeichnet eine Probe, die genomische DNAs von einem Individuum beinhaltet, bei dem kein Krebs diagnostiziert wurde. Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs von einer Person ohne Krebs sein, sind aber nicht darauf beschränkt. Mit nach dem Stand der Technik bekannten Verfahren, zum Beispiel Bisulfitsequenzierung, können die genomischen DNAs sequenziert werden und kann ihr Methylierungsstatus beurteilt werden. Wenn Genomsequenzen von einer öffentlichen Datenbank (z. B. The Cancer Genome Atlas (TCGA)) erhalten werden oder experimentell durch Sequenzieren eines Genoms von einem Individuum ohne Krebs erhalten werden, kann „nicht karzinomatöse Probe“ genomische DNAs oder cfDNA-Fragmente mit den Genomsequenzen bezeichnen. Der Begriff „nicht karzinomatöse Proben“ als ein Plural bezeichnet Proben, die genomische DNAs von mehreren Individuen beinhalten, wobei bei jedem Individuum kein Krebs diagnostiziert wurde. In verschiedenen Ausführungsformen werden karzinomatöse Proben von mehr als 100, 300, 500, 1000, 10000, 20000, 40000, 50 000 oder mehr Individuen ohne Krebs verwendet.
  • Der Begriff „Trainingsprobe“, wie hierin verwendet, bezeichnet eine Probe, die verwendet wird, um einen hierin beschriebenen Klassifikator zu trainieren und/oder um eine oder mehrere Genomregionen für die Krebsdiagnose auszuwählen. Die Trainingsproben können genomische DNAs oder eine Modifikation davon von einer oder mehreren gesunden Personen und von einer oder mehreren Personen mit einer Erkrankung zur Diagnose beinhalten (z. B. Krebs, einer spezifischen Art von Krebs, einem spezifischen Krebsstadium usw.). Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs sein, sind aber nicht darauf beschränkt. Mit nach dem Stand der Technik bekannten Verfahren, zum Beispiel Bisulfitsequenzierung, können die genomischen DNAs sequenziert werden und kann ihr Methylierungsstatus beurteilt werden. Wenn Genomsequenzen von einer öffentlichen Datenbank (z. B. The Cancer Genome Atlas (TCGA)) erhalten werden oder experimentell durch Sequenzieren eines Genoms von einem Individuum erhalten werden, kann eine Trainingsprobe genomische DNAs oder cfDNA-Fragmente mit den Genomsequenzen bezeichnen.
  • Der Begriff „Testprobe“, wie hierin verwendet, bezeichnet eine Probe von einer Person, deren Gesundheitszustand unter Verwendung eines hierin beschriebenen Klassifikators und/oder eines hierin beschriebenen Assay-Panels getestet wurde, getestet worden ist oder getestet werden wird. Die Testprobe kann genomische DNAs oder eine Modifikation davon beinhalten. Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs sein, sind aber nicht darauf beschränkt.
  • Der Begriff „Zielgenomregion“, wie hierin verwendet, bezeichnet eine Region in einem Genom, die zum Gestalten einer Sonde, die in ein Assay-Panel aufgenommen werden soll, ausgewählt ist. Die Sonde kann gestaltet sein, um an ein Nukleinsäurefragment zu hybridisieren (und es optional herabzuziehen), das der Zielgenomregion oder einem Fragment davon entspricht oder davon abgeleitet ist. Ein Nukleinsäurefragment, das der Zielgenomregion entspricht oder davon abgeleitet ist, bezeichnet ein durch Abbau, Spaltung oder andere biologische Bearbeitung der Zielgenomregion erzeugtes Nukleinsäurefragment oder ein Nukleinsäurefragment mit einer Sequenz, die zur Zielgenomregion homolog oder komplementär ist.
  • Der Begriff „Fehltreffer-Genomregion“, wie hierin verwendet, bezeichnet eine Region in einem Genom, die nicht zum Gestalten einer Sonde, die in ein Assay-Panel aufgenommen werden soll, ausgewählt ist, aber ausreichend Homologie zu einer Zielgenomregion aufweist, um von einer Sonde, die gestaltet ist, um auf die Zielgenomregion abzuzielen, gebunden und herabgezogen zu werden. In einer Ausführungsform ist die Fehltreffer-Genomregion eine Genomregion, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit einer Sonde aliniert.
  • Die Begriffe „zellfreie Nukleinsäure“, „zellfreie DNA“ oder „cfDNA“ bezeichnen Nukleinsäurefragmente, die im Körper eines Individuums (z. B. im Blutstrom) zirkulieren und von einer oder mehreren gesunden Zellen und/oder von einer oder mehreren Krebszellen stammen. Außerdem kann cfDNA von anderen Quellen, wie Viren, Föten usw., herrühren.
  • Die Begriffe „umgewandelte DNA-Moleküle“, „umgewandelte cfDNA-Moleküle“ oder „durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment“ bezeichnen DNA-Moleküle, die durch Bearbeiten von DNA- oder cfDNA-Molekülen in der Probe in einer chemischen Reaktion zum Zweck des Differenzierens eines methylierten Nukleotids und eines unmethylierten Nukleotids in den DNA- oder cfDNA-Molekülen erhalten werden. Zum Beispiel kann die Probe in einer Ausführungsform mit Bisulfition behandelt werden (z. B. unter Verwendung von Natriumbisulfit), wie nach dem Stand der Technik allgemein bekannt ist, um unmethylierte Cytosine („C“) in Uracile („U“) umzuwandeln. In einer weiteren Ausführungsform wird die Umwandlung unmethylierter Cytosine in Uracile unter Verwendung einer enzymatischen Umwandlungsreaktion, zum Beispiel unter Verwendung einer Cytidindesaminase (wie APOBEC), bewerkstelligt. Nach der Behandlung umfassen umgewandelte DNA-Moleküle oder cfDNA-Moleküle zusätzliche Uracile, die in der ursprünglichen cfDNA-Probe nicht vorhanden waren.
  • Der Begriff „zirkulierende Tumor-DNA“ oder „ctDNA“ bezeichnet Nukleinsäurefragmente, die von Tumorzellen oder anderen Zellarten stammen, die als Resultat biologischer Prozesse, wie Apoptose oder Nekrose absterbender Zellen, in den Blutstrom eines Individuums freigesetzt werden können oder von lebensfähigen Tumorzellen aktiv freigesetzt werden können.
  • Der Begriff „Individuum“ bezeichnet ein menschliches Individuum. Der Begriff „gesundes Individuum“ bezeichnet ein Individuum, bei dem davon ausgegangen wird, dass es keinen Krebs und keine Krankheit hat.
  • Der Begriff „Person“ bezeichnet ein Individuum, dessen DNA analysiert wird. Eine Person kann eine Testperson sein, deren DNA unter Verwendung eines gezielten Panels wie hierin beschrieben bewertet wird, um zu bewerten, ob der Mensch Krebs oder eine andere Krankheit hat. Eine Person kann auch Teil einer Kontrollgruppe sein, die bekanntermaßen keinen Krebs und keine andere Krankheit aufweist. Eine Person kann auch Teil einer von Krebs oder einer anderen Krankheit befallenen Gruppe sein, die bekanntermaßen Krebs oder eine andere Krankheit aufweist. Kontroll- und krebs-/krankheitsbefallene Gruppen können verwendet werden, um beim Gestalten oder Validieren des gezielten Panels zu helfen.
  • Der Begriff „Sequenzlesungen“, wie hierin verwendet, bezeichnet von einer Probe gelesene Nukleotidsequenzen. Sequenzlesungen können durch verschiedene hierin bereitgestellte oder nach dem Stand der Technik bekannte Verfahren erhalten werden.
  • Der Begriff „Sequenzierungstiefe“, wie hierin verwendet, bezeichnet die Zählung der Anzahl Male, die eine gegebene Zielnukleinsäure in einer Probe sequenziert wurde (z. B. die Zählung von Sequenzlesungen in einer gegebenen Zielregion). Erhöhen der Sequenzierungstiefe kann die erforderlichen Mengen des Zielnukleinsäurebedarfs zum Beurteilen eines Krankheitszustands (z. B. Krebs oder Krebsursprungsgewebe) reduzieren.
  • Der Begriff „Ursprungsgewebe“ oder „UG“, wie hierin verwendet, bezeichnet das Organ, die Organgruppe, die Körperregion oder die Zellart in dem/der Krebs entsteht oder seinen Ursprung hat. Die Identifizierung eines Ursprungsgewebes oder einer Krebszellart gestattet typischerweise die Identifizierung der angemessensten nächsten Schritte im Versorgungskontinuum bei Krebs zur weiteren Diagnose, Stadiumsbestimmung und Behandlungsentscheidung.
  • „Eine Gesamtheit von Sonden“ eines Panels oder Ködersatzes oder „eine Gesamtheit polynukleotidhaltiger Sonden“ eines Panels oder Ködersatzes bezeichnet im Allgemeinen alle mit einem spezifizierten Panel oder Ködersatz gelieferten Sonden. Zum Beispiel kann ein Panel oder Ködersatz in manchen Ausführungsformen sowohl (1) Sonden mit hierin spezifizierten Merkmalen (z. B. Sonden zum Binden an Fragmente zellfreier DNA, die Genomregionen, die hierin in einer oder mehreren Tabellen aufgeführt sind, entsprechen oder davon abgeleitet sind) als auch (2) zusätzliche Sonden, die kein solches (keine solchen) Merkmal(e) enthalten, umfassen. Die Gesamtheit von Sonden eines Panels bezeichnet im Allgemeinen alle mit dem Panel oder Ködersatz gelieferten Sonden, einschließlich solcher Sonden, die das spezifizierte Merkmal (die spezifizierten Merkmale) nicht enthalten.
  • Sonstige interpretatorische Konventionen
  • Es versteht sich, dass hierin wiedergegebene Bereiche eine Abkürzung für alle Werte innerhalb des Bereichs, einschließlich der wiedergegebenen Endpunkte, sind. Zum Beispiel versteht sich ein Bereich von 1 bis 50 so, dass er eine beliebige Zahl, Kombination von Zahlen oder einen beliebigen Unterbereich von der Gruppe, bestehend aus 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 und 50, umfasst.
  • Krebs-Assay-Panel
  • In einem ersten Aspekt stellt die vorliegende Beschreibung ein Krebs-Assay-Panel (z. B. einen Ködersatz) bereit, das eine Vielzahl von Sonden oder eine Vielzahl von Sondenpaaren beinhaltet. Die Sonden können polynukleotidhaltige Sonden sein, die spezifisch gestaltet sind, um auf ein oder mehrere NukleinsäureMoleküle abzuzielen, die Genomregionen entsprechen oder davon abgeleitet sind, die zwischen krebsbefallenen und krebsfreien Proben, zwischen unterschiedlichen Krebsursprungsgewebearten, zwischen unterschiedlichen Krebszellarten oder zwischen Proben unterschiedlicher Krebsstadien differenziell methyliert sind, wie durch hierin bereitgestellte Verfahren identifiziert. In manchen Ausführungsformen zielen Sonden auf Genomregionen (oder davon abgeleitete Nukleinsäuremoleküle) ab, die für eine Krebsart, z.B. (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliäres Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs oder (9) Bauchspeicheldrüsenkrebs, spezifische Methylierungsmuster aufweisen. In manchen Ausführungsformen umfasst das Panel Sonden, die auf Genomregionen abzielen, die für eine einzelne Krebsart spezifisch sind. In manchen Ausführungsformen umfasst das Panel für 2, 3, 4, 5, 6, 7, 8 oder 9 oder mehr Krebsarten spezifische Sonden. In manchen Ausführungsformen sind die Zielgenomregionen ausgewählt, um die Klassifizierungsgenauigkeit zu maximieren, vorbehaltlich einer Größenbeschränkung (die durch ein Sequenzierungsbudget und eine gewünschte Tiefe der Sequenzierung bestimmt werden kann).
  • Gestaltungsmerkmale und potenzieller Nutzen eines beispielhaften Krebs-Assay-Panels sind in 2 gezeigt. Zum Gestalten des Krebs-Assay-Panels kann ein Analysesystem Proben sammeln, die verschiedenen betrachteten Ergebnissen entsprechen, z. B. Proben, die bekanntermaßen Krebs aufweisen, Proben, die als gesund betrachtet werden, Proben von einem bekannten Ursprungsgewebe usw. Diese Proben können mit Bisulfit-Ganzgenomsequenzierung (WGBS) bearbeitet oder von einer öffentlichen Datenbank (z. B. TCGA) erhalten werden. Das Analysesystem kann ein beliebiges allgemeines Rechensystem mit einem Computerprozessor und einem computerlesbaren Speichermedium mit Anweisungen zum Ausführen des Computerprozessors, um eine beliebige oder alle in dieser vorliegenden Offenbarung beschriebenen Operationen auszuführen, sein. Mit den Proben bestimmt das Analysesystem für jedes Nukleinsäurefragment in der Probe den Methylierungsstatus an einer oder mehreren CpG-Stellen. Das Analysesystem kann dann auf der Basis von Methylierungsmustern von Nukleinsäurefragmenten Zielgenomregionen auswählen. Ein Ansatz betrachtet die paarweise Unterscheidbarkeit zwischen Paaren von Ergebnissen für Regionen oder spezifischer eine oder mehrere CpG-Stellen. Ein weiterer Ansatz betrachtet die Unterscheidbarkeit für Regionen oder spezifischer eine oder mehrere CpG-Stellen, wenn jedes Ergebnis gegenüber den übrigen Ergebnissen betrachtet wird. Von den ausgewählten Zielgenomregionen mit hoher Unterscheidbarkeitskraft kann das Analysesystem Sonden gestalten, um auf Nukleinsäurefragmente abzuzielen, die die ausgewählten Genomregionen umfassen. Das Analysesystem kann variable Größen des Krebs-Assay-Panels erzeugen, wobei z. B. ein kleines Krebs-Assay-Panel Sonden umfasst, die auf die Genomregion mit dem größten Informationsgehalt abzielen, ein mittelgroßes Krebs-Assay-Panel Sonden von dem kleinen Krebs-Assay-Panel und zusätzlich Sonden, die auf eine zweite Schicht informationshaltiger Genomregionen abzielen, umfasst und ein großes Krebs-Assay-Panel Sonden von dem kleinen und dem mittelgroßen Krebs-Assay-Panel und noch mehr Sonden, die auf eine dritte Schicht informationshaltiger Genomregionen abzielen, umfasst. Mit solchen Krebs-Assay-Panels kann das Analysesystem Klassifikatoren mit verschiedenen Klassifikationstechniken trainieren, um die Wahrscheinlichkeit vorherzusagen, mit der eine Probe ein besonderes Ergebnis, z. B. Krebs, eine spezifische Krebsart, eine andere Störung usw., aufweist.
  • Spezifisch beinhaltet das Krebs-Assay-Panel in manchen Ausführungsformen mindestens 50 Sondenpaare, wobei jedes Paar der mindestens 50 Paare zwei Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz zu überlappen, wobei die Überlappungssequenz eine Sequenz von 30 Nukleotiden beinhaltet und wobei die Sequenz von 30 Nukleotiden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle, die einer oder mehreren Genomregionen entsprechen, erhaltenes modifiziertes Fragment zu hybridisieren, wobei jede der Genomregionen mindestens fünf Methylierungsstellen beinhaltet und wobei die mindestens fünf Methylierungsstellen in Trainingsproben ein anomales Methylierungsmuster aufweisen. Mit anderen Worten, wenn cfDNA-Moleküle in Trainingsproben, die der Genomregion entsprechen, analysiert werden, weisen sie Methylierungsstatusvektoren auf, die weniger häufig vorkommen als ein Schwellenwert in Referenzproben.
  • In weiteren Ausführungsformen beinhaltet das Krebs-Assay-Panel mindestens 500 Sondenpaare, wobei jedes Paar der mindestens 500 Paare zwei Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz zu überlappen, wobei die Überlappungssequenz eine Sequenz von 30 Nukleotiden beinhaltet und wobei die Sequenz von 30 Nukleotiden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle, die einer oder mehreren Genomregionen entsprechen, erhaltenes modifiziertes Fragment zu hybridisieren, wobei jede der Genomregionen mindestens fünf Methylierungsstellen beinhaltet und wobei die mindestens fünf Methylierungsstellen in Trainingsproben ein anomales Methylierungsmuster aufweisen. Wenn cfDNA-Moleküle in Trainingsproben, die der Genomregion entsprechen, analysiert werden, weisen sie wiederum Methylierungsstatusvektoren auf, die weniger häufig vorkommen als ein Schwellenwert in Referenzproben.
  • In einer bevorzugten Ausführungsform sind die mindestens fünf Methylierungsstellen entweder zwischen karzinomatösen und nicht karzinomatösen Proben oder zwischen einem oder mehreren Paaren von Proben von unterschiedlichen Krebsarten differenziell methyliert. In manchen Ausführungsformen beinhalten die umgewandelten cfDNA-Moleküle cfDNA-Moleküle, die behandelt sind (z. B. durch Bisulfitbehandlung), um unmethyliertes C (Cytosin) in U (Uracil) umzuwandeln. In manchen Fällen wird das Uracil weiter zu Thymin umgewandelt (z. B. bei PCR-Amplifikation).
  • Da die Sonden konfiguriert sind, um an ein umgewandeltes DNA- oder cfDNA-Molekül, das einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist, zu hybridisieren, können die Sonden eine Sequenz aufweisen, die sich von der anvisierten Genomregion unterscheidet. Zum Beispiel wird ein DNA-Molekül, das eine unmethylierte CpG-Stelle enthält, umgewandelt, sodass es UpG umfasst, weil unmethylierte Cytosine durch eine Umwandlungsreaktion (z. B. Bisulfitbehandlung) in Uracile umgewandelt werden. Als ein Resultat wird eine Sonde konfiguriert, um an eine Sequenz zu hybridisieren, die UpG anstelle eines natürlich existierenden unmethylierten CpG umfasst. Demgemäß kann eine zu der unmethylierten Stelle komplementäre Stelle in der Sonde CpA anstelle von CpG beinhalten und können manche Sonden, die auf eine hypomethylierte Stelle abzielen, bei der alle Methylierungsstellen unmethyliert sind, keine Guaninbasen (G) aufweisen. In manchen Ausführungsformen fehlt es mindestens 3 %, 5 %, 10 %, 15%, 20 %, 30 % oder 40 % der Sonden an G (Guanin). In manchen Ausführungsformen weisen mindestens 80, 85, 90, 92, 95, 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. Demgemäß weisen in manchen Ausführungsformen polynukleotidhaltige Sonden eine Nukleinsäuresequenz auf, die entweder (1) in der Sequenz mit einer Sequenz innerhalb einer Zielgenomregion (z. B. hierin in den Tabellen 1-24 aufgeführten Zielgenomregionen) identisch ist oder (2) hinsichtlich einer Sequenz innerhalb der Genomregion nur durch eine oder mehrere Transitionen (z. B. Änderungen der Basenzusammensetzung an einer Stelle aufgrund von Bisulfitumwandlung oder anderen Umwandlungstechniken) variiert, wobei jede Transition von der einen oder den mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
  • In manchen Ausführungsformen beinhalten Sonden auf dem Panel weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen. In manchen Ausführungsformen beinhalten Sonden auf dem Panel mehr als 5, 6, 7, 8, 9 oder 10 CpG-Nachweisstellen.
  • In manchen Ausführungsformen sind Sonden an eine Markierung (z. B. eine Nicht-Nukleinsäureaffinitätseinheit), wie eine Biotineinheit, konjugiert.
  • Das Krebs-Assay-Panel kann verwendet werden, um das Vorliegen oder Nichtvorliegen von Krebs im Allgemeinen nachzuweisen und/oder eine Krebsklassifizierung wie Krebsart oder Krebsstadium, wie I, II, III oder IV, oder wo der Krebs vermutlich seinen Ursprung hat, bereitzustellen. Das Panel kann Sonden umfassen, die auf Nukleinsäuren abzielen, die von Genomregionen abgeleitet sind, die zwischen allgemein karzinomatösen (pan-krebsbefallenen) Proben und nicht karzinomatösen Proben oder nur in karzinomatösen Proben mit einer spezifischen Krebsart (z. B. lungenkrebsspezifischen Zielen) differenziell methyliert sind. Zum Beispiel ist in manchen Ausführungsformen ein Krebs-Assay-Panel gestaltet, um von differenziell methylierten Genomregionen in karzinomatösen Proben abgeleitete Nukleinsäuren anzureichern, die auf der Basis von Bisulfitsequenzierungsdaten identifiziert wurden, die von der cfDNA von krebsbefallenen und krebsfreien Individuen erzeugt wurden.
  • Jede der Sonden (oder jedes der Sondenpaare) kann gestaltet sein, um auf von einer oder mehreren Zielgenomregionen abgeleitete Nukleinsäuren abzuzielen. Die Zielgenomregionen werden auf der Basis einiger Kriterien ausgewählt, die gestaltet sind, um die selektive Anreicherung informationshaltiger cfDNA-Fragmente zu erhöhen, während Rauschen und nicht spezifische Bindungen verringert werden.
  • In einem Beispiel kann ein Panel Sonden umfassen, die selektiv an cfDNA-Fragmente, die in karzinomatösen Proben differenziell methyliert sind, hybridisieren (d. h. daran binden) und diese anreichern können. In diesem Fall kann das Sequenzieren der angereicherten Fragmente die Krebsdiagnose betreffende Informationen bereitstellen. Des Weiteren sind die Sonden gestaltet, um auf Genomregionen abzuzielen, bei denen bestimmt wurde, dass sie in krebsbefallenen Proben oder in Proben von bestimmten Gewebearten oder Zellarten ein anomales Methylierungsmuster aufweisen. In einer Ausführungsform sind Sonden gestaltet, um auf Genomregionen abzuzielen, bei denen bestimmt wurde, dass sie bei bestimmten Krebsarten oder Krebsursprungsgeweben hypermethyliert oder hypomethyliert sind, um zusätzliche Selektivität und Spezifität des Nachweises bereitzustellen. In manchen Ausführungsformen beinhaltet ein Panel Sonden, die auf hypomethylierte Fragmente abzielen. In manchen Ausführungsformen beinhaltet ein Panel Sonden, die auf hypermethylierte Fragmente abzielen. In manchen Ausführungsformen beinhaltet ein Panel sowohl einen ersten Satz Sonden, die auf hypermethylierte Fragmente abzielen, als auch einen zweiten Satz Sonden, die auf hypomethylierte Fragmente abzielen (1B). In manchen Ausführungsformen liegt das Verhältnis zwischen dem ersten Satz Sonden, die auf hypermethylierte Fragmente abzielen, und dem zweiten Satz Sonden, die auf hypomethylierte Fragmente abzielen, (Hyper:Hypo-Verhältnis) im Bereich zwischen 0,4 und 2, zwischen 0,5 und 1,8, zwischen 0,5 und 1,6, zwischen 1,4 und 1,6, zwischen 1,2 und 1,4, zwischen 1 und 1,2, zwischen 0,8 und 1, zwischen 0,6 und 0,8 oder zwischen 0,4 und 0,6.
  • Verfahren zum Identifizieren von Genomregionen (d. h. Genomregionen, die anomal methylierte DNA-Moleküle oder zwischen krebsbefallenen und krebsfreien Proben, zwischen unterschiedlichen Krebsursprungsgewebearten, zwischen unterschiedlichen Krebszellarten oder zwischen Proben von unterschiedlichen Krebsstadien differenziell methylierte DNA-Moleküle hervorrufen) werden im Detail in dem Abschnitt mit der Überschrift „Verfahren zum Auswählen von Zielgenomregionen“ bereitgestellt und Verfahren zum Identifizieren anomal methylierter DNA-Moleküle oder -Fragmente, die als Krebs anzeigend identifiziert sind, werden im Detail in dem Unterabschnitt mit der Überschrift „Anomal methylierte Fragmente“ bzw. dem Unterabschnitt mit der Überschrift „Filterung anomal methylierter Fragmente“ bereitgestellt.
  • In einem zweiten Beispiel können Genomregionen ausgewählt werden, wenn die Genomregionen in krebsbefallenen Proben oder Proben mit einer bekannten Krebsart anomal methylierte DNA-Moleküle hervorrufen. Zum Beispiel kann, wie hierin beschrieben, ein an einem Satz Referenzproben (z. B. Proben von einer gesunden Person) trainiertes Markow-Modell verwendet werden, um Genomregionen zu identifizieren, die anomal methylierte DNA-Moleküle (d. h. DNA-Moleküle mit einem Methylierungsmuster unterhalb einer p-Wert-Schwelle) hervorrufen.
  • Jede der Sonden kann auf eine Genomregion abzielen, die mindestens 30 bp, 35 bp, 40 bp, 45 bp, 50 bp, 60 bp, 70 bp, 80 bp, 90 bp, 100 bp oder mehr beinhaltet. In manchen Ausführungsformen können die Genomregionen so ausgewählt sein, dass sie weniger als 30, 25, 20, 15, 12, 10, 8 oder 6 Methylierungsstellen aufweisen.
  • Die Genomregionen können ausgewählt werden, wenn mindestens 80, 85, 90, 92, 95 oder 98 % der mindestens fünf Methylierungs- (z. B. CpG-)Stellen innerhalb der Region in nicht karzinomatösen oder karzinomatösen Proben in krebsbefallenen Proben von einer besonderen Krebsart entweder methyliert oder unmethyliert sind.
  • Genomregionen können ferner gefiltert werden, um nur diejenigen auszuwählen, die wahrscheinlich auf der Basis ihrer Methylierungsmuster informationshaltig sind, zum Beispiel CpG-Stellen, die zwischen karzinomatösen und nicht karzinomatösen Proben differenziell methyliert sind (z. B. abnormal methyliert oder unmethyliert bei krebsbefallen gegenüber krebsfrei), zwischen karzinomatösen Proben eines Ursprungsgewebes und karzinomatösen Proben eines anderen Ursprungsgewebes differenziell methyliert sind, oder CpG-Stellen, die nur in karzinomatösen Proben einer spezifischen Art differenziell methyliert sind. Für die Auswahl kann eine Berechnung hinsichtlich jeder CpG-Stelle oder einer Vielzahl von CpG-Stellen durchgeführt werden. Zum Beispiel wird eine erste Zählung bestimmt, die die Anzahl krebshaltiger Proben (cancer_count) ist, die ein Fragment umfassen, das die CpG überlappt, und wird eine zweite Zählung bestimmt, die die Anzahl von Proben insgesamt ist, die Fragmente enthalten, die diese CpG-Stelle überlappen (total). Genomregionen können auf der Basis von Kriterien ausgewählt werden, die mit der Anzahl krebshaltiger Proben (cancer_count), die ein Krebs anzeigendes Fragment umfassen, das diese CpG-Stelle überlappt, positiv korrelieren und mit der Anzahl Proben insgesamt (total), die Krebs anzeigende Fragmente enthalten, die diese CpG-Stelle überlappen, invers korrelieren. In einer Ausführungsform werden die Anzahl nicht karzinomatöser Proben (nkein-Krebs) und die Anzahl karzinomatöser Proben (nKrebs) mit einem Fragment, das eine CpG-Stelle überlappt, gezählt. Dann wird die Probabilität, dass eine Probe krebsbefallen ist, geschätzt, zum Beispiel als (nKrebs + 1)/(nKrebs + nkein-Krebs + 2).
  • CpG-Stellen können anhand dieser Kennzahl in eine Rangordnung gebracht und gierig zu einem Panel hinzugefügt werden, bis das Panelgrößenbudget erschöpft ist. Der Prozess des Auswählens von Krebs anzeigenden Genomregionen wird in dem Unterabschnitt mit der Überschrift „Krebs anzeigende Genomregionen und Klassifikatoren“ weiter detailliert beschrieben.
  • Abhängig davon, ob der Assay ein Pan-Krebs-Assay oder ein Einzelkrebs-Assay sein soll, oder abhängig davon, welches Maß an Flexibilität gewünscht ist, wenn ausgesucht wird, welche CpG-Stellen zu dem Panel beitragen. Ein Panel zum Diagnostizieren einer spezifischen Krebsart kann unter Verwendung eines ähnlichen Prozesses gestaltet werden. In dieser Ausführungsform wird für jede Krebsart und für jede CpG-Stelle der Informationsgewinn errechnet, um zu bestimmen, ob eine Sonde, die auf diese CpG-Stelle abzielt, aufgenommen werden soll. Der Informationsgewinn kann für Proben mit einer gegebenen Krebsart eines Ursprungsgewebes verglichen mit allen anderen Proben errechnet werden. Zum Beispiel zwei zufällige Variablen, „AF“ und „KA“. „AF“ ist eine binäre Variable, die anzeigt, ob es ein abnormales Fragment gibt, das eine besondere CpG-Stelle in einer besonderen Probe überlappt (ja oder nein). „KA“ ist eine binäre zufällige Variable, die anzeigt, ob der Krebs von einer besonderen Art ist (z. B. Lungenkrebs oder ein anderer als Lungenkrebs). Man kann die wechselseitige Information hinsichtlich „KA“ bei gegebenem „AF“ errechnen. Das heißt, wie viele Einzelinformationen über die Krebsart (im Beispiel Lunge gegenüber nicht Lunge) gewonnen werden, wenn man weiß, ob es ein anomales Fragment gibt, das eine besondere CpG-Stelle überlappt. Dies kann verwendet werden, um eine Rangordnung der CpGs auf der Basis, wie lungenspezifisch sie sind, zu erstellen. Diese Prozedur wird für eine Vielzahl von Krebsarten wiederholt. Wenn eine besondere Region üblicherweise nur bei Lungenkrebs (und nicht anderen Krebsarten oder keinem Krebs) differenziell methyliert ist, würden CpGs in dieser Region tendenziell hohe Informationsgewinne für Lungenkrebs aufweisen. Für jede Krebsart wird eine Rangordnung der CpG-Stellen nach dieser Informationsgewinnkennzahl erstellt und dann werden sie gierig zu einem Panel hinzugefügt, bis das Größenbudget für diese Krebsart erschöpft ist.
  • Weitere Filterung kann durchgeführt werden, um Sonden mit hoher Spezifität für die Anreicherung (d. h. hoher Bindungseffizienz) von Nukleinsäuren, die von anvisierten Genomregionen abgeleitet sind, auszuwählen. Sonden können gefiltert werden, um nicht spezifische Bindung (oder Fehltreffer-Bindung) an Nukleinsäuren, die von nicht anvisierten Genomregionen abgeleitet sind, zu reduzieren. Zum Beispiel können Sonden gefiltert werden, um nur die Sonden auszuwählen, die weniger als einen festgesetzten Schwellenwert von Fehltreffer-Bindungsereignissen aufweisen. In einer Ausführungsform können Sonden mit einem Referenzgenom (z. B. einem menschlichen Referenzgenom) aliniert werden, um Sonden auszuwählen, die über das Genom hinweg mit weniger als einem festgesetzten Schwellenwert von Regionen alinieren. Zum Beispiel können Sonden ausgewählt werden, die über das Referenzgenom hinweg mit weniger als 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9 oder 8 Fehltreffer-Regionen alinieren. In anderen Fällen wird Filterung durchgeführt, um Genomregionen zu entfernen, wenn die Sequenz der Zielgenomregionen mehr als 5, 10, 15, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34 oder 35 Mal in einem Genom vorkommt. Weitere Filterung kann durchgeführt werden, um Zielgenomregionen auszuwählen, wenn eine Sequenz oder ein Satz Sequenzen, die zu 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % oder 99 % zu den Zielgenomregionen homolog sind, weniger als 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9 oder 8 Mal in einem Referenzgenom vorkommt, oder um Zielgenomregionen zu entfernen, wenn die Sequenz oder ein Satz Sequenzen, die zu 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % oder 99 % zu den Zielgenomregionen homolog sind, mehr als 5, 10, 15, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34 oder 35 Mal in einem Referenzgenom vorkommt. Dies ist zum Ausschließen von Sonden, die Fehltreffer-Fragmente, die nicht gewünscht sind und die Effizienz des Assays beeinträchtigen können, herabziehen können.
  • Eine Fragment-Sonden-Überlappung von mindestens 45 bp ermöglichte eine nicht vernachlässigbare Menge an Herabziehen (obwohl diese Anzahl abhängig von den Assay-Details anders sein kann), wie in Beispiel 1 bereitgestellt. Somit sind Sonden in manchen Ausführungsformen mindestens 45 Basenpaare lang. In manchen Ausführungsformen reicht eine Fehlpaarungsrate zwischen der Sonde und den Fragmentsequenzen in der Überlappungsregion von mehr als 10 % aus, um die Bindung und somit die Effizienz des Herabziehens stark zu stören. Daher sind Sequenzen, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit der Sonde alinieren können, Kandidaten für Fehltreffer-Herabziehen. Somit wird in einer Ausführungsform für die Anzahl solcher Regionen eine Punktzahl vergeben. Die besten Sonden weisen eine Punktzahl von 1 auf, was bedeutet, dass sie an nur einem Ort (der beabsichtigten Zielregion) übereinstimmen. Sonden mit einer niedrigen Punktzahl (sagen wir weniger als 5 oder 10) werden akzeptiert, aber alle Sonden über der Punktzahl werden verworfen. Für spezifische Proben können andere Grenzwerte verwendet werden.
  • Sobald die Sonden an DNA-Fragmente, die einer Zielgenomregion entsprechen oder davon abgeleitet sind, hybridisieren und sie fangen werden die hybridisierten Sonde-DNA-Fragment-Zwischenprodukte herabgezogen (oder isoliert) und dann wird die anvisierte DNA amplifiziert und sequenziert. Die Sequenzlesung stellt die Krebsdiagnose betreffende Informationen bereit. Zu diesem Zweck wird ein Panel gestaltet, um eine Vielzahl von Sonden zu umfassen, die Fragmente fangen können, die zusammen die Krebsdiagnose betreffende Informationen bereitstellen können. In manchen Ausführungsformen umfasst ein Panel mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 unterschiedliche Sondenpaare. In weiteren Ausführungsformen umfasst ein Panel mindestens 500, 1000, 2000, 2500, 5000, 6000, 7500, 10000, 15000, 20000, 25000 oder 50000 unterschiedliche Sondenpaare. In manchen Ausführungsformen umfasst ein Panel mindestens 100, 120, 140, 160, 180, 200, 240, 300 oder 400 unterschiedliche Sonden. In weiteren Ausführungsformen umfasst ein Panel mindestens 1000, 2000, 5000, 10000, 12000, 15000, 20000, 30000, 40000, 50000 oder 100 000 unterschiedliche Sonden. Die Vielzahl von Sonden kann zusammen mindestens 0,01 Millionen, 0,02 Millionen, 0,03 Millionen, 0,04 Millionen, 0,05 Millionen, 0,1 Millionen, 0,2 Millionen, 0,4 Millionen, 0,6 Millionen, 0,8 Millionen, 1 Million, 2 Millionen, 3 Millionen, 4 Millionen, 5 Millionen, 6 Millionen, 7 Millionen, 8 Millionen, 9 Millionen oder 10 Millionen Nukleotide beinhalten.
  • Die ausgewählten Zielgenomregionen können sich an verschiedenen Positionen in einem Genom befinden, einschließlich, aber nicht beschränkt auf, Exons, Introns, Zwischengenregionen und anderer Teile. In manchen Ausführungsformen können Sonden, die auf nicht menschliche Genomregionen abzielen, wie diejenigen, die auf Virusgenomregionen abzielen, hinzugefügt werden.
  • Sonden
  • Hierin bereitgestellte Krebs-Assay-Panels (z. B. Ködersätze) können einen Satz Hybridisierungssonden (hierin auch als „Sonden“ bezeichnet) umfassen, die gestaltet sind, um während der Anreicherung Nukleinsäurefragmente von Interesse für den Assay anzuvisieren und herabzuziehen (z. B. durch Einfangen durch Hybridisierung). In manchen Ausführungsformen sind die Sonden gestaltet, um an ein durch Bearbeiten von DNA- oder cfDNA-Molekülen von Proben von einer Person mit Krebs oder einer Person mit einer spezifischen Krebsart erhaltenes modifiziertes Fragment zu hybridisieren und dieses anzureichern. Der Bearbeitungsschritt kann unmethylierte Cytosine (C) in Uracile (U) umwandeln. Die Sonden können so gestaltet sein, dass sie sich an einen (komplementären) Zielstrang des modifizierten Fragments (z. B. DNA oder RNA) anlagern (oder daran hybridisieren). Der Zielstrang kann der „positive“ Strang (z. B. der Strang, der in mRNA transkribiert und anschließend in ein Protein übersetzt wird) oder der komplementäre „negative“ Strang sein. In einer besonderen Ausführungsform umfasst ein Krebs-Assay-Panel Sätze von zwei Sonden, wobei eine Sonde auf den positiven Strang einer Zielgenomregion abzielt und die andere Sonde auf den negativen Strang abzielt.
  • Für jede Zielgenomregion können vier mögliche Sondensequenzen gestaltet werden. DNA-Moleküle, die jeder Zielregion entsprechen oder davon abgeleitet sind, ist doppelsträngig, als solche kann eine Sonde oder ein Sondensatz entweder auf den „positiven“ oder Vorwärtsstrang oder sein umgekehrtes Gegenstück (den „negativen“ Strang) abzielen. Außerdem sind in manchen Ausführungsformen die Sonden oder Sondensätze gestaltet, um DNA-Moleküle oder -Fragmente anzureichern, die bearbeitet wurden, um unmethylierte Cytosine (C) in Uracile (U) umzuwandeln. Da die Sonden oder Sondensätze gestaltet sind, um DNA-Moleküle anzureichern, die den anvisierten Regionen nach der Umwandlung entsprechen oder davon abgeleitet sind, kann die Sequenz der Sonde gestaltet sein, um DNA-Moleküle von Fragmenten anzureichern, bei denen unmethylierte Cs in Us umgewandelt wurden (durch Nutzung von As anstelle von Gs an Stellen, die in DNA-Molekülen oder -Fragmenten, die der anvisierten Region entsprechen oder davon abgeleitet sind, unmethylierte Cytosine sind). In einer Ausführungsform sind Sonden gestaltet, um an DNA-Moleküle oder -Fragmente von Genomregionen zu binden oder hybridisieren, die bekanntermaßen krebsspezifische Methylierungsmuster (z. B. hypermethylierte oder hypomethylierte DNA-Moleküle) enthalten, wodurch krebsspezifische DNA-Moleküle oder -Fragmente angereichert werden. Das Abzielen auf Genomregionen oder krebsspezifische Methylierungsmuster kann vorteilhaft sein, da es gestattet, dass man spezifisch DNA-Moleküle oder -Fragmente anreichert, die als Informationen über Krebs oder Krebsursprungsgewebe enthaltend identifiziert wurden, und somit Sequenzierungsbedarf und Sequenzierungskosten zu senken. In weiteren Ausführungsformen können zwei Sondensequenzen pro einer Zielgenomregion gestaltet sein (eine für jeden DNA-Strang). In noch weiteren Fällen sind Sonden gestaltet, um alle DNA-Moleküle oder -Fragmente anzureichern, die einer anvisierten Region entsprechen oder davon abgeleitet sind (d. h. ungeachtet des Strangs oder Methylierungsstatus). Dies kann sein, weil der Krebsmethylierungsstatus nicht hochgradig methyliert oder unmethyliert ist oder weil die Sonden gestaltet sind, auf kleine Mutationen oder andere Variationen anstatt Methylierungsänderungen abzuzielen, wobei diese anderen Variationen auf ähnliche Weise das Vorliegen oder Nichtvorliegen eines Krebses oder das Vorliegen oder Nichtvorliegen eines Krebses mit einem oder mehreren Ursprungsgeweben anzeigen. In diesem Fall können alle vier möglichen Sondensequenzen pro einer Zielgenomregion umfasst werden.
  • Zum Beispiel können Krebs-Assay-Panels, wie Ködersätze zum Einfangen durch Hybridisierung, polynukleotidhaltige Sonden umfassen, die jeweils eine Nukleinsäuresequenz umfassen, die entweder (1) in der Sequenz mit einer Sequenz innerhalb einer Genomregion (z. B. einer in einer beliebigen der Tabellen 1-24 aufgelisteten Genomregion) identisch ist oder (2) hinsichtlich einer Sequenz in der Genomregion nur durch eine oder mehrere Transitionen variiert, wobei jede Transition von der einen oder den mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. Sonden, die in der Sequenz mit einer Sequenz innerhalb einer Genomregion identisch sind, können verwendet werden, um an „vollständig methylierte“ Moleküle zellfreier DNA zu binden, in denen keine der Cytosinbasen zu Uracil umgewandelt ist. Umgekehrt können Sonden mit einer Nukleinsäuresequenz, die hinsichtlich einer Sequenz in der Genomregion nur durch eine oder mehrere Transitionen (z. B. an CpG-Stellen) variiert, verwendet werden, um an teilweise oder vollständig methylierte Sonden zu binden, bei denen eines oder mehrere (z. B. alle) der Cytosine unmethyliert sind und anschließend durch ein Desaminierungsmittel wie Natriumbisulfit zu Uracil umgewandelt werden.
  • Die Sonden können Längen im Bereich von mehreren 10, Hunderten, Zweihunderten oder Dreihunderten Basenpaaren haben. Die Sonden können mindestens 45, 50, 75, 100 oder 120 Nukleotide beinhalten. Die Sonden können weniger als 300, 250, 200 oder 150 Nukleotide beinhalten. In einer Ausführungsform beinhalten die Sonden 45-200 oder 100-150 Nukleotide. In einer besonderen Ausführungsform beinhalten die Sonden 120 Nukleotide.
  • Die Sonden sind gestaltet, um den Methylierungsstatus von Zielgenomregionen (z. B. des menschlichen oder eines anderen Organismus) zu analysieren, die im Verdacht stehen, mit dem Vorliegen oder Nichtvorliegen von Krebs im Allgemeinen, dem Vorliegen oder Nichtvorliegen bestimmter Krebsarten, dem Krebsstadium oder dem Vorliegen oder Nichtvorliegen anderer Arten von Krankheit zu korrelieren.
  • Des Weiteren können die Sonden gestaltet sein, um effektiv an cfDNA-Fragmente, die eine Zielgenomregion enthalten, zu hybridisieren (oder zu binden) und diese herabzuziehen. In manchen Ausführungsformen sind die Sonden gestaltet, um überlappende Abschnitte einer Zielgenomregion abzudecken, sodass jede Sonde hinsichtlich der Abdeckung „geschindelt“ ist, sodass jede Sonde hinsichtlich der Abdeckung mindestens teilweise mit einer anderen Sonde in der Bibliothek überlappt (1A). In solchen Ausführungsformen enthält das Panel mehrere Sondenpaare, wobei jedes Paar mindestens zwei Sonden beinhaltet, die einander mit einer Überlappungssequenz von mindestens 25, 30, 35, 40, 45, 50, 60, 70, 75 oder 100 Nukleotiden überlappen. In manchen Ausführungsformen kann die Überlappungssequenz gestaltet sein, um mit einer Zielgenomregion (oder einer umgewandelten Version davon) Sequenzhomologie aufzuweisen oder dazu komplementär zu sein, somit kann ein Nukleotidfragment, das der Zielgenomregion entspricht oder davon abgeleitet ist oder sie enthält, von mindestens einer der Sonden gebunden und herabgezogen werden.
  • In einer Ausführungsform wird eine 2× geschindelte Gestaltung, wie in 1A illustriert, verwendet, wobei jede Base in einer Zielregion (das gepunktete Rechteck in 1A) von zwei Sonden überlappt wird. Zum Beispiel kann jedes Sondenpaar eine erste Sonde und eine zweite Sonde, die sich sowohl von der ersten Sonde unterscheidet als auch in der Sequenz mit der ersten Sonde überlappt (z. B. Überlappung um mindestens 30 Nukleotide), umfassen. Dies wird getan, um sicherzustellen, dass selbst relativ kurze DNA-Fragmente (z. B. 100 bp), die einer anvisierten Region entsprechen oder davon abgeleitet sind, garantiert eine wesentliche Überlappung (oder Sequenzkomplementarität) mit mindestens einer Sonde aufweisen, was das effiziente Einfangen des relativ kurzen DNA-Fragments gestattet. Zum Beispiel würde ein DNA-Fragment von 100 bp, das eine Zielregion von 30 bp überlappt, eine Überlappung von mindestens 75 bp mit mindestens einer der zwei Sonden aufweisen. Andere Stufen des Schindelns sind möglich. Zum Beispiel können, um die Zielgröße und Einfangeffizienz zu erhöhen, mehr Sonden über eine gegebene Zielregion geschindelt sein. Um das Einfangen eines jeglichen DNA-Fragments, das die Zielregion überlappt, zu erhöhen, können die Sonden so gestaltet sein, dass sie sich auf einer Seite oder beiden Seiten über die Enden der Zielregion hinaus erstrecken. Zum Beispiel können Sonden gestaltet sein, um sich um mindestens 50 bp, 60 bp, 70 bp, 80 bp, 90 oder 100 bp über die Enden einer Zielregion von 30 bp hinaus zu erstrecken.
  • In einer Ausführungsform beträgt die kleinste Zielgenomregion 30 bp. Wenn eine neue Zielregion zu dem Panel hinzugefügt wird (auf der Basis der gierigen Auswahl, wie oben beschrieben), kann die neue Zielregion von 30 bp eine spezifische CpG-Stelle von Interesse als Mittelpunkt haben. Dann wird überprüft, ob jeder Rand dieses neuen Ziels nah genug zu anderen Zielen ist, sodass sie zusammengeführt werden können. Dies basiert auf einem Parameter „Zusammenführungsabstand“, der standardmäßig 200 bp betragen kann, aber justiert werden kann. Dies gestattet es, dass nahe, aber distinkte Zielregionen mit überlappenden Sonden angereichert werden. In Abhängigkeit davon, ob links oder recht von dem neuen Ziel Ziele existieren, die nah genug sind, kann das neue Ziel mit nichts zusammengeführt werden (wodurch die Anzahl Panelziele um eins erhöht wird), mit nur einem Ziel entweder links oder rechts zusammengeführt werden (wodurch die Anzahl Panelziele nicht geändert wird) oder mit existierenden Zielen sowohl links als auch rechts zusammengeführt werden (wodurch die Anzahl Panelziele um eins reduziert wird).
  • Ein hierin bereitgestelltes Assay-Panel beinhaltet eine Vielzahl von Polynukleotidsonden, die konfiguriert sind, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist. Anders ausgedrückt können die polynukleotidhaltigen Sonden eines Ködersatzes als Gruppe einer Anzahl Genomregionen entsprechen. In manchen Ausführungsformen befinden sich mindestens 15 %, 20 %, 30 % oder 40 % der Genomregionen in Exons oder Introns. In manchen Ausführungsformen befinden sich mindestens 5 %, 10 %, 15 %, 20 %, 30 % oder 40 % der Genomregionen in Exons. In manchen Ausführungsformen befinden sich weniger als 5 %, 10 %, 15 %, 20 %, 25 % oder 30 % der Genomregionen in Zwischengenregionen.
  • In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer oder mehreren der Tabellen 1-24 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer oder mehreren der Tabellen 2-10 oder 16-24 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 1 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 2 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 3 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 4 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 5 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 6 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 7 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 8 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 9 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 10 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 11 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 12 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 13 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 14 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 15 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 16 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 17 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 18 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 19 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 20 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 21 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 22 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 23 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 24 ausgewählt.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 1-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 1 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 2 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 3 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 4 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 5 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 6 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 7 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 8 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 9 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 10 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 11 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 12 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 16 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 17 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 18 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 19 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 20 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 21 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 22 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 23 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 24 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in einer oder mehreren der Tabellen 1 oder 11-15 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen aus einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15 000 Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
  • In manchen Ausführungsformen beinhaltet ein Assay-Panel ferner virusspezifische Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment zu hybridisieren. Die Sonden können konfiguriert sein, um an ein Virusgenomfragment von einem mit Krebs assoziierten Virusstamm zu hybridisieren. In mancher Ausführungsform ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhaltet das Panel mindestens 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500 oder 3000 virusspezifische Sonden.
  • Verfahren zum Auswählen von Zielgenomregionen
  • In einem weiteren Aspekt werden Verfahren zum Auswählen von Zielgenomregionen zur Diagnose von Krebs und/oder einem Ursprungsgewebe bereitgestellt. Die anvisierten Genomregionen können verwendet werden, um Sonden für ein Krebs-Assay-Panel zu gestalten und anzufertigen. Methylierungsstatus von DNA- oder cfDNA-Molekülen, die den Zielgenomregionen entsprechen oder davon abgeleitet sind, können durch gezielte Sequenzierung unter Verwendung des Krebs-Assay-Panels untersucht werden. Alternative Verfahren, zum Beispiel mittels WGBS oder anderer nach dem Stand der Technik bekannter Verfahren, können ebenfalls umgesetzt werden, um den Methylierungsstatus von DNA-Molekülen oder -Fragmenten, die den Zielgenomregionen entsprechen oder davon abgeleitet sind, nachzuweisen.
  • Probenbearbeitung
  • Zum Auswählen von Zielgenomregionen werden einer oder mehreren Personen entnommene Nukleinsäureproben (DNA oder RNA) verwendet. In der vorliegenden Offenbarung können DNA und RNA austauschbar verwendet werden, sofern nicht anders angezeigt. Das heißt, die hierin beschriebenen Ausführungsformen können auf beide Arten von Nukleinsäuresequenzen, DNA und RNA, anwendbar sein. Jedoch können sich die hierin beschriebenen Beispiele zum Zweck der Klarheit und Erläuterung auf DNA konzentrieren. Die Probe kann ein beliebiger Teilsatz des menschlichen Genoms, einschließlich des ganzen Genoms, sein. Die Probe kann Blut, Plasma, Serum, Urin, Kot, Speichel, andere Arten von Körperflüssigkeiten oder eine beliebige Kombination davon umfassen. In manchen Ausführungsformen können Verfahren zum Abnehmen einer Blutprobe (z. B. Spritze oder Stich in den Finger) weniger invasiv sein als Prozeduren zum Erhalten einer Gewebebiopsie, die eine Operation erfordern können. Die entnommene Probe kann cfDNA und/oder ctDNA beinhalten. Bei gesunden Individuen kann der menschliche Körper cfDNA und sonstigen Zellabfall auf natürliche Weise beseitigen. Wenn eine Person einen Krebs oder eine Krankheit aufweist, kann ctDNA in einer entnommenen Probe in einem nachweisbaren Niveau für die Diagnose vorhanden sein.
  • Die cfDNA-Fragmente werden behandelt, um unmethylierte Cytosine in Uracile umzuwandeln. In einer Ausführungsform verwendet das Verfahren eine Bisulfitbehandlung der DNA, welche die unmethylierten Cytosine in Uracile umwandelt, ohne die methylierten Cytosine umzuwandeln. Zum Beispiel wird zur Bisulfitumwandlung ein kommerzielles Kit wie das EZ DNA Methylation™ - Gold, EZ DNA Methylation™ - Direct oder ein Kit EZ DNA Methylation™ - Lightning (verfügbar von Zymo Research Corp (Irvine, CA)) verwendet. In einer weiteren Ausführungsform wird die Umwandlung unmethylierter Cytosine in Uracile unter Verwendung einer enzymatischen Reaktion bewerkstelligt. Zum Beispiel kann die Umwandlung ein kommerziell verfügbares Kit zur Umwandlung unmethylierter Cytosine in Uracile, wie APOBEC-Seq (NEBiolabs, Ipswich, MA), verwenden.
  • Mit den umgewandelten cfDNA-Fragmenten wird eine Sequenzierbibliothek vorbereitet. In einem ersten Schritt wird unter Verwendung einer ssDNA-Ligationsreaktion ein ssDNA-Adapter zu dem 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls hinzugefügt. In einer Ausführungsform verwendet die ssDNA-Ligationsreaktion CircLigase II (Epicentre), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren, wobei das 5'-Ende des Adapters phosphoryliert ist und die bisulfitumgewandelte ssDNA dephosphoryliert wurde (d. h. das 3'-Ende weist eine Hydroxylgruppe auf). In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion Thermostable 5' AppDNA/RNA Ligase (verfügbar von New England BioLabs (Ipswich, MA)), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In diesem Beispiel ist der erste UMI-Adapter am 5'-Ende adenyliert und am 3'-Ende blockiert. In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion eine T4 RNA Ligase (verfügbar von New England BioLabs), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In einem zweiten Schritt wird in einer Verlängerungsreaktion ein zweiter Strang DNA synthetisiert. Zum Beispiel wird ein Verlängerungsprimer, der an eine von dem ssDNA-Adapter umfasste Primersequenz hybridisiert, in einer Primerverlängerungsreaktion verwendet, um ein doppelsträngiges bisulfitumgewandeltes DNA-Molekül zu bilden. Optional verwendet die Verlängerungsreaktion in einer Ausführungsform ein Enzym, das in der Lage ist, durch Uracilreste in dem bisulfitumgewandelten Matrizenstrang hinwegzulesen. Optional wird in einem dritten Schritt ein dsDNA-Adapter zu dem doppelsträngigen bisulfitumgewandelten DNA-Molekül hinzugefügt. Schließlich wird die doppelsträngige bisulfitumgewandelte DNA amplifiziert, um Sequenzieradapter hinzuzufügen. Zum Beispiel wird PCR-Amplifikation unter Verwendung eines Vorwärtsprimers, der eine P5-Sequenz umfasst, und eines Rückwärtsprimers, der eine P7-Sequenz umfasst, verwendet, um P5- und P7-Sequenzen zu der bisulfitumgewandelten DNA hinzuzufügen. Optional können während der Bibliotheksvorbereitung eindeutige molekulare Identifikatoren (UMI) durch Adapterligation zu den Nukleinsäuremolekülen (z. B. DNA-Molekülen) hinzugefügt werden. Die UMIs sind kurze Nukleinsäuresequenzen (z. B. 4-10 Basenpaare), die während der Adapterligation an Enden von DNA-Fragmenten hinzugefügt werden. In manchen Ausführungsformen sind UMIs degenerierte Basenpaare, die als eine eindeutige Markierung dienen, die verwendet werden kann, um Sequenzlesungen zu identifizieren, die von einem spezifischen DNA-Fragment stammen. Während der auf die Adapterligation folgenden PCR-Amplifikation werden die UMIs zusammen mit dem angefügten DNA-Fragment repliziert, was eine Weise bereitstellt, in einer nachgelagerten Analyse Sequenzlesungen zu identifizieren, die von demselben Ursprungsfragment herrühren.
  • Von den DNA-Sequenzen werden Sequenzlesungen erzeugt. Das Verfahren kann Techniken der Sequenzierung der nächsten Generation (NGS) umfassen, einschließlich Synthesetechnologie (Illumina), Pyrosequenzierung (454 Life Sciences), lonen-Halbleiter-Technologie (Ion-Torrent-Sequenzierung), Einzelmolekül-Echtzeitsequenzierung (Pacific Biosciences), Sequenzierung durch Ligation (SOLiD-Sequenzierung), Nanoporensequenzierung (Oxford Nanopore Technologies) oder Endpaar-Sequenzierung. In manchen Ausführungsformen wird massive Parallelsequenzierung unter Verwendung von Sequenzierung durch Synthese mit reversiblen Farbstoffterminatoren durchgeführt.
  • Von den Sequenzlesungen werden dann Methylierungszustandsvektoren erzeugt. Um das zu tun, wird eine Sequenzlesung mit einem Referenzgenom aliniert. Das Referenzgenom hilft, den Kontext bereitzustellen bezüglich von welcher Position in einem menschlichen Genom die Fragment-cfDNA stammt. In einem vereinfachten Beispiel wird die Sequenzlesung so aliniert, dass die drei CpG-Stellen mit den CpG-Stellen 23, 24 und 25 korrelieren (willkürliche, zur bequemen Beschreibung verwendete Referenzidentifikatoren). Nach der Alinierung gibt es Informationen sowohl über den Methylierungsstatus aller CpG-Stellen in dem cfDNA-Fragment als auch darüber, welche Position im menschlichen Genom die CpG-Stellen abbilden. Mit dem Methylierungsstatus und Ort kann ein Methylierungszustandsvektor für das cfDNA-Fragment erzeugt werden.
  • Erzeugung einer Datenstruktur
  • 3A ist ein Flussdiagramm, das einen Prozess 300 zum Erzeugen einer Datenstruktur für eine gesunde Kontrollgruppe (z. B. Referenzproben) gemäß einer Ausführungsform beschreibt. Um die Datenstruktur einer gesunden Kontrollgruppe zu erstellen, erhält das Analysesystem Informationen bezüglich des Methylierungsstatus einer Vielzahl von CpG-Stellen in Sequenzlesungen, die von einer Vielzahl von DNA-Molekülen oder -Fragmenten von einer Vielzahl gesunder Personen abgeleitet sind. Das hierin bereitgestellte Verfahren zum Erstellen einer Datenstruktur einer gesunden Kontrollgruppe kann auf ähnliche Weise für Personen mit Krebs, Personen mit Krebs eines Ursprungsgewebes, Personen mit einer bekannten Krebsart oder Personen mit einem anderen bekannten Krankheitzustand durchgeführt werden. Für jedes DNA-Molekül oder -Fragment wird ein Methylierungszustandsvektor erzeugt, zum Beispiel über den Prozess 100.
  • Mit dem Methylierungszustandsvektor eines jeden Fragments unterteilt 310 das Analysesystem den Methylierungszustandsvektor in Abfolgen von CpG-Stellen. In einer Ausführungsform unterteilt 310 das Analysesystem den Methylierungszustandsvektor so, dass die resultierenden Abfolgen alle weniger als eine gegebene Länge betragen. Zum Beispiel kann ein Methylierungszustandsvektor der Länge 11 in Abfolgen einer Länge von weniger als oder gleich 3 unterteilt werden, was in 9 Abfolgen der Länge 3, 10 Abfolgen der Länge 2 und 11 Abfolgen der Länge 1 resultieren würde. In einem weiteren Beispiel würde ein Methylierungszustandsvektor der Länge 7, der in Abfolgen einer Länge von weniger als oder gleich 4 unterteilt wird, in 4 Abfolgen der Länge 4, 5 Abfolgen der Länge 3, 6 Abfolgen der Länge 2 und 7 Abfolgen der Länge 1 resultieren. Wenn ein Methylierungszustandsvektor kürzer als die spezifizierte Abfolgenlänge ist oder dieselbe Länge aufweist, dann kann der Methylierungszustandsvektor in eine einzige Abfolge, die alle CpG-Stellen des Vektors enthält, umgewandelt werden.
  • Das Analysesystem gleicht die Abfolgen ab 320, indem es für jede mögliche CpG-Stelle und Möglichkeit von Methylierungszuständen in dem Vektor die Anzahl in der Kontrollgruppe vorhandener Abfolgen zählt, die die spezifizierte CpG-Stelle als erste CpG-Stelle in der Abfolge aufweisen und die diese Möglichkeit von Methylierungszuständen aufweisen. Zum Beispiel gibt es an einer gegebenen CpG-Stelle und bei Betrachtung von Abfolgenlängen von 3 2^3 oder 8 mögliche Abfolgenkonfigurationen. An dieser gegebenen CpG-Stelle gleicht das Analysesystem für jede der 8 möglichen Abfolgenkonfigurationen ab 320, wie viele Vorkommnisse einer jeden Möglichkeit für den Methylierungszustandsvektor in der Kontrollgruppe erscheinen. Unter Fortsetzung dieses Beispiels kann dies das Abgleichen der folgenden Quantitäten involvieren: < Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 > ... < Ux, Ux+1, Ux+2 > für jede Anfangs-CpG-Stelle x in dem Referenzgenom. Das Analysesystem erstellt 330 die Datenstruktur, die die abgeglichenen Zählungen für jede Anfangs-CpG-Stelle und Abfolgemöglichkeit speichert.
  • Es gibt einige Vorteile davon, eine Obergrenze für die Abfolgenlänge festzusetzen. Erstens kann, abhängig von der maximalen Länge für eine Abfolge, die Größe der von dem Analysesystem erstellten Datenstruktur dramatisch an Größe zunehmen. Zum Beispiel bedeutet eine maximale Abfolgenlänge von 4, dass jede CpG-Stelle zuallermindest 24 Anzahlen aufweist, die für Abfolgen der Länge 4 abgeglichen werden müssen. Erhöhen der maximalen Abfolgenlänge auf 5 bedeutet, dass jede CpG-Stelle weitere 24 oder 16 abzugleichende Anzahlen aufweist, wodurch die abzugleichenden Anzahlen (und der erforderliche Computerarbeitsspeicher) verglichen mit der vorherigen Abfolgenlänge verdoppelt wird. Reduzieren der Abfolgengröße hilft, die Erstellung und Leistung (z. B. Verwendung für späteren Zugriff wie unten beschrieben) der Datenstruktur im Hinblick auf Rechenarbeit und Speicher vernünftig zu halten. Zweitens ist eine statistische Überlegung dazu, die maximale Abfolgenlänge zu beschränken, die übermäßige Auslegung nachgelagerter Modelle, die die Abfolgenzählungen verwenden, zu vermeiden. Wenn lange Abfolgen von CpG-Stellen biologisch keine starke Wirkung auf das Ergebnis (z. B. Vorhersagen von Anomalität, die das Vorliegen von Krebs vorhersagt) aufweisen, kann das Berechnen von Probabilitäten auf der Basis großer Abfolgen von CpG-Stellen problematisch sein, da es eine signifikante Menge an Daten erfordert, die möglicherweise nicht verfügbar sind und somit zu spärlich wären, als dass ein Modell angemessen funktionieren würde. Zum Beispiel würde das Berechnen einer Probabilität von Anomalität/Krebs bedingt auf den vorherigen 100 CpG-Stellen in der Datenstruktur Zählungen von Abfolgen der Länge 100 erfordern, von denen manche idealerweise exakt mit den vorherigen 100 Methylierungszuständen übereinstimmen. Wenn nur spärliche Zählungen von Abfolgen der Länge 100 verfügbar sind, gibt es unzureichende Daten, um zu bestimmen, ob eine gegebene Abfolge der Länge 100 in einer Testprobe anomal ist oder nicht.
  • Validierung der Datenstruktur
  • Sobald die Datenstruktur erstellt wurde, kann das Analysesystem versuchen, die Datenstruktur und/oder jegliche nachgelagerten Modelle, die die Datenstruktur verwenden, zu validieren 340. Eine Art der Validierung überprüft die Konsistenz innerhalb der Datenstruktur der Kontrollgruppe. Wenn es zum Beispiel bei den Personen, Proben und/oder Fragmenten innerhalb einer Kontrollgruppe irgendwelche Ausreißer gibt, dann kann das Analysesystem verschiedene Berechnungen durchführen, um zu bestimmen, ob irgendwelche Fragmente aus einer dieser Kategorien ausgeschlossen werden sollen. In einem repräsentativen Beispiel kann die gesunde Kontrollgruppe eine Probe enthalten, die nicht diagnostiziert, aber karzinomatös ist, sodass die Probe anomal methylierte Fragmente enthält. Diese erste Art der Validierung stellt sicher, dass potenzielle karzinomatöse Proben aus der gesunden Kontrollgruppe entfernt werden, sodass sie die Reinheit der Kontrollgruppe nicht beeinträchtigen.
  • Eine zweite Art der Validierung überprüft das probabilistische Modell, das verwendet wird, um mit den Zählungen der Datenstruktur selbst (d. h. von der gesunden Kontrollgruppe) p-Werte zu berechnen. Ein Prozess zur p-Wert-Berechnung ist unten in Zusammenhang mit 5 beschrieben. Sobald das Analysesystem einen p-Wert für die Methylierungszustandsvektoren in der Validierungsgruppe erzeugt, stellt das Analysesystem eine kumulative Dichtefunktion (CDF) mit den p-Werten auf. Mit der CDF kann das Analysesystem verschiedene Berechnungen an der CDF durchführen, um die Datenstruktur der Kontrollgruppe zu validieren. Ein Test verwendet die Tatsache, dass die CDF idealerweise bei oder unterhalb einer identischen Abbildung liegen sollte, sodass CDF(x)≤x. Im Gegensatz dazu deckt die Lage über der identischen Abbildung einen Mangel innerhalb des für die Datenstruktur der Kontrollgruppe verwendeten probabilistischen Modells auf. Wenn zum Beispiel 1/100 der Fragmente eine p-Wert-Punktzahl von 1/1000 aufweist, was bedeutet CDF(1/1000) = 1/100 > 1/1000, dann scheitert die zweite Art der Validierung, was ein Problem mit dem probabilistischen Modell anzeigt.
  • Eine dritte Art der Validierung verwendet einen gesunden Satz Validierungsproben, getrennt von denen, die zum Aufstellen der Datenstruktur verwendet wurden, wodurch getestet wird, ob die Datenstruktur ordnungsgemäß aufgestellt ist und das Modell funktioniert. Ein Beispielprozess zum Ausführen dieser Art der Validierung ist unten in Zusammenhang mit 3B beschrieben. Die dritte Art der Validierung kann quantifizieren, wie gut die gesunde Kontrollgruppe die Verteilung gesunder Proben verallgemeinert. Wenn die dritte Art der Validierung scheitert, dann lässt sich die gesunde Kontrollgruppe nicht gut auf die gesunde Verteilung verallgemeinern.
  • Eine vierte Art der Validierung testet mit Proben von einer nicht gesunden Validierungsgruppe. Das Analysesystem berechnet p-Werte und stellt die CDF für die nicht gesunde Validierungsgruppe auf. Mit einer nicht gesunden Validierungsgruppe erwartet das Analysesystem, für mindestens manche Proben CDF(x) > x zu sehen, oder anders ausgedrückt das Gegenteil von dem, was bei der zweiten Art der Validierung und der dritten Art der Validierung mit der gesunden Kontrollgruppe und der gesunden Validierungsgruppe erwartet wurde. Wenn die vierte Art der Validierung scheitert, dann zeigt dies an, dass das Modell die Anomalität, zu deren Identifizierung es gestaltet wurde, nicht angemessen identifiziert.
  • 3B ist ein Flussdiagramm, das den zusätzlichen Schritt 340 des Validierens der Datenstruktur für die Kontrollgruppe von 3A gemäß einer Ausführungsform beschreibt. In dieser Ausführungsform des Schritts 340 des Validierens der Datenstruktur führt das Analysesystem die vierte Art von Validierungtest wie oben beschrieben durch, der eine Validierungsgruppe mit einer unterstellten ähnlichen Zusammensetzung von Personen, Proben und/oder Fragmenten wie die Kontrollgruppe nutzt. Wenn zum Beispiel das Analysesystem für die Kontrollgruppe gesunde Personen ohne Krebs auswählte, dann verwendet das Analysesystem in der Validierungsgruppe ebenfalls gesunde Personen ohne Krebs.
  • Das Analysesystem nimmt die Validierungsgruppe und erzeugt 100 einen Satz Methylierungszustandsvektoren, wie in 3A beschrieben. Das Analysesystem führt für jeden Methylierungszustandsvektor aus der Validierungsgruppe eine p-Wert-Berechnung durch. Der Prozess der p-Wert-Berechnung wird in Zusammenhang mit 4 und 5 näher beschrieben. Für jede Möglichkeit von Methylierungszustandsvektor berechnet das Analysesystem anhand der Datenstruktur der Kontrollgruppe eine Probabilität. Sobald die Probabilitäten für die Möglichkeiten von Methylierungszustandsvektoren berechnet sind, berechnet 350 das Analysesystem auf der Basis der berechneten Probabilitäten eine p-Wert-Punktzahl für diesen Methylierungszustandsvektor. Die p-Wert-Punktzahl stellt einen Erwartungsgrad dafür dar, diesen spezifischen Methylierungszustandsvektor und andere mögliche Methylierungszustandsvektoren mit noch geringeren Probabilitäten in der Kontrollgruppe zu finden. Eine niedrige p-Wert-Punktzahl entspricht dabei im Allgemeinen einem Methylierungszustandsvektor, der im Vergleich mit anderen Methylierungszustandsvektoren innerhalb der Kontrollgruppe relativ unerwartet ist, wobei eine hohe p-Wert-Punktzahl im Allgemeinen einem Methylierungszustandsvektor entspricht, der im Vergleich mit anderen in der Kontrollgruppe zu findenden Methylierungszustandsvektoren relativ eher erwartet wird. Sobald das Analysesystem eine p-Wert-Punktzahl für die Methylierungszustandsvektoren in der Validierungsgruppe erzeugt, stellt das Analysesystem eine kumulative Dichtefunktion (CDF) mit den p-Wert-Punktzahlen von der Validierungsgruppe auf 360. Das Analysesystem validiert 370 die Konsistenz der CDF, wie oben in der vierten Art von Validierungstests beschrieben.
  • Anomal methylierte Fragmente
  • 4 ist ein Flussdiagramm, das einen Prozess 400 zum Identifizieren anomal methylierter Fragmente von einer Person gemäß einer Ausführungsform beschreibt. Ein Beispiel für Prozess 400 ist in 5 visuell illustriert und wird unteren in der Beschreibung von 4 weiter beschrieben. In Prozess 400 erzeugt 100 das Analysesystem Methylierungszustandsvektoren von cfDNA-Fragmenten der Person. Das Analysesystem geht mit jedem Methylierungszustandsvektor wie folgt um.
  • In manchen Ausführungsformen filtert das Analysesystem Fragmente mit unbestimmten Zuständen an einer oder mehreren CpG-Stellen. In solchen Ausführungsformen setzt das Analysesystem ein Vorhersagemodell um, um zum Filtern Fragmente zu identifizieren, die wahrscheinlich kein anomales Methylierungsmuster aufweisen. Für ein Probenfragment berechnet das Vorhersagemodell eine Probenprobabilität, dass der Methylierungszustandsvektor des Probenfragments auftritt, im Vergleich mit der Datenstruktur der gesunden Kontrollgruppe. Das Vorhersagemodell nimmt eine zufällige Stichprobe eines Teilsatzes möglicher Methylierungszustandsvektoren, die die CpG-Stellen im Methylierungszustandsvektor des Probenfragments einschließen. Das Vorhersagemodell berechnet für jeden der möglichen Methylierungszustandsvektoren in der Stichprobe eine entsprechende Probabilität. Probabilitätsberechnungen für den Methylierungszustandsvektor des Fragments und die Stichprobe möglicher Methylierungszustandsvektoren können gemäß einem Markow-Kettenmodell berechnet werden, wie unten in dem Unterabschnitt mit der Überschrift „Berechnung der p-Wert-Punktzahl“ beschrieben wird. Das Vorhersagemodell berechnet einen Anteil der Stichprobe möglicher Methylierungszustandsvektoren, der Probabilitäten von kleiner als oder gleich der Probenprobabilität entspricht. Das Vorhersagemodell erzeugt auf der Basis des berechneten Anteils eine geschätzte p-Wert-Punktzahl für das Fragment. Das Vorhersagemodell kann Fragmente filtern, die p-Wert-Punktzahlen über einem Schwellenwert entsprechen, und Fragmente behalten, die p-Wert-Punktzahlen unter dem Schwellenwert entsprechen.
  • In zusätzlichen Ausführungsformen kann das Vorhersagemodell eine Konfidenzprobabilität berechnen, die von dem Vorhersagemodell verwendet wird, um zu bestimmen, wann die Stichprobennahme fortzusetzen oder wann sie zu beenden ist. Die Konfidenzprobabilität beschreibt auf der Basis der geschätzten p-Wert-Punktzahl und der Probabilitäten der Stichprobe möglicher Methylierungszustandsvektoren, mit welcher Wahrscheinlichkeit die wahre p-Wert-Punktzahl des Fragments (die Berechnung der wahren p-Wert-Punktzahl wird unten in dem Unterabschnitt mit der Überschrift „Berechnung der p-Wert-Punktzahl“ näher beschrieben) unter einem Schwellenwert liegt. Das Vorhersagemodell kann eine Stichprobe eines oder mehrerer zusätzlicher möglicher Methylierungszustandsvektoren nehmen, während es iterativ die geschätzte p-Wert-Punktzahl und die Konfidenzprobabilität berechnet. Das Vorhersagemodell kann dann die Stichprobennahme beenden, wenn die Konfidenzprobabilität über einem Konfidenzschwellenwert liegt.
  • Für einen gegebenen Methylierungszustandsvektor zählt das Analysesystem alle Möglichkeiten von Methylierungszustandsvektoren auf 410, die die gleiche Anfangs-CpG-Stelle und die gleiche Länge (d. h. Satz CpG-Stellen) im Methylierungszustandsvektor aufweisen. Da jeder festgestellte Methylierungszustand methyliert oder unmethyliert sein kann, gibt es nur zwei mögliche Zustände an jeder CpG-Stelle, und somit hängt die Zählung distinkter Möglichkeiten von Methylierungszustandsvektoren von einer 2er-Potenz ab, sodass ein Methylierungszustandsvektor der Länge n mit 2n Möglichkeiten von Methylierungszustandsvektoren assoziiert wäre. Bei Methylierungszustandsvektoren, die für eine oder mehrere CpG-Stellen einen unbestimmten Zustand umfassen, kann das Analysesystem Möglichkeiten von Methylierungszustandsvektoren aufzählen 410, die nur CpG-Stellen in Betracht ziehen, die einen festgestellten Zustand aufweisen.
  • Das Analysesystem berechnet 420 die Probabilität, mit der eine jede Möglichkeit von Methylierungszustandsvektor für die identifizierte Anfangs-CpG-Stelle/Länge des Methylierungszustandsvektors festgestellt wird, indem es auf die Datenstruktur für die gesunde Kontrollgruppe zugreift. In einer Ausführungsform verwendet das Berechnen der Probabilität, eine gegebene Möglichkeit festzustellen, eine Markow-Kettenprobabilität, um die Berechnung der vereinten Probabilitäten zu modellieren, was unten mit Bezug auf 5 detaillierter beschrieben wird. In weiteren Ausführungsformen werden andere Berechnungsverfahren als Markow-Kettenprobabilitäten verwendet, um die Probabilität, mit der eine jede Möglichkeit von Methylierungszustandsvektor festgestellt wird, zu bestimmen.
  • Das Analysesystem berechnet 430 unter Verwendung der berechneten Probabilitäten für jede Möglichkeit eine p-Wert-Punktzahl für den Methylierungszustandsvektor. In einer Ausführungsform umfasst dies das Identifizieren der berechneten Probabilität, die der Möglichkeit entspricht, die mit dem fraglichen Methylierungszustandsvektor übereinstimmt. Spezifisch ist dies die Möglichkeit, die den gleichen Satz CpG-Stellen oder auf ähnliche Weise die gleiche Anfangs-CpG-Stelle und Länge wie der Methylierungszustandsvektor aufweist. Das Analysesystem addiert die berechneten Probabilitäten jeglicher Möglichkeiten mit einer Probabilität von weniger als oder gleich der identifizierten Probabilität, um die p-Wert-Punktzahl zu erzeugen.
  • Dieser p-Wert stellt die Probabilität dar, den Methylierungszustandsvektor des Fragments oder andere Methylierungszustandsvektoren, die in der gesunden Kontrollgruppe noch weniger wahrscheinlich sind, festzustellen. Eine niedrige p-Wert-Punktzahl entspricht dadurch im Allgemeinen einem Methylierungszustandsvektor, der bei einer gesunden Person selten ist und der verursacht, dass das Fragment als anomal methyliert, relativ zur gesunden Kontrollgruppe, gekennzeichnet wird. Eine hohe p-Wert-Punktzahl bezieht sich im Allgemeinen auf einen Methylierungszustandsvektor, dessen Vorhandensein, in einem relativen Sinn, bei einer gesunden Person erwartet wird. Wenn zum Beispiel die gesunde Kontrollgruppe eine nicht karzinomatöse Gruppe ist, zeigt ein niedriger p-Wert an, dass das Fragment relativ zu der krebsfreien Gruppe anomal methyliert ist und daher möglicherweise das Vorliegen von Krebs bei der Testperson anzeigt.
  • Wie oben berechnet das Analysesystem p-Wert-Punktzahlen für jeden von einer Vielzahl von Methylierungszustandsvektoren, die jeweils ein cfDNA-Fragment in der Testprobe darstellen. Um zu identifizieren, welche der Fragmente anomal methyliert sind, kann das Analysesystem den Satz Methylierungszustandsvektoren auf der Basis der p-Wert-Punktzahlen filtern 440. In einer Ausführungsform wird das Filtern durch Vergleichen der p-Wert-Punktzahlen mit einem Schwellenwert und Zurückhalten nur derjenigen Fragmente unter dem Schwellenwert durchgeführt. Diese Schwellen-p-Wert-Punktzahl könnte in der Größenordnung von 0,1, 0,01, 0,001, 0,0001 oder ähnlich liegen.
  • Gemäß Beispielresultaten von dem Prozess 400 kann das Analysesystem für Teilnehmer ohne Krebs im Training einen Median (Bereich) von 2800 (1500-12 000) Fragmenten mit anomalen Methylierungsmustern und für Teilnehmer mit Krebs im Training einen Median (Bereich) von 3000 (1200-220 000) Fragmenten mit anomalen Methylierungsmustern ergeben. Diese gefilterten Sätze von Fragmenten mit anomalen Methylierungsmustern können für die nachgelagerten Analysen verwendet werden, wie unten in dem Unterabschnitt mit der Überschrift „Filterung anomal methylierter Fragmente“ beschrieben.
  • Berechnung der p-Wert-Punktzahl
  • 5 ist eine Illustration 500 einer Beispielberechnung der p-Wert-Punktzahl gemäß einer Ausführungsform. Um eine p-Wert-Punktzahl für einen gegebenen Methylierungszustandsvektor 505 zu berechnen, nimmt das Analysesystem den Methylierungszustandsvektor 505 und zählt Möglichkeiten von Methylierungszustandsvektoren auf 410. In diesem illustrativen Beispiel ist der Testmethylierungszustandsvektor 505 < M23, M24, M25, U26 >. Da die Länge des Testmethylierungszustandsvektors 505 4 beträgt, gibt es 24 Möglichkeiten von Methylierungszustandsvektoren, die die CpG-Stellen 23-26 einschließen. In einem allgemeinen Beispiel beträgt die Anzahl Möglichkeiten von Methylierungszustandsvektoren 2n, wobei n die Länge des Testmethylierungszustandsvektors oder alternativ die Länge des Gleitfensters (unten näher beschrieben) ist.
  • Das Analysesystem berechnet 420 Probabilitäten 515 für die aufgezählten Möglichkeiten von Methylierungszustandsvektoren. Da Methylierung bedingungsmäßig vom Methylierungszustand von CpG-Stellen in der Nähe abhängt, besteht eine Weise zum Berechnen der Probabilität, eine gegebene Möglichkeit von Methylierungszustandsvektor festzustellen, darin, das Markow-Kettenmodell zu verwenden. Im Allgemeinen weist ein Methylierungszustandsvektor wie <S1, S2 ... Sn>, wobei S den Methylierungszustand, ob methyliert (als M angegeben), unmethyliert (als U angegeben) oder unbestimmt (als I angegeben), angibt, eine vereinte Probabilität auf, die unter Verwendung der Kettenregel von Probabilitäten erweitert werden kann als: P ( < S 1 , S 2 S n > ) = P ( S n | S 1 , S n 1 ) * P ( S n 1 | S 1 , S n 2 ) * * ( S 2 | S 1 ) * P ( S 1 )
    Figure DE202019005627U1_0001
  • Das Markow-Kettenmodell kann verwendet werden, um die Berechnung der bedingten Probabilitäten jeder Möglichkeit effizienter zu machen. In einer Ausführungsform wählt das Analysesystem eine Markow-Kettenordnung k aus, die dem entspricht, wie viele vorherige CpG-Stellen in dem Vektor (oder Fenster) bei der Berechnung der bedingten Probabilität zu betrachten sind, sodass die bedingte Probabilität als P(Sn | S1 ... Sn-1) ~ P(Sn | Sn-k-2 ... Sn-1) modelliert wird.
  • Um jede Markow-modellierte Probabilität für eine Möglichkeit von Methylierungszustandsvektor zu berechnen, greift das Analysesystem auf die Datenstruktur der Kontrollgruppe, spezifisch die Zählungen verschiedener Abfolgen von CpG-Stellen und Zuständen, zu. Um P(Mn | Sn-k-2 ... Sn-1) zu berechnen, nimmt das Analysesystem ein Verhältnis der gespeicherten Zählung der Anzahl Abfolgen aus der Datenstruktur, die mit < Sn-k-2 ... Sn-1, Mn > übereinstimmen, geteilt durch die Summe der gespeicherten Zählung der Anzahl Abfolgen aus der Datenstruktur, die mit < Sn-k-2 ... Sn-1, Mn > und < Sn-k-2 ... Sn-1, Un > übereinstimmen. Somit ist P(Mn | Sn-k-2 ... Sn-1) ein berechnetes Verhältnis mit der Form: # von < S n k 2 S n 1 , M n > # von < S n k 2 S n 1 , M n > + # von < S n k 2 S n 1 , U n >
    Figure DE202019005627U1_0002
  • Die Berechnung kann außerdem eine Glättung der Zählungen durch Anwenden einer A-priori-Verteilung umsetzen. In einer Ausführungsform ist die A-priori-Verteilung eine gleichförmige A-priori-Verteilung wie bei Laplace-Glättung. Als ein Beispiel dafür wird eine Konstante zum Zähler der obigen Gleichung hinzugezählt und wird eine andere Konstante (z. B. zweimal die Konstante im Zähler) zum Nenner hinzugezählt. In weiteren Ausführungsformen wird eine algorithmische Technik wie Kneser-Ney-Glättung verwendet.
  • In der Illustration werden die oben angegebenen Formeln auf den Testmethylierungszustandsvektor 505, der die Stellen 23-26 abdeckt, angewandt. Sobald die berechneten Probabilitäten 515 abgeschlossen sind, berechnet 430 das Analysesystem eine p-Wert-Punktzahl 525, die die Probabilitäten addiert, die kleiner als oder gleich der Probabilität der Möglichkeit eines Methylierungszustandsvektors sind, der mit dem Testmethylierungszustandsvektor 505 übereinstimmt.
  • In Ausführungsformen mit unbestimmten Zuständen, kann das Analysesystem eine p-Wert-Punktzahl berechnen, wobei es CpG-Stellen mit unbestimmtem Zustand im Methylierungszustandsvektor eines Fragments aufaddiert. Das Analysesystem identifiziert alle Möglichkeiten, die mit allen Methylierungszuständen des Methylierungszustandsvektors außer den unbestimmten Zuständen Konsens aufweisen. Das Analysesystem kann dem Methylierungszustandsvektor die Probabilität als eine Summe der Probabilitäten der identifizierten Möglichkeiten zuordnen. Als ein Beispiel berechnet das Analysesystem eine Probabilität eines Methylierungszustandsvektors von < M1, I2, U3 > als eine Summe der Probabilitäten für die Möglichkeiten von Methylierungszustandsvektoren von < M1, M2, U3 > und < M1, U2, U3 >, da der Methylierungszustand für die CpG-Stellen 1 und 3 festgestellt und im Konsens mit den Methylierungszuständen des Fragments an den CpG-Stellen 1 und 3 ist. Dieses Verfahren des Aufaddierens von CpG-Stellen mit unbestimmtem Zustand verwendet Berechnungen von Probabilitäten von Möglichkeiten bis zu 2i, wobei i die Anzahl unbestimmter Zustände im Methylierungszustandsvektor angibt. In zusätzlichen Ausführungsformen kann ein dynamischer Programmieralgorithmus umgesetzt werden, um die Probabilität eines Methylierungszustandsvektors mit einem oder mehreren unbestimmten Zuständen zu berechnen. Auf vorteilhafte Weise operiert der dynamische Programmieralgorithmus in linearer Rechenzeit.
  • In einer Ausführungsform kann die Rechenlast des Berechnens von Probabilitäten und/oder p-Wert-Punktzahlen durch Zwischenspeichern mindestens mancher Berechnungen weiter reduziert werden. Zum Beispiel kann das Analysesystem Berechnungen von Probabilitäten für Möglichkeiten von Methylierungszustandsvektoren (oder Fenstern davon) in flüchtigem oder dauerhaftem Arbeitsspeicher zwischenspeichern. Wenn andere Fragmente die gleichen CpG-Stellen aufweisen, gestattet das Zwischenspeichern der Möglichkeitsprobabilitäten die effiziente Berechnung von p-Wert-Punktzahlen ohne die zugrunde liegenden Möglichkeitsprobabilitäten erneut berechnen zu müssen. Gleichermaßen kann das Analysesystem für jede der Möglichkeiten von Methylierungszustandsvektoren, die mit einem Satz CpG-Stellen von einem Vektor (oder Fenster davon) assoziiert sind, p-Wert-Punktzahlen berechnen. Das Analysesystem kann die p-Wert-Punktzahlen zur Verwendung beim Bestimmen der p-Wert-Punktzahlen anderer Fragmente, die die gleichen CpG-Stellen umfassen, zwischenspeichern. Im Allgemeinen können die p-Wert-Punktzahlen von Möglichkeiten von Methylierungszustandsvektoren mit den gleichen CpG-Stellen verwendet werden, um die p-Wert-Punktzahl einer anderen der Möglichkeiten von dem gleichen Satz CpG-Stellen zu bestimmen.
  • Gleitfenster
  • In einer Ausführungsform verwendet 435 das Analysesystem ein Gleitfenster, um Möglichkeiten von Methylierungszustandsvektoren zu bestimmen und p-Werte zu berechnen. Anstatt für ganze Methylierungszustandsvektoren Möglichkeiten aufzuzählen und p-Werte zu berechnen, zählt das Analysesystem nur für ein Fenster sequenzieller CpG-Stellen Möglichkeiten auf und berechnet p-Werte, wobei das Fenster von kürzerer Länge (von CpG-Stellen) ist als mindestens manche Fragmente (anderenfalls würde das Fenster keinem Zweck dienen). Die Fensterlänge kann statisch, benutzerbestimmt, dynamisch oder auf andere Weise ausgewählt sein.
  • Beim Berechnen von p-Werten für einen Methylierungszustandsvektor, der größer als das Fenster ist, identifiziert das Fenster den sequenziellen Satz CpG-Stellen von dem Vektor innerhalb des Fensters, beginnend bei der ersten CpG-Stelle im Vektor. Das Analysesystem berechnet eine p-Wert-Punktzahl für das Fenster, das die erste CpG-Stelle umfasst. Das Analysesystem „schiebt“ das Fenster dann zur zweiten CpG-Stelle in dem Vektor und berechnet eine weitere p-Wert-Punktzahl für das zweite Fenster. Somit erzeugt jeder Methylierungszustandsvektor für eine Fenstergröße 1 und eine Methylierungsvektorlänge m m-/+1 p-Wert-Punktzahlen. Nach Abschließen der p-Wert-Berechnungen für jeden Abschnitt des Vektors wird die niedrigste p-Wert-Punktzahl von allen Gleitfenstern als die Gesamt-p-Wert-Punktzahl für den Methylierungszustandsvektor genommen. In einer weiteren Ausführungsform aggregiert das Analysesystem die p-Wert-Punktzahlen für die Methylierungszustandsvektoren, um eine Gesamt-p-Wert-Punktzahl zu erzeugen.
  • Verwendung des Gleitfensters hilft, die Anzahl aufgezählter Möglichkeiten von Methylierungszustandsvektoren und ihre entsprechenden Probabilitätsberechnungen, die anderenfalls durchgeführt werden müssten, zu reduzieren. Beispielprobabilitätsberechnungen sind in 5 gezeigt, doch im Allgemeinen nimmt die Anzahl Möglichkeiten von Methylierungszustandsvektoren mit der Größe des Methylierungszustandsvektors exponentiell um einen Faktor von 2 zu. Um ein realistisches Beispiel zu geben: Es ist möglich, dass Fragmente aufwärts von 54 CpG-Stellen aufweisen. Anstatt Probabilitäten für 2^54 (~ 1,8 × 10^16) Möglichkeiten zu errechnen, um eine einzige p-Wert-Punktzahl zu erzeugen, kann dass Analysesystem stattdessen (zum Beispiel) ein Fenster der Größe 5 verwenden, was in 50 p-Wert-Berechnungen für jedes der 50 Fenster des Methylierungszustandsvektors für dieses Fragment resultiert. Jede der 50 Berechnungen zählt 2^5 (32) Möglichkeiten von Methylierungszustandsvektoren auf, was insgesamt in 50 × 2^5 (1,6 × 10^3) Probabilitätsberechnungen resultiert. Dies resultiert in einer gewaltigen Reduzierung von durchzuführenden Berechnungen, ohne bedeutsame Auswirkung auf die genaue Identifizierung anomaler Fragmente. Dieser zusätzliche Schritt kann auch angewandt werden, wenn die Kontrollgruppe mit den Methylierungszustandsvektoren der Validierungsgruppe validiert 240 wird.
  • Filterung anomal methylierter Fragmente
  • In manchen Ausführungsformen wird ein zusätzlicher Filterungsschritt durchgeführt, um Genomregionen zu identifizieren, die zur Diagnose von Krebs oder einer Art oder eines Stadiums von Krebs anvisiert werden können.
  • Hypomethylierte und hypermethylierte Fragmente
  • Eine zusätzliche Analyse identifiziert 450 hypomethylierte Fragmente oder hypermethylierte Fragmente aus dem gefilterten Satz. Fragmente, die hypomethyliert bzw. hypermethyliert sind, können als Fragmente einer bestimmten Länge von CpG-Stellen (z. B. mehr als 3, 4, 5, 6, 7, 8, 9, 10 usw.) mit einem hohen Prozentsatz methylierter CpG-Stellen (z. B. mehr als 80 %, 85 %, 90 % oder 95 % oder ein beliebiger anderer Prozentsatz innerhalb des Bereichs von 50 %-100 %) bzw. einem hohen Prozentsatz unmethylierter CpG-Stellen (z. B. mehr als 80 %, 85 %, 90 % oder 95 % oder einem beliebigen anderen Prozentsatz innerhalb des Bereichs von 50 %-100 %) definiert werden. 6A-B, unten beschrieben, illustriert einen Beispielprozess zum Identifizieren dieser hypomethylierten oder hypermethylierten Abschnitte eines Genoms auf der Basis des Satzes anomal methylierter Fragmente.
  • Probabilistische Modelle
  • Gemäß einem zweiten Verfahren werden anomale Fragmente unter Nutzung probabilistischer Modelle von Methylierungsmustern weiter gefiltert, die entweder an Krebsart oder krebsfreie Art angepasst sind. Es berechnet das log-Quotenverhältnis, dass die anomalen Fragmente von einer Person Krebs im Allgemeinen oder besondere Arten von Krebs anzeigen. Das log-Quotenverhältnis kann berechnet werden, indem der log eines Verhältnisses einer Probabilität, karzinomatös zu sein, zu einer Probabilität, nicht karzinomatös zu sein (d. h. eins minus die Probabilität, karzinomatös zu sein), beide wie durch das angewandte 460 Klassifikationsmodell bestimmt, genommen wird.
  • In einer Ausführungsform des Aufteilens des Genoms teilt das Analysesystem das Genom in mehreren Stadien in Regionen auf. In einem ersten Stadium trennt das Analysesystem das Genom in Blöcke von CpG-Stellen. Jeder Block ist definiert, wenn es eine Trennung zwischen zwei benachbarten CpG-Stellen gibt, die einen gewissen Schwellenwert überschreitet, z. B. größer als 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp oder 1000 bp. Von jedem Block unterteilt das Analysesystem in einem zweiten Stadium jeden Block in Regionen einer bestimmten Länge, z. B. 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1000 bp, 1100 bp, 1200 bp, 1300 bp, 1400 bp oder 1500 bp. Das Analysesystem kann ferner benachbarte Regionen um einen Prozentsatz der Länge, z. B. 10 %, 20 %, 30 %, 40 %, 50 % oder 60 %, überlappen lassen.
  • Das Analysesystem analysiert für jede Region von DNA-Fragmenten abgeleitete Sequenzlesungen. Das Analysesystem kann Proben von Gewebe und/oder cfDNA mit hohem Signal bearbeiten. cfDNA-Proben mit hohem Signal können nach einem binären Klassifikationsmodell, nach Krebsstadium oder nach einer anderen Kennzahl bestimmt werden.
  • Für jede Krebsart und krebsfrei passt das Analysesystem ein getrenntes probabilistisches Modell für Fragmente an. In einem Beispiel ist jedes probabilistische Modell ein Mischverteilungsmodell, das eine Kombination einer Vielzahl von Mischungskomponenten beinhaltet, wobei jede Mischungskomponente ein Modell unabhängiger Stellen ist, bei dem angenommen wird, dass Methylierung an jeder CpG-Stelle unabhängig vom Methylierungsstatus an anderen CpG-Stellen ist.
  • In alternativen Ausführungsformen wird die Berechnung hinsichtlich jeder CpG-Stelle durchgeführt. Spezifisch wird eine erste Zählung bestimmt, die die Anzahl karzinomatöser Proben (cancer_count) ist, die ein anomal methyliertes DNA-Fragment umfassen, das dieses CpG überlappt, und wird eine zweite Zählung bestimmt, die die Gesamtanzahl Proben ist, die Fragmente enthalten, die diese CpG (total) in dem Satz überlappen. Genomregionen können auf der Basis der Anzahlen ausgewählt werden, zum Beispiel auf der Basis von Kriterien, die mit der Anzahl karzinomatöser Proben (cancer_count), die ein DNA-Fragment umfassen, das diese CpG überlappt, positiv korrelieren und mit der Gesamtanzahl Proben, die Fragmente enthalten, die diese CpG (total) in dem Satz überlappen, invers korrelieren.
  • Das Analysesystem kann ferner log-Wahrscheinlichkeitsverhältnisse („R“) für ein Fragment berechnen, die eine Wahrscheinlichkeit dafür anzeigen, dass das Fragment Krebs anzeigt, unter Betrachtung der verschiedenen Krebsarten mit den angepassten probabilistischen Modellen für jede Krebsart und die krebsfreie Art oder für ein Krebsursprungsgewebe. Die zwei Probabilitäten können von probabilistischen Modellen genommen werden, die für jede der Krebsarten und die krebsfreie Art angepasst sind, wobei die probabilistischen Modelle definiert sind, um eine Wahrscheinlichkeit zu berechnen, dass ein Methylierungsmuster in einem Fragment festgestellt wird, wobei jede der Krebsarten und die krebsfreie Art gegeben sind. Zum Beispiel können die probabilistischen Modelle für jede der Krebsarten und die krebsfreie Art angepasst sein.
  • 11A-11C zeigen Grafiken verschiedener Krebsarten von verschiedenen Personen über unterschiedliche Stadien hinweg, wobei das log-Quotenverhältnis der anomalen Fragmente, die gemäß dem mit Bezug auf 4 oben beschriebenen Prozess identifiziert wurden, aufgetragen ist. Diese zugrunde liegenden Daten wurden mittels Bisulfit-Gesamtgenomsequenzierung von CCGA-Probanden erhalten (ClinicalTrial.gov-Identifikator: NCT02889978 (https://www.clinicaltrials.gov/ct2/show/NCT02889978); siehe Beispiel 3). Kurz, es wurden Daten von mehr als 1700 klinisch bewertbaren Personen erhalten, wobei über 1400 Personen gefiltert wurden, die nahezu 600 Personen ohne Krebs und knapp über 800 Personen mit Krebs umfassten. Die erste Grafik 1100 in 11A zeigt alle Krebsfälle über drei unterschiedliche Stufen - kein Krebs, Stadium I/II/III und Stadium IV - hinweg. Das Krebs-Iog-Quotenverhältnis für Stadium IV ist signifikant größer als diejenigen für Stadium I/II/II und krebsfrei. Die zweite Grafik 1110 in 11A zeigt Brustkrebsfälle über alle Stadien von Krebs und krebsfrei hinweg, mit einer ähnlichen Progression des log-Quotenverhältnisses, das durch die progressiven Krebsstadien zunimmt. Die dritte Grafik 1120 in 11B zeigt Unterarten von Brustkrebs. Die Unterarten HER2+ und TNBC sind merklich weiter verstreut, wohingegen HR+/HER2- näher bei ~ 1 konzentriert ist. Die vierte Grafik 1130 in 11C zeigt Lungenkrebsfälle über alle Stadien von Krebs und krebsfrei hinweg mit stetiger Progression durch progressive Stadien des Lungenkrebses. Die fünfte Grafik 1140 zeigt Kolorektalkrebsfälle über alle Stadien von Krebs und krebsfrei hinweg, die wiederum stetige Progression durch progressive Stadien des Kolorektalkrebses zeigen. Die sechste Grafik 1150 in 11C zeigt Prostatakrebsfälle über alle Stadien von Krebs und krebsfrei hinweg. Dieses Beispiel unterscheidet sich von den meisten zuvor illustrierten, nur Stadium IV ist signifikant unterschiedlich verglichen mit den anderen Stadien I/II/III und krebsfrei.
  • Krebs anzeigende Genomregionen und Klassifikatoren
  • Das Analysesystem identifiziert 460 Krebs anzeigende Genomregionen. Um diese informationshaltigen Regionen zu identifizieren, berechnet das Analysesystem einen Informationsgewinn für jede Genomregion oder spezifischer jede CpG-Stelle, die eine Fähigkeit beschreibt, zwischen verschiedenen Ergebnissen zu unterscheiden.
  • Ein Verfahren zum Identifizieren von Genomregionen, das zwischen krebsbefallener Art und krebsfreier Art zu unterscheiden vermag, nutzt ein trainiertes Klassifikationsmodell, das auf den Satz anomal methylierter DNA-Moleküle oder -Fragmente angewandt werden kann, die einer karzinomatösen oder nicht karzinomatösen Gruppe entsprechen oder davon abgeleitet sind. Das trainierte Klassifikationsmodell kann trainiert sein, um eine beliebige Erkrankung von Interesse, die anhand der Methylierungszustandsvektoren identifiziert werden kann, zu identifizieren.
  • In einer Ausführungsform ist das trainierte Klassifikationsmodell ein binärer Klassifikator, der auf der Basis von Methylierungszuständen für cfDNA-Fragmente oder Genomsequenzen, die von einer Personenkohorte mit Krebs oder einer Krebsart und einer gesunden Personenkohorte ohne Krebs erhalten wurden, trainiert wurde, und dann verwendet wird, um auf der Basis von Methylierungszustandsvektoren die Probabilität, mit der eine Testperson Krebs, eine Krebsart oder keinen Krebs hat, zu klassifizieren. In weiteren Ausführungsformen können unterschiedliche Klassifikatoren unter Verwendung von Personenkohorten trainiert werden, die bekanntermaßen einen besonderen Krebs (z. B. Brust, Lunge, Prostata usw.) aufweisen, die bekanntermaßen Krebs eines besonderen Ursprungsgewebes aufweisen, von dem vermutet wird, dass der Krebs dort seinen Ursprung hat, oder die bekanntermaßen unterschiedliche Stadien eines besonderen Krebses (z. B. Brust, Lunge, Prostata usw.) aufweisen. In diesen Ausführungsformen können unterschiedliche Klassifikatoren unter Verwendung von Sequenzlesungen trainiert werden, die von Proben erhalten werden, die hinsichtlich Tumorzellen von Personenkohorten, die bekanntermaßen einen besonderen Krebs (z. B. Brust, Lunge, Prostata usw.) aufweisen, angereichert sind. Die Fähigkeit einer jeden Genomregion, in dem Klassifikationsmodell zwischen Krebsart und krebsfreier Art zu unterscheiden, wird verwendet, um eine Rangordnung der Genomregionen hinsichtlich der Klassifikationsleistung zu erstellen von die meisten Informationen enthaltend hin zu die wenigsten Informationen enthaltend. Das Analysesystem kann von der Rangordnung gemäß dem Informationsgewinn bei der Klassifizierung zwischen krebsfreier Art und Krebsart Genomregionen identifizieren. Sonden können gestaltet 470 werden, um die identifizierten Genomregionen anzuvisieren.
  • Errechnen des Informationsgewinns von hypomethylierten und hypermethylierten Fragmenten, die Krebs anzeigen
  • Bei Krebs anzeigenden Fragmenten kann das Analysesystem gemäß einer Ausführungsform gemäß einem in 6A illustrierten Prozess 600 einen Klassifikator trainieren. Der Prozess 600 greift auf zwei Trainingsgruppen von Proben zu - einer krebsfreien Gruppe und einer krebsbefallenen Gruppe - und erhält 605 einen krebsfreien Satz Methylierungszustandsvektoren und einen krebsbefallenen Satz Methylierungszustandsvektoren, beinhaltend anomal methylierte Fragmente, z. B. über Schritt 440 von dem Prozess 400.
  • Der Prozess bestimmt 610 für jeden Methylierungszustandsvektor, ob der Methylierungszustandsvektor Krebs anzeigt. Hier können Krebs anzeigende Fragmente als hypermethylierte oder hypomethylierte Fragmente definiert sein, bestimmt wenn mindestens eine gewisse Anzahl CpG-Stellen einen besonderen Zustand (methyliert bzw. unmethyliert) aufweist und/oder einen Schwellenprozentsatz Stellen aufweist, die in dem besonderen Zustand sind (wieder methyliert bzw. unmethyliert). In einem Beispiel werden cfDNA-Fragmente als hypomethyliert bzw. hypermethyliert identifiziert, wenn das Fragment mindestens 5 CpG-Stellen überlappt und mindestens 80 % seiner CpG-Stellen methyliert sind bzw. mindestens 80 % unmethyliert sind. In einer alternativen Ausführungsform betrachtet der Prozess Abschnitte des Methylierungszustandsvektors und bestimmt, ob der Abschnitt hypomethyliert oder hypermethyliert ist, und kann diesen Abschnitt als hypomethyliert oder hypermethyliert unterscheiden. Dieses Alternativverfahren löst fehlende Methylierungszustandsvektoren auf, die von großer Größe sind aber mindestens eine Region dichter Hypomethylierung oder Hypermethylierung enthalten. Dieser Prozess des Definierens von Hypomethylierung und Hypermethylierung kann in Schritt 450 von 4 angewandt werden. In einer weiteren Ausführungsform können die Krebs anzeigenden Fragmente gemäß Wahrscheinlichkeiten definiert sein, die von trainierten probabilistischen Modellen ausgegeben werden.
  • In einer Ausführungsform erzeugt 620 der Prozess eine Hypomethylierungspunktzahl (Phypo) und eine Hypermethylierungspunktzahl (Phyper) pro CpG-Stelle im Genom. Um eine der Punktzahlen an einer gegebenen CpG-Stelle zu erzeugen, nimmt der Klassifikator vier Zählungen an dieser CpG-Stelle - (1) Zählung von als hypomethyliert gekennzeichneten (Methylierungszustands)vektoren des krebsbefallenen Satzes, die die CpG-Stelle überlappen; (2) Zählung von als hypermethyliert gekennzeichneten Vektoren des krebsbefallenen Satzes, die die CpG-Stelle überlappen; (3) Zählung von als hypomethyliert gekennzeichneten Vektoren des krebsfreien Satzes, die die CpG-Stelle überlappen; und (4) Zählung von als hypermethyliert gekennzeichneten Vektoren des krebsfreien Satzes, die die CpG-Stelle überlappen. Außerdem kann der Prozess diese Zähler für jede Gruppe normalisieren, um Varianz bei der Gruppengröße zwischen der krebsfreien Gruppe und der krebsbefallenen Gruppe zu berücksichtigen. In alternativen Ausführungsformen, bei denen Krebs anzeigende Fragmente allgemeiner verwendet werden, können die Punktzahlen breiter definiert sein als Zählungen von Krebs anzeigenden Fragmenten in jeder Genomregion und/oder an jeder CpG-Stelle.
  • Spezifisch nimmt der Prozess in einer Ausführungsform ein Verhältnis von (1) zu (1) addiert mit (3), um die Hypomethylierungspunktzahl an einer gegebenen CpG-Stelle zu erzeugen 620. Auf ähnliche Weise wird die Hypermethylierungspunktzahl durch Nehmen eines Verhältnisses von (2) zu (2) und (4) berechnet. Außerdem können diese Verhältnisse mit einer zusätzlichen Glättungstechnik berechnet werden, wie oben erörtert. Die Hypomethylierungspunktzahl und die Hypermethylierungspunktzahl beziehen sich auf eine Schätzung einer Krebsprobabilität bei gegebenem Vorliegen von Hypomethylierung oder Hypermethylierung von Fragmenten von dem krebsbefallenen Satz.
  • Der Prozess erzeugt 630 für jeden anomalen Methylierungszustandsvektor eine aggregierte Hypomethylierungspunktzahl und eine aggregierte Hypermethylierungspunktzahl. Die aggregierten Hyper- und Hypomethylierungspunktzahlen werden auf der Basis der Hyper- und Hypomethylierungspunktzahlen der CpG-Stellen in dem Methylierungszustandsvektor bestimmt. In einer Ausführungsform werden die aggregierten Hyper- und Hypomethylierungspunktzahlen als die größten Hyper- bzw. Hypomethylierungspunktzahlen der Stellen in jedem Zustandsvektor zugeordnet. In alternativen Ausführungsformen könnten die aggregierten Punktzahlen jedoch auf Mittelwerten, Medianwerten oder anderen Berechnungen basieren, die die Hyper- /Hypomethylierungspunktzahlen der Stellen in jedem Vektor verwenden.
  • Der Prozess 600 erstellt eine Rangordnung 640 aller Methylierungszustandsvektoren dieser Person anhand ihrer aggregierten Hypomethylierungspunktzahl und anhand ihrer aggregierten Hypermethylierungspunktzahl, was in zwei Rangordnungen pro Person resultiert. Der Prozess wählt aggregierte Hypomethylierungspunktzahlen aus der Hypomethylierungsrangordnung und aggregierte Hypermethylierungspunktzahlen aus der Hypermethylierungsrangordnung aus. Mit den ausgewählten Punktzahlen erzeugt 650 der Klassifikator für jede Person einen einzigen Merkmalsvektor. In einer Ausführungsform werden die aus beiden Rangordnungen ausgewählten Punktzahlen mit einer festen Reihenfolge, die für jeden erzeugten Merkmalsvektor für jede Person in jeder der Trainingsgruppen gleich ist, ausgewählt. Als ein Beispiel wählt der Klassifikator in einer Ausführungsform aus jeder Rangordnung die erste, die zweite, die vierte und die achte aggregierte Hypermethylierungspunktzahl aus und verfährt auf ähnliche Weise für jede aggregierte Hypomethylierungspunktzahl und schreibt diese Punktzahlen in den Merkmalsvektor für diese Person.
  • Der Prozess trainiert 660 einen binären Klassifikator, zwischen den krebsbefallenen und krebsfreien Trainingsgruppen Merkmalsvektoren zu unterscheiden. Im Allgemeinen kann eine beliebige einer Anzahl Klassifizierungstechniken verwendet werden. In einer Ausführungsform ist der Klassifikator ein nicht linearer Klassifikator. In einer spezifischen Ausführungsform ist der Klassifikator ein nicht linearer Klassifikator, der eine L2-regularisierte logistische Kernelregression mit einer Gauß'schen radialen Basisfunktion (RBF) als Kernel nutzt.
  • Spezifisch werden in einer Ausführungsform die Anzahl krebsfreier Proben oder unterschiedlicher Krebsart(en) (nandere) und die Anzahl krebsbefallener Proben oder Krebsart(en) (nKrebs) mit einem anomal methylierten Fragment, das eine CpG-Stelle überlappt, gezählt. Dann wird die Probabilität, dass eine Probe krebsbefallen ist, mittels einer Punktzahl („S“) abgeschätzt, die mit nKrebs positiv korreliert und mit nandere invers korreliert. Die Punktzahl kann unter Verwendung der folgenden Gleichung berechnet werden: (nKrebs + 1)/(nKrebs + nandere + 2) oder (nKrebs)/(nKrebs + nandere). Das Analysesystem errechnet 670 für jede Krebsart und für jede Genomregion oder CpG-Stelle einen Informationsgewinn, um zu bestimmen, ob die Genomregion oder CpG-Stelle Krebs anzeigt. Der Informationsgewinn wird für Trainingsproben mit einer gegebenen Krebsart verglichen mit allen anderen Proben errechnet. Zum Beispiel werden zwei zufällige Variablen „anomales Fragment“ („AF“) und „Krebsart“ („KA“) verwendet. In einer Ausführungsform ist AF eine binäre Variable, die anzeigt, ob es ein anomales Fragment gibt, das eine gegebene CpG-Stelle in einer gegebenen Probe überlappt, wie für die Anomaliepunktzahl/den Merkmalsvektor oben bestimmt. KA ist eine zufällige Variable, die anzeigt, ob der Krebs von einer besonderen Art ist. Das Analysesystem errechnet die wechselseitigen Informationen hinsichtlich KA bei gegebenem AF. Das heißt, wie viele Einzelinformationen über die Krebsart gewonnen werden, wenn bekannt ist, ob es ein anomales Fragment gibt, das eine besondere CpG-Stelle überlappt.
  • Für eine gegebene Krebsart verwendet das Analysesystem diese Informationen, um eine Rangordnung der CpG-Stellen auf der Basis, wie krebsspezifisch sie sind, zu erstellen. Diese Prozedur wird für alle betrachteten Krebsarten wiederholt. Wenn eine besondere Region üblicherweise in Trainingsproben eines gegebenen Krebses, aber nicht in Trainingsproben anderer Krebsarten oder in gesunden Trainingsproben anomal methyliert ist, dann weisen CpG-Stellen, die von diesen anomalen Fragmenten überlappt werden, tendenziell hohe Informationsgewinne für die gegebene Krebsart auf. Die in eine Rangordnung gebrachten CpG-Stellen für jede Krebsart werden zur Verwendung im Krebsklassifikator auf der Basis ihres Rangs gierig zu einem ausgewählten Satz CpG-Stellen hinzugefügt (ausgewählt).
  • Errechnen des paarweisen Informationsgewinns von mit probabilistischen Modellen identifizierten Krebs anzeigenden Fragmenten
  • Mit Krebs anzeigenden Fragmenten, die gemäß dem zweiten Verfahren unter den probabilistischen Modellen identifiziert wurden, kann die Analyse gemäß dem Prozess 680 in 6B Genomregionen identifizieren. Das Analysesystem definiert 690 für jede Probe, für jede Region, für jede Krebsart einen Merkmalsvektor anhand einer Zählung von DNA-Fragmenten mit einem berechneten log-Wahrscheinlichkeitsverhältnis, dass das Fragment Krebs anzeigt, über einer Vielzahl von Schwellenwerten, wobei jede Zählung ein Wert in dem Merkmalsvektor ist. In einer Ausführungsform zählt das Analysesystem die Anzahl Fragmente mit einem log-Wahrscheinlichkeitsverhältnis über einem oder einer Vielzahl möglicher Schwellenwerte, die in einer Probe in einer Region für jede Krebsart vorhanden sind. Das Analysesystem definiert für jede Probe einen Merkmalsvektor anhand einer Zählung von DNA-Fragmenten für jede Genomregion für jede Krebsart, die ein berechnetes log-Wahrscheinlichkeitsverhältnis für das Fragment über einer Vielzahl von Schwellenwerten bereitstellt, wobei jede Zählung ein Wert in dem Merkmalsvektor ist. Das Analysesystem verwendet die definierten Merkmalsvektoren, um für jede Genomregion eine Informationsgehaltspunktzahl zu berechnen, die die Fähigkeit dieser Genomregion beschreibt, zwischen jedem Paar von Krebsarten zu unterscheiden. Für jedes Paar von Krebsarten erstellt das Analysesystem eine Rangordnung von Regionen auf der Basis der Informationsgehaltspunktzahlen. Das Analysesystem kann Regionen auf der Basis der Rangordnung gemäß Informationsgehaltspunktzahlen auswählen.
  • Das Analysesystem berechnet 695 für jede Region eine Informationsgehaltspunktzahl, die die Fähigkeit dieser Region beschreibt, zwischen jedem Paar von Krebsarten zu unterscheiden. Für jedes Paar distinkter Krebsarten kann das Analysesystem eine Art als eine positive Art und die andere als eine negative Art spezifizieren. In einer Ausführungsform basiert die Fähigkeit einer Region, zwischen der positiven Art und der negativen Art zu unterscheiden, auf wechselseitigen Informationen, berechnet unter Verwendung des geschätzten Bruchteils von cfDNA-Proben der positiven Art und der negativen Art, für die erwartet würde, dass das Merkmal im endgültigen Assay ungleich null ist, d. h. mindestens eines Fragments dieser Schicht, das in einem gezielten Methylierungsassay sequenziert werden würde. Diese Bruchteile werden unter Verwendung der festgestellten Raten, mit denen das Merkmal in gesunder cfDNA und in cfDNA mit hohem Signal und/oder Tumorproben einer jeden Krebsart auftritt, geschätzt. Wenn zum Beispiel ein Merkmal häufig in gesunder cfDNA auftritt, dann wird geschätzt, dass es auch in cfDNA irgendeiner Krebsart häufig auftritt, und würde wahrscheinlich in einer niedrigen Informationsgehaltspunktzahl resultieren. Das Analysesystem kann für jedes Paar Krebsarten eine bestimmte Anzahl Regionen aus der Rangordnung wählen, z. B. 1024.
  • In zusätzlichen Ausführungsformen identifiziert das Analysesystem ferner überwiegend hypermethylierte oder hypomethylierte Regionen aus der Rangordnung von Regionen. Das Analysesystem kann den Satz Fragmente in der (den) positiven Art(en) für eine Region, die als informationshaltig identifiziert wurde, laden. Das Analysesystem bewertet anhand der geladenen Fragmente, ob die geladenen Fragmente überwiegend hypermethyliert oder hypomethyliert sind. Wenn die geladenen Fragmente überwiegend hypermethyliert oder hypomethyliert sind, kann das Analysesystem Sonden auswählen, die dem überwiegenden Methylierungsmuster entsprechen. Wenn die geladenen Fragmente nicht überwiegend hypermethyliert oder hypomethyliert sind, kann das Analysesystem eine Mischung von Sonden verwenden, um sowohl auf Hypermethylierung als auch auf Hypomethylierung abzuzielen. Das Analysesystem kann ferner einen Minimalsatz CpG-Stellen identifizieren, die zu mehr als einem gewissen Prozentsatz der Fragmente überlappen.
  • In weiteren Ausführungsformen kennzeichnet das Analysesystem, nachdem es auf der Basis von Informationsgehaltspunktzahlen eine Rangordnung der Regionen erstellt hat, jede Region mit dem niedrigsten Informationsgehaltsrang über alle Paare von Krebsarten hinweg. Wenn eine Region zum Beispiel die Region mit dem zehnthöchsten Informationsgehalt zum Unterscheiden von Brust von Lunge und mit dem fünfthöchsten Informationsgehalt zum Unterscheiden von Brust von Kolorektal wäre, dann würde ihr insgesamt eine Kennzeichnung von „5“ gegeben. Das Analysesystem kann Sonden gestalten, indem es mit den Regionen mit der niedrigsten Kennzeichnung anfängt, während es Regionen zum Panel hinzufügt, z. B. bis das Größenbudget des Panels erschöpft ist.
  • Fehltreffer-Genomregionen
  • In manchen Ausführungsformen werden Sonden, die auf ausgewählte Genomregionen abzielen, auf der Basis der Anzahl ihrer Fehltreffer-Regionen weiter gefiltert 475. Dies ist zum Aussondern von Sonden, die zu viele cfDNA-Fragmente herabziehen, die Fehltreffer-Genomregionen entsprechen oder davon abgeleitet sind. Der Ausschluss von Sonden mit vielen Fehltreffer-Regionen kann wertvoll sein, indem für eine gegebene Menge an Sequenzierung die Rate von Fehltreffern gesenkt und die Zielabdeckung erhöht wird.
  • Eine Fehltreffer-Genomregion ist eine Genomregion, die ausreichend Homologie zu einer Zielgenomregion aufweist, sodass von Fehltreffer-Genomregionen abgeleitete DNA-Moleküle oder -Fragmente an eine Sonde hybridisiert und von ihr herabgezogen werden, die gestaltet ist, um an eine Zielgenomregion zu hybridisieren. Eine Fehltreffer-Genomregion kann eine Genomregion sein, die entlang mindestens 35 bp, 40 bp, 45 bp, 50 bp, 60 bp, 70 bp oder 80 bp mit einer Übereinstimmungsrate von mindestens 80 %, 85 %, 90 %, 95 % oder 97 % mit einer Sonde aliniert. In einer Ausführungsform ist eine Fehltreffer-Genomregion eine Genomregion, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit einer Sonde aliniert. Verschiedene nach dem Stand der Technik bekannte Verfahren können herangezogen werden, um Fehltreffer-Genomregionen auszusondern.
  • Ausführliches Durchsuchen des Genoms, um alle Fehltreffer-Genomregionen zu finden, kann rechnerisch eine Herausforderung sein. In einer Ausführungsform wird eine k-mer-Beimpfungsstrategie (die eine oder mehrere Fehlpaarungen gestatten kann) mit lokaler Alinierung an den Beimpfungsorten kombiniert. In diesem Fall kann ausführliches Durchsuchen nach guten Alinierungen auf der Basis der k-mer-Länge, der gestatteten Anzahl Fehlpaarungen und der Anzahl k-mer-Keimtreffer an einem besonderen Ort garantiert werden. Dies erfordert das dynamische Programmieren örtlicher Alinierung an einer großen Anzahl Orte, sodass dieser Ansatz hochgradig optimiert ist, um Vektor-CPU-Anweisungen (z. B. AVX2, AVX512) zu verwenden, und auch über viele Prozessorkerne innerhalb einer Maschine und auch über viele durch ein Netzwerk vernetzte Maschinen hinweg parallelisiert werden kann. Ein gewöhnlicher Fachmann wird erkennen, dass Modifikationen und Variationen dieses Ansatzes zum Zweck des Identifizierens von Fehltreffer-Genomregionen umgesetzt werden können.
  • In manchen Ausführungsformen werden Sonden, die Sequenzhomologie zu Fehltreffer-Genomregionen oder DNA-Molekülen, die Fehltreffer-Genomregionen entsprechen oder davon abgeleitet sind, aufweisen und mehr als eine Schwellenwertanzahl beinhalten, aus dem Panel ausgeschlossen (oder gefiltert). Zum Beispiel werden Sonden ausgeschlossen, die zu Fehltreffer-Genomregionen oder DNA-Molekülen, die Fehltreffer-Genomregionen entsprechen oder davon abgeleitet sind, Sequenzhomologie von mehr als 30, mehr als 25, mehr als 20, mehr als 18, mehr als 15, mehr als 12, mehr als 10 oder mehr als 5 Fehltreffer-Regionen aufweisen.
  • In manchen Ausführungsformen werden Sonden abhängig von der Anzahl Fehltreffer-Regionen in 2, 3, 4, 5, 6 oder mehr getrennte Gruppen geteilt. Zum Beispiel werden Sonden, die zu keinen Fehltreffer-Regionen oder DNA-Molekülen, die Fehltreffer-Regionen entsprechen oder davon abgeleitet sind, Sequenzhomologie aufweisen, einer Gruppe hoher Qualität zugeordnet, werden Sonden, die zu 1-18 Fehltreffer-Regionen oder DNA-Molekülen, die 1-18 Fehltreffer-Regionen entsprechen oder davon abgeleitet sind, Sequenzhomologie aufweisen, einer Gruppe niedriger Qualität zugeordnet und werden Sonden, die zu mehr als 19 Fehltreffer-Regionen oder DNA-Molekülen, die 19 Fehltreffer-Regionen entsprechen oder davon abgeleitet sind, Sequenzhomologie aufweisen, einer Gruppe schlechter Qualität zugeordnet. Für die Gruppierung können andere Grenzwerte verwendet werden.
  • In manchen Ausführungsformen werden Sonden in der Gruppe niedrigster Qualität ausgeschlossen. In manchen Ausführungsformen werden Sonden in anderen Gruppen als der Gruppe höchster Qualität ausgeschlossen. In manchen Ausführungsformen werden für die Sonden in jeder Gruppe getrennte Panels hergestellt. In manchen Ausführungsformen werden alle Sonden auf das gleiche Panel gesetzt, aber wird auf der Basis der zugeordneten Gruppe eine getrennte Analyse durchgeführt.
  • In manchen Ausführungsformen beinhaltet ein Panel eine größere Anzahl Sonden hoher Qualität als die Anzahl Sonden in niedrigeren Gruppen. In manchen Ausführungsformen beinhaltet ein Panel eine kleinere Anzahl Sonden schlechter Qualität als die Anzahl Sonden in anderen Gruppen. In manchen Ausführungsformen sind mehr als 95 %, 90 %, 85 %, 80 %, 75 % oder 70 % der Sonden in einem Panel Sonden hoher Qualität. In manchen Ausführungsformen sind weniger als 35 %, 30 %, 20 %, 10 %, 5 %, 4 %, 3 %, 2 % oder 1 % der Sonden in einem Panel Sonden niedriger Qualität. In manchen Ausführungsformen sind weniger als 5 %, 4 %, 3 %, 2 % oder 1 % der Sonden in einem Panel Sonden schlechter Qualität. In manchen Ausführungsformen umfasst ein Panel keine Sonden schlechter Qualität.
  • In manchen Ausführungsformen werden Sonden mit unter 50 %, unter 40 %, unter 30 %, unter 20 %, unter 10 % oder unter 5 % ausgeschlossen. In manchen Ausführungsformen werden Sonden mit über 30 %, über 40 %, über 50 %, über 60 %, über 70 %, über 80 % oder über 90 % selektiv in ein Panel aufgenommen.
  • Verfahren der Verwendung des Krebs-Assay-Panels
  • In noch einem weiteren Aspekt werden Verfahren der Verwendung eines Krebs-Assay-Panels bereitgestellt. Die Verfahren können Schritte des Behandelns von DNA-Molekülen oder -Fragmenten, um unmethylierte Cytosine in Uracile umzuwandeln (z. B. unter Verwendung von Bisulfitbehandlung), des Anwendens eines Krebspanels (wie hierin beschrieben) auf die umgewandelten DNA-Moleküle oder -Fragmente, des Anreicherns eines Teilsatzes umgewandelter DNA-Moleküle oder -Fragmente, die an die Sonden in dem Panel hybridisieren (oder binden), und des Sequenzierens der angereicherten cfDNA-Fragmente beinhalten. Der Schritt des Anwendens des Krebspanels auf die umgewandelten DNA-Moleküle oder - Fragmente wird unter einer Bedingung durchgeführt, wobei die umgewandelten DNA-Moleküle oder -Fragmente an Sonden in dem Krebspanel binden können. Somit können an die Sonden gebundene umgewandelte DNA-Moleküle oder - Fragmente selektiv isoliert werden. In manchen Ausführungsformen können die Sequenzlesungen mit einem Referenzgenom (z. B. einem menschlichen Referenzgenom) verglichen werden, was die Identifizierung von Methylierungzuständen an einer Vielzahl von CpG-Stellen innerhalb der DNA-Moleküle oder -Fragmente gestattet, und somit die Krebsdiagnose betreffende Informationen bereitstellen.
  • Probenbearbeitung
  • 7A ist ein Flussdiagramm eines Verfahrens zum Vorbereiten einer Nukleinsäureprobe zum Analysieren gemäß einer Ausführungsform. Das Verfahren umfasst, ist aber nicht beschränkt auf, die folgenden Schritte. Zum Beispiel kann jeder Schritt des Verfahrens einen Quantifizierungs-Unterschritt zur Qualitätskontrolle oder andere einem Fachmann bekannte Labor-Assay-Prozeduren beinhalten.
  • In Schritt 105 wird einer Person eine Nukleinsäureprobe (DNA oder RNA) entnommen. In der vorliegenden Offenbarung können DNA und RNA austauschbar verwendet werden, sofern nicht anders angezeigt. Das heißt, die hierin beschriebenen Ausführungsformen können auf beide Arten von Nukleinsäuresequenzen, DNA und RNA, anwendbar sein. Jedoch können sich die hierin beschriebenen Beispiele zum Zweck der Klarheit und Erläuterung auf DNA konzentrieren. Die Probe kann ein beliebiger Teilsatz des menschlichen Genoms, einschließlich des ganzen Genoms, sein. Die Probe kann Blut, Plasma, Serum, Urin, Kot, Speichel, andere Arten von Körperflüssigkeiten oder eine beliebige Kombination davon umfassen. In manchen Ausführungsformen können Verfahren zum Abnehmen einer Blutprobe (z. B. Spritze oder Stich in den Finger) weniger invasiv sein als Prozeduren zum Erhalten einer Gewebebiopsie, die eine Operation erfordern können. Die entnommene Probe kann cfDNA und/oder ctDNA beinhalten. Bei gesunden Individuen kann der menschliche Körper cfDNA und sonstigen Zellabfall auf natürliche Weise beseitigen. Wenn eine Person einen Krebs oder eine Krankheit aufweist, kann ctDNA in einer entnommenen Probe in einem nachweisbaren Niveau für die Diagnose vorhanden sein.
  • In Schritt 110 werden die cfDNA-Fragmente behandelt, um unmethylierte Cytosine in Uracile umzuwandeln. In einer Ausführungsform verwendet das Verfahren eine Bisulfitbehandlung der DNA, welche die unmethylierten Cytosine in Uracile umwandelt, ohne die methylierten Cytosine umzuwandeln. Zum Beispiel wird zur Bisulfitumwandlung ein kommerzielles Kit wie das EZ DNA Methylation™ - Gold, EZ DNA Methylation™ - Direct oder ein Kit EZ DNA Methylation™ - Lightning (verfügbar von Zymo Research Corp (Irvine, CA)) verwendet. In einer weiteren Ausführungsform wird die Umwandlung unmethylierter Cytosine in Uracile unter Verwendung einer enzymatischen Reaktion bewerkstelligt. Zum Beispiel kann die Umwandlung ein kommerziell verfügbares Kit zur Umwandlung unmethylierter Cytosine in Uracile, wie APOBEC-Seq (NEBiolabs, Ipswich, MA), verwenden.
  • In Schritt 115 wird eine Sequenzierbibliothek vorbereitet. In einem ersten Schritt wird unter Verwendung einer ssDNA-Ligationsreaktion ein ssDNA-Adapter zu dem 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls hinzugefügt. In einer Ausführungsform verwendet die ssDNA-Ligationsreaktion CircLigase II (Epicentre), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren, wobei das 5'-Ende des Adapters phosphoryliert ist und die bisulfitumgewandelte ssDNA dephosphoryliert wurde (d. h. das 3'-Ende weist eine Hydroxylgruppe auf). In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion Thermostable 5' AppDNA/RNA Ligase (verfügbar von New England BioLabs (Ipswich, MA)), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In diesem Beispiel ist der erste UMI-Adapter am 5'-Ende adenyliert und am 3'-Ende blockiert. In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion eine T4 RNA Ligase (verfügbar von New England BioLabs), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In einem zweiten Schritt wird in einer Verlängerungsreaktion ein zweiter Strang DNA synthetisiert. Zum Beispiel wird ein Verlängerungsprimer, der an eine von dem ssDNA-Adapter umfasste Primersequenz hybridisiert, in einer Primerverlängerungsreaktion verwendet, um ein doppelsträngiges bisulfitumgewandeltes DNA-Molekül zu bilden. Optional verwendet die Verlängerungsreaktion in einer Ausführungsform ein Enzym, das in der Lage ist, durch Uracilreste in dem bisulfitumgewandelten Matrizenstrang hinwegzulesen. Optional wird in einem dritten Schritt ein dsDNA-Adapter zu dem doppelsträngigen bisulfitumgewandelten DNA-Molekül hinzugefügt. Schließlich wird die doppelsträngige bisulfitumgewandelte DNA amplifiziert, um Sequenzieradapter hinzuzufügen. Zum Beispiel wird PCR-Amplifikation unter Verwendung eines Vorwärtsprimers, der eine P5-Sequenz umfasst, und eines Rückwärtsprimers, der eine P7-Sequenz umfasst, verwendet, um P5- und P7-Sequenzen zu der bisulfitumgewandelten DNA hinzuzufügen. Optional können während der Bibliotheksvorbereitung eindeutige molekulare Identifikatoren (UMI) durch Adapterligation zu den Nukleinsäuremolekülen (z. B. DNA-Molekülen) hinzugefügt werden. Die UMIs sind kurze Nukleinsäuresequenzen (z. B. 4-10 Basenpaare), die während der Adapterligation an Enden von DNA-Fragmenten hinzugefügt werden. In manchen Ausführungsformen sind UMIs degenerierte Basenpaare, die als eine eindeutige Markierung dienen, die verwendet werden kann, um Sequenzlesungen zu identifizieren, die von einem spezifischen DNA-Fragment stammen. Während der auf die Adapterligation folgenden PCR-Amplifikation werden die UMIs zusammen mit dem angefügten DNA-Fragment repliziert, was eine Weise bereitstellt, in einer nachgelagerten Analyse Sequenzlesungen zu identifizieren, die von demselben Ursprungsfragment herrühren.
  • In Schritt 120 können anvisierte DNA-Sequenzen aus der Bibliothek angereichert werden (z. B. durch Hybridisierung). Jegliches geeignete Verfahren der Anreicherung kann verwendet werden. Zum Beispiel wird in manchen Ausführungsformen ein gezieltes Panel-Assay an den Proben durchgeführt (kommt z. B. damit in Kontakt). Während der Anreicherung können Hybridisierungssonden (hierin auch als „Sonden“ bezeichnet) verwendet werden, um Nukleinsäurefragmente anzuvisieren und herabzuziehen, die über das Vorliegen oder Nichtvorliegen von Krebs (oder einer Krankheit), den Krebsstatus oder eine Krebsklassifizierung (z. B. Krebsart oder Ursprungsgewebe) informieren. Für einen gegebenen Arbeitsablauf können die Sonden so gestaltet sein, dass sie sich an einen (komplementären) Zielstrang von DNA oder RNA anlagern (oder daran hybridisieren). Der Zielstrang kann der „positive“ Strang (z. B. der Strang, der in mRNA transkribiert und anschließend in ein Protein übersetzt wird) oder der komplementäre „negative“ Strang sein. Die Sonden können Längen im Bereich von mehreren 10, Hunderten oder Tausenden Basenpaaren haben. Darüber hinaus können die Sonden überlappende Abschnitte einer Zielregion abdecken.
  • In manchen Fällen können Primer verwendet werden, um spezifisch Ziele/Biomarker von Interesse zu amplifizieren (z. B. mittels PCR), wodurch die Probe hinsichtlich gewünschter Ziele/Biomarker angereichert wird (optional ohne Einfangen durch Hybridisierung). Zum Beispiel können für jede Genomregion von Interesse Vorwärts- und Rückwärtsprimer vorbereitet und verwendet werden, um Fragmente zu amplifizieren, die der gewünschten Genomregion entsprechen oder davon abgeleitet sind. Während die vorliegende Offenbarung Krebs-Assay-Panels und Ködersätzen besondere Aufmerksamkeit widmet, ist die Offenbarung somit breit genug, um andere Verfahren der Anreicherung zellfreier DNA einzuschließen. Demgemäß wird ein Fachmann mit dem Vorteil dieser Offenbarung erkennen, dass Verfahren analog zu den hierin in Verbindung mit Einfangen durch Hybridisierung beschriebenen alternativ durch Ersetzen des Einfangens durch Hybridisierung mit irgendeiner anderen Anreicherungsstrategie, wie PCR-Amplifikation von Fragmenten zellfreier DNA, die Genomregionen von Interesse entsprechen, bewerkstelligt werden können. In manchen Ausführungsformen wird Einfangen mit Bisulfit-Padlock-Sonden verwendet, um Regionen von Interesse anzureichern, wie in Zhang et al. ( US 2016/0340740 ) beschrieben ist. In manchen Ausführungsformen werden für die Anreicherung (z. B. nicht gezielte Anreicherung) zusätzliche oder alternative Verfahren verwendet, wie Reduced-Representation-Bisulfitsequenzierung, Methylierungs-Restriktionsenzym-Sequenzierung, Methylierungs-DNA-Immunopräzipitation-Sequenzierung, Methyl-CpG-Bindungsdomänenprotein-Sequenzierung, Methyl-DNA-Fang-Sequenzierung oder Mikrotröpfchen-PCR.
  • Nach dem Herabziehen und/oder der Hybridisierung (siehe Schritt 120) können die hybridisierten Nukleinsäurefragmente optional auch unter Verwendung von PCR amplifiziert werden (Anreicherung 125). Zum Beispiel können die Zielsequenzen angereichert werden, um angereicherte Sequenzen zu erhalten, die anschließend sequenziert werden können. Im Allgemeinen kann jedes nach dem Stand der Technik bekannte Verfahren verwendet werden, um sondenhybridisierte Zielnukleinsäuren zu isolieren und anzureichern. Zum Beispiel kann, wie nach dem Stand der Technik allgemein bekannt ist, eine Biotineinheit zu dem 5'-Ende der Sonden hinzugefügt (d. h. biotinyliert) werden, um die Isolierung von an Sonden hybridisierten Zielnukleinsäuren unter Verwendung einer streptavidinbeschichteten Oberfläche (z. B. streptavidinbeschichteter Kügelchen) zu erleichtern. Nukleinsäurefragmente werden auf ein Panel angewandt, das die Sonden in der Bedingung beinhaltet, die spezifisches Binden der Nukleinsäurefragmente an komplementäre Sonden gestattet. Somit ermöglicht es selektive Isolierung und Anreicherung von Nukleinsäurefragmenten, die eine hohe Affinität zu den Sonden aufweisen.
  • In Schritt 130 werden von den angereicherten DNA-Sequenzen, z. B. angereicherten Sequenzen, Sequenzlesungen erzeugt. Sequenzierungsdaten können von den angereicherten DNA-Sequenzen durch nach dem Stand der Technik bekannte Mittel erlangt werden. Zum Beispiel kann das Verfahren Techniken der Sequenzierung der nächsten Generation (NGS) umfassen, einschließlich Synthesetechnologie (Illumina), Pyrosequenzierung (454 Life Sciences), lonen-Halbleiter-Technologie (lon-Torrent-Sequenzierung), Einzelmolekül-Echtzeitsequenzierung (Pacific Biosciences), Sequenzierung durch Ligation (SOLiD-Sequenzierung), Nanoporensequenzierung (Oxford Nanopore Technologies) oder Endpaar-Sequenzierung. In manchen Ausführungsformen wird massive Parallelsequenzierung unter Verwendung von Sequenzierung durch Synthese mit reversiblen Farbstoffterminatoren durchgeführt.
  • Analyse von Sequenzlesungen
  • In manchen Ausführungsformen können die Sequenzlesungen unter Verwendung von nach dem Stand der Technik bekannten Verfahren mit einem Referenzgenom aliniert werden, um Alinierungspositionsinformationen zu bestimmen. Die Alinierungspositionsinformationen können eine Anfangsposition und eine Endposition einer Region im Referenzgenom anzeigen, die einer Anfangsnukleotidbase und Endnukleotidbase einer gegebenen Sequenzlesung entspricht. Alinierungspositionsinformationen können auch die Sequenzlesungslänge umfassen, die von der Anfangsposition und Endposition bestimmt werden kann. Eine Region im Referenzgenom kann mit einem Gen oder einem Segment eines Gens assoziiert sein.
  • In verschiedenen Ausführungsformen besteht eine Sequenzlesung aus einem als R1 und R2 angegebenen Lesungspaar. Zum Beispiel kann die erste Lesung R1 von einem ersten Ende eines Nukleinsäurefragments sequenziert werden, wohingegen die zweite Lesung R2 von dem zweiten Ende des Nukleinsäurefragments sequenziert werden kann. Daher können Nukleotidbasenpaare der ersten Lesung R1 und zweiten Lesung R2 konsistent (z. B. in gegenläufiger Orientierung) mit Nukleotidbasen des Referenzgenoms aliniert werden. Von dem Lesungspaar R1 und R2.abgeleitete Alinierungspositionsinformationen können eine Anfangsposition im Referenzgenom, die einem Ende einer ersten Lesung (z. B. R1) entspricht, und eine Endposition im Referenzgenom, die einem Ende einer zweiten Lesung (z. B. R2) entspricht, umfassen. Mit anderen Worten stellen die Anfangsposition und Endposition im Referenzgenom den wahrscheinlichen Ort innerhalb des Referenzgenoms dar, dem das Nukleinsäurefragment entspricht. Eine Ausgabedatei mit dem Format SAM (Sequence Alignment Map) oder dem Format BAM (Binary Alignment Map) kann erzeugt und zur weiteren Analyse ausgegeben werden.
  • Von den Sequenzlesungen können auf der Basis einer Alinierung mit einem Referenzgenom der Ort und Methylierungszustand für jede CpG-Stelle bestimmt werden. Ferner kann ein Methylierungszustandsvektor für jedes Fragment erzeugt werden, der einen Ort des Fragments im Referenzgenom (z. B. wie durch die Position der ersten CpG-Stelle in jedem Fragment oder eine andere ähnliche Kennzahl spezifiziert), eine Anzahl CpG-Stellen in dem Fragment und den Methylierungszustand jeder CpG-Stelle in dem Fragment, ob methyliert (z. B. als M angegeben), unmethyliert (z. B. als U angegeben) oder unbestimmt (z. B. als I angegeben), spezifiziert. Die Methylierungszustandsvektoren können für spätere Verwendung und Bearbeitung in zeitweisem oder dauerhaftem Computerarbeitsspeicher gespeichert werden. Ferner können doppelte Lesungen oder doppelte Methylierungszustandsvektoren von einer einzelnen Person entfernt werden. In einer zusätzlichen Ausführungsform kann bestimmt werden, dass ein bestimmtes Fragment eine oder mehrere CpG-Stellen aufweist, die einen unbestimmten Methylierungsstatus aufweisen. Solche Fragmente können von der späteren Bearbeitung ausgeschlossen oder selektiv aufgenommen werden, wenn ein nachgelagertes Datenmodell solche unbestimmten Methylierungsstatus berücksichtigt.
  • 7B ist eine Illustration des Prozesses 100 von 7A zum Sequenzieren eines cfDNA-Fragments, um einen Methylierungszustandsvektor zu erhalten, gemäß einer Ausführungsform. Als ein Beispiel nimmt das Analysesystem ein cfDNA-Fragment 112. In diesem Beispiel enthält das cfDNA-Fragment 112 drei CpG-Stellen. Wie gezeigt sind die erste und dritte CpG-Stelle des cfDNA-Fragments 112 methyliert 114. Während des Behandlungsschritts 120 wird das cfDNA-Fragment 112 umgewandelt, um ein umgewandeltes cfDNA-Fragment 122 zu erzeugen. Während der Behandlung 120 wird das Cytosin der zweiten CpG-Stelle, die unmethyliert war, in Uracil umgewandelt. Die erste und dritte CpG-Stelle werden jedoch nicht umgewandelt.
  • Nach der Umwandlung wird eine Sequenzierbibliothek 130 vorbereitet und sequenziert 140, wodurch eine Sequenzlesung 142 erzeugt wird. Das Analysesystem aliniert 150 die Sequenzlesung 142 mit einem Referenzgenom 144. Das Referenzgenom 144 stellt den Kontext bereit, von welcher Position in einem menschlichen Genom die Fragment-cfDNA stammt. In diesem vereinfachten Beispiel aliniert 150 das Analysesystem die Sequenzlesung so, dass die drei CpG-Stellen mit den CpG-Stellen 23, 24 und 25 korrelieren (willkürliche Referenzidentifikatoren, zur bequemen Beschreibung verwendet). Das Analysesystem erzeugt somit Informationen über sowohl den Methylierungsstatus aller CpG-Stellen in dem cfDNA-Fragment 112 als auch, welche Position im menschlichen Genom die CpG-Stellen abbilden. Wie gezeigt werden CpG-Stellen in Sequenzlesung 142, die methyliert waren, als Cytosine gelesen. In diesem Beispiel kommen die Cytosine in der Sequenzlesung 142 nur in der ersten und dritten CpG-Stelle vor, was einem gestattet, rückzuschließen, dass die erste und dritte CpG-Stelle in dem ursprünglichen cfDNA-Fragment methyliert waren. Wohingegen die zweite CpG-Stelle als ein Thymin gelesen wird (U wird während des Sequenzierprozesses in T umgewandelt) und somit kann man rückschließen, dass die zweite CpG-Stelle in dem ursprünglichen cfDNA-Fragment unmethyliert war. Mit diesen zwei Informationen, dem Methylierungsstatus und dem Ort, erzeugt 160 das Analysesystem einen Methylierungszustandsvektor 152 für das Fragment cfDNA 112. In diesem Beispiel ist der resultierende Methylierungszustandsvektor 152 < M23, U24, M25 >, wobei M einer methylierten CpG-Stelle entspricht, U einer unmethylierten CpG-Stelle entspricht und die Indexzahl einer Position der jeweiligen CpG-Stelle im Referenzgenom entspricht.
  • 13A und 13B zeigen drei Grafiken von Daten, die die Konsistenz der Sequenzierung von einer Kontrollgruppe validieren. Die erste Grafik 1300 zeigt die Umwandlungsgenauigkeit der Umwandlung unmethylierter Cytosine in Uracil (Schritt 120) in einem von einer Testprobe erhaltenen cfDNA-Fragment über Personen in variierenden Krebsstadien - Stadium 0, Stadium I, Stadium II, Stadium III, Stadium IV und krebsfrei - hinweg. Wie gezeigt bestand gleichförmige Konsistenz bei der Umwandlung unmethylierter Cytosine in cfDNA-Fragmenten in Uracile. Insgesamt gab es eine Umwandlungsgenauigkeit von 99,47 % mit einer Präzision von ± 0,024 %. Die zweite Grafik 1310 zeigt die mittlere Abdeckung über variierende Krebsstadien. Die mittlere Abdeckung über alle Gruppe beträgt ~34X im Mittel über die Genomabdeckung von DNA-Fragmenten hinweg, unter Verwendung nur derjenigen, die zuverlässig dem Genom zugeordnet sind, werden gezählt. Die dritte Grafik 1320 (13B) zeigt die Konzentration von cfDNA pro Probe über variierende Krebsstadien hinweg.
  • Krebsdiagnose
  • Mit den hierin bereitgestellten Verfahren erhaltene Sequenzlesungen können ferner durch automatisierte Algorithmen bearbeitet werden. Zum Beispiel wird das Analysesystem verwendet, um Sequenzierungsdaten von einem Sequenzierer zu empfangen und verschiedene Aspekte des Bearbeitens wie hierin beschrieben durchzuführen. Das Analysesystem kann eines von einem Personalcomputer (PC), einem Desktopcomputer, einem Laptopcomputer, einem Notebook, einem Tablet-PC, einem Mobilgerät sein. Ein Rechengerät kann zur Kommunikation durch eine drahtlose, drahtgebundene oder eine Kombination von drahtlosen und drahtgebundenen Kommunikationstechnologien an den Sequenzierer gekoppelt sein. Im Allgemeinen ist das Rechengerät mit einem Prozessor und einem Speicher, der Computeranweisungen speichert, die bei Ausführung durch den Prozessor verursachen, dass der Prozessor Schritte wie im Rest dieses Dokuments beschrieben durchführt, konfiguriert. Im Allgemeinen ist die Menge genetischer Daten und davon abgeleiteter Daten ausreichend groß und die Menge an erforderlicher Rechenleistung so groß, dass es unmöglich ist, dass sie auf Papier oder allein durch den menschlichen Verstand durchgeführt wird.
  • Die klinische Interpretation des Methylierungsstatus anvisierter Genomregionen ist ein Prozess, der das Klassifizieren der klinischen Wirkung jedes einzelnen oder einer Kombination des Methylierungsstatus und Berichten der Resultate auf Weisen, die für eine medizinische Fachperson aussagekräftig ist, umfasst. Die klinische Interpretation kann auf dem Vergleich der Sequenzlesungen mit einer für krebsbefallene oder krebsfreie Personen spezifischen Datenbank basieren und/oder auf Anzahlen und Arten der in einer Probe identifizierten cfDNA-Fragmente mit krebsspezifischen Methylierungsmustern basieren. In manchen Ausführungsformen werden anvisierte Genomregionen auf der Basis ihrer Ähnlichkeit, in krebsbefallenen Proben differenziell methyliert zu sein, in eine Rangordnung gebracht oder klassifiziert und werden die Rangordnungen oder Klassifizierungen im Interpretationsprozess verwendet. Die Rangordnungen und Klassifizierungen können (1) die Art der klinischen Wirkung, (2) die Stärke der Evidenz der Wirkung und (3) die Größe der Wirkung umfassen. Verschiedene Verfahren für die klinische Analyse und Interpretation von Genomdaten können für die Analyse der Sequenzlesungen herangezogen werden. In manchen anderen Ausführungsformen kann die klinische Interpretation der Methylierungszustände solcher differenziell methylierter Regionen auf Ansätzen des maschinellen Lernens basieren, die eine aktuelle Probe auf der Basis eines Klassifizierungs- oder Regressionsverfahrens interpretieren, das unter Verwendung der Methylierungszustände solcher differenziell methylierter Regionen von Proben von krebsbefallenen und krebsfreien Patienten mit bekanntem Krebsstatus, bekannter Krebsart, bekanntem Krebsstadium, bekanntem Ursprungsgewebe usw. trainiert wurde.
  • Die klinisch aussagekräftigen Informationen können das Vorliegen oder Nichtvorliegen von Krebs im Allgemeinen, das Vorliegen oder Nichtvorliegen bestimmter Arten von Krebs, das Krebsstadium oder das Vorliegen oder Nichtvorliegen anderer Arten von Krankheiten umfassen. In manchen Ausführungsformen beziehen sich die Informationen auf ein Vorliegen oder Nichtvorliegen von einer oder mehreren Krebsarten, ausgewählt aus der Gruppe, bestehend aus (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliärem Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs und (9) Bauchspeicheldrüsenkrebs.
  • Krebsklassifikator
  • Um einen Krebsartklassifikator zu trainieren, erhält das Analysesystem eine Vielzahl von Trainingsproben, die jeweils einen Satz Krebs anzeigender hypomethylierter und hypermethylierter Fragmente, z. B. identifiziert durch Schritt 450 im Prozess 400, und eine Kennzeichnung der Krebsart der Trainingsprobe aufweisen. Das Analysesystem bestimmt für jede Trainingsprobe einen Merkmalsvektor auf der Basis des Satzes Krebs anzeigender hypomethylierter und hypermethylierter Fragmente. Das Analysesystem berechnet für jede CpG-Stelle in den anvisierten Genomregionen eine Anomaliepunktzahl. In einer Ausführungsform definiert das Analysesystem die Anomaliepunktzahl für den Merkmalsvektor als eine binäre Bepunktung auf der Basis, ob es ein hypomethyliertes oder hypermethyliertes Fragment von dem Satz, der die CpG-Stelle einschließt, gibt. Sobald alle Anomaliepunktzahlen für eine Trainingsprobe bestimmt sind, bestimmt das Analysesystem den Merkmalsvektor als einen Vektor von Elementen, der für jedes Element eine der mit einer der CpG-Stellen assoziierten Anomaliepunktzahlen umfasst. Das Analysesystem kann die Anomaliepunktzahlen des Merkmalsvektors auf der Basis einer Abdeckung der Probe, d. h. einer medianen oder durchschnittlichen Sequenzierungstiefe über alle CpG-Stellen hinweg, normalisieren.
  • Mit den Merkmalsvektoren der Trainingsproben kann das Analysesystem den Krebsklassifikator trainieren. In einer Ausführungsform trainiert das Analysesystem auf der Basis der Merkmalsvektoren der Trainingsproben einen binären Krebsklassifikator, zwischen den Kennzeichnungen, krebsbefallen und krebsfrei, zu unterscheiden. In dieser Ausführungsform gibt der Klassifikator eine Vorhersagepunktzahl aus, die die Wahrscheinlichkeit des Vorliegens oder Nichtvorliegens von Krebs anzeigt. In einer weiteren Ausführungsform trainiert das Analysesystem einen Multiklassen-Krebsklassifikator, zwischen vielen Krebsarten zu unterscheiden. In dieser Ausführungsform mit einem Multiklassen-Krebsklassifikator wird der Krebsklassifikator trainiert, eine Krebsvorhersage zu bestimmen, die für jede der Krebsarten, für die klassifiziert wird, einen Vorhersagewert beinhaltet. Die Vorhersagewerte können einer Wahrscheinlichkeit, dass eine gegebene Probe die jeweilige Krebsart aufweist. Zum Beispiel gibt der Krebsklassifikator eine Krebsvorhersage aus, die einen Vorhersagewert für Brustkrebs, Lungenkrebs und krebsfrei umfasst. Zum Beispiel kann der Krebsklassifikator eine Krebsvorhersage für eine Testprobe zurückgeben, die eine Vorhersagepunktzahl für Brustkrebs, Lungenkrebs und/oder kein Krebs umfasst. In beiden Ausführungsformen trainiert das Analysesystem den Krebsklassifikator durch Eingeben von Sätzen Trainingsproben mit ihren Merkmalsvektoren in den Krebsklassifikator und Anpassen von Klassifizierungsparametern, sodass eine Funktion des Klassifikators die Trainingsmerkmalsvektoren genau mit ihrer entsprechenden Kennzeichnung in Bezug bringt. Das Analysesystem kann die Trainingsproben zum iterativen chargenweisen Training des Krebsklassifikators in Sätze von einer oder mehreren Trainingsproben gruppieren. Nach dem Eingeben aller Sätze von Trainingsproben einschließlich ihrer Trainingsmerkmalsvektoren und Anpassen der Klassifizierungsparameter ist der Krebsklassifikator ausreichend trainiert, um Testproben gemäß ihrem Merkmalsvektor innerhalb einer gewissen Fehlerspanne zu kennzeichnen. Das Analysesystem kann den Krebsklassifikator gemäß einem beliebigen von einer Anzahl von Verfahren trainieren. Als ein Beispiel kann der binäre Krebsklassifikator ein Klassifikator einer L2-regularisierten logistischen Regression sein, der unter Verwendung einer log-Verlustfunktion trainiert ist. Als ein weiteres Beispiel kann der Multikrebsklassifikator eine multinomiale logistische Regression sein. In der Praxis kann jede Art von Krebsklassifikator unter Verwendung anderer Techniken trainiert werden. Diese Techniken sind zahlreich, einschließlich der potenziellen Verwendung von Kernelverfahren, Algorithmen maschinellen Lernens wie mehrschichtigen neuronalen Netzen usw. Insbesondere können Verfahren wie in PCT/US2019/022122 und der US-Patentanmeldung Nr. 16/352,602 beschrieben, die durch Bezugnahme in ihrer Gesamtheit hierin eingebunden sind, für verschiedene Ausführungsformen verwendet werden.
  • In besonderen Ausführungsformen wird ein Krebsklassifikator durch den Prozess trainiert, der die folgenden Schritte beinhaltet: a. Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; b. für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, c. für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und hypermethylierten Trainingsfragmente und d. Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs. Das Trainingsverfahren kann ferner die folgenden Schritte beinhalten: a. Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; b. für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, c. für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; d. für jedes Trainingsfragment Erzeugen eines aggregierten Hypomethylierungspunktwertes auf der Basis des Hypomethylierungspunktwertes der CpG-Stellen in dem Trainingsfragment und eines aggregierten Hypermethylierungspunktwertes auf der Basis des Hypermethylierungspunktwertes der CpG-Stellen in dem Trainingsfragment; und e. für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; f. Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und von Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs; und g. Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs. In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell.
  • In manchen Ausführungsformen beinhaltet das Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen, ferner: a. das Quantifizieren einer krebsbefallenen Zählung hypomethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen mit Krebs, die diese CpG-Stelle überlappen, und einer krebsfreien Zählung hypomethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen ohne Krebs, die diese CpG-Stelle überlappen, und b. das Quantifizieren einer krebsbefallenen Zählung hypermethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen mit Krebs, die diese CpG-Stelle überlappen, und einer krebsfreien Zählung hypermethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen ohne Krebs, die diese CpG-Stelle überlappen. In manchen Ausführungsformen beinhaltet das Erzeugen eines Hypomethylierungspunktwertes und eines Hypermethylierungspunktwertes auf der Basis der Zählung von hypomethylierten Trainingsfragmenten und hypermethylierten Trainingsfragmenten ferner: a. zum Erzeugen des Hypomethylierungspunktwertes das Berechnen eines Hypomethylierungsverhältnisses der krebsbefallenen Zählung hypomethylierter Trainingsfragmente zu einer Hypomethylierungssumme der krebsbefallenen Zählung hypomethylierter Trainingsfragmente und der krebsfreien Zählung hypomethylierter Trainingsfragmente; und b. zum Erzeugen des Hypermethylierungspunktwertes das Berechnen eines Hypermethylierungsverhältnisses der krebsbefallenen Zählung hypermethylierter Trainingsfragmente zu einer Hypermethylierungssumme der krebsbefallenen Zählung hypermethylierter Trainingsfragmente und der krebsfreien Zählung hypermethylierter Trainingsfragmente.
  • Während des Einsatzes erhält das Analysesystem Sequenzlesungen von einer Testprobe, die einer Person abgenommen wurde. Verschiedene nach dem Stand der Technik verfügbare Sequenzierverfahren können verwendet werden, um Sequenzlesungen zu erhalten. In manchen Ausführungsformen werden die Sequenzlesungen durch Ganzgenomsequenzierung oder gezielte Sequenzierung erhalten. In manchen Ausführungsformen umfassen die Sequenzlesungen einen Satz Sequenzlesungen modifizierter Testfragmente, wobei die modifizierten Testfragmente durch Bearbeiten eines Satzes Nukleinsäurefragmente erhalten werden, wobei jedes der Nukleinsäurefragmente einer Vielzahl von Genomregionen, ausgewählt aus einer oder mehreren der Tabellen 1-24, entspricht oder davon abgeleitet ist. In manchen Ausführungsformen sind die Sequenzlesungen von den DNA-Proben, die unter Verwendung des hierin beschriebenen Assay-Panels angereichert wurden.
  • Das Analysesystem bearbeitet die Sequenzlesungen, um in einem ähnlichen Prozess wie für die Trainingsproben beschrieben einen Testmerkmalsvektor zu erhalten. In manchen Ausführungsformen wird der Testmerkmalsvektor durch den Prozess erhalten, der Folgendes beinhaltet: a. für jedes der Nukleinsäurefragmente Bestimmen, ob das Nukleinsäurefragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Nukleinsäurefragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist; b. für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Nukleinsäurefragmente und hypermethylierter Nukleinsäurefragmente; c. für jedes Nukleinsäurefragment Erzeugen eines aggregierten Hypomethylierungspunktwertes auf der Basis des Hypomethylierungspunktwertes der CpG-Stellen in dem Nukleinsäurefragment und eines aggregierten Hypermethylierungspunktwertes auf der Basis des Hypermethylierungspunktwertes der CpG-Stellen in dem Nukleinsäurefragment; d. Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypomethylierungspunktwertes und Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypermethylierungspunktwertes; und e. Erzeugen des Testmerkmalsvektors auf der Basis der Rangordnung der Nukleinsäurefragmente.
  • Das Analysesystem gibt dann den Testmerkmalsvektor in den trainierten Krebsklassifikator ein, um eine Krebsvorhersage, z. B. eine binäre Vorhersage (krebsbefallen oder krebsfrei) oder eine Multiklassen-Krebsvorhersage (Vorhersagepunktzahl für jede von einer Vielzahl von Krebsarten), zu ergeben. In manchen Ausführungsformen gibt das Analysesystem eine Krebsprobabilität für die Testprobe aus. Die Krebsprobabilität kann mit einer Schwellenprobabilität verglichen werden, um zu bestimmen, ob die Testprobe von einer Person mit Krebs oder ohne Krebs ist.
  • Beispielsequenzierer und -analysesystem
  • 8A ist ein Flussdiagramm von Systemen und Geräten zum Sequenzieren von Nukleinsäureproben gemäß einer Ausführungsform. Dieses illustrative Flussdiagramm umfasst Geräte wie einen Sequenzierer 820 und ein Analysesystem 800. Der Sequenzierer 820 und das Analysesystem 800 können Hand in Hand arbeiten, um einen oder mehrere Schritte in den hierin beschriebenen Prozessen durchzuführen.
  • In verschiedenen Ausführungsformen empfängt der Sequenzierer 820 eine angereicherte Nukleinsäureprobe 810. Wie in 8A gezeigt, kann der Sequenzierer 820 eine grafische Benutzerschnittstelle 825 umfassen, die Benutzerinteraktionen mit besonderen Aufgaben (z. B. Sequenzierung starten oder Sequenzierung beenden) ermöglicht, sowie eine oder mehrere Beladungsstationen 830 zum Laden einer die angereicherten Fragmentproben umfassenden Sequenzierkartusche und/oder zum Laden notwendiger Puffer zum Durchführen der Sequenzierassays. Daher kann, sobald ein Benutzer des Sequenzierers 820 der Beladungsstation 830 des Sequenzierers 820 die notwendigen Reagenzien und die Sequenzierkartusche bereitgestellt hat, der Benutzer durch Interagieren mit der grafischen Benutzerschnittstelle 825 des Sequenzierers 820 die Sequenzierung starten. Einmal gestartet, führt der Sequenzierer 820 die Sequenzierung durch und gibt die Sequenzlesungen der angereicherten Fragmente von der Nukleinsäureprobe 810 aus.
  • In manchen Ausführungsformen ist der Sequenzierer 820 zur Kommunikation an das Analysesystem 800 gekoppelt. Das Analysesystem 800 umfasst eine gewisse Anzahl Rechengeräte, die zum Bearbeiten der Sequenzlesungen für verschiedene Anwendungen, wie Beurteilen des Methylierungsstatus an einer oder mehreren CpG-Stellen, Variantenbenennung oder Qualitätskontrolle, verwendet werden. Der Sequenzierer 820 kann die Sequenzlesungen dem Analysesystem 800 in einem BAM-Dateiformat 800 bereitstellen. Das Analysesystem 800 kann zur Kommunikation durch eine drahtlose, drahtgebundene oder eine Kombination von drahtlosen und drahtgebundenen Kommunikationstechnologien an den Sequenzierer 820 gekoppelt sein. Im Allgemeinen ist das Analysesystem 800 mit einem Prozessor und einem nicht flüchtigen computerlesbaren Speichermedium, das Computeranweisungen speichert, die bei Ausführung durch den Prozessor verursachen, dass der Prozessor die Sequenzlesungen bearbeitet oder einen oder mehrere Schritte gemäß einem der hierin offenbarten Verfahren oder Prozesse durchführt, konfiguriert.
  • In manchen Ausführungsformen können die Sequenzlesungen unter Verwendung von nach dem Stand der Technik bekannten Verfahren mit einem Referenzgenom aliniert werden, um Alinierungspositionsinformationen zu bestimmen, z. B. Teil von Schritt 140 des Prozesses 100 in 3A. Alinierungsposition kann im Allgemeinen eine Anfangsposition und eine Endposition einer Region im Referenzgenom beschreiben, die einer Anfangsnukleotidbase und einer Endnukleotidbase einer gegebenen Sequenzlesung entspricht. Entsprechend der Methylierungssequenzierung können die Alinierungspositionsinformationen verallgemeinert werden, um eine erste CpG-Stelle und eine letzte CpG-Stelle, die von der Sequenzlesung umfasst werden, gemäß der Alinierung mit dem Referenzgenom anzuzeigen. Die Alinierungspositionsinformationen können ferner Methylierungsstatus und Ort aller CpG-Stellen in einer gegebenen Sequenzlesung anzeigen. Eine Region im Referenzgenom kann mit einem Gen oder einem Segment eines Gens assoziiert sein; als solches kann das Analysesystem 800 eine Sequenzlesung mit einem oder mehreren Genen kennzeichnen, die mit der Sequenzlesung alinieren. In einer Ausführungsform wird die Fragmentlänge (oder - größe) aus der Anfangs- und Endposition bestimmt.
  • In verschiedenen Ausführungsformen, zum Beispiel wenn ein Endpaar-Sequenzierungsprozess verwendet wird, besteht eine Sequenzlesung aus einem als R_1 und R_2 angegebenen Lesungspaar. Zum Beispiel kann die erste Lesung R_1 von einem ersten Ende eines doppelsträngigen DNA(dsDNA)-Moleküls sequenziert werden, wohingegen die zweite Lesung R_2 von dem zweiten Ende der doppelsträngigen DNA (dsDNA) sequenziert werden kann. Daher können Nukleotidbasenpaare der ersten Lesung R_1 und zweiten Lesung R_2 konsistent (z. B. in gegenläufiger Orientierung) mit Nukleotidbasen des Referenzgenoms aliniert werden. Von dem Lesungspaar R_1 und R_2 abgeleitete Alinierungspositionsinformationen können eine Anfangsposition im Referenzgenom, die einem Ende einer ersten Lesung (z. B. R_1) entspricht, und eine Endposition im Referenzgenom, die einem Ende einer zweiten Lesung (z. B. R_2) entspricht, umfassen. Mit anderen Worten stellen die Anfangsposition und Endposition im Referenzgenom den wahrscheinlichen Ort innerhalb des Referenzgenoms dar, dem das Nukleinsäurefragment entspricht. Eine Ausgabedatei mit dem Format SAM (Sequence Alignment Map) oder dem Format BAM (Binary) kann erzeugt und zur weiteren Analyse ausgegeben werden.
  • Jetzt auf 8B Bezug nehmend, ist 8B ein Blockdiagramm eines Analysesystems 800 zum Bearbeiten von DNA-Proben gemäß einer Ausführungsform. Das Analysesystem setzt ein oder mehrere Rechengeräte zur Verwendung beim Analysieren von DNA-Proben ein. Das Analysesystem 800 umfasst einen Sequenzprozessor 840, eine Sequenzdatenbank 845, eine Modelldatenbank 855, Modelle 850, eine Parameterdatenbank 865 und eine Punktzahl-Engine 860. In manchen Ausführungsformen führt das Analysesystem 800 einen oder mehrere Schritte in den Prozessen 100 von 3A, 340 von 3B, 400 von 4, 500 von 5, 600 von 6A oder 680 von 6B und anderem hierin beschriebenen Prozess aus.
  • Der Sequenzprozessor 840 erzeugt Methylierungszustandsvektoren für Fragmente aus einer Probe. An jeder CpG-Stelle in einem Fragment erzeugt der Sequenzprozessor 840 über den Prozess 100 von 3A einen Methylierungszustandsvektor für jedes Fragment, der einen Ort in dem Fragment im Referenzgenom, eine Anzahl CpG-Stellen in dem Fragment und den Methylierungszustand jeder CpG-Stelle in dem Fragment, ob methyliert, unmethyliert oder unbestimmt, spezifiziert. Der Sequenzprozessor 840 kann Methylierungszustandsvektoren für Fragmente in der Sequenzdatenbank 845 speichern. Daten in der Sequenzdatenbank 845 können so organisiert sein, dass die Methylierungszustandsvektoren von einer Probe miteinander assoziiert sind.
  • Ferner können mehrere unterschiedliche Modelle 850 in der Modelldatenbank 855 gespeichert werden oder zur Verwendung mit Testproben aufgerufen werden. In einem Beispiel ist ein Modell ein trainierter Krebsklassifikator zum Bestimmen einer Krebsvorhersage für eine Testprobe unter Verwendung eines von anomalen Fragmenten abgeleiteten Merkmalsvektors. Das Training und die Verwendung des Krebsklassifikators wird in Zusammenhang mit dem Unterabschnitt mit der Überschrift „Krebs anzeigende Genomregionen und Klassifikatoren“ weiter erörtert. Das Analysesystem 800 kann das eine oder die mehreren Modelle 850 trainieren und verschiedene trainierte Parameter in der Parameterdatenbank 865 speichern. Das Analysesystem 800 speichert die Modelle 850 zusammen mit Funktionen in der Modelldatenbank 855.
  • Während der Inferenz verwendet die Punktzahl-Engine 860 das eine oder die mehreren Modelle 850, um Ausgaben zurückzugeben. Die Punktzahl-Engine 860 greift auf die Modelle 850 in der Modelldatenbank 855 zusammen mit trainierten Parametern von der Parameterdatenbank 865 zu. Gemäß jedem Modell empfängt die Punktzahl-Engine eine angemessene Eingabe für das Modell und berechnet eine Ausgabe auf der Basis der empfangenen Eingabe, der Parameter und einer Funktion eines jeden Modells, die die Eingabe und die Ausgabe in Beziehung setzt. In manchen Verwendungsfällen berechnet die Punktzahl-Engine 860 ferner Kennzahlen, die mit einer Konfidenz in den berechneten Ausgaben von dem Modell korrelieren. In anderen Verwendungsfällen berechnet die Punktzahl-Engine 860 andere Zwischenwerte zur Verwendung in dem Modell.
  • Anwendung
  • In manchen Ausführungsformen können die Verfahren, Analysesysteme und/oder der Klassifikator der vorliegenden Erfindung verwendet werden, um das Vorliegen von Krebs nachzuweisen, das Fortschreiten oder Wiederauftreten von Krebs zu überwachen, das Anschlagen oder die Effektivität der Therapie zu überwachen, ein Vorliegen eine minimale Resterkrankung (MRD) zu bestimmen oder zu überwachen, oder eine beliebige Kombination davon. Zum Beispiel kann ein Klassifikator, wie hierin beschrieben, verwendet werden, um eine Wahrscheinlichkeits- oder Probabilitätspunktzahl (z. B. von 0 bis 100), dass ein Probenmerkmalsvektor von einer Person mit Krebs ist, zu erzeugen. In manchen Ausführungsformen wird die Probabilitätspunktzahl mit einer Schwellenprobabilität verglichen, um zu bestimmen, ob die Person Krebs hat oder nicht. In weiteren Ausführungsformen kann die Wahrscheinlichkeits- oder Probabilitätspunktzahl zu unterschiedlichen Zeitpunkten (z. B. vor oder nach Behandlung) beurteilt werden, um das Fortschreiten der Krankheit zu überwachen oder die Behandlungseffektivität (z. B. Wirksamkeit der Therapie) zu überwachen. In noch weiteren Ausführungsformen kann die Wahrscheinlichkeits- oder Probabilitätspunktzahl verwendet werden, um eine klinische Entscheidung (z. B. Krebsdiagnose, Behandlungsauswahl, Beurteilung der Behandlungseffektivität usw.) zu treffen oder zu beeinflussen. Zum Beispiel kann in einer Ausführungsform, wenn die Wahrscheinlichkeits- oder Probabilitätspunktzahl einen Schwellenwert überschreitet, ein Arzt eine angemessene Behandlung verschreiben.
  • Früher Nachweis von Krebs
  • In manchen Ausführungsformen werden die Verfahren und/oder der Klassifikator der vorliegenden Erfindung verwendet, um das Vorliegen oder Nichtvorliegen von Krebs bei einer Person, bei der der Verdacht auf Krebs besteht, nachzuweisen. Zum Beispiel kann ein Klassifikator (wie hierin beschrieben) verwendet werden, um eine Wahrscheinlichkeits- oder Probabilitätspunktzahl, dass ein Probenmerkmalsvektor von einer Person ist, die Krebs hat, zu bestimmen.
  • In einer Ausführungsform kann eine Probabilitätspunktzahl größer als oder gleich 60 anzeigen, dass die Person Krebs hat. In noch weiteren Ausführungsformen zeigte eine Probabilitätspunktzahl größer als oder gleich 65, größer als oder gleich 70, größer als oder gleich 75, größer als oder gleich 80, größer als oder gleich 85, größer als oder gleich 90 oder größer als oder gleich 95 an, dass die Person Krebs hat. In weiteren Ausführungsformen kann eine Probabilitätspunktzahl die Schwere der Erkrankung anzeigen. Zum Beispiel kann eine Probabilitätspunktzahl von 80 eine schwerere Form oder ein späteres Stadium von Krebs verglichen mit einer Punktzahl unter 80 (z. B. einer Punktzahl von 70) anzeigen. Auf ähnliche Weise kann eine Zunahme der Probabilitätspunktzahl mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) Fortschreiten der Krankheit anzeigen oder kann eine Abnahme der Probabilitätspunktzahl mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) erfolgreiche Behandlung anzeigen.
  • In einer weiteren Ausführungsform kann für eine Testperson ein Krebs-log-Quotenverhältnis berechnet werden, indem der log eines Verhältnisses einer Probabilität, karzinomatös zu sein, zu einer Probabilität, nicht karzinomatös zu sein (d. h. eins minus die Probabilität, karzinomatös zu sein), genommen wird, wie hierin beschrieben. Gemäß dieser Ausführungsform kann ein Krebs-log-Quotenverhältnis größer als 1 anzeigen, dass die Person Krebs hat. In noch weiteren Ausführungsformen zeigte ein Krebs-log-Quotenverhältnis größer als 1,2, größer als 1,3, größer als 1,4, größer als 1,5, größer als 1,7, größer als 2, größer als 2,5, größer als 3, größer als 3,5 oder größer als 4 an, dass die Person Krebs hat. In weiteren Ausführungsformen kann ein Krebs-log-Quotenverhältnis die Schwere der Erkrankung anzeigen. Zum Beispiel kann ein Krebs-log-Quotenverhältnis größer als 2 eine schwerere Form oder ein späteres Stadium von Krebs verglichen mit einer Punktzahl unter 2 (z. B. einer Punktzahl von 1) anzeigen. Auf ähnliche Weise kann eine Zunahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) Fortschreiten der Krankheit anzeigen oder kann eine Abnahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) erfolgreiche Behandlung anzeigen.
  • Gemäß Aspekten der Erfindung können die Verfahren und Systeme der vorliegenden Erfindung trainiert werden, um mehrere Krebsindikationen nachzuweisen und zu klassifizieren. Zum Beispiel können die Verfahren, Systeme und Klassifikatoren der vorliegenden Erfindung verwendet werden, um das Vorliegen von einer oder mehreren, zwei oder mehr, drei oder mehr, fünf oder mehr oder zehn oder mehr unterschiedlichen Arten von Krebs nachzuweisen.
  • In manchen Ausführungsformen ist der Krebs einer oder mehrere von (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliäres Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs und (9) Bauchspeicheldrüsenkrebs.
  • Krebs- und Behandlungsüberwachung
  • In manchen Ausführungsformen kann die Wahrscheinlichkeits- oder Probabilitätspunktzahl zu unterschiedlichen Zeitpunkten (z. B. vor oder nach Behandlung) beurteilt werden, um das Fortschreiten der Krankheit zu überwachen oder die Behandlungseffektivität (z. B. Wirksamkeit der Therapie) zu überwachen. Zum Beispiel stellt die vorliegende Offenbarung Verfahren bereit, die das Erhalten einer ersten Probe (z. B. einer ersten Plasma-cfDNA-Probe) von einem Krebspatienten zu einem ersten Zeitpunkt, das Bestimmen einer ersten Wahrscheinlichkeits- oder Probabilitätspunktzahl davon (wie hierin beschrieben), das Erhalten einer zweiten Testprobe (z. B. einer zweiten Plasma-cfDNA-Probe) von dem Krebspatienten zu einem zweiten Zeitpunkt und das Bestimmen einer zweiten Wahrscheinlichkeits- oder Probabilitätspunktzahl davon (wie hierin beschrieben) involvieren.
  • In bestimmten Ausführungsformen liegt der erste Zeitpunkt vor einer Krebsbehandlung (z. B. vor einer Resektionsoperation oder einem therapeutischen Eingriff) und liegt der zweite Zeitpunkt nach einer Krebsbehandlung (z. B. nach einer Resektionsoperation oder einem therapeutischen Eingriff) und wird das Verfahren genutzt, um die Effektivität der Behandlung zu überwachen. Wenn zum Beispiel die zweite Wahrscheinlichkeits- oder Probabilitätspunktzahl verglichen mit der ersten Wahrscheinlichkeits- oder Probabilitätspunktzahl abnimmt, dann wird die Behandlung als erfolgreich betrachtet. Wenn jedoch die zweite Wahrscheinlichkeits- oder Probabilitätspunktzahl verglichen mit der ersten Wahrscheinlichkeits- oder Probabilitätspunktzahl zunimmt, dann wird die Behandlung als nicht erfolgreich betrachtet. In weiteren Ausführungsformen liegen sowohl der erste als auch der zweite Zeitpunkt vor einer Krebsbehandlung (z. B. vor einer Resektionsoperation oder einem therapeutischen Eingriff). In noch weiteren Ausführungsformen liegen sowohl der erste als auch der zweite Zeitpunkt nach einer Krebsbehandlung (z. B. vor einer Resektionsoperation oder einem therapeutischen Eingriff) und wird das Verfahren verwendet, um die Effektivität der Behandlung oder den Verlust der Effektivität der Behandlung zu überwachen. In noch weiteren Ausführungsformen können cfDNA-Proben zu einem ersten und zweiten Zeitpunkt von einem Krebspatienten erhalten und analysiert werden, z. B. um das Fortschreiten von Krebs zu überwachen, um zu bestimmen, ob ein Krebs in Remission ist (z. B. nach Behandlung), um Resterkrankung oder Wiederauftreten der Krankheit zu überwachen oder nachzuweisen oder um die (z. B. therapeutische) Wirksamkeit der Behandlung zu überwachen.
  • Ein Fachmann wird es ohne Weiteres würdigen, dass Testproben über einen beliebigen gewünschten Satz Zeitpunkte von einem Krebspatienten erhalten und gemäß den Verfahren der Erfindung analysiert werden können, um einen Krebszustand bei dem Patienten zu überwachen. In manchen Ausführungsformen sind der erste und zweite Zeitpunkt durch eine Menge an Zeit getrennt, die von ungefähr 15 Minuten bis zu ungefähr 30 Jahren reicht, wie ungefähr 30 Minuten, wie ungefähr 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 oder ungefähr 24 Stunden, wie ungefähr 1, 2, 3, 4, 5, 10, 15, 20, 25 oder ungefähr 30 Tage oder wie ungefähr 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 oder 12 Monate oder wie ungefähr 1, 1,5, 2, 2,5, 3, 3,5, 4, 4,5, 5, 5,5, 6, 6,5, 7, 7,5, 8, 8,5, 9, 9,5, 10, 10,5, 11, 11,5, 12, 12,5, 13, 13,5, 14, 14,5, 15, 15,5, 16, 16,5, 17, 17,5, 18, 18,5, 19, 19,5, 20, 20,5, 21, 21,5, 22, 22,5, 23, 23,5, 24, 24,5, 25, 25,5, 26, 26,5, 27, 27,5, 28, 28,5, 29, 29,5 oder ungefähr 30 Jahre. In weiteren Ausführungsformen können Testproben mindestens einmal alle 3 Monate, mindestens einmal alle 6 Monate, mindestens einmal jährlich, mindestens einmal alle 2 Jahre, mindestens einmal alle 3 Jahre, mindestens einmal alle 4 Jahre oder mindestens einmal alle 5 Jahre von dem Patienten erhalten werden.
  • Behandlung
  • In noch einer weiteren Ausführungsform können durch ein beliebiges hierin beschriebenes Verfahren erhaltene Informationen (z. B. die Wahrscheinlichkeits- oder Probabilitätspunktzahl) verwendet werden, um eine klinische Entscheidung (z. B. Krebsdiagnose, Behandlungsauswahl, Beurteilung der Behandlungseffektivität usw.) zu treffen oder zu beeinflussen. Zum Beispiel kann in einer Ausführungsform, wenn die Wahrscheinlichkeits- oder Probabilitätspunktzahl einen Schwellenwert überschreitet, ein Arzt eine angemessene Behandlung (z. B. eine Resektionsoperation, Bestrahlungstherapie, Chemotherapie und/oder Immuntherapie) verschreiben. In manchen Ausführungsformen können Informationen wie eine Wahrscheinlichkeits- oder Probabilitätspunktzahl einem Arzt oder einer Person als eine Anzeige bereitgestellt werden.
  • Ein Klassifikator (wie hierin beschrieben) kann verwendet werden, um eine Wahrscheinlichkeits- oder Probabilitätspunktzahl, dass ein Probenmerkmalsvektor von einer Person ist, die Krebs hat, zu bestimmen. In einer Ausführungsform wird eine angemessene Behandlung (z. B. Resektionsoperation oder therapeutisch) verschrieben, wenn die Wahrscheinlichkeit oder Probabilität einen Schwellenwert überschreitet. Wenn zum Beispiel in einer Ausführungsform die Wahrscheinlichkeits- oder Probabilitätspunktzahl größer als oder gleich 60 ist, werden eine oder mehrere angemessene Behandlungen verschrieben. In einer weiteren Ausführungsform werden, wenn die Wahrscheinlichkeits- oder Probabilitätspunktzahl größer als oder gleich 65, größer als oder gleich 70, größer als oder gleich 75, größer als oder gleich 80, größer als oder gleich 85, größer als oder gleich 90 oder größer als oder gleich 95 ist, eine oder mehrere angemessene Behandlungen verschrieben. In weiteren Ausführungsformen kann ein Krebs-log-Quotenverhältnis die Effektivität einer Krebsbehandlung anzeigen. Zum Beispiel kann eine Zunahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem zweiten nach Behandlung) anzeigen, dass die Behandlung nicht effektiv war. Auf ähnliche Weise kann eine Abnahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem nach Behandlung) eine erfolgreiche Behandlung anzeigen. In einer weiteren Ausführungsform werden, wenn das Krebs-Iog-Quotenverhältnis größer als 1, größer als 1,5, größer als 2, größer als 2,5, größer als 3, größer als 3,5 oder größer als 4 ist, eine oder mehrere angemessene Behandlungen verschrieben.
  • In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren krebstherapeutischen Mitteln, ausgewählt aus der Gruppe, bestehend aus einem Chemotherapiemittel, einem gezielten Krebstherapiemittel, einem differenzierenden Therapiemittel, einem Hormontherapiemittel und einem Immuntherapiemittel. Zum Beispiel kann die Behandlung in einem oder mehreren Chemotherapiemitteln, ausgewählt aus der Gruppe, bestehend aus Alkylierungsmitteln, Antimetaboliten, Anthrazyklinen, Antitumorantibiotika, Disruptoren des Zellskeletts (Taxanen), Topoisomerasehemmern, Mitosehemmern, Kortikosteroiden, Kinasehemmern, Nukleotidanaloga, Mitteln auf Platinbasis und einer beliebigen Kombination davon bestehen. In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren gezielten Krebstherapiemitteln, ausgewählt aus der Gruppe, bestehend aus Signalübertragungshemmern (z. B. Tyrosinkinase und Wachstumsfaktorrezeptorhemmern), Histondeacetylase(HDAC)-Hemmern, Retinsäurerezeptoragonisten, Proteasomenhemmern, Angiogenesehemmern und monoklonalen Antikörperkonjugaten. In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren differenzierenden Therapiemitteln, umfassend Retinoide wie Tretinoin, Alitretinoin und Bexaroten. In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren Hormontherapiemitteln, ausgewählt aus der Gruppe, bestehend aus Antiestrogenen, Aromatasehemmern, Progestinen, Estrogenen, Antiandrogenen und GnRH-Agonisten oder -Analoga. In einer Ausführungsform besteht die Behandlung in einem oder mehreren Immuntherapiemitteln, ausgewählt aus der Gruppe, beinhaltend Therapien mit monoklonalen Antikörpern wie Rituximab (RITUXAN) und Alemtuzumab (CAMPATH), unspezifische Immuntherapien und Adjuvanzien wie BCG, Interleukin-2 (IL-2) und Interferon-alpha, immunmodulierende Arzneimittel, zum Beispiel Thalidomid und Lenalidomid (REVLIMID). Es liegt in der Fähigkeit eines qualifizierten Arztes oder Onkologen, auf der Basis von Charakterisitika wie der Art des Tumors, dem Krebsstadium, vorheriger Exposition gegenüber Krebsbehandlung oder therapeutischem Mittel und anderen Charakterisitika des Krebses ein angemessenes krebstherapeutisches Mittel auszuwählen.
  • Beispiele
  • Die folgenden Beispiele werden vorgebracht um gewöhnlichen Fachleuten eine vollständige Offenbarung und Beschreibung, wie die vorliegende Beschreibung herzustellen und zu verwenden ist, bereitzustellen und sollen nicht den Umfang dessen beschränken, was die Erfinder als ihre Beschreibung ansehen, noch sollen sie bedeuten, dass die Experimente unten alle oder die einzigen durchgeführten Experimente sind. Es wurde sich bemüht, hinsichtlich der verwendet Zahlen (z. B. Mengen, Temperatur usw.) Genauigkeit sicherzustellen, aber gewisse Experimentierfehler und Abweichungen sollten berücksichtigt werden.
  • Beispiel 1: Analyse der Sondenqualität
  • Um zu testen, wie viel Überlappung zwischen einem cfDNA-Fragment und einer Sonde erforderlich ist, um eine nicht vernachlässigbare Menge an Herabziehen zu erreichen, wurden verschiedene Längen von Überlappungen getestet unter Verwendung von Panels, die gestaltet waren, um drei unterschiedliche Arten Sonden (V1D3, V1D4, V1E2) mit verschiedenen Überlappungen mit für jede Sonde spezifischen Ziel-DNA-Fragmenten von 175 bp zu umfassen. Getestete Überlappungen lagen im Bereich zwischen 0 bp und 120 bp. Proben, die Ziel-DNA-Fragmente von 175 bp umfassten, wurden auf das Panel aufgetragen und gewaschen und dann wurden an die Sonden gebundene DNA-Fragmente gesammelt. Die Mengen der gesammelten DNA-Fragmente wurden gemessen und die Mengen wurden als Dichte gegen die Größe von Überlappungen aufgetragen, wie in 9 bereitgestellt.
  • Es gab kein signifikantes Binden und Herabziehen von Ziel-DNA-Fragmenten, wenn die Überlappung weniger als 45 bp betrug. Diese Resultate legen nahe, dass eine Fragment-Sonde-Überlappung von mindestens 45 bp im Allgemeinen erforderlich ist, um eine nicht vernachlässigbare Menge an Herabziehen zu erreichen, obwohl diese Zahl in Abhänigkeit von den Assay-Bedingungen variieren kann.
  • Des Weiteren wurde nahegelegt, dass eine Fehlpaarungsrate zwischen der Sonde und den Fragmentsequenzen in der Überlappungsregion von mehr als 10 % ausreicht, um die Bindung und somit die Effizienz des Herabziehens stark zu stören. Daher sind Sequenzen, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit der Sonde alinieren können, Kandidaten für Fehltreffer-Herabziehen.
  • Folglich haben wir für jede Sonde eine ausführliche Durchsuchung nach allen Genomregionen mit Alinierungen von 45 bp mit einer Übereinstimmungsrate von 90 % und mehr (d. h. Fehltreffer-Regionen) durchgeführt. Spezifisch kombinierten wir eine k-mer-Beimpfungsstrategie (die eine oder mehrere Fehlpaarungen gestatten kann) mit lokaler Alinierung an den Beimpfungsorten. Dies garantierte, dass keine guten Alinierungen auf der Basis von k-mer-Länge, Anzahl gestatteter Fehlpaarungen und Anzahl k-mer-Keimtreffern an einem besonderen Ort nicht bemerkt wurden. Dies involviert das Durchführen einer dynamischen Programmierung örtlicher Alinierung an einer großen Anzahl Orte, sodass die Umsetzung optimiert war, um Vektor-CPU-Anweisungen (z. B. AVX2, AVX512) zu verwenden, und über viele Prozessorkerne innerhalb einer Maschine und auch über viele durch ein Netzwerk vernetzte Maschinen hinweg parallelisiert war. Dies gestattet eine ausführliche Durchsuchung, was beim Gestalten eines Hochleistungspanels (d. h. niedrige Fehltrefferrate und hohe Zielabdeckung für eine gegebene Menge an Sequenzierung) wertvoll ist.
  • Auf die ausführliche Suche folgend wurde jeder Sonde auf der Basis der Anzahl Fehltreffer-Regionen eine Punktanzahl zugeordnet. Die besten Sonden weisen eine Punktzahl von 1 auf, was bedeutet, dass sie an nur einem Ort (hohe Q) übereinstimmen. Sonden mit einer niedrigen Punktzahl zwischen 2-19 Treffern (niedrige Q) wurden akzeptiert, aber Sonden mit einer schlechten Punktzahl von mehr als 20 Treffern (schlechte Q) wurden verworfen. Für spezifische Proben können andere Grenzwerte verwendet werden.
  • Anzahlen von Sonden hoher Qualität, niedriger Qualität und schlechter Qualität wurden dann unter Sonden, die auf hypermethylierte Genomregionen oder hypomethylierte Genomregionen abzielen, gezählt. Wie in 10 bereitgestellt, weisen Sonden, die auf hypermethylierte Regionen abzielen, tendenziell signifikant weniger Fehltreffer-Regionen auf.
  • Beispiel 2: Annotation von Zielgenomregionen
  • Mit dem in 4 dargelegten Prozess identifizierte Zielgenomregionen wurden analysiert, um Merkmale der Zielregionen zu verstehen. Spezifisch wurden ausgewählte Zielgenomregionen mit einem Referenzgenom aliniert, um Alinierungspositionen zu bestimmen. Die Alinierungspositionsinformationen wurden für jede ausgewählte Zielgenomregion gesammelt, umfassend die Chromosomenzahl, Anfangsnukleotidbase, Endnukleotidbase und die Genomannotation für die gegebene Genomregion. Zielgenomregionen waren in Introns, Exons, Zwischengenregionen, 5'-UTRs, 3'-UTRs oder Steuerungsregionen wie Promotoren oder Enhancern positioniert. Die Anzahl Zielgenomregionen, die in jede Genomannotation fallen, wurde gezählt und in der in 12 bereitgestellten Grafik aufgetragen. 12 vergleicht auch die Anzahlen der ausgewählten Zielgenomregionen (schwarze Balken) bzw. Anzahlen zufällig ausgewählter Zielgenomregionen (graue Balken), die in jede Genomannotation fallen.
  • Die Analyse zeigt, dass die ausgewählten Zielgenomregionen in ihrer genomischen Verteilung nicht zufällig sind und sie im Vergleich mit zufällig ausgewählten Zielen derselben Größe höhere Anreicherung von regulatorischen und funktionellen Elementen wie Promotoren und 5UTRs und weniger Repräsentation von Zwischengensequenzen aufwiesen. Zum Beispiel wurde festgestellt, dass Zielgenomregionen eher Positionen in Promotoren, 5'-UTR, Exons, Intron-Exon-Grenzen, Introns, 3'-UTRs oder Enhancern als in Zwischengenregionen einnehmen.
  • Beispiel 3: Krebs-Assay-Panels (CCGA)
  • Zielgenomregionen wurden unter Verwendung einer durch Sequenzierung von cfDNA-Fragmenten, die von mehr als 1800 Individuen erhalten wurden, erzeugten Datenbank ausgewählt. Die cfDNA-Sequenzierungsdatenbank wird hierin als die Circulating Cell-free Genome Atlas Study („CCGA“) bezeichnet. Die CCGA-Studie wurde mit dem ClinicalTrial.gov-Identifikator NCT02889978 (https://www.clinicaltrials.gov/ct2/show/NCT02889978) beschrieben.
  • Spezifisch wurden cfDNA-Sequenzen in der Datenbank auf der Basis des p-Wertes unter Verwendung einer krebsfreien Verteilung gefiltert und nur Fragmente mit p < 0,001 wurden behalten. Die ausgewählten cfDNAs wurden weiter gefiltert, um nur diejenigen zu behalten, die zu mindestens 90 % methyliert oder 90 % unmethyliert waren. Als Nächstes wurde für jede CpG-Stelle in den ausgewählten Fragmenten die Anzahl krebsbefallener Proben bzw. krebsfreier Proben gezählt, die Fragmente umfassen, die diese CpG-Stelle überlappen. Spezifisch wurde für jedes CpG P (Krebs | überlappendes Fragment) berechnet und Genomstellen mit hohen P-Werten wurden als allgemeine krebsbefallene Ziele ausgewählt. Aufgrund der Gestaltung wiesen die ausgewählten Fragmente sehr niedriges Rauschen auf (d. h. wenige überlappende krebsfreie Fragmente).
  • Um krebsartspezifische Ziele zu finden, wurden ähnliche Auswahlprozesse durchgeführt. Auf der Basis ihres Informationsgewinns wurde eine Rangordnung der CpG-Stellen erstellt, wobei eine Krebsart mit allen anderen Proben (krebsfrei plus andere Krebsarten) verglichen wurde. Wir versuchten nur, krebsartspezifische Ziele für den Teilsatz Krebsarten in der CCGA zu finden, bei denen wir ahnten, dass sie genug Signal aufweisen sollten, um dies praktikabel zu machen. Diese Ahnung wurde bei Verwendung des gleichen Auswahlverfahrens, um Merkmale für einen Krebsartklassifikator zu finden, von einem guten Resultat unterstützt.
  • Krebs-Assay-Panels, die Sonden beinhalten, die auf die ausgewählten Genomregionen abzielen, wurden erzeugt. Spezifisch wurden die Panels gestaltet, um das Vorliegen und/oder Stadium von Krebs im Allgemeinen (d. h. gegenüber krebsfrei) bzw. einer spezifischen Krebsart wie unten aufgelistet nachzuweisen:
    • Tabelle 1: Bauchspeicheldrüsenkrebs Nr. 1
    • Tabelle 2: Blutkrebs Nr. 1
    • Tabelle 3: Brustkrebs Nr. 1
    • Tabelle 4: Kolorektalkrebs Nr. 1
    • Tabelle 5: Speiseröhrenkrebs Nr. 1
    • Tabelle 6: Kopf-Hals-Karzinom Nr. 1
    • Tabelle 7: hepatobiliäres Karzinom Nr. 1
    • Tabelle 8: Lungenkrebs Nr. 1
    • Tabelle 9: Eierstockkrebs Nr. 1
    • Tabelle 10: Bauchspeicheldrüsenkrebs Nr. 1
    • Tabelle 12: Bauchspeicheldrüsenkrebs Nr. 2
    • Tabelle 13: Bauchspeicheldrüsenkrebs Nr. 3
    • Tabelle 14: Bauchspeicheldrüsenkrebs Nr. 4
    • Tabelle 15: Bauchspeicheldrüsenkrebs Nr. 5
    • Tabelle 16: Blutkrebs Nr. 2
    • Tabelle 17: Brustkrebs Nr. 2
    • Tabelle 18: Kolorektalkrebs Nr. 2
    • Tabelle 19: Speiseröhrenkrebs Nr. 2
    • Tabelle 20: Kopf-Hals-Karzinom Nr. 2
    • Tabelle 21: hepatobiliäres Karzinom Nr. 2
    • Tabelle 22: Lungenkrebs Nr. 2
    • Tabelle 23: Eierstockkrebs Nr. 2
    • Tabelle 24: Bauchspeicheldrüsenkrebs Nr. 2
  • Die Panels können Sonden umfassen, die konfiguriert sind, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen, die in der als Tabellen 1-24 bereitgestellten Liste enthalten sind, entspricht oder davon abgeleitet ist. Die in den Tabellen 1-10 und 12-13 bereitgestellten Genomregionen wurden mittels des in 4 dargelegten Prozesses unter Verwendung des CCGA-Datensatzes identifiziert. Die Tabellen 14-24 stellen Teilsätze der Tabellen 1-13 dar. Die Tabellen 1-10 listen die Genomregionen im folgenden Spaltenformat auf, angefangen bei der äußerst linken Spalte: das Chromosom, auf dem sich die Zielgenomregion befindet, Anfangs- und Endposition der Zielgenomregion, ob die Zielgenomregion hypermethyliert oder hypomethyliert ist und eine Annotation (falls bekannt) eines jeden Gens, das sich innerhalb von 10 000 bp von der anvisierten Region des Genoms befindet. Die Tabellen 12-24 weisen die folgende Spaltenformatierung auf, angefangen bei der äußerst linken Spalte: das Chromosom, auf dem sich die Zielgenomregion befindet, und die Anfangs- und Endposition der Zielgenomregion auf dem Chromosom. Die Chromosomenzahlen und die Anfangs- und Endpositionen werden relativ zu einem bekannten menschlichen Referenzgenom, hg19, bereitgestellt. Die Sequenz des menschlichen Referenzgenoms, hg19, ist vom Genome Reference Consortium mit einer Referenznummer, GRCh37/hg19, verfügbar und ist auch vom Genome Browser, bereitgestellt vom Santa Cruz Genomics Institute, verfügbar.
  • Im Allgemeinen kann eine Sonde entwickelt sein, um mit einer beliebigen der CpG-Stellen zu überlappen, die innerhalb der Anfangs-/Endbereiche einer beliebigen der in den Tabellen 1-24 enthaltenen anvisierten Regionen (z. B. anomaler Fragmente) enthalten sind.
  • Beispiel 4: Krebs-Assay-Panel (TCGA)
  • Ein Panel, das das Vorliegen und/oder Stadium von Krebs im Allgemeinen (d. h. Krebs gegenüber kein Krebs) nachzuweisen vermag, wurde erzeugt. Das Panel umfasst Sonden, die konfiguriert sind, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen in Tabelle 11 entspricht oder davon abgeleitet ist. Die Genomregionen in Tabelle 11 wurden unter Verwendung der im Rest dieses Dokuments beschriebenen Techniken sowie durch Anvisieren von Virussequenzen/-genomen identifiziert, Datensatz vom The Cancer Genome Atlas (TCGA), der als ein Resultat der Zusammenarbeit zwischen dem National Cancer Institute (NCI) und dem National Human Genome Research Institute (NHGRI) entwickelt wurde. Der Datensatz stellt umfassende, mehrdimensionale Karten der wichtigsten Genomveränderungen bei 33 Arten von Krebs bereit.
  • Tabelle 11 listet die Genomregionen im folgenden Spaltenformat auf, angefangen bei der äußerst linken Spalte: das Chromosom, auf dem sich die Zielgenomregion befindet, Anfangs- und Endposition der Zielgenomregion, ob die Zielgenomregion hypermethyliert oder hypomethyliert ist und eine Annotation (falls bekannt) eines jeden Gens, das sich innerhalb von 10 000 bp von der anvisierten Region des Genoms befindet. Die Chromosomenzahlen und die Anfangs- und Endpositionen werden relativ zu einem bekannten menschlichen Referenzgenom, hg19, bereitgestellt. Die Sequenz des menschlichen Referenzgenoms hg19 ist vom Genome Reference Consortium mit einer Referenznummer, GRCh37/hg19, verfügbar und ist auch vom Genome Browser, bereitgestellt vom Santa Cruz Genomics Institute, verfügbar.
  • Im Allgemeinen ist eine Sonde gestaltet, um mit einer beliebigen der CpG-Stellen zu überlappen, die von den Anfangs-/Endbereichen der von Tabelle 11 umfassten anvisierten Regionen (z. B. anomaler Fragmente) umfasst werden.
  • Zum Identifizieren von Genomregionen aus dem TCGA zur Verwendung in dem gezielten Panel wurde das 450K Illumina Array mit TCGA-Daten für BRCA (Brustkrebs), COAD (Dickdarmadenokarzinom), LIHC (hepatozelluläres Leberkarzinom), LUAD (Lungenadenokarzinom) und LUSC (Lungenplattenepithelkarzinom) verwendet. Da TCGA-Arraydaten auf dem Niveau der CpG-Stellen vorliegen, sind sie anfällig dafür, in Falsch-positiv-Meldungen zu resultieren. Um Falsch-positiv-Meldungen zu vermeiden, wurden CpG-Stellen über das Genom hinweg in Kontingente von 350 bp umgewandelt. Beta-Werte jedes Kontingents wurden als der Mittelwert von CpG-Beta-Werten in diesem Kontingent berechnet. Die Tabelle unten fasst die Anzahl Kontingente (Kontingentzählung) mit unterschiedlichen Bereichen mittlerer CpG-Werte (CpG/Kontingent) zusammen.
    CpG/Kontingent 1 2_5 6_10 11_15 16_20 20_25
    Kontingentzählung 220 424 83 644 6354 271 30 3
  • Kontingente mit weniger als 2 CpGs wurden von der Analyse ausgeschlossen. Als Nächstes wurden Kontingente mit Betadifferenz > 0,95 zwischen normalem und Krebsgewebe ausgewählt. Für die LIHC-Analyse (hepatozelluläres Leberkarzinom) wurde 0,9 als der Schwellenwert verwendet. Fachleute werden es würdigen, dass für jeden der obengenannten Parameter andere Schwellenwerte verwendet werden können, um auszuwählen, auf welche CpG-Stellen abgezielt werden soll.
  • Die Gesamtanzahl Kontingente unter Analyse und die Anzahl ausgewählter Kontingente für jede Krebsart sind unten zusammengefasst. Wie in der Tabelle unten angezeigt, überlappen mehr als 50 % der durch diese Analyse identifizierten anvisierten Genomregionen mit den Genomregionen, die unter Verwendung des CCGA-Datensatzes wie in Beispiel 3 bereitgestellt ausgewählt wurden. Jedoch waren 3459 CpG-Stellen in neuen Genomregionen, die durch Studie unter Verwendung von CCGA nicht identifiziert wurden.
    Krebsart Zählung aller Kontingente Ausgewählte Kontingente in rauscharmen Regionen
    BRCA 2622 314
    COAD 3282 779
    LIHC 649 109
    LUAD 3308 334
    LUSC 2110 130
    Gesamtgröße (Mbp) Nicht überlappend mit CCGA-Zielen 2,54 0,66
    0,26
  • Zusätzliche leberspezifische Marker wurden ebenfalls zu den Zielgenomregionen hinzugefügt. Um diese Marker auszuwählen, wurden 49 Paare HCC-Tumor (hepatozelluläres Karzinom)/normal aus dem TCGA-Lebermethylierungsdatensatz von dem Array Illumina Infinium 450K verwendet. Eine differenzielle Methylierungsanalyse wurde an individuellen CpGs auf dem M-Wert durchgeführt und hypermethylierte CpGs mit Vervielfachung > 8 wurden ausgewählt. In dieser Version wurden nur hypermethylierte CpGs ausgewählt, da sie bei der Regulierung der Genexpression relevanter sind. Die geclusterten CpGs (definiert durch ausgewählte CpGs innerhalb 150 bp von einer anderen ausgewählt CpG) wurden in Cluster und expandierte Singletons in Regionen mit einer maximalen Länge von 300 bp kombiniert, vorausgesetzt, dass alle CpGs innerhalb des Clusters oder der Region übereinstimmend und signifikant hypermethyliert sind (mittlere Vervielfachung > 4, Mindestvervielfachung > 2).
  • Tabelle 11 umfasst auch manche Regionen, von denen in der Literatur berichtet wurde, dass sie mit unterschiedlichen Arten von Krebs assoziiert sind. Andere Regionen, wie SEPT9 und SHOX2, wurden ebenfalls in Tabelle 11 aufgenommen.
  • Tabelle 11 umfasst auch manche Zielregionen, die in der Lage sind, auch übliche Driver-Mutationen nachzuweisen. Zu diesem Zweck sind auch in dem Artikel von Cohen et al. von 2018 (Cohen et al., Detection and localization of surgically resectable cancers with a multi-analyte blood test, Science, 2018) untersuchte Regionen sowie alle Proteinvarianten im oncoKB-Satz aufgenommen.
  • Hinsichtlich der Auswahl von Virussequenzen für die Aufnahme in Tabelle 11 wurde für jeden oben erwähnten Krebs ein Modell mit allen möglichen Kombinationen von Viren für die Diagnose angepasst. Modelle innerhalb von 10 % der Spitzenpunktzahl wurden gespeichert. Alle Viren, die in irgendeinem Spitzenmodell für irgendeinen Krebs vorhanden waren, wurden behalten. Dies eliminierte JCV-PLYCG und HPV8-ZM130 und behielt HBV und HCV.
  • Fünfhundert Stellen wurden über die Virengenome hinweg aufgeteilt. Stellen wurden so zugewiesen, dass sie den Anteil Spitzenmodelle widerspiegeln, von denen jedes Virus umfasst wurde. Innerhalb des Genoms jedes Virus wurden Stellen in Intervallen von nicht weniger als 250 bp verteilt. Stellen wurden mit einer zur Lesungsverteilung des CCGA-Datensatzes proportionalen Probabilität vorgeschlagen. Diese Verteilung wurde als ein Stellvertreter sowohl für die Eindeutigkeit relativ zum Menschen (Spezifität) als auch die Konservierung über Virusstämme hinweg (Empfindlichkeit) gewählt. Jede vorgeschlagene Stelle wurde abgelehnt, wenn sie innerhalb von 250 bp von einer bestehenden Stelle lag, anderenfalls wurde sie akzeptiert. Wenn jedoch die Anzahl Stellen ausreichte, um das Genom zu umspannen, war die Stichprobennahme gleichförmig und jegliche überschüssigen Stellen wurden anderen Genomen zugewiesen. Die Neuzuweisung von Stellen an andere Genome wurde so durchgeführt, dass das Endresultat möglichst nah an die Zielzuweisung heranreichte.
  • Beispiel 5: Leistung eines Assay-Panels für die Krebsdiagnose
  • Die Leistung eines hierin beschriebenen Panels wurde durch Anwenden des Klassifikators der L2-regularisierten logistischen Kernelregression der binären Rangordnungspunktzahl, wie hierin beschrieben (siehe z. B. 6A; siehe auch PCT/US2019/022122 und US 16/352,602 ), zum Unterscheiden einer krebsbefallenen Probe von krebsfreien Proben unter Nutzung dreier rechnerisch distinkter Prozesse bewertet: (1) Analyse von WGBS-Daten („Mscore.testV1“), (2) Analyse von WGBS-Daten mit 10-facher Kreuzvalidierung(„Mscore.testV1.cv“) und (3) Analyse von WGBS-Daten, rechnerisch gefiltert, um die Klassifizierung auf Sequenzlesungen von cfDNA-Molekülen zu beschränken, die von den in Tabelle 12 aufgelisteten zielenden Genomregionen abgeleitet sind („Mscore.testV1.cv.panel“). Die unter Nutzung aller drei Prozesse bewerteten Sequenzlesungen wurden von der hierin beschriebenen CCGA-Studie erhalten.
  • Ausgabepunktzahlen wurden gepoolt und verwendet, um eine ROC-Kurve (Receiver-Operator Characteristic) für die Leistungsanalyse zu konstruieren und die Empfindlichkeit und Spezifität abzuschätzen. Krebsfreie Proben wurden verwendet, um die Spezifität nach Korrektur von Störsignalen abzuschätzen. Die Beziehung zwischen Empfindlichkeit und Spezifität wird durch in 14B bereitgestellte Receiver-Operator-Characteristic-Kurven abgebildet und die Empfindlichkeit bei 95 % Spezifität für jeden Datensatz ist in 14A bereitgestellt.
  • Die Daten zeigen hohe Spezifität des Klassifikators, ungeachtet des verwendeten rechnerischen Ansatzes. Die Werte für den Bereich unter der Kurve (AUC; Area under Curve) und die Empfindlichkeit bei 95 % Spezifität waren über die drei rechnerisch distinkten Prozesse hinweg ähnlich. Dieses Ergebnis zeigt, dass der Klassifikator, wenn die Analyse auf anvisierte Genomregionen, ausgewählt wie hierin beschrieben, begrenzt ist, beim Diagnostizieren von Krebs genauso effektiv ist wie er es mit ungefilterten WGBS-Daten ist. Es gab im Grunde keinen Leistungsverlust, wenn die Analyse auf Sequenzlesungen von cfDNA-Molekülen begrenzt war, die von in Tabelle 12 aufgelisteten anvisierten Genomregionen abgeleitet waren. Durch Verwendung gezielter Sequenzlesungen, die durch Verwendung des Panels anstatt Sequenzierung der gesamten Nukleinsäuren erhalten wurden, kann das Verfahren auf Panelbasis die Sequenzierungstiefe der Zielregionen erhöhen und die Kosten verglichen mit WGBS senken, während es ähnliche Grade von Empfindlichkeit und Spezifität bereitstellt.
  • Beispiel 6: Diagnose von Krebs unter Verwendung des Krebs-Assay-Panels
  • Einer Gruppe von Individuen, bei denen zuvor Krebs diagnostiziert wurde, und einer anderen Gruppe von Individuen ohne Krebs werden Blutproben abgenommen. Aus den Blutproben werden cfDNAs extrahiert und mit Bisulfit behandelt, um unmethylierte Cytosine in Uracile umzuwandeln. Die mit Bisulfit behandelten Proben werden auf das Krebs-Assay-Panel aufgetragen, das wie hierin bereitgestellt gestaltet ist. Ungebundene cfDNAs werden abgewaschen und an die Sonden gebundene cfDNAs werden gesammelt. Die gesammelten cfDNAs werden amplifiziert und sequenziert. Die Sequenzierungsdaten bestätigen, dass die Sonden spezifisch cfDNAs anreichern, die Krebs anzeigende Methylierungsmuster aufweisen, und dass Proben von der krebsbefallenen Gruppe verglichen mit der krebsfreien Gruppe signifikant mehr der differenziell methylierten cfDNAs umfassen.
  • EINBINDUNG DURCH BEZUGNAHME
  • Alle in dieser Gebrauchsmusteranmeldung zitierten Veröffentlichungen, Patente, Patentanmeldungen und anderen Dokumente werden hiermit durch Bezugnahme in ihrer Gesamtheit für alle Zwecke in demselben Maß eingebunden, wie wenn für jede(s) einzelne Veröffentlichung, Patent, Patentanmeldung oder andere Dokument individuell angezeigt wäre, dass sie (es) durch Bezugnahme für alle Zwecke eingebunden ist.
  • ÄQUIVALENTE
  • Es versteht sich, dass die Figuren und Beschreibungen der vorliegenden Offenbarung vereinfacht wurden, um Elemente zu illustrieren, die für ein klares Verständnis der vorliegenden Offenbarung relevant sind, während viele andere Elemente, die in einem typischen System zu finden sind, zum Zweck der Klarheit weggelassen wurden. Gewöhnliche Fachleute können erkennen, dass andere Elemente und/oder Schritte bei der Umsetzung der vorliegenden Offenbarung wünschenswert und/oder erforderlich sind. Weil solche Elemente und Schritte nach dem Stand der Technik allgemein bekannt sind und weil sie kein besseres Verständnis der vorliegenden Offenbarung erleichtern, wird eine Erörterung solcher Elemente und Schritte jedoch hierin nicht bereitgestellt. Die Offenbarung hierin ist auf alle solchen Variationen und Modifikationen an solchen Fachleuten bekannten Elementen und Verfahren gerichtet.
  • Manche Abschnitte der obigen Beschreibung beschreiben die Ausführungsformen im Hinblick auf Algorithmen und symbolische Darstellungen von Operationen an Informationen. Diese algorithmischen Beschreibungen und Darstellungen werden von Fachleuten der Datenverarbeitung üblicherweise verwendet, um die Substanz ihrer Arbeit anderen Fachleuten effektiv zu vermitteln. Es versteht sich, dass diese Operationen zwar funktional, rechnerisch oder logisch beschrieben sind, aber von Computerprogrammen oder äquivalenten elektrischen Schaltkreisen, Mikrocode oder dergleichen umgesetzt werden. Die beschriebenen Operationen und ihre assoziierten Module können in Software, Firmware, Hardware oder beliebigen Kombinationen davon ausgeführt sein.
  • Wie hierin verwendet, bedeutet jede Bezugnahme auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“, dass ein besonderes Element, ein besonderes Merkmal, eine besondere Struktur oder ein besonderes Charakteristikum, das (die) in Verbindung mit der Ausführungsform beschrieben wird, von mindestens einer Ausführungsform umfasst wird. Die Vorkommen des Ausdrucks „in einer Ausführungsform“ an verschiedenen Stellen in der Gebrauchsmusterschrift nehmen nicht notwendigerweise alle Bezug auf dieselbe Ausführungsform, wodurch ein Rahmen für verschiedene Möglichkeiten bereitgestellt wird, wie beschriebene Ausführungsformen zusammen funktionieren.
  • Wie hierin verwendet, sollen die Begriffe „beinhaltet“, „beinhaltend“, „umfasst“, „umfassend“, „weist auf, „aufweisend“ oder jegliche andere Variation davon eine nicht ausschließende Einbeziehung abdecken. Zum Beispiel ist ein Prozess, ein Verfahren, ein Artikel oder eine Vorrichtung, der/die/das eine Liste von Elementen beinhaltet, nicht notwendigerweise auf nur diese Elemente beschränkt, sondern kann weitere Elemente umfassen, die nicht ausdrücklich aufgelistet sind oder einem solchen Prozess, einem solchen Verfahren, einem solchen Artikel oder einer solchen Vorrichtung zu eigen sind. Ferner bezieht sich „oder“, sofern nicht das Gegenteil ausdrücklich gesagt wird, auf ein einschließendes Oder und nicht auf ein ausschließendes Oder. Zum Beispiel ist eine Bedingung A oder B durch ein jedes der Folgenden erfüllt: A ist wahr (oder vorhanden) und B ist falsch (oder nicht vorhanden), A ist falsch (oder nicht vorhanden) und B ist wahr (oder vorhanden) und sowohl A als auch B sind wahr (oder vorhanden).
  • Außerdem wird die Verwendung von „ein“ oder „eine“ eingesetzt, um Elemente und Bestandteile der Ausführungsformen hierin zu beschreiben. Dies wird lediglich aus praktischen Gründen und um eine allgemeine Vorstellung von der Beschreibung zu geben, getan. Diese Beschreibung sollte als „genau ein(e)“ oder „mindestens ein(e)“ umfassend gelesen werden, und der Singular umfasst auch den Plural, sofern nicht offensichtlich ist, dass es anders gemeint ist.
  • Während besondere Ausführungsformen und Anwendungen illustriert und beschrieben wurden, ist es zu verstehen, dass die offenbarten Ausführungsformen nicht auf genau die hierin beschriebene Bauweise und genau die hierin beschriebenen Komponenten beschränkt sind. Verschiedene Modifikationen, Änderungen und Variationen, die dem Fachmann offenkundig sein werden, können in der Anordnung, Operation und den Details des hierin offenbarten Verfahrens und der hierin offenbarten Vorrichtung vorgenommen werden, ohne von dem in den anhängenden Schutzansprüchen definierten Sinn und Umfang abzuweichen.
  • Während verschiedene spezifische Ausführungsformen illustriert und beschrieben wurden, ist die obenstehende Gebrauchsmusterschrift nicht restriktiv. Es wird gewürdigt werden, dass verschiedene Änderungen gemacht werden können, ohne vom Sinn und Umfang der Beschreibung(en) abzuweichen. Viele Variationen werden dem Fachmann nach Prüfung dieser Gebrauchsmusterschrift offenkundig werden.
  • Figure DE202019005627U1_0003
    Figure DE202019005627U1_0004
    Figure DE202019005627U1_0005
    Figure DE202019005627U1_0006
    Figure DE202019005627U1_0007
    Figure DE202019005627U1_0008
    Figure DE202019005627U1_0009
    Figure DE202019005627U1_0010
    Figure DE202019005627U1_0011
    Figure DE202019005627U1_0012
    Figure DE202019005627U1_0013
    Figure DE202019005627U1_0014
    Figure DE202019005627U1_0015
    Figure DE202019005627U1_0016
    Figure DE202019005627U1_0017
    Figure DE202019005627U1_0018
    Figure DE202019005627U1_0019
    Figure DE202019005627U1_0020
    Figure DE202019005627U1_0021
    Figure DE202019005627U1_0022
    Figure DE202019005627U1_0023
    Figure DE202019005627U1_0024
    Figure DE202019005627U1_0025
    Figure DE202019005627U1_0026
    Figure DE202019005627U1_0027
    Figure DE202019005627U1_0028
    Figure DE202019005627U1_0029
    Figure DE202019005627U1_0030
    Figure DE202019005627U1_0031
    Figure DE202019005627U1_0032
    Figure DE202019005627U1_0033
    Figure DE202019005627U1_0034
    Figure DE202019005627U1_0035
    Figure DE202019005627U1_0036
    Figure DE202019005627U1_0037
    Figure DE202019005627U1_0038
    Figure DE202019005627U1_0039
    Figure DE202019005627U1_0040
    Figure DE202019005627U1_0041
    Figure DE202019005627U1_0042
    Figure DE202019005627U1_0043
    Figure DE202019005627U1_0044
    Figure DE202019005627U1_0045
    Figure DE202019005627U1_0046
    Figure DE202019005627U1_0047
    Figure DE202019005627U1_0048
    Figure DE202019005627U1_0049
    Figure DE202019005627U1_0050
    Figure DE202019005627U1_0051
    Figure DE202019005627U1_0052
    Figure DE202019005627U1_0053
    Figure DE202019005627U1_0054
    Figure DE202019005627U1_0055
    Figure DE202019005627U1_0056
    Figure DE202019005627U1_0057
    Figure DE202019005627U1_0058
    Figure DE202019005627U1_0059
    Figure DE202019005627U1_0060
    Figure DE202019005627U1_0061
    Figure DE202019005627U1_0062
    Figure DE202019005627U1_0063
    Figure DE202019005627U1_0064
    Figure DE202019005627U1_0065
    Figure DE202019005627U1_0066
    Figure DE202019005627U1_0067
    Figure DE202019005627U1_0068
    Figure DE202019005627U1_0069
    Figure DE202019005627U1_0070
    Figure DE202019005627U1_0071
    Figure DE202019005627U1_0072
    Figure DE202019005627U1_0073
    Figure DE202019005627U1_0074
    Figure DE202019005627U1_0075
    Figure DE202019005627U1_0076
    Figure DE202019005627U1_0077
    Figure DE202019005627U1_0078
    Figure DE202019005627U1_0079
    Figure DE202019005627U1_0080
    Figure DE202019005627U1_0081
    Figure DE202019005627U1_0082
    Figure DE202019005627U1_0083
    Figure DE202019005627U1_0084
    Figure DE202019005627U1_0085
    Figure DE202019005627U1_0086
    Figure DE202019005627U1_0087
    Figure DE202019005627U1_0088
    Figure DE202019005627U1_0089
    Figure DE202019005627U1_0090
    Figure DE202019005627U1_0091
    Figure DE202019005627U1_0092
    Figure DE202019005627U1_0093
    Figure DE202019005627U1_0094
    Figure DE202019005627U1_0095
    Figure DE202019005627U1_0096
    Figure DE202019005627U1_0097
    Figure DE202019005627U1_0098
    Figure DE202019005627U1_0099
    Figure DE202019005627U1_0100
    Figure DE202019005627U1_0101
    Figure DE202019005627U1_0102
    Figure DE202019005627U1_0103
    Figure DE202019005627U1_0104
    Figure DE202019005627U1_0105
    Figure DE202019005627U1_0106
    Figure DE202019005627U1_0107
    Figure DE202019005627U1_0108
    Figure DE202019005627U1_0109
    Figure DE202019005627U1_0110
    Figure DE202019005627U1_0111
    Figure DE202019005627U1_0112
    Figure DE202019005627U1_0113
    Figure DE202019005627U1_0114
    Figure DE202019005627U1_0115
    Figure DE202019005627U1_0116
    Figure DE202019005627U1_0117
    Figure DE202019005627U1_0118
    Figure DE202019005627U1_0119
    Figure DE202019005627U1_0120
    Figure DE202019005627U1_0121
    Figure DE202019005627U1_0122
    Figure DE202019005627U1_0123
    Figure DE202019005627U1_0124
    Figure DE202019005627U1_0125
    Figure DE202019005627U1_0126
    Figure DE202019005627U1_0127
    Figure DE202019005627U1_0128
    Figure DE202019005627U1_0129
    Figure DE202019005627U1_0130
    Figure DE202019005627U1_0131
    Figure DE202019005627U1_0132
    Figure DE202019005627U1_0133
    Figure DE202019005627U1_0134
    Figure DE202019005627U1_0135
    Figure DE202019005627U1_0136
    Figure DE202019005627U1_0137
    Figure DE202019005627U1_0138
    Figure DE202019005627U1_0139
    Figure DE202019005627U1_0140
    Figure DE202019005627U1_0141
    Figure DE202019005627U1_0142
    Figure DE202019005627U1_0143
    Figure DE202019005627U1_0144
    Figure DE202019005627U1_0145
    Figure DE202019005627U1_0146
    Figure DE202019005627U1_0147
    Figure DE202019005627U1_0148
    Figure DE202019005627U1_0149
    Figure DE202019005627U1_0150
    Figure DE202019005627U1_0151
    Figure DE202019005627U1_0152
    Figure DE202019005627U1_0153
    Figure DE202019005627U1_0154
    Figure DE202019005627U1_0155
    Figure DE202019005627U1_0156
    Figure DE202019005627U1_0157
    Figure DE202019005627U1_0158
    Figure DE202019005627U1_0159
    Figure DE202019005627U1_0160
    Figure DE202019005627U1_0161
    Figure DE202019005627U1_0162
    Figure DE202019005627U1_0163
    Figure DE202019005627U1_0164
    Figure DE202019005627U1_0165
    Figure DE202019005627U1_0166
    Figure DE202019005627U1_0167
    Figure DE202019005627U1_0168
    Figure DE202019005627U1_0169
    Figure DE202019005627U1_0170
    Figure DE202019005627U1_0171
    Figure DE202019005627U1_0172
    Figure DE202019005627U1_0173
    Figure DE202019005627U1_0174
    Figure DE202019005627U1_0175
    Figure DE202019005627U1_0176
    Figure DE202019005627U1_0177
    Figure DE202019005627U1_0178
    Figure DE202019005627U1_0179
    Figure DE202019005627U1_0180
    Figure DE202019005627U1_0181
    Figure DE202019005627U1_0182
    Figure DE202019005627U1_0183
    Figure DE202019005627U1_0184
    Figure DE202019005627U1_0185
    Figure DE202019005627U1_0186
    Figure DE202019005627U1_0187
    Figure DE202019005627U1_0188
    Figure DE202019005627U1_0189
    Figure DE202019005627U1_0190
    Figure DE202019005627U1_0191
    Figure DE202019005627U1_0192
    Figure DE202019005627U1_0193
    Figure DE202019005627U1_0194
    Figure DE202019005627U1_0195
    Figure DE202019005627U1_0196
    Figure DE202019005627U1_0197
    Figure DE202019005627U1_0198
    Figure DE202019005627U1_0199
    Figure DE202019005627U1_0200
    Figure DE202019005627U1_0201
    Figure DE202019005627U1_0202
    Figure DE202019005627U1_0203
    Figure DE202019005627U1_0204
    Figure DE202019005627U1_0205
    Figure DE202019005627U1_0206
    Figure DE202019005627U1_0207
    Figure DE202019005627U1_0208
    Figure DE202019005627U1_0209
    Figure DE202019005627U1_0210
    Figure DE202019005627U1_0211
    Figure DE202019005627U1_0212
    Figure DE202019005627U1_0213
    Figure DE202019005627U1_0214
    Figure DE202019005627U1_0215
    Figure DE202019005627U1_0216
    Figure DE202019005627U1_0217
    Figure DE202019005627U1_0218
    Figure DE202019005627U1_0219
    Figure DE202019005627U1_0220
    Figure DE202019005627U1_0221
    Figure DE202019005627U1_0222
    Figure DE202019005627U1_0223
    Figure DE202019005627U1_0224
    Figure DE202019005627U1_0225
    Figure DE202019005627U1_0226
    Figure DE202019005627U1_0227
    Figure DE202019005627U1_0228
    Figure DE202019005627U1_0229
    Figure DE202019005627U1_0230
    Figure DE202019005627U1_0231
    Figure DE202019005627U1_0232
    Figure DE202019005627U1_0233
    Figure DE202019005627U1_0234
    Figure DE202019005627U1_0235
    Figure DE202019005627U1_0236
    Figure DE202019005627U1_0237
    Figure DE202019005627U1_0238
    Figure DE202019005627U1_0239
    Figure DE202019005627U1_0240
    Figure DE202019005627U1_0241
    Figure DE202019005627U1_0242
    Figure DE202019005627U1_0243
    Figure DE202019005627U1_0244
    Figure DE202019005627U1_0245
    Figure DE202019005627U1_0246
    Figure DE202019005627U1_0247
    Figure DE202019005627U1_0248
    Figure DE202019005627U1_0249
    Figure DE202019005627U1_0250
    Figure DE202019005627U1_0251
    Figure DE202019005627U1_0252
    Figure DE202019005627U1_0253
    Figure DE202019005627U1_0254
    Figure DE202019005627U1_0255
    Figure DE202019005627U1_0256
    Figure DE202019005627U1_0257
    Figure DE202019005627U1_0258
    Figure DE202019005627U1_0259
    Figure DE202019005627U1_0260
    Figure DE202019005627U1_0261
    Figure DE202019005627U1_0262
    Figure DE202019005627U1_0263
    Figure DE202019005627U1_0264
    Figure DE202019005627U1_0265
    Figure DE202019005627U1_0266
    Figure DE202019005627U1_0267
    Figure DE202019005627U1_0268
    Figure DE202019005627U1_0269
    Figure DE202019005627U1_0270
    Figure DE202019005627U1_0271
    Figure DE202019005627U1_0272
    Figure DE202019005627U1_0273
    Figure DE202019005627U1_0274
    Figure DE202019005627U1_0275
    Figure DE202019005627U1_0276
    Figure DE202019005627U1_0277
    Figure DE202019005627U1_0278
    Figure DE202019005627U1_0279
    Figure DE202019005627U1_0280
    Figure DE202019005627U1_0281
    Figure DE202019005627U1_0282
    Figure DE202019005627U1_0283
    Figure DE202019005627U1_0284
    Figure DE202019005627U1_0285
    Figure DE202019005627U1_0286
    Figure DE202019005627U1_0287
    Figure DE202019005627U1_0288
    Figure DE202019005627U1_0289
    Figure DE202019005627U1_0290
    Figure DE202019005627U1_0291
    Figure DE202019005627U1_0292
    Figure DE202019005627U1_0293
    Figure DE202019005627U1_0294
    Figure DE202019005627U1_0295
    Figure DE202019005627U1_0296
    Figure DE202019005627U1_0297
    Figure DE202019005627U1_0298
    Figure DE202019005627U1_0299
    Figure DE202019005627U1_0300
    Figure DE202019005627U1_0301
    Figure DE202019005627U1_0302
    Figure DE202019005627U1_0303
    Figure DE202019005627U1_0304
    Figure DE202019005627U1_0305
    Figure DE202019005627U1_0306
    Figure DE202019005627U1_0307
    Figure DE202019005627U1_0308
    Figure DE202019005627U1_0309
    Figure DE202019005627U1_0310
    Figure DE202019005627U1_0311
    Figure DE202019005627U1_0312
    Figure DE202019005627U1_0313
    Figure DE202019005627U1_0314
    Figure DE202019005627U1_0315
    Figure DE202019005627U1_0316
    Figure DE202019005627U1_0317
    Figure DE202019005627U1_0318
    Figure DE202019005627U1_0319
    Figure DE202019005627U1_0320
    Figure DE202019005627U1_0321
    Figure DE202019005627U1_0322
    Figure DE202019005627U1_0323
    Figure DE202019005627U1_0324
    Figure DE202019005627U1_0325
    Figure DE202019005627U1_0326
    Figure DE202019005627U1_0327
    Figure DE202019005627U1_0328
    Figure DE202019005627U1_0329
    Figure DE202019005627U1_0330
    Figure DE202019005627U1_0331
    Figure DE202019005627U1_0332
    Figure DE202019005627U1_0333
    Figure DE202019005627U1_0334
    Figure DE202019005627U1_0335
    Figure DE202019005627U1_0336
    Figure DE202019005627U1_0337
    Figure DE202019005627U1_0338
    Figure DE202019005627U1_0339
    Figure DE202019005627U1_0340
    Figure DE202019005627U1_0341
    Figure DE202019005627U1_0342
    Figure DE202019005627U1_0343
    Figure DE202019005627U1_0344
    Figure DE202019005627U1_0345
    Figure DE202019005627U1_0346
    Figure DE202019005627U1_0347
    Figure DE202019005627U1_0348
    Figure DE202019005627U1_0349
    Figure DE202019005627U1_0350
    Figure DE202019005627U1_0351
    Figure DE202019005627U1_0352
    Figure DE202019005627U1_0353
    Figure DE202019005627U1_0354
    Figure DE202019005627U1_0355
    Figure DE202019005627U1_0356
    Figure DE202019005627U1_0357
    Figure DE202019005627U1_0358
    Figure DE202019005627U1_0359
    Figure DE202019005627U1_0360
    Figure DE202019005627U1_0361
    Figure DE202019005627U1_0362
    Figure DE202019005627U1_0363
    Figure DE202019005627U1_0364
    Figure DE202019005627U1_0365
    Figure DE202019005627U1_0366
    Figure DE202019005627U1_0367
    Figure DE202019005627U1_0368
    Figure DE202019005627U1_0369
    Figure DE202019005627U1_0370
    Figure DE202019005627U1_0371
    Figure DE202019005627U1_0372
    Figure DE202019005627U1_0373
    Figure DE202019005627U1_0374
    Figure DE202019005627U1_0375
    Figure DE202019005627U1_0376
    Figure DE202019005627U1_0377
    Figure DE202019005627U1_0378
    Figure DE202019005627U1_0379
    Figure DE202019005627U1_0380
    Figure DE202019005627U1_0381
    Figure DE202019005627U1_0382
    Figure DE202019005627U1_0383
    Figure DE202019005627U1_0384
    Figure DE202019005627U1_0385
    Figure DE202019005627U1_0386
    Figure DE202019005627U1_0387
    Figure DE202019005627U1_0388
    Figure DE202019005627U1_0389
    Figure DE202019005627U1_0390
    Figure DE202019005627U1_0391
    Figure DE202019005627U1_0392
    Figure DE202019005627U1_0393
    Figure DE202019005627U1_0394
    Figure DE202019005627U1_0395
    Figure DE202019005627U1_0396
    Figure DE202019005627U1_0397
    Figure DE202019005627U1_0398
    Figure DE202019005627U1_0399
    Figure DE202019005627U1_0400
    Figure DE202019005627U1_0401
    Figure DE202019005627U1_0402
    Figure DE202019005627U1_0403
    Figure DE202019005627U1_0404
    Figure DE202019005627U1_0405
    Figure DE202019005627U1_0406
    Figure DE202019005627U1_0407
    Figure DE202019005627U1_0408
    Figure DE202019005627U1_0409
    Figure DE202019005627U1_0410
    Figure DE202019005627U1_0411
    Figure DE202019005627U1_0412
    Figure DE202019005627U1_0413
    Figure DE202019005627U1_0414
    Figure DE202019005627U1_0415
    Figure DE202019005627U1_0416
    Figure DE202019005627U1_0417
    Figure DE202019005627U1_0418
    Figure DE202019005627U1_0419
    Figure DE202019005627U1_0420
    Figure DE202019005627U1_0421
    Figure DE202019005627U1_0422
    Figure DE202019005627U1_0423
    Figure DE202019005627U1_0424
    Figure DE202019005627U1_0425
    Figure DE202019005627U1_0426
    Figure DE202019005627U1_0427
    Figure DE202019005627U1_0428
    Figure DE202019005627U1_0429
    Figure DE202019005627U1_0430
    Figure DE202019005627U1_0431
    Figure DE202019005627U1_0432
    Figure DE202019005627U1_0433
    Figure DE202019005627U1_0434
    Figure DE202019005627U1_0435
    Figure DE202019005627U1_0436
    Figure DE202019005627U1_0437
    Figure DE202019005627U1_0438
    Figure DE202019005627U1_0439
    Figure DE202019005627U1_0440
    Figure DE202019005627U1_0441
    Figure DE202019005627U1_0442
    Figure DE202019005627U1_0443
    Figure DE202019005627U1_0444
    Figure DE202019005627U1_0445
    Figure DE202019005627U1_0446
    Figure DE202019005627U1_0447
    Figure DE202019005627U1_0448
    Figure DE202019005627U1_0449
    Figure DE202019005627U1_0450
    Figure DE202019005627U1_0451
    Figure DE202019005627U1_0452
    Figure DE202019005627U1_0453
    Figure DE202019005627U1_0454
    Figure DE202019005627U1_0455
    Figure DE202019005627U1_0456
    Figure DE202019005627U1_0457
    Figure DE202019005627U1_0458
    Figure DE202019005627U1_0459
    Figure DE202019005627U1_0460
    Figure DE202019005627U1_0461
    Figure DE202019005627U1_0462
    Figure DE202019005627U1_0463
    Figure DE202019005627U1_0464
    Figure DE202019005627U1_0465
    Figure DE202019005627U1_0466
    Figure DE202019005627U1_0467
    Figure DE202019005627U1_0468
    Figure DE202019005627U1_0469
    Figure DE202019005627U1_0470
    Figure DE202019005627U1_0471
    Figure DE202019005627U1_0472
    Figure DE202019005627U1_0473
    Figure DE202019005627U1_0474
    Figure DE202019005627U1_0475
    Figure DE202019005627U1_0476
    Figure DE202019005627U1_0477
    Figure DE202019005627U1_0478
    Figure DE202019005627U1_0479
    Figure DE202019005627U1_0480
    Figure DE202019005627U1_0481
    Figure DE202019005627U1_0482
    Figure DE202019005627U1_0483
    Figure DE202019005627U1_0484
    Figure DE202019005627U1_0485
    Figure DE202019005627U1_0486
    Figure DE202019005627U1_0487
    Figure DE202019005627U1_0488
    Figure DE202019005627U1_0489
    Figure DE202019005627U1_0490
    Figure DE202019005627U1_0491
    Figure DE202019005627U1_0492
    Figure DE202019005627U1_0493
    Figure DE202019005627U1_0494
    Figure DE202019005627U1_0495
    Figure DE202019005627U1_0496
    Figure DE202019005627U1_0497
    Figure DE202019005627U1_0498
    Figure DE202019005627U1_0499
    Figure DE202019005627U1_0500
    Figure DE202019005627U1_0501
    Figure DE202019005627U1_0502
    Figure DE202019005627U1_0503
    Figure DE202019005627U1_0504
    Figure DE202019005627U1_0505
    Figure DE202019005627U1_0506
    Figure DE202019005627U1_0507
    Figure DE202019005627U1_0508
    Figure DE202019005627U1_0509
    Figure DE202019005627U1_0510
    Figure DE202019005627U1_0511
    Figure DE202019005627U1_0512
    Figure DE202019005627U1_0513
    Figure DE202019005627U1_0514
    Figure DE202019005627U1_0515
    Figure DE202019005627U1_0516
    Figure DE202019005627U1_0517
    Figure DE202019005627U1_0518
    Figure DE202019005627U1_0519
    Figure DE202019005627U1_0520
    Figure DE202019005627U1_0521
    Figure DE202019005627U1_0522
    Figure DE202019005627U1_0523
    Figure DE202019005627U1_0524
    Figure DE202019005627U1_0525
    Figure DE202019005627U1_0526
    Figure DE202019005627U1_0527
    Figure DE202019005627U1_0528
    Figure DE202019005627U1_0529
    Figure DE202019005627U1_0530
    Figure DE202019005627U1_0531
    Figure DE202019005627U1_0532
    Figure DE202019005627U1_0533
    Figure DE202019005627U1_0534
    Figure DE202019005627U1_0535
    Figure DE202019005627U1_0536
    Figure DE202019005627U1_0537
    Figure DE202019005627U1_0538
    Figure DE202019005627U1_0539
    Figure DE202019005627U1_0540
    Figure DE202019005627U1_0541
    Figure DE202019005627U1_0542
    Figure DE202019005627U1_0543
    Figure DE202019005627U1_0544
    Figure DE202019005627U1_0545
    Figure DE202019005627U1_0546
    Figure DE202019005627U1_0547
    Figure DE202019005627U1_0548
    Figure DE202019005627U1_0549
    Figure DE202019005627U1_0550
    Figure DE202019005627U1_0551
    Figure DE202019005627U1_0552
    Figure DE202019005627U1_0553
    Figure DE202019005627U1_0554
    Figure DE202019005627U1_0555
    Figure DE202019005627U1_0556
    Figure DE202019005627U1_0557
    Figure DE202019005627U1_0558
    Figure DE202019005627U1_0559
    Figure DE202019005627U1_0560
    Figure DE202019005627U1_0561
    Figure DE202019005627U1_0562
    Figure DE202019005627U1_0563
    Figure DE202019005627U1_0564
    Figure DE202019005627U1_0565
    Figure DE202019005627U1_0566
    Figure DE202019005627U1_0567
    Figure DE202019005627U1_0568
    Figure DE202019005627U1_0569
    Figure DE202019005627U1_0570
    Figure DE202019005627U1_0571
    Figure DE202019005627U1_0572
    Figure DE202019005627U1_0573
    Figure DE202019005627U1_0574
    Figure DE202019005627U1_0575
    Figure DE202019005627U1_0576
    Figure DE202019005627U1_0577
    Figure DE202019005627U1_0578
    Figure DE202019005627U1_0579
    Figure DE202019005627U1_0580
    Figure DE202019005627U1_0581
    Figure DE202019005627U1_0582
    Figure DE202019005627U1_0583
    Figure DE202019005627U1_0584
    Figure DE202019005627U1_0585
    Figure DE202019005627U1_0586
    Figure DE202019005627U1_0587
    Figure DE202019005627U1_0588
    Figure DE202019005627U1_0589
    Figure DE202019005627U1_0590
    Figure DE202019005627U1_0591
    Figure DE202019005627U1_0592
    Figure DE202019005627U1_0593
    Figure DE202019005627U1_0594
    Figure DE202019005627U1_0595
    Figure DE202019005627U1_0596
    Figure DE202019005627U1_0597
    Figure DE202019005627U1_0598
    Figure DE202019005627U1_0599
    Figure DE202019005627U1_0600
    Figure DE202019005627U1_0601
    Figure DE202019005627U1_0602
    Figure DE202019005627U1_0603
    Figure DE202019005627U1_0604
    Figure DE202019005627U1_0605
    Figure DE202019005627U1_0606
    Figure DE202019005627U1_0607
    Figure DE202019005627U1_0608
    Figure DE202019005627U1_0609
    Figure DE202019005627U1_0610
    Figure DE202019005627U1_0611
    Figure DE202019005627U1_0612
    Figure DE202019005627U1_0613
    Figure DE202019005627U1_0614
    Figure DE202019005627U1_0615
    Figure DE202019005627U1_0616
    Figure DE202019005627U1_0617
    Figure DE202019005627U1_0618
    Figure DE202019005627U1_0619
    Figure DE202019005627U1_0620
    Figure DE202019005627U1_0621
    Figure DE202019005627U1_0622
    Figure DE202019005627U1_0623
    Figure DE202019005627U1_0624
    Figure DE202019005627U1_0625
    Figure DE202019005627U1_0626
    Figure DE202019005627U1_0627
    Figure DE202019005627U1_0628
    Figure DE202019005627U1_0629
    Figure DE202019005627U1_0630
    Figure DE202019005627U1_0631
    Figure DE202019005627U1_0632
    Figure DE202019005627U1_0633
    Figure DE202019005627U1_0634
    Figure DE202019005627U1_0635
    Figure DE202019005627U1_0636
    Figure DE202019005627U1_0637
    Figure DE202019005627U1_0638
    Figure DE202019005627U1_0639
    Figure DE202019005627U1_0640
    Figure DE202019005627U1_0641
    Figure DE202019005627U1_0642
    Figure DE202019005627U1_0643
    Figure DE202019005627U1_0644
    Figure DE202019005627U1_0645
    Figure DE202019005627U1_0646
    Figure DE202019005627U1_0647
    Figure DE202019005627U1_0648
    Figure DE202019005627U1_0649
    Figure DE202019005627U1_0650
    Figure DE202019005627U1_0651
    Figure DE202019005627U1_0652
    Figure DE202019005627U1_0653
    Figure DE202019005627U1_0654
    Figure DE202019005627U1_0655
    Figure DE202019005627U1_0656
    Figure DE202019005627U1_0657
    Figure DE202019005627U1_0658
    Figure DE202019005627U1_0659
    Figure DE202019005627U1_0660
    Figure DE202019005627U1_0661
    Figure DE202019005627U1_0662
    Figure DE202019005627U1_0663
    Figure DE202019005627U1_0664
    Figure DE202019005627U1_0665
    Figure DE202019005627U1_0666
    Figure DE202019005627U1_0667
    Figure DE202019005627U1_0668
    Figure DE202019005627U1_0669
    Figure DE202019005627U1_0670
    Figure DE202019005627U1_0671
    Figure DE202019005627U1_0672
    Figure DE202019005627U1_0673
    Figure DE202019005627U1_0674
    Figure DE202019005627U1_0675
    Figure DE202019005627U1_0676
    Figure DE202019005627U1_0677
    Figure DE202019005627U1_0678
    Figure DE202019005627U1_0679
    Figure DE202019005627U1_0680
    Figure DE202019005627U1_0681
    Figure DE202019005627U1_0682
    Figure DE202019005627U1_0683
    Figure DE202019005627U1_0684
    Figure DE202019005627U1_0685
    Figure DE202019005627U1_0686
    Figure DE202019005627U1_0687
    Figure DE202019005627U1_0688
    Figure DE202019005627U1_0689
    Figure DE202019005627U1_0690
    Figure DE202019005627U1_0691
    Figure DE202019005627U1_0692
    Figure DE202019005627U1_0693
    Figure DE202019005627U1_0694
    Figure DE202019005627U1_0695
    Figure DE202019005627U1_0696
    Figure DE202019005627U1_0697
    Figure DE202019005627U1_0698
    Figure DE202019005627U1_0699
    Figure DE202019005627U1_0700
    Figure DE202019005627U1_0701
    Figure DE202019005627U1_0702
    Figure DE202019005627U1_0703
    Figure DE202019005627U1_0704
    Figure DE202019005627U1_0705
    Figure DE202019005627U1_0706
    Figure DE202019005627U1_0707
    Figure DE202019005627U1_0708
    Figure DE202019005627U1_0709
    Figure DE202019005627U1_0710
    Figure DE202019005627U1_0711
    Figure DE202019005627U1_0712
    Figure DE202019005627U1_0713
    Figure DE202019005627U1_0714
    Figure DE202019005627U1_0715
    Figure DE202019005627U1_0716
    Figure DE202019005627U1_0717
    Figure DE202019005627U1_0718
    Figure DE202019005627U1_0719
    Figure DE202019005627U1_0720
    Figure DE202019005627U1_0721
    Figure DE202019005627U1_0722
    Figure DE202019005627U1_0723
    Figure DE202019005627U1_0724
    Figure DE202019005627U1_0725
    Figure DE202019005627U1_0726
    Figure DE202019005627U1_0727
    Figure DE202019005627U1_0728
    Figure DE202019005627U1_0729
    Figure DE202019005627U1_0730
    Figure DE202019005627U1_0731
    Figure DE202019005627U1_0732
    Figure DE202019005627U1_0733
    Figure DE202019005627U1_0734
    Figure DE202019005627U1_0735
    Figure DE202019005627U1_0736
    Figure DE202019005627U1_0737
    Figure DE202019005627U1_0738
    Figure DE202019005627U1_0739
    Figure DE202019005627U1_0740
    Figure DE202019005627U1_0741
    Figure DE202019005627U1_0742
    Figure DE202019005627U1_0743
    Figure DE202019005627U1_0744
    Figure DE202019005627U1_0745
    Figure DE202019005627U1_0746
    Figure DE202019005627U1_0747
    Figure DE202019005627U1_0748
    Figure DE202019005627U1_0749
    Figure DE202019005627U1_0750
    Figure DE202019005627U1_0751
    Figure DE202019005627U1_0752
    Figure DE202019005627U1_0753
    Figure DE202019005627U1_0754
    Figure DE202019005627U1_0755
    Figure DE202019005627U1_0756
    Figure DE202019005627U1_0757
    Figure DE202019005627U1_0758
    Figure DE202019005627U1_0759
    Figure DE202019005627U1_0760
    Figure DE202019005627U1_0761
    Figure DE202019005627U1_0762
    Figure DE202019005627U1_0763
    Figure DE202019005627U1_0764
    Figure DE202019005627U1_0765
    Figure DE202019005627U1_0766
    Figure DE202019005627U1_0767
    Figure DE202019005627U1_0768
    Figure DE202019005627U1_0769
    Figure DE202019005627U1_0770
    Figure DE202019005627U1_0771
    Figure DE202019005627U1_0772
    Figure DE202019005627U1_0773
    Figure DE202019005627U1_0774
    Figure DE202019005627U1_0775
    Figure DE202019005627U1_0776
    Figure DE202019005627U1_0777
    Figure DE202019005627U1_0778
    Figure DE202019005627U1_0779
    Figure DE202019005627U1_0780
    Figure DE202019005627U1_0781
    Figure DE202019005627U1_0782
    Figure DE202019005627U1_0783
    Figure DE202019005627U1_0784
    Figure DE202019005627U1_0785
    Figure DE202019005627U1_0786
    Figure DE202019005627U1_0787
    Figure DE202019005627U1_0788
    Figure DE202019005627U1_0789
    Figure DE202019005627U1_0790
    Figure DE202019005627U1_0791
    Figure DE202019005627U1_0792
    Figure DE202019005627U1_0793
    Figure DE202019005627U1_0794
    Figure DE202019005627U1_0795
    Figure DE202019005627U1_0796
    Figure DE202019005627U1_0797
    Figure DE202019005627U1_0798
    Figure DE202019005627U1_0799
    Figure DE202019005627U1_0800
    Figure DE202019005627U1_0801
    Figure DE202019005627U1_0802
    Figure DE202019005627U1_0803
    Figure DE202019005627U1_0804
    Figure DE202019005627U1_0805
    Figure DE202019005627U1_0806
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62651643 [0001]
    • US 62/738271 [0001]
    • WO 2010/037001 [0125]
    • WO 2011/127136 [0125]
    • US 2016/0340740 [0259]
    • US 2019022122 PCT [0272, 0325]
    • US 16352602 [0272, 0325]

Claims (25)

  1. Ein Assay-Panel zum Anreichern von cfDNA-Molekülen, beinhaltend: mindestens 1000 Polynukleotidsonden beinhalten, wobei jede der mindestens 1000 Sonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Polynukleotid zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist, wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in krebsbefallenen Proben ein anomales Methylierungsmuster aufweist.
  2. Assay-Panel gemäß Anspruch 1, wobei das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen beinhaltet.
  3. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der Polynukleotidsonden auf dem Panel an eine Affinitätseinheit konjugiert ist und wobei die Affinitätseinheit optional eine Biotineinheit ist.
  4. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei eine Genomregion in krebsbefallenen Proben ein anomales Methylierungsmuster aufweist, wenn ein Methylierungszustandsvektor, der die Genomregion in den krebsbefallenen Proben darstellt, in Referenzproben weniger häufig vorhanden ist als ein Schwellenwert und wobei der Schwellenwert 0,1, 0,01, 0,001 oder 0,0001 beträgt.
  5. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der einen oder der mehreren Genomregionen in den krebsbefallenen Proben entweder hypermethyliert oder hypomethyliert ist.
  6. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei mindestens 80, 85, 90, 92, 95 oder 98 % der mindestens fünf Methylierungsstellen in den krebsbefallenen Proben entweder methyliert oder unmethyliert sind.
  7. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der Sonden auf dem Panel so gestaltet ist, dass sie Sequenzhomologie oder Sequenzkomplementarität zu weniger als 20, 15, 10 oder 8 Fehltreffer-Genomregionen aufweist.
  8. Assay-Panel gemäß einem der vorhergehenden Ansprüche, beinhaltend mindestens 1000, 2000, 2500, 5000, 10000, 12 000, 15 000, 20 000 oder 25000 Sonden.
  9. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei die mindestens 1000 unterschiedlichen Polynukleotidsonden mindestens 500 unterschiedliche Polynukleotidsondenpaare beinhalten, wobei jedes Paar der mindestens 500 Sondenpaare (i) zwei unterschiedliche Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz von 30 oder mehr Nukleotiden zu überlappen, und (ii) jedes Sondenpaar konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist.
  10. Assay-Panel gemäß Anspruch 9, wobei die Überlappungssequenz mindestens 40, 50, 75 oder 100 Nukleotide beinhaltet.
  11. Assay-Panel gemäß Anspruch 9, beinhaltend mindestens 1000, 2000, 2500, 5000, 6000, 7500, 10 000, 15000, 20 000 oder 25000 Sondenpaare.
  12. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei die mindestens 500 Sondenpaare oder die mindestens 1000 Sonden zusammen mindestens 0,2 Millionen, 0,4 Millionen, 0,6 Millionen, 0,8 Millionen, 1 Million, 2 Millionen oder 4 Millionen Nukleotide beinhalten.
  13. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der Sonden auf dem Panel mindestens 50, 75, 100 oder 120 Nukleotide beinhaltet.
  14. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der Sonden auf dem Panel weniger als 300, 250, 200 oder 150 Nukleotide beinhaltet.
  15. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei mindestens 30 % der Genomregionen in Exons oder Introns vorliegen.
  16. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei weniger als 10 % der Genomregionen in Zwischengenregionen vorliegen.
  17. Assay-Panel gemäß einem der vorhergehenden Ansprüche, ferner beinhaltend: eine Vielzahl virusspezifischer Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment zu hybridisieren.
  18. Assay-Panel gemäß Anspruch 17, wobei das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18 ist.
  19. Assay-Panel gemäß einem der Ansprüche 17-18, beinhaltend mindestens 50, 100, 200, 500, 1000, 2000 oder 3000 virusspezifische Sonden.
  20. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der einen oder der mehreren Genomregionen aus Tabelle 11 ausgewählt ist.
  21. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der einen oder der mehreren Genomregionen aus Tabelle 12 oder Tabelle 13 ausgewählt ist.
  22. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der einen oder der mehreren Genomregionen aus Tabelle 14 oder Tabelle 15 ausgewählt ist.
  23. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der einen oder der mehreren Genomregionen aus einer beliebigen der Tabellen 2-10 ausgewählt ist.
  24. Assay-Panel gemäß einem der vorhergehenden Ansprüche, wobei jede der einen oder der mehreren Genomregionen aus einer beliebigen der Tabellen 16-24 ausgewählt ist.
  25. Eine Zusammensetzung, die cfDNA beinhaltet, die bearbeitet wurde, um unmethyliertes Cytosin in Uracil umzuwandeln, und das Assay-Panel gemäß einem der vorhergehenden Ansprüche.
DE202019005627.0U 2018-04-02 2019-04-02 Methylierungsmarker und gezielte Methylierungssondenpanels Active DE202019005627U1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862651643P 2018-04-02 2018-04-02
US62/651,643 2018-04-02
US201862738271P 2018-09-28 2018-09-28
US62/738,271 2018-09-28

Publications (1)

Publication Number Publication Date
DE202019005627U1 true DE202019005627U1 (de) 2021-05-31

Family

ID=68101340

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202019005627.0U Active DE202019005627U1 (de) 2018-04-02 2019-04-02 Methylierungsmarker und gezielte Methylierungssondenpanels

Country Status (8)

Country Link
US (2) US12024750B2 (de)
EP (1) EP3775198A4 (de)
CN (1) CN112236520A (de)
AU (1) AU2019249422A1 (de)
CA (1) CA3094717A1 (de)
DE (1) DE202019005627U1 (de)
GB (2) GB2587939B (de)
WO (1) WO2019195268A2 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202019005627U1 (de) 2018-04-02 2021-05-31 Grail, Inc. Methylierungsmarker und gezielte Methylierungssondenpanels
EP3776381A4 (de) * 2018-04-13 2022-01-05 Freenome Holdings, Inc. Implementierung von maschinenlernen für multi-analyt-tests von biologischen proben
CA3111887A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
US11773450B2 (en) 2019-04-03 2023-10-03 Grail, Llc Methylation-based false positive duplicate marking reduction
CN113826167B (zh) 2019-05-13 2024-11-08 格瑞尔有限责任公司 基于模型的特征化和分类
EP3973080B1 (de) 2019-05-22 2024-07-24 Grail, LLC Systeme und verfahren zur feststellung, ob ein individuum an krebs erkrankt ist, unter verwendung von übertragungslernen
WO2021016441A1 (en) 2019-07-23 2021-01-28 Grail, Inc. Systems and methods for determining tumor fraction
WO2021061473A1 (en) 2019-09-23 2021-04-01 Grail, Inc. Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
US20210241046A1 (en) * 2019-11-26 2021-08-05 University Of North Texas Compositions and methods for cancer detection and classification using neural networks
WO2021127565A1 (en) 2019-12-18 2021-06-24 Grail, Inc. Systems and methods for estimating cell source fractions using methylation information
JP2023510572A (ja) * 2020-01-17 2023-03-14 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 肝細胞がんを診断するための方法
US20210292845A1 (en) * 2020-02-28 2021-09-23 Grail, Inc. Identifying methylation patterns that discriminate or indicate a cancer condition
EP4111455A1 (de) 2020-02-28 2023-01-04 Grail, LLC Systeme und verfahren zum aufrufen von varianten unter verwendung von methylierungssequenzierungsdaten
US20210358626A1 (en) 2020-03-04 2021-11-18 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
AU2021245992A1 (en) * 2020-03-31 2022-11-10 Freenome Holdings, Inc. Methods and systems for detecting colorectal cancer via nucleic acid methylation analysis
JP2023530463A (ja) 2020-06-20 2023-07-18 グレイル エルエルシー ヒトパピローマウイルス関連癌の検出および分類
WO2022064162A1 (en) * 2020-09-22 2022-03-31 The Secretary Of State For Defence Dstl Apparatus, kits and methods for predicting the development of sepsis
AU2022213409A1 (en) * 2021-01-29 2023-08-17 Exact Sciences Corporation Detecting the presence or absence of multiple types of cancer
KR20230162662A (ko) * 2021-03-26 2023-11-28 프리놈 홀딩스, 인크. 핵산 메틸화 분석을 통해 암을 검출하는 방법 및 시스템
CN114164275B (zh) * 2021-12-22 2022-12-09 武汉艾米森生命科技有限公司 肝癌的标记物在制备肝癌检测产品中的用途及检测试剂盒
US20230057154A1 (en) 2021-08-05 2023-02-23 Grail, Llc Somatic variant cooccurrence with abnormally methylated fragments
AU2023220053A1 (en) 2022-02-17 2024-08-15 Grail, Inc. Tumor fraction estimation using methylation variants
WO2024178248A1 (en) * 2023-02-22 2024-08-29 University Of Southern California Pan-cancer early detection and mrd cfdna methylation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037001A2 (en) 2008-09-26 2010-04-01 Immune Disease Institute, Inc. Selective oxidation of 5-methylcytosine by tet-family proteins
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
US20160340740A1 (en) 2014-01-30 2016-11-24 The Regents Of The University Of California Methylation haplotyping for non-invasive diagnosis (monod)
US20190022122A1 (en) 2015-12-09 2019-01-24 Centre National De La Recherche Scientifique (C.N.R.S) Carboline derivatives or phosphorous derivatives for the prophylaxis or treatment of muscular myopathies and traumatic injuries to muscles

Family Cites Families (244)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6210878B1 (en) * 1997-08-08 2001-04-03 The Regents Of The University Of California Array-based detection of genetic alterations associated with disease
US7700324B1 (en) 1998-11-03 2010-04-20 The Johns Hopkins University School Of Medicine Methylated CpG island amplification (MCA)
US8076063B2 (en) 2000-02-07 2011-12-13 Illumina, Inc. Multiplexed methylation detection methods
DE10021204A1 (de) 2000-04-25 2001-11-08 Epigenomics Ag Verfahren zur hochparallelen Analyse von Polymorphismen
DE10029914A1 (de) 2000-06-19 2002-01-03 Epigenomics Ag Verfahren zur hochparallelen Analyse von Polymorphismen
AU2001296511A1 (en) 2000-09-29 2002-04-08 The Johns Hopkins University School Of Medicine Method of predicting the clinical response to chemotherapeutic treatment with alkylating agents
US6773987B1 (en) 2001-11-17 2004-08-10 Altera Corporation Method and apparatus for reducing charge loss in a nonvolatile memory cell
AU2002358273A1 (en) 2001-12-19 2003-07-09 Incyte Corporation Nucleic acid-associated proteins
DE60207979T2 (de) 2002-03-05 2006-09-28 Epigenomics Ag Verfahren und Vorrichtung zur Bestimmung der Gewebespezifität von freier DNA in Körperflüssigkeiten
US9394332B2 (en) 2002-08-29 2016-07-19 Epigenomics Ag Method for bisulfite treatment
ATE462017T1 (de) 2002-12-02 2010-04-15 Illumina Cambridge Ltd Bestimmung der methylierung von nukleinsäuresequenzen
ES2329364T3 (es) 2003-01-17 2009-11-25 The Trustees Of Boston University Analisis de haplotipos.
ATE373673T1 (de) 2003-01-29 2007-10-15 Hoffmann La Roche Verbessertes verfahren zur behandlung durch bisulfit
US7041455B2 (en) 2003-03-07 2006-05-09 Illumigen Biosciences, Inc. Method and apparatus for pattern identification in diploid DNA sequence data
US8150626B2 (en) 2003-05-15 2012-04-03 Illumina, Inc. Methods and compositions for diagnosing lung cancer with specific DNA methylation patterns
DE602004018776D1 (de) 2003-07-04 2009-02-12 Johnson & Johnson Res Pty Ltd Verfahren zum nachweis von alkyliertem cytosin in dna
US20060183128A1 (en) 2003-08-12 2006-08-17 Epigenomics Ag Methods and compositions for differentiating tissues for cell types using epigenetic markers
US8415100B2 (en) 2003-08-14 2013-04-09 Case Western Reserve University Methods and compositions for detecting gastrointestinal and other cancers
JP4781267B2 (ja) 2003-08-14 2011-09-28 ケース ウエスタン リザーブ ユニバーシティ 大腸癌を検出する方法及び組成物
GB0319376D0 (en) 2003-08-18 2003-09-17 Chroma Therapeutics Ltd Histone modification detection
US7371526B2 (en) 2003-08-29 2008-05-13 Applera Corporation Method and materials for bisulfite conversion of cytosine to uracil
CN101985619B (zh) 2003-10-08 2014-08-20 波士顿大学信托人 染色体异常的产前诊断方法
US8062849B2 (en) 2003-10-28 2011-11-22 The Johns Hopkins University Quantitative multiplex methylation-specific PCR
US20050208538A1 (en) 2003-12-29 2005-09-22 Nurith Kurn Methods for analysis of nucleic acid methylation status and methods for fragmentation, labeling and immobilization of nucleic acids
US7842459B2 (en) 2004-01-27 2010-11-30 Compugen Ltd. Nucleotide and amino acid sequences, and assays and methods of use thereof for diagnosis
US20050196792A1 (en) 2004-02-13 2005-09-08 Affymetrix, Inc. Analysis of methylation status using nucleic acid arrays
US7709194B2 (en) 2004-06-04 2010-05-04 The Chinese University Of Hong Kong Marker for prenatal diagnosis and monitoring
JP4727670B2 (ja) 2004-10-11 2011-07-20 エピゲノミクス アーゲー 核酸の改変された前処理によって達成されるメチル化解析を標的とするdna増幅系におけるキャリーオーバー保護のための方法
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
US20070196820A1 (en) 2005-04-05 2007-08-23 Ravi Kapur Devices and methods for enrichment and alteration of cells and other particles
SG183708A1 (en) 2005-04-15 2012-09-27 Epigenomics Ag Methods and nucleic acids for analyses of cellular proliferative disorders
WO2006128192A2 (en) 2005-05-27 2006-11-30 John Wayne Cancer Institute Use of free circulating dna for diagnosis, prognosis, and treatment of cancer
US20060292585A1 (en) 2005-06-24 2006-12-28 Affymetrix, Inc. Analysis of methylation using nucleic acid arrays
CA2910861C (en) 2005-09-29 2018-08-07 Michael Josephus Theresia Van Eijk High throughput screening of mutagenized populations
WO2007062212A1 (en) 2005-11-23 2007-05-31 University Of Southern California High throughput method of dna methylation haplotyping
EP1963352B1 (de) 2005-12-14 2010-09-08 Roche Diagnostics GmbH Neues verfahren für die bisulfitbehandlung
US20070141582A1 (en) 2005-12-15 2007-06-21 Weiwei Li Method and kit for detection of early cancer or pre-cancer using blood and body fluids
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US20070161031A1 (en) 2005-12-16 2007-07-12 The Board Of Trustees Of The Leland Stanford Junior University Functional arrays for high throughput characterization of gene expression regulatory elements
EP1966393B1 (de) 2005-12-22 2012-07-25 Keygene N.V. Verfahren zum polymorphismusnachweis auf aflp-basis mit hohem durchsatz
ES2429408T5 (es) 2006-02-02 2020-01-16 Univ Leland Stanford Junior Examen genético fetal no invasivo mediante análisis digital
WO2007106802A2 (en) 2006-03-14 2007-09-20 Siemens Healthcare Diagnostics Inc. Method for linear amplification of bisulfite converted dna
US7901882B2 (en) 2006-03-31 2011-03-08 Affymetrix, Inc. Analysis of methylation using nucleic acid arrays
US20070264640A1 (en) 2006-05-12 2007-11-15 Barrett Michael T Array-based assays using split-probe nucleic acid arrays
RU2008146868A (ru) 2006-05-18 2010-06-27 Кэрис МПИ, Инк.445 Норт Фифс Стрит, 3-ий Флор, Феникс, Аризона 85004, США (US) Система и способ определения персонализированого медицинского вмешательства при болезненном состоянии
US8768629B2 (en) 2009-02-11 2014-07-01 Caris Mpi, Inc. Molecular profiling of tumors
ES2538214T3 (es) 2006-08-08 2015-06-18 Epigenomics Ag Un método para el análisis de metilación de ácido nucleico
CN101153336B (zh) 2006-09-27 2011-09-07 香港中文大学 检测dna甲基化程度的方法和试剂盒
WO2008048508A2 (en) 2006-10-13 2008-04-24 Vermillion, Inc. Prognostic biomarkers in patients with ovarian cancer
US20080102450A1 (en) 2006-10-26 2008-05-01 Barrett Michael T Detecting DNA methylation patterns in genomic DNA using bisulfite-catalyzed transamination of CpGS
EP2097538A4 (de) 2006-12-07 2011-11-30 Switchgear Genomics Transkrptionsregulationselemente biologischer wege, werkzeuge und verfahren
BRPI0721095B1 (pt) * 2006-12-13 2015-09-29 Luminex Corp Sistemas e métodos para a análise multíplex de pcr em tempo real
GB0700374D0 (en) 2007-01-09 2007-02-14 Oncomethylome Sciences S A NDRG family methylation markers
US7899626B2 (en) 2007-01-10 2011-03-01 Illumina, Inc. System and method of measuring methylation of nucleic acids
US7863035B2 (en) 2007-02-15 2011-01-04 Osmetech Technology Inc. Fluidics devices
JP5378687B2 (ja) 2007-03-02 2013-12-25 エフ.ホフマン−ラ ロシュ アーゲー Basp1遺伝子および/またはsrd5a2遺伝子中のメチル化シトシンを利用する、肝臓癌、肝臓癌発症リスク、肝臓癌再発リスク、肝臓癌悪性度および肝臓癌の経時的進展の検出方法
US9290803B2 (en) 2007-04-12 2016-03-22 University Of Southern California DNA methylation analysis by digital bisulfite genomic sequencing and digital methylight
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
WO2009017784A2 (en) 2007-08-01 2009-02-05 Dana-Farber Cancer Institute Enrichment of a target sequence
US8486634B2 (en) 2007-11-06 2013-07-16 Ambergen, Inc. Amplifying bisulfite-treated template
US20110165565A1 (en) 2008-01-03 2011-07-07 The Johns Hopkins University Compositions and methods for polynucleotide extraction and methylation detection
US8673555B2 (en) 2008-02-15 2014-03-18 Mayo Foundation For Medical Education And Research Detecting neoplasm
US8586310B2 (en) 2008-09-05 2013-11-19 Washington University Method for multiplexed nucleic acid patch polymerase chain reaction
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
EP2175037B1 (de) * 2008-09-26 2017-10-11 Genomic Vision Verfahren zur Analyse von D4Z4-Tandemwiederholungsarrays von Nukleinsäure und Kit dafür
US8728764B2 (en) 2008-10-02 2014-05-20 Illumina Cambridge Limited Nucleic acid sample enrichment for sequencing applications
WO2010048337A2 (en) 2008-10-22 2010-04-29 Illumina, Inc. Preservation of information related to genomic dna methylation
WO2010085343A1 (en) 2009-01-23 2010-07-29 Cold Spring Harbor Laboratory Methods and arrays for profiling dna methylation
EP2389455A4 (de) 2009-01-26 2012-12-05 Verinata Health Inc Verfahren und zusammensetzung zur identifizierung einer fetalen zelle
EP2233590A1 (de) 2009-01-28 2010-09-29 AIT Austrian Institute of Technology GmbH Methylierungsassay
US12129514B2 (en) * 2009-04-30 2024-10-29 Molecular Loop Biosolutions, Llc Methods and compositions for evaluating genetic markers
US9334531B2 (en) * 2010-12-17 2016-05-10 Life Technologies Corporation Nucleic acid amplification
WO2010132814A1 (en) 2009-05-15 2010-11-18 The Trustees Of The University Of Pennsylvania Long hepitype distribution (lhd)
US9458503B2 (en) 2009-07-02 2016-10-04 Nucleix Methods for distinguishing between natural and artificial DNA samples
US20110027771A1 (en) 2009-07-31 2011-02-03 Artemis Health, Inc. Methods and compositions for cell stabilization
US20120157324A1 (en) 2009-08-17 2012-06-21 Yale University Methylation biomarkers and methods of use
US20120208711A1 (en) 2009-10-02 2012-08-16 Centre For Addiction And Mental Health Method for Analysis of DNA Methylation Profiles of Cell-Free Circulating DNA in Bodily Fluids
EP2824191A3 (de) 2009-10-26 2015-02-18 Lifecodexx AG Mittel und Verfahren zur nichtinvasiven Diagnose von chromosomaler Aneuploidie
WO2011057354A1 (en) 2009-11-13 2011-05-19 Commonwealth Scientific And Industrial Research Organisation Epigenetic analysis
US20110237444A1 (en) 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
WO2011071923A2 (en) 2009-12-07 2011-06-16 Illumina, Inc. Multi-sample indexing for multiplex genotyping
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
WO2012019190A1 (en) 2010-08-06 2012-02-09 Rutgers, The State University Of New Jersey Compositions and methods for high-throughput nucleic acid analysis and quality control
US20140342940A1 (en) * 2011-01-25 2014-11-20 Ariosa Diagnostics, Inc. Detection of Target Nucleic Acids using Hybridization
CN103370456A (zh) 2010-08-24 2013-10-23 比奥Dx股份有限公司 限定母体循环血液中保守的游离浮动胎儿dna的诊断性和治疗性靶物
WO2012031329A1 (en) 2010-09-10 2012-03-15 Murdoch Childrens Research Institute Assay for detection and monitoring of cancer
US8481292B2 (en) 2010-09-21 2013-07-09 Population Genetics Technologies Litd. Increasing confidence of allele calls with molecular counting
WO2012106546A2 (en) 2011-02-02 2012-08-09 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
US9611510B2 (en) 2011-04-06 2017-04-04 The University Of Chicago Composition and methods related to modification of 5-methylcytosine (5-mC)
EP3246416B1 (de) 2011-04-15 2024-06-05 The Johns Hopkins University Sicheres sortierungssystem
US20140357497A1 (en) 2011-04-27 2014-12-04 Kun Zhang Designing padlock probes for targeted genomic sequencing
WO2012178007A1 (en) 2011-06-22 2012-12-27 Yale University COMPOSITIONS AND METHODS OF DIAGNOSING DISEASES AND DISORDERS ASSOCIATED WITH β CELL DEATH
DK2737085T3 (en) 2011-07-29 2017-01-23 Cambridge Epigenetix Ltd METHODS FOR DETECTING NUCLEOTID MODIFICATION
GB201115099D0 (en) 2011-09-01 2011-10-19 Belgian Volition Sa Method for detecting nucleosomes
US20130129668A1 (en) 2011-09-01 2013-05-23 The Regents Of The University Of California Diagnosis and treatment of arthritis using epigenetics
GB201115098D0 (en) 2011-09-01 2011-10-19 Belgian Volition Sa Method for detecting nucleosomes containing histone variants
US9896725B2 (en) 2011-10-04 2018-02-20 The Regents Of The University Of California Corporation Real-time, label-free detection of macromolecules in droplets based on electrical measurements
EP2771483A1 (de) 2011-10-25 2014-09-03 ONCOTYROL - Center for Personalized Cancer Medicine GmbH Verfahren zur diagnostizierung einer krankheit auf basis einer plasma-dna-verteilung
US9845552B2 (en) 2011-10-27 2017-12-19 Verinata Health, Inc. Set membership testers for aligning nucleic acid samples
CN103103624B (zh) 2011-11-15 2014-12-31 深圳华大基因科技服务有限公司 高通量测序文库的构建方法及其应用
US8573311B2 (en) 2012-01-20 2013-11-05 Halliburton Energy Services, Inc. Pressure pulse-initiated flow restrictor bypass system
AU2013215159B2 (en) 2012-01-30 2018-07-12 Exact Sciences Corporation Modification of DNA on magnetic beads
US9605313B2 (en) 2012-03-02 2017-03-28 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US9862995B2 (en) 2012-03-13 2018-01-09 Abhijit Ajit Patel Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
WO2013138644A2 (en) 2012-03-15 2013-09-19 New England Biolabs, Inc. Methods and compositions for discrimination between cytosine and modifications thereof, and for methylome analysis
US9040239B2 (en) 2012-03-15 2015-05-26 New England Biolabs, Inc. Composition and methods of oxygenation of nucleic acids containing 5-methylpyrimidine
US10081827B2 (en) 2012-03-15 2018-09-25 New England Biolabs, Inc. Mapping cytosine modifications
PT2828218T (pt) 2012-03-20 2020-11-11 Univ Washington Through Its Center For Commercialization Métodos para baixar a taxa de erro da sequenciação paralela massiva de adn utilizando sequenciação duplex de consensus
US20130261984A1 (en) 2012-03-30 2013-10-03 Illumina, Inc. Methods and systems for determining fetal chromosomal abnormalities
US9175348B2 (en) 2012-04-24 2015-11-03 Pacific Biosciences Of California, Inc. Identification of 5-methyl-C in nucleic acid templates
US9976187B2 (en) 2012-06-13 2018-05-22 King Abdullah University Of Science And Technology Methylation biomarkers for prostate cancer
US20150011396A1 (en) 2012-07-09 2015-01-08 Benjamin G. Schroeder Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing
US9977861B2 (en) 2012-07-18 2018-05-22 Illumina Cambridge Limited Methods and systems for determining haplotypes and phasing of haplotypes
EP2698436A1 (de) 2012-08-14 2014-02-19 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Kolorektalkrebsmarker
ES2968333T3 (es) 2012-09-04 2024-05-09 Guardant Health Inc Métodos para analizar células libres de polinucleótidos
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
ES2969567T3 (es) 2012-09-20 2024-05-21 Univ Hong Kong Chinese Determinación no invasiva de metiloma de tumor de plasma
US9732390B2 (en) 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
US10563248B2 (en) 2012-11-30 2020-02-18 Cambridge Epigenetix Limited Oxidizing agent for modified nucleotides
US20140274767A1 (en) 2013-01-23 2014-09-18 The Johns Hopkins University Dna methylation markers for metastatic prostate cancer
SG11201506660RA (en) 2013-02-21 2015-09-29 Toma Biosciences Inc Methods, compositions, and kits for nucleic acid analysis
GB201303576D0 (en) 2013-02-28 2013-04-10 Singapore Volition Pte Ltd Method for predicting therapy efficacy using nucleosome structure biomarkers
EP2775304A1 (de) 2013-03-07 2014-09-10 Universitätsspital Basel Verfahren zum Nachweis einer entzündlichen Störung
US20160040218A1 (en) * 2013-03-14 2016-02-11 The Broad Institute, Inc. Selective Purification of RNA and RNA-Bound Molecular Complexes
WO2014159652A2 (en) * 2013-03-14 2014-10-02 Mayo Foundation For Medical Education And Research Detecting neoplasm
CN113337604A (zh) 2013-03-15 2021-09-03 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
EP2971097B1 (de) 2013-03-15 2018-08-01 Verinata Health, Inc Erstellen von zellfreien genbibliotheken direkt aus blut
WO2014167564A1 (en) * 2013-04-08 2014-10-16 Carmel-Haifa University Economic Corporation Ltd. Sept4/ARTS AS A TUMOR SUPPRESSOR IN THE DIAGNOSIS, PROGNOSIS AND TREATMENT OF HEPATIC DISORDERS
WO2014184684A2 (en) 2013-05-16 2014-11-20 Oslo Universitetssykehus Hf Methods and biomarkers for detection of hematological cancers
CN104250663B (zh) 2013-06-27 2017-09-15 北京大学 甲基化CpG岛的高通量测序检测方法
ES2875892T3 (es) 2013-09-20 2021-11-11 Spraying Systems Co Boquilla de pulverización para craqueo catalítico fluidizado
US20150099670A1 (en) 2013-10-07 2015-04-09 Weiwei Li Method of preparing post-bisulfite conversion DNA library
EP3058092B1 (de) 2013-10-17 2019-05-22 Illumina, Inc. Verfahren und zusammensetzungen zur herstellung von nukleinsäure-bibliotheken
EP4227947A1 (de) 2013-10-21 2023-08-16 Verinata Health, Inc. Verfahren zur verbesserung der detektionsempfindlichkeit bei der bestimmung von kopienzahlvariationen
EP3080268A1 (de) 2013-12-09 2016-10-19 Illumina, Inc. Verfahren und zusammensetzungen zur gezielten nukleinsäuresequenzierung
ES2660989T3 (es) 2013-12-28 2018-03-27 Guardant Health, Inc. Métodos y sistemas para detectar variantes genéticas
JP2017501730A (ja) 2013-12-31 2017-01-19 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft Dnaメチル化の状態を通してゲノム機能のエピジェネティックな調節を評価する方法ならびにそのためのシステムおよびキット
US20150197809A1 (en) 2014-01-13 2015-07-16 Trustees Of Boston University Methods and assays relating to huntingtons disease and parkinson's disease
US9926598B2 (en) 2014-01-16 2018-03-27 Illumina, Inc. Amplicon preparation and sequencing on solid supports
JP6666852B2 (ja) 2014-01-16 2020-03-18 イルミナ インコーポレイテッド 前立腺がん再発の予後に関する遺伝子発現パネル
US9670530B2 (en) 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing
WO2015116591A1 (en) 2014-01-30 2015-08-06 Illumina, Inc. Compositions and methods for dispensing reagents
GB201403216D0 (en) 2014-02-24 2014-04-09 Cambridge Epigenetix Ltd Nucleic acid sample preparation
US9745614B2 (en) 2014-02-28 2017-08-29 Nugen Technologies, Inc. Reduced representation bisulfite sequencing with diversity adaptors
GB201405226D0 (en) 2014-03-24 2014-05-07 Cambridge Entpr Ltd Nucleic acid preparation method
CN106460046A (zh) 2014-03-31 2017-02-22 梅奥医学教育和研究基金会 检测结直肠赘生物
DK4026917T5 (da) 2014-04-14 2024-07-15 Yissum Research And Development Company Of The Hebrew Univ Of Jerusalem Ltd Fremgangsmåde og kit til bestemmelse af cellers eller vævs død eller dna's vævs- eller celleoprindelse ved dna-methyleringsanalyse
EP2942400A1 (de) 2014-05-09 2015-11-11 Lifecodexx AG Multiplex-Nachweis von DNA, die aus einem spezifischen Zelltyp herrührt
WO2015179672A1 (en) 2014-05-21 2015-11-26 Atherotech, Inc. Methods of isolation of cell free complexes and circulating cell-free nucleic acid
CA2950295C (en) * 2014-06-06 2023-10-17 Cornell University Method for identification and enumeration of nucleic acid sequence, expression, copy, or dna methylation changes, using combined nuclease, ligase, polymerase, and sequencing reactions
HUE056267T2 (hu) * 2014-07-18 2022-02-28 Univ Hong Kong Chinese DNS-keverékek szöveteinek metilációs mintázatelemzése
CN112941065A (zh) 2014-07-21 2021-06-11 亿明达股份有限公司 使用crispr-cas系统的多核苷酸富集
WO2016015058A2 (en) 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
KR102018444B1 (ko) 2014-07-25 2019-09-04 비지아이 제노믹스 코포레이션 리미티드 생물학적 샘플 중의 무세포 핵산의 분획을 결정하기 위한 방법 및 장치 및 이의 용도
GB201413318D0 (en) 2014-07-28 2014-09-10 Cambridge Epigenetix Ltd Nucleic acid sample preparation
GB201415761D0 (en) 2014-09-05 2014-10-22 Cambridge Epigenetix Ltd Methods for detection of Nucleotide modification
CN107077537B (zh) 2014-09-12 2021-06-22 伊鲁米纳剑桥有限公司 用短读测序数据检测重复扩增
US10570443B2 (en) 2014-10-01 2020-02-25 Chronix Biomedical Methods of quantifying cell-free DNA
CN114045282A (zh) 2014-10-17 2022-02-15 伊卢米纳剑桥有限公司 接近性保留性转座
GB201418621D0 (en) 2014-10-20 2014-12-03 Cambridge Epigenetix Ltd Improved nucleic acid sample preparation using concatenation
GB201418718D0 (en) 2014-10-21 2014-12-03 Cambridge Epigenetix Ltd Improved nucleic acid re-sequencing using a reduced number of identified bases
JP2017538404A (ja) 2014-11-14 2017-12-28 リキッド ジェノミクス,インコーポレイティド 癌を診断及び/又は観察するための循環無細胞rnaの使用
AU2015357573B2 (en) 2014-12-05 2022-04-07 Foundation Medicine, Inc. Multigene analysis of tumor samples
WO2016094813A1 (en) 2014-12-12 2016-06-16 Exact Sciences Corporation Compositions and methods for performing methylation detection assays
CN113897432A (zh) 2014-12-12 2022-01-07 精密科学公司 用于进行甲基化检测测定的组合物和方法
CN107750277B (zh) 2014-12-12 2021-11-09 维里纳塔健康股份有限公司 使用无细胞dna片段大小来确定拷贝数变化
US20170342500A1 (en) 2014-12-19 2017-11-30 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour
US20180143198A1 (en) 2014-12-26 2018-05-24 Peking University Method for detecting differentially methylated cpg islands associated with abnormal state of human body
CA2972433A1 (en) 2014-12-31 2016-07-07 Guardant Health, Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
CN113957124A (zh) 2015-02-10 2022-01-21 香港中文大学 用于癌症筛查和胎儿分析的突变检测
WO2016127844A1 (zh) 2015-02-12 2016-08-18 苏州晶云药物科技有限公司 IPI-145的晶型α及其制备方法
US20180010176A1 (en) 2015-02-13 2018-01-11 Abhijit Ajit Patel Methods for highly parallel and accurate measurement of nucleic acids
US20160275240A1 (en) 2015-02-18 2016-09-22 Nugen Technologies, Inc. Methods and compositions for pooling amplification primers
AU2016226210A1 (en) 2015-03-03 2017-09-21 Caris Mpi, Inc. Molecular profiling for cancer
US20180087114A1 (en) 2015-03-05 2018-03-29 Trovagene, Inc. Early assessment of mechanism of action and efficacy of anti-cancer therapies using molecular markers in bodily fluid
JP2018513508A (ja) 2015-03-16 2018-05-24 パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド 核酸を分析するためのシステムおよび方法
WO2016154330A1 (en) * 2015-03-23 2016-09-29 Whitehead Institute For Biomedical Research Reporter of genomic methylation and uses thereof
WO2016160454A1 (en) 2015-03-27 2016-10-06 Exact Sciences Corporation Detecting esophageal disorders
GB201506669D0 (en) 2015-04-20 2015-06-03 Cambridge Epigenetix Ltd Nucleic acid sample enrichment
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
AU2016258914A1 (en) 2015-05-01 2017-11-09 Guardant Health, Inc. Diagnostic methods
WO2016189288A1 (en) 2015-05-22 2016-12-01 Cambridge Epigenetix Ltd Nucleic acid sample enrichment
US11274333B2 (en) 2015-05-29 2022-03-15 Molecular Cloning Laboratories (MCLAB) LLC Compositions and methods for preparing sequencing libraries
EP3653728B1 (de) 2015-06-09 2023-02-01 Life Technologies Corporation Verfahren, systeme, zusammensetzungen, kits, vorrichtung und computerlesbare medien zur molekularen markierung
EP3839047A1 (de) 2015-06-15 2021-06-23 Cepheid Integrierte reinigung und messung der dna-methylierung und ko-messung von mutationen und/oder mrna-expressionsniveaus in einer automatisierten reaktionskartusche
JP6941568B2 (ja) 2015-06-24 2021-09-29 デイナ ファーバー キャンサー インスティチュート,インコーポレイテッド ヌクレアーゼを使用する野生型dnaの選択的分解および突然変異体対立遺伝子の濃縮
DE102015009187B3 (de) 2015-07-16 2016-10-13 Dimo Dietrich Verfahren zur Bestimmung einer Mutation in genomischer DNA, Verwendung des Verfahrens und Kit zur Durchführung des Verfahrens
DK3739061T3 (da) 2015-07-20 2022-04-19 Univ Hong Kong Chinese Methyleringsmønsteranalyse af haplotyper i væv i DNA-blanding
HUE057821T2 (hu) 2015-07-23 2022-06-28 Univ Hong Kong Chinese Sejtmentes DNS fragmentációs mintázatának elemzése
AU2016306688A1 (en) 2015-08-12 2018-03-29 Circulogene Theranostics, Llc Method of preparing cell free nucleic acid molecules by in situ amplification
EP3350344A1 (de) 2015-09-17 2018-07-25 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Verfahren für den nachweis von krebs
CN117012283A (zh) 2015-10-10 2023-11-07 夸登特健康公司 无细胞dna分析中基因融合检测的方法和应用
US10619200B2 (en) 2015-10-30 2020-04-14 New England Biolabs, Inc. Compositions and methods for analyzing modified nucleotides
US10260088B2 (en) 2015-10-30 2019-04-16 New England Biolabs, Inc. Compositions and methods for analyzing modified nucleotides
EP3374525B1 (de) 2015-11-11 2021-01-20 Resolution Bioscience, Inc. Hocheffiziente konstruktion von dna-bibliotheken
JP2019507585A (ja) 2015-12-17 2019-03-22 ガーダント ヘルス, インコーポレイテッド 無細胞dnaの分析による腫瘍遺伝子コピー数を決定するための方法
AU2016370835B2 (en) 2015-12-17 2020-02-13 Illumina, Inc. Distinguishing methylation levels in complex biological samples
EP3405573A4 (de) * 2016-01-22 2019-09-18 Grail, Inc. Verfahren und systeme zur high-fidelity-sequenzierung
JP6987786B2 (ja) 2016-02-02 2022-01-05 ガーダント ヘルス, インコーポレイテッド がんの進化の検出および診断
WO2017158158A1 (en) * 2016-03-18 2017-09-21 Region Nordjylland, Aalborg University Hospital Methylation markers for pancreatic cancer
EP4071250A1 (de) * 2016-03-22 2022-10-12 Myriad Women's Health, Inc. Kombinatorisches dna-screening
CN109312399B (zh) 2016-04-07 2023-02-03 斯坦福大学托管董事会 通过测序5-羟甲基化无细胞dna的无创诊断
US20190085406A1 (en) 2016-04-14 2019-03-21 Guardant Health, Inc. Methods for early detection of cancer
WO2017181079A2 (en) 2016-04-15 2017-10-19 Genentech, Inc. Methods for monitoring and treating cancer
CA3016360A1 (en) 2016-04-15 2017-10-19 Ucl Business Plc Methods for lung cancer detection
KR20190003958A (ko) 2016-04-15 2019-01-10 제넨테크, 인크. 암의 치료 및 모니터링 방법
WO2017181134A2 (en) 2016-04-15 2017-10-19 F. Hoffman-La Roche Ag Detecting cancer driver genes and pathways
CA3023335A1 (en) 2016-05-04 2017-11-30 Queen's University At Kingston Cell-free detection of methylated tumour dna
CA3023839A1 (en) 2016-05-13 2017-11-16 F. Hoffmann-La Roche Ag Detection of met exon 14 deletions and associated therapies
US11427866B2 (en) 2016-05-16 2022-08-30 Accuragen Holdings Limited Method of improved sequencing by strand identification
JP2019521673A (ja) 2016-06-07 2019-08-08 ザ リージェンツ オブ ザ ユニヴァーシティー オブ カリフォルニア 疾患および状態の分析のためのセルフリーdnaメチル化パターン
CN109415764A (zh) 2016-07-01 2019-03-01 纳特拉公司 用于检测核酸突变的组合物和方法
EP3481403B1 (de) 2016-07-06 2022-02-09 Youhealth Biotech, Limited Feste tumormethylierungsmarker und verwendungen davon
EP3481951A4 (de) 2016-07-06 2020-08-05 Youhealth Biotech, Limited Methylierungsmarker für kolonkarzinom und verwendungen davon
EP3481954A4 (de) 2016-07-06 2020-04-15 Youhealth Biotech, Limited Methylierungsmarker für lungenkrebs und verwendungen davon
WO2018009705A1 (en) 2016-07-06 2018-01-11 Youhealth Biotech, Limited Liver cancer methylation markers and uses thereof
US11396678B2 (en) 2016-07-06 2022-07-26 The Regent Of The University Of California Breast and ovarian cancer methylation markers and uses thereof
US10093986B2 (en) 2016-07-06 2018-10-09 Youhealth Biotech, Limited Leukemia methylation markers and uses thereof
WO2018022906A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
EP3491560A1 (de) 2016-07-27 2019-06-05 Sequenom, Inc. Genkopienzahlvariationklassifizierungen
US11566284B2 (en) * 2016-08-10 2023-01-31 Grail, Llc Methods of preparing dual-indexed DNA libraries for bisulfite conversion sequencing
US10626443B2 (en) * 2016-08-10 2020-04-21 Grail, Inc. Methods of analyzing nucleic acid fragments
JP7217224B2 (ja) 2016-08-25 2023-02-02 レゾリューション バイオサイエンス, インコーポレイテッド Dna試料中のゲノムコピー変化の検出方法
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CA3047421A1 (en) 2016-12-21 2018-06-28 The Regents Of The University Of California Deconvolution and detection of rare dna in plasma
JP7300989B2 (ja) 2016-12-22 2023-06-30 ガーダント ヘルス, インコーポレイテッド 核酸分子を解析するための方法およびシステム
EP3571317A1 (de) 2017-01-20 2019-11-27 Sequenom, Inc. Herstellung und verwendung eines sequenzierungsadapters
WO2018161031A1 (en) 2017-03-02 2018-09-07 Youhealth Biotech, Limited Methylation markers for diagnosing hepatocellular carcinoma and lung cancer
CA3060553A1 (en) 2017-04-19 2018-10-25 Singlera Genomics, Inc. Compositions and methods for detection of genomic variance and dna methylation status
JP7220200B2 (ja) 2017-04-19 2023-02-09 シングレラ ジェノミクス, インコーポレイテッド ライブラリー構築および配列解析のための組成物および方法
WO2018204764A1 (en) 2017-05-05 2018-11-08 Camp4 Therapeutics Corporation Identification and targeted modulation of gene signaling networks
WO2019064063A1 (en) 2017-09-27 2019-04-04 Cambridge Epigenetix Limited BIOMARKERS FOR DETECTION OF COLORECTAL CANCER
WO2019074700A1 (en) 2017-10-09 2019-04-18 The Board Of Regents Of The University Of Oklahoma SURGICAL EVACUATION APPARATUS AND ASSOCIATED METHOD
TWI834642B (zh) 2018-03-13 2024-03-11 美商格瑞爾有限責任公司 異常片段偵測及分類
DE202019005627U1 (de) 2018-04-02 2021-05-31 Grail, Inc. Methylierungsmarker und gezielte Methylierungssondenpanels
AU2019253569A1 (en) 2018-04-12 2020-10-29 Singlera Genomics, Inc. Compositions and methods for cancer or neoplasia assessment
CA3111887A1 (en) * 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
PT3914736T (pt) 2019-01-25 2024-03-27 Grail Inc Deteção de cancro, tecido do cancro de origem e/ou um tipo de celula de cancro
WO2020163410A1 (en) 2019-02-05 2020-08-13 Grail, Inc. Detecting cancer, cancer tissue of origin, and/or a cancer cell type
AU2020217719A1 (en) 2019-02-05 2021-08-19 Grail, Llc Detecting cancer, cancer tissue of origin, and/or a cancer cell type

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037001A2 (en) 2008-09-26 2010-04-01 Immune Disease Institute, Inc. Selective oxidation of 5-methylcytosine by tet-family proteins
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
US20160340740A1 (en) 2014-01-30 2016-11-24 The Regents Of The University Of California Methylation haplotyping for non-invasive diagnosis (monod)
US20190022122A1 (en) 2015-12-09 2019-01-24 Centre National De La Recherche Scientifique (C.N.R.S) Carboline derivatives or phosphorous derivatives for the prophylaxis or treatment of muscular myopathies and traumatic injuries to muscles

Also Published As

Publication number Publication date
CN112236520A (zh) 2021-01-15
GB2587939A (en) 2021-04-14
GB202300979D0 (en) 2023-03-08
EP3775198A4 (de) 2022-01-05
US12024750B2 (en) 2024-07-02
EP3775198A2 (de) 2021-02-17
WO2019195268A2 (en) 2019-10-10
US20210017609A1 (en) 2021-01-21
WO2019195268A3 (en) 2020-02-06
AU2019249422A1 (en) 2020-10-15
GB2587939B (en) 2023-06-14
GB2611500A (en) 2023-04-05
US20210025011A1 (en) 2021-01-28
GB2611500B (en) 2023-06-28
CA3094717A1 (en) 2019-10-10
GB202017322D0 (en) 2020-12-16

Similar Documents

Publication Publication Date Title
DE202019005627U1 (de) Methylierungsmarker und gezielte Methylierungssondenpanels
US11685958B2 (en) Methylation markers and targeted methylation probe panel
US11367508B2 (en) Systems and methods for detecting cellular pathway dysregulation in cancer specimens
ES2974178T3 (es) Detección de cáncer, tejido canceroso de origen y/o un tipo de célula cancerosa
DE202013012824U1 (de) Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation
US20200402613A1 (en) Improvements in variant detection
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
US20220064737A1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
CN109689891A (zh) 用于无细胞核酸的片段组谱分析的方法
DE112020005433T5 (de) Verfahren und Systeme zur Analyse von Nukleinsäuremolekülen
WO2020132544A1 (en) Anomalous fragment detection and classification
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
CN116157868A (zh) 用于游离dna片段大小密度以评估癌症的方法和系统
CN112289376A (zh) 一种检测体细胞突变的方法及装置
EP4025713A1 (de) Verfahren und mittel zur diagnose von lungenkrebs
Gendoo et al. Personalized diagnosis of medulloblastoma subtypes across patients and model systems
DE112018006190T5 (de) Subtypisierung von tnbc und methoden
US12073921B2 (en) System for increasing the accuracy of non invasive prenatal diagnostics and liquid biopsy by observed loci bias correction at single base resolution
EP3635138B1 (de) Verfahren zur analyse von zellfreien nukleinsäuren
Su et al. STANCE: a unified statistical model to detect cell-type-specific spatially variable genes in spatial transcriptomics
WO2024192121A1 (en) White blood cell contamination detection
van de Koppel et al. Knowledge discovery in neuroblastoma-related biological data
CN115472294A (zh) 预测小细胞转化肺腺癌患者转化速度的模型及其构建方法

Legal Events

Date Code Title Description
R207 Utility model specification
R150 Utility model maintained after payment of first maintenance fee after three years
R081 Change of applicant/patentee

Owner name: GRAIL, LLC, MENLO PARK, US

Free format text: FORMER OWNER: GRAIL, INC., MENLO PARK, CA, US