-
BEZUGNAHME AUF ANDERE PATENTANMELDUNGEN
-
Diese Gebrauchsmusteranmeldung beansprucht den Vorzug der vorläufigen
US-Patentanmeldung Nr. 62/651,643 , eingereicht am 2. April 2018, und der vorläufigen US-Patentanmeldung Nr.
62/738,271 , eingereicht am 28. September 2018, die beide hiermit durch Bezugnahme in ihrer Gesamtheit eingebunden sind.
-
ALLGEMEINER STAND DER TECHNIK
-
DNA-Methylierung spielt eine wichtige Rolle bei der Regulierung der Genexpression. Aberrante DNA-Methylierung ist an vielen Krankheitsprozessen, einschließlich Krebs, beteiligt. Die Erstellung eines DNA-Methylierungsprofils unter Verwendung von Methylierungssequenzierung (z. B. Bisulfit-Gesamtgenomsequenzierung (WGBS)) wird zunehmend als ein wertvolles diagnostisches Werkzeug für den Nachweis, die Diagnose und/oder die Überwachung von Krebs erkannt. Zum Beispiel können spezifische Muster differenziell methylierter Regionen als molekulare Marker für verschiedene Krankheiten nützlich sein.
-
Allerdings ist die WGBS für einen Produktassay nicht ideal geeignet. Der Grund ist, dass die gewaltige Mehrheit des Genoms entweder bei Krebs nicht differenziell methyliert ist oder die lokale CpG-Dichte zu niedrig ist, um ein belastbares Signal bereitzustellen. Nur wenige Prozent des Genoms sind wahrscheinlich zur Klassifizierung nützlich.
-
Des Weiteren gab es verschiedene Herausforderungen bei der Identifizierung differenziell methylierter Regionen bei verschiedenen Krankheiten. Erstens hat die Bestimmung differenziell methylierter Regionen bei einer krankheitsbefallenen Gruppe nur Gewicht im Vergleich mit einer Gruppe von Kontrollpersonen, sodass, wenn die Kontrollgruppe von kleiner Zahl ist, die Bestimmung mit der kleinen Kontrollgruppe Konfidenz verliert. Außerdem kann bei einer Gruppe von Kontrollpersonen der Methylierungsstatus variieren, was beim Bestimmen, ob die Regionen bei einer krankheitsbefallenen Gruppe differenziell methyliert sind, schwierig zu berücksichtigen sein kann. Davon abgesehen korreliert die Methylierung eines Cytosins an einer CpG-Stelle stark mit der Methylierung an einer folgenden CpG-Stelle. Diese Abhängigkeit einzubeziehen, ist an und für sich eine Herausforderung.
-
Demgemäß ist bislang noch kein kostengünstiges Verfahren zum genauen Diagnostizieren einer Krankheit durch Erkennen differenziell methylierter Regionen verfügbar.
-
ZUSAMMENFASSUNG
-
Der frühe Nachweis von Krebs bei Personen ist wichtig, da er eine frühere Behandlung und daher eine größere Überlebenschance gestattet. Der gezielte Nachweis von Methylierungsmustern, die für Krebs oder Ursprungsgewebe, d. h. das Organ, die Organgruppe, die Körperregion oder die Zellart, in dem/der der Krebs entsteht oder seinen Ursprung hat, spezifisch sind, unter Verwendung von Fragmenten zellfreier DNA (cfDNA) kann den frühen Nachweis von Krebs möglich machen, indem er ein kostengünstiges und nicht invasives Verfahren zum Analysieren von die Krebsklassifizierung betreffenden Informationen bereitstellt. Durch Verwendung eines Panels für eine anvisierte Genomregion, anstatt alle Nukleinsäuren in einer Testprobe zu sequenzieren, auch als „Ganzgenomsequenzierung“ bekannt, kann das Verfahren die Sequenzierungstiefe der Zielregionen erhöhen und die Kosten verglichen mit Ganzgenomsequenzierung (WGS) oder Bisulfit-Ganzgenomsequenzierung (WGBS) senken.
-
Zu diesem Zweck stellt die vorliegende Beschreibung Krebs-Assay-Panels (z. B. Ködersets) zum Erkennen von Krebs und verschiedenen Ursprungsgeweben oder durch Erkennen von Methylierungsmustern der anvisierten Genomregionen bereit. Das Krebs-Assay-Panel kann Methylierungsmuster nachweisen und differenzieren, die für Krebs im Allgemeinen oder für unterschiedliche Krebsarten, wie z. B. (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliäres Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs und (9) Bauchspeicheldrüsenkrebs, spezifisch sind.
-
Krebs-Assay-Panels können ferner für jede Krebsart Informationen bereitstellen, die ein Krebsstadium betreffen. Die vorliegende Beschreibung stellt auch ein Verfahren zum Verwenden von Krebs-Assay-Panels für die Krebsdiagnose bereit, wobei die Krebsdiagnose ferner eine Krebsart und/oder ein Krebsstadium umfasst. Ferner werden hierin Verfahren zum Identifizieren von Genomstellen mit für Krebs oder verschiedene Arten von Krebs spezifischen Methylierungsmustern sowie eine Liste von Genomstellen, die zur Diagnose von Krebs und/oder Krebsursprungsgewebe verwendet werden können, bereitgestellt. Die hierin beschriebenen Verfahren umfassen ferner Verfahren zum Gestalten von Sonden, um Nukleinsäuren, die von den ausgewählten Genomregionen abgeleitet sind, effizient anzureichern, ohne eine übermäßige Menge unerwünschter oder nicht anvisierter Nukleinsäure herabzuziehen, und Verfahren zum Herstellen des Krebs-Assay-Panels mit den Sonden. Ebenfalls beschrieben sind Verfahren zum Anreichern von Nukleinsäuren, die von den ausgewählten Genomregionen abgeleitet sind, mit anderen Mitteln als Einfangen durch Hybridisierung.
-
Hierin offenbart werden Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose, wobei das Assay-Panel mindestens 500 unterschiedliche Paare von Polynukleotidsonden beinhaltet, wobei jedes Paar der mindestens 500 Sondenpaare (i) zwei unterschiedliche Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz von 30 oder mehr Nukleotiden zu überlappen, und (ii) konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist und wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
-
In manchen Ausführungsformen beinhaltet die Überlappungssequenz mindestens 40, 50, 75 oder 100 Nukleotide. In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 50, 60, 70, 80, 90, 100, 120, 150, 200, 300 oder 400 Sondenpaare. In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 1000, 2000, 2500, 5000, 6000, 7500, 10000, 15000, 20000 oder 25 000 Sondenpaare.
-
Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die mindestens 1000 Polynukleotidsonden beinhalten, wobei jede der mindestens 1000 Sonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Polynukleotid zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist und wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
-
In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen. In manchen Ausführungsformen ist jede der Polynukleotidsonden in dem Panel an eine Affinitätseinheit konjugiert. In manchen Ausführungsformen ist die Affinitätseinheit eine Biotineinheit. In manchen Ausführungsformen sind die Trainingsproben Proben, die von einer Vielzahl von Personen stammen, bei denen bestimmt wurde, dass sie Krebs haben. Assay-Panel gemäß einem der obengenannten Ansprüche, wobei eine Genomregion in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist, wenn ein Methylierungszustandsvektor, der die Genomregion in den karzinomatösen Trainingsproben darstellt, in Referenzproben weniger häufig vorhanden ist als ein Schwellenwert. In manchen Ausführungsformen beträgt der Schwellenwert 0,1, 0,01, 0,001 oder 0,0001. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen in den karzinomatösen Trainingsproben entweder hypermethyliert oder hypomethyliert.
-
In manchen Ausführungsformen sind mindestens 80, 85, 90, 92, 95 oder 98 % der mindestens fünf Methylierungsstellen in den karzinomatösen Trainingsproben entweder methyliert oder unmethyliert. In manchen Ausführungsformen beinhalten mindestens 3 %, 5 %, 10 %, 15 % oder 20 %, 30 % oder 40 % der Sonden auf dem Panel kein G (Guanin). In manchen Ausführungsformen weisen mindestens 80, 85, 90, 92, 95, 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen. In manchen Ausführungsformen ist jede der gesamten Sonden auf dem Panel so gestaltet, dass sie Sequenzhomologie oder Sequenzkomplementarität zu weniger als 20, 15, 10 oder 8 Fehltreffer-Genomregionen aufweist. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie identifiziert. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie, kombiniert mit lokaler Alinierung an Beimpfungsorten, identifiziert.
-
In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 1000, 2000, 2500, 5000, 10000, 12000, 15000, 20000 oder 25000 Sonden. In manchen Ausführungsformen beinhalten die mindestens 1000 Sonden oder die mindestens 500 Sondenpaare zusammen mindestens 0,2 Millionen, 0,4 Millionen, 0,6 Millionen, 0,8 Millionen, 1 Million, 2 Millionen oder 4 Millionen Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel mindestens 50, 75, 100 oder 120 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 300, 250, 200 oder 150 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel 100-150 Nukleotide. In manchen Ausführungsformen befinden sich mindestens 30 % der Genomregionen in Exons oder Introns. In manchen Ausführungsformen befinden sich mindestens 15 % der Genomregionen in Exons. In manchen Ausführungsformen befinden sich mindestens 20 % der Genomregionen in Exons. In manchen Ausführungsformen befinden sich weniger als 10 % der Genomregionen in Zwischengenregionen.
-
In manchen Ausführungsformen beinhalten die Krebspanels ferner eine Vielzahl virusspezifischer Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment von cfDNA zu hybridisieren. In manchen Ausführungsformen ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhalten die Krebspanels mindestens 50, 100, 200, 500, 1000, 2000 oder 3000 virusspezifische Sonden.
-
In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer der Tabellen 1 oder 11-15 (oder Kombinationen davon) ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 13 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 14 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 15 ausgewählt.
-
In manchen Ausführungsformen sind die gesamten Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 1 und 11-15 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer der Genomregionen der Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von gesamten Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in einer oder mehreren der Tabellen 1 und 11-15 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
-
Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die eine Vielzahl von Polynukleotidsonden beinhalten, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus einer beliebigen der Tabellen 1-24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist.
-
In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus einer beliebigen der Tabellen 2-10 oder 16-24 (oder einer Kombination davon) ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus einer beliebigen der Tabellen 13, 14 oder 15 ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 13 ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 14 ausgewählten Genomregionen oder ist davon abgeleitet. In manchen Ausführungsformen entspricht jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 15 ausgewählten Genomregionen oder ist davon abgeleitet.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer beliebigen der Tabellen 1-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer beliebigen der Tabellen 2-10 oder 16-24 (oder Kombinationen davon) entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150, 200, 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in einer beliebigen der Tabellen 1-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen sind die gesamten Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen von einer beliebigen der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15000 Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen. In manchen Ausführungsformen ist jede der Sonden auf dem Panel an eine Affinitätseinheit konjugiert, wobei die Affinitätseinheit keine Nukleinsäureaffinitätseinheit ist. In manchen Ausführungsformen ist die Affinitätseinheit eine Biotineinheit. In manchen Ausführungsformen beinhalten mindestens 3 %, 5 %, 10 %, 15%, 20 %, 30 % oder 40 % der Sonden auf dem Panel kein G (Guanin). In manchen Ausführungsformen weisen mindestens 80 %, 85 %, 90 %, 92 %, 95 % oder 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf.
-
Ferner werden hierin Verfahren zum Bereitstellen von Sequenzinformationen, die über ein Vorliegen oder Nichtvorliegen von Krebs informieren, offenbart, beinhaltend die Schritte des Erhaltens einer Testprobe, die eine Vielzahl von cfDNA-Testmolekülen beinhaltet, des Bearbeitens der cfDNA-Testmoleküle, wodurch bisulfitumgewandelte Testfragmente erhalten werden, des In-Kontakt-Bringens der bisulfitumgewandelten Testfragmente mit einem Assay-Panel, wodurch ein Teilsatz der bisulfitumgewandelten Testfragmente durch Einfangen durch Hybridisierung angereichert wird, und des Sequenzierens des Teilsatzes der bisulfitumgewandelten Testfragmente, wodurch ein Satz Sequenzlesungen erhalten wird. In manchen Ausführungsformen ist das Assay-Panel aus beliebigen der oben beschriebenen Panels ausgewählt.
-
In manchen Ausführungsformen beinhalten manche Verfahren ferner den späteren Schritt des: Bestimmens einer Krebsklassifizierung durch Bewerten des Satzes Sequenzlesungen, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs, ein Krebsstadium, ein Vorliegen oder Nichtvorliegen einer Art von Krebs oder ein Vorliegen oder Nichtvorliegen von mindestens 1, 2, 3, 4 oder 5 unterschiedlichen Arten von Krebs ist.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus einer der Tabellen 1, 12, 13, 14 und 15 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs oder ein Krebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer der Tabellen 1, 12, 13, 14 und 15 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen, wobei das Assay-Panel eine Vielzahl von Polynukleotidsonden beinhaltet, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 2 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 2 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 3 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 3 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 4 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 4 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 5 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 5 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 6 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 6 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 7 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 7 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 8 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 8 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 9 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 9 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 10 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 10 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen, wobei das Assay-Panel eine Vielzahl von Polynukleotidsonden beinhaltet, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 16 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 16 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 17 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 17 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 18 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 18 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 19 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 19 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 20 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 20 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 21 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 21 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 22 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in Tabelle 22 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 23 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 23 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Assay-Panel eine Vielzahl von Polynukleotidsonden, wobei jede der Polynukleotidsonden konfiguriert ist, um an ein durch Bearbeiten von cfDNA-Molekülen erhaltenes bisulfitumgewandeltes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen sind die Polynukleotidsonden zusammen konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 24 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen wird der Schritt des Bestimmens einer Krebsklassifizierung mit dem Verfahren durchgeführt, das Folgendes beinhaltet: Erzeugen eines Testmerkmalsvektors auf der Basis des Satzes Sequenzlesungen und Anwenden des Testmerkmalsvektors auf ein Modell, das durch einen Trainingsprozess mit einem krebsbefallenen Satz Fragmente von einer oder mehreren Trainingspersonen mit Krebs und einem krebsfreien Satz Fragmente von einer oder mehreren Trainingspersonen ohne Krebs erhalten wurde, wobei sowohl der krebsbefallene Satz Fragmente als auch der krebsfreie Satz Fragmente eine Vielzahl von Trainingsfragmenten beinhalten.
-
In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und eines Trainingsmerkmalsvektors auf der Basis der hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
-
In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und eines Trainingsmerkmalsvektors auf der Basis der hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
-
In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; für jedes Trainingsfragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment; für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs und Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs. In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell.
-
In manchen Ausführungsformen beinhalten die Verfahren ferner das Erhalten einer Krebsprobabilität für die Testprobe auf der Basis des Modells und das Vergleichen der Krebsprobabilität mit einer Schwellenprobabilität, um zu bestimmen, ob die Testprobe von einer Person mit Krebs oder ohne Krebs ist. In manchen Ausführungsformen beinhalten die Verfahren ferner das Verabreichen eines Antikrebsmittels an die Person. In manchen Ausführungsformen beinhalten die Verfahren das Verabreichen eines Antikrebsmittels an eine Person, die mit den hierin offenbarten Verfahren als eine krebsbefallene Person identifiziert wurde. In manchen Ausführungsformen ist das Antikrebsmittel ein chemotherapeutisches Mittel, ausgewählt aus der Gruppe, bestehend aus Alkylierungsmitteln, Antimetaboliten, Anthrazyklinen, Antitumorantibiotika, Disruptoren des Zellskeletts (Taxanen), Topoisomerasehemmern, Mitosehemmern, Kortikosteroiden, Kinasehemmern, Nukleotidanaloga und Mitteln auf Platinbasis.
-
Ferner werden hierin Verfahren offenbart, die Folgendes beinhalten: Erhalten eines Satzes Sequenzlesungen modifizierter Testfragmente, wobei die modifizierten Testfragmente durch Bearbeiten eines Satzes Nukleinsäurefragmente von einer Testperson erhalten werden oder wurden, wobei jedes der Nukleinsäurefragmente einer Vielzahl von aus einer der Tabellen 1-24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, und Anwenden des Satzes Sequenzlesungen oder eines auf der Basis des Satzes Sequenzlesungen erhaltenen Testmerkmalsvektors auf ein Modell, das durch einen Trainingsprozess mit einem krebsbefallenen Satz Fragmente von einer oder mehreren Trainingspersonen mit Krebs und einem krebsfreien Satz Fragmente von einer oder mehreren Trainingspersonen ohne Krebs erhalten wurde, wobei sowohl der krebsbefallene Satz Fragmente als auch der krebsfreie Satz Fragmente eine Vielzahl von Trainingsfragmenten beinhalten.
-
In manchen Ausführungsformen beinhalten die Verfahren ferner den Schritt des Erhaltens des Testmerkmalsvektors, beinhaltend: für jedes der Nukleinsäurefragmente Bestimmen, ob das Nukleinsäurefragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Nukleinsäurefragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist; für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Nukleinsäurefragmente und hypermethylierter Nukleinsäurefragmente; für jedes Nukleinsäurefragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Nukleinsäurefragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Nukleinsäurefragment; Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypomethylierungspunktwertes und Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypermethylierungspunktwertes und Erzeugen des Testmerkmalsvektors auf der Basis der Rangordnung der Nukleinsäurefragmente.
-
In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und eines Trainingsmerkmalsvektors auf der Basis der hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
-
In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; für jedes Trainingsfragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment; für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs und Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs.
-
In manchen Ausführungsformen beinhalten die Verfahren für jede CpG-Stelle in einem Referenzgenom das Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, beinhaltet ferner: das Quantifizieren einer krebsbefallenen Zählung hypomethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen mit Krebs und einer krebsfreien Zählung hypomethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen ohne Krebs und das Quantifizieren einer krebsbefallenen Zählung hypermethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen mit Krebs und einer krebsfreien Zählung hypermethylierter Trainingsfragmente, die diese CpG-Stelle überlappen, von der einen oder den mehreren Trainingspersonen ohne Krebs.
-
In manchen Ausführungsformen beinhalten die Verfahren für jede CpG-Stelle in einem Referenzgenom das Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente beinhaltet ferner: zum Erzeugen der Hypomethylierungspunktzahl das Berechnen eines Hypomethylierungsverhältnisses der krebsbefallenen Zählung hypomethylierter Trainingsfragmente zu einer Hypomethylierungssumme der krebsbefallenen Zählung hypomethylierter Trainingsfragmente und der krebsfreien Zählung hypomethylierter Trainingsfragmente und zum Erzeugen der Hypermethylierungspunktzahl das Berechnen eines Hypermethylierungsverhältnisses der krebsbefallenen Zählung hypermethylierter Trainingsfragmente zu einer Hypermethylierungssumme der krebsbefallenen Zählung hypermethylierter Trainingsfragmente und der krebsfreien Zählung hypermethylierter Trainingsfragmente.
-
In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell. In manchen Ausführungsformen wird der Satz Sequenzlesungen durch Verwenden des Assay-Panels gemäß einem beliebigen der oben beschriebenen Panels erhalten.
-
Ferner werden hierin Verfahren zum Gestalten eines Assay-Panels für die Krebsdiagnose offenbart, die die folgenden Schritte beinhalten: Identifizieren einer Vielzahl von Genomregionen, wobei jede der Vielzahl von Genomregionen (i) mindestens 30 Nukleotide beinhaltet und (ii) mindestens fünf Methylierungsstellen beinhaltet, Auswählen eines Teilsatzes der Genomregionen, wobei die Auswahl getroffen wird, wenn cfDNA-Moleküle, die jeder der Genomregionen in krebsbefallenen Trainingsproben entsprechen oder davon abgeleitet sind, ein anomales Methylierungsmuster aufweisen, wobei das anomale Methylierungsmuster mindestens fünf Methylierungsstellen beinhaltet, von denen bekannt ist oder bei denen identifiziert wurde, dass sie entweder hypomethyliert oder hypermethyliert sind, und Gestalten des Assay-Panels, das eine Vielzahl von Sonden beinhaltet, wobei jede der Sonden konfiguriert ist, um an ein modifiziertes Fragment zu hybridisieren, das durch Bearbeiten von cfDNA-Molekülen erhalten wird, die einer oder mehreren des Teilsatzes der Genomregionen entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen.
-
Ferner werden hierin Ködersätze zum Einfangen durch Hybridisierung offenbart, wobei der Ködersatz mindestens 50 unterschiedliche polynukleotidhaltige Sonden beinhaltet, wobei jede der polynukleotidhaltigen Sonden eine Nukleinsäuresequenz aufweist, die entweder (1) in der Sequenz mit einer Sequenz innerhalb einer Genomregion identisch ist, die aus einer beliebigen Genomregion ausgewählt ist, die in einer beliebigen der Tabellen 1-24 aufgelisteten ist, oder (2) hinsichtlich einer Sequenz innerhalb der Genomregion nur durch eine oder mehrere Transitionen variiert, wobei jede Transition von der einen oder den mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen weist jede der polynukleotidhaltigen Sonden eine Nukleinsäuresequenz von mindestens 45 Basenpaaren Länge auf. In manchen Ausführungsformen weisen die polynukleotidhaltigen Sonden eine Nukleinsäuresequenz von nicht mehr als 200 Basenpaaren Länge auf. In manchen Ausführungsformen sind die mindestens 50 unterschiedlichen polynukleotidhaltigen Sonden in mindestens 25 Paare polynukleotidhaltiger Sonden organisiert, wobei jedes Sondenpaar eine erste Sonde und eine zweite Sonde, die sich von der ersten Sonde unterscheidet, beinhaltet, wobei die erste Sonde in der Sequenz mindestens 30 Nukleotide mit der zweiten Sonde überlappt. In manchen Ausführungsformen überlappt die erste Sonde in der Sequenz mindestens 40, 50, 75 oder 100 Nukleotide mit der zweiten Sonde.
-
In manchen Ausführungsformen sind die polynukleotidhaltigen Sonden in mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Paare polynukleotidhaltiger Sonden organisiert. In manchen Ausführungsformen sind die polynukleotidhaltigen Sonden in mindestens 1000, 2000, 2500, 5000, 6000, 7500, 10 000, 15 000, 20 000 oder 25000 Paare polynukleotidhaltiger Sonden organisiert. In manchen Ausführungsformen ist an der Transition ein Uracil oder Thymin positioniert. In manchen Ausführungsformen ist jede der polynukleotidhaltigen Sonden an eine Affinitätseinheit konjugiert, wobei die Affinitätseinheit keine Nukleinsäureaffinitätseinheit ist. In manchen Ausführungsformen beinhaltet die Affinitätseinheit Biotin. In manchen Ausführungsformen beinhaltet jede der polynukleotidhaltigen Sonden weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen. In manchen Ausführungsformen weist der Ködersatz keine Sonden auf, die in der Sequenz homolog oder komplementär zu mehr als 8, 10, 15 oder 20 Fehltreffer-Genomregionen sind.
-
In manchen Ausführungsformen weist der Ködersatz mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 polynukleotidhaltige Sonden auf. In manchen Ausführungsformen weist der Ködersatz mindestens 1000, 2000, 2500, 5000, 10000, 12000, 15000, 20000 oder 25000 polynukleotidhaltige Sonden auf. In manchen Ausführungsformen fehlt es mindestens 3 %, 5 %, 10 %, 15%, 20 %, 30 % oder 40 % aller polynukleotidhaltigen Sonden in dem Ködersatz an G (Guanin). In manchen Ausführungsformen beinhalten die polynukleotidhaltigen Sonden zusammen mindestens 0,01 Millionen, 0,02 Millionen, 0,05 Millionen, 0,2 Millionen, 0,4 Millionen, 0,6 Millionen, 0,8 Millionen, 1 Million, 2 Millionen oder 4 Millionen Nukleotide. In manchen Ausführungsformen beinhaltet jede Sonde der Vielzahl von Polynukleotidsonden mindestens 50, 75, 100 oder 120 Nukleotide. In manchen Ausführungsformen weist jede Sonde der Vielzahl von Polynukleotidsonden weniger als 300, 250, 200 oder 150 Nukleotide auf. In manchen Ausführungsformen weist jede Sonde der Vielzahl von Polynukleotidsonden von 100 bis 150 Nukleotide auf.
-
In manchen Ausführungsformen weisen mindestens 80 %, 85 %, 90 %, 92 %, 95 % oder 98 % der Vielzahl polynukleotidhaltiger Sonden an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, ausgewählt aus den Genomregionen gemäß einer beliebigen der Tabellen 1-24, wobei mindestens 30 % der Genomregionen in Exons oder Introns vorliegen. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, wobei mindestens 15 % der Genomregionen in Exons vorliegen. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, wobei mindestens 20 % der Genomregionen in Exons vorliegen. In manchen Ausführungsformen entsprechen die polynukleotidhaltigen Sonden des Ködersatzes einer Gesamtanzahl Genomregionen, wobei weniger als 10 % der Genomregionen in Zwischengenregionen vorliegen.
-
In manchen Ausführungsformen beinhalten die Ködersätze ferner eine Vielzahl virusspezifischer Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment zu hybridisieren. In manchen Ausführungsformen ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhaltet die Vielzahl virusspezifischer Sonden mindestens 50, 100, 200, 500, 1000, 2000 oder 3000 virusspezifische Sonden. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 2 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 2 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 3 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 3 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 4 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 4 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 5 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 5 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 6 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 6 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 7 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 7 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 8 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 8 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 9 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 9 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 10 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 10 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus einer beliebigen der Tabellen 2-10 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus einer beliebigen der Tabellen 2-10 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 11 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 11 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 12 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 12 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 13 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 13 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 14 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 14 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 15 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 15 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 16 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 16 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 17 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 17 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 18 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 18 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 19 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 19 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 20 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 20 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 21 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 21 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 22 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 22 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 23 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 23 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. In manchen Ausführungsformen ist jede der Vielzahl polynukleotidhaltiger Sonden entweder (1) in der Sequenz identisch mit einer Sequenz innerhalb einer aus Tabelle 24 ausgewählten Genomregion oder (2) variiert hinsichtlich einer Sequenz innerhalb einer aus Tabelle 24 ausgewählten Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen ist eine Gesamtheit von Polynukleotidsonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer aus einer beliebigen der Tabellen 1-24 ausgewählten Tabelle entsprechen. In manchen Ausführungsformen ist eine Gesamtheit polynukleotidhaltiger Sonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer beliebigen der Tabellen 2-10 oder 16-24 entsprechen. In manchen Ausführungsformen ist eine Gesamtheit polynukleotidhaltiger Sonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in einer beliebigen der Tabellen 1-24 entsprechen. In manchen Ausführungsformen ist eine Gesamtheit polynukleotidhaltiger Sonden in dem Ködersatz konfiguriert, um an Fragmente zu hybridisieren, die von cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen in einer beliebigen der Tabellen 2-10 oder 16-24 entsprechen. In manchen Ausführungsformen variiert die Nukleinsäuresequenz einer jeden der polynukleotidhaltigen Sonden hinsichtlich einer Sequenz innerhalb der Genomregion nur durch eine oder mehrere Transitionen, wobei jede Transition der einen oder der mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
Ferner werden hierin Mischungen offenbart, die bisulfitumgewandelte zellfreie DNA und den Ködersatz gemäß einem beliebigen der oben beschriebenen Ködersätze beinhalten.
-
Darüber hinaus werden hierin Verfahren zum Anreichern einer Probe bisulfitumgewandelter zellfreier DNA offenbart, beinhaltend das In-Kontakt-Bringen der Probe bisulfitumgewandelter zellfreier DNA mit dem Ködersatz gemäß einem der Ansprüche 0-0, um eine Mischung zu bilden, und das Anreichern der Probe für einen ersten Satz Genomregionen durch Einfangen durch Hybridisierung.
-
Ferner werden hierin Verfahren zum Bereitstellen von Sequenzinformationen, die über ein Vorliegen oder Nichtvorliegen eines Krebses, ein Krebsstadium oder eine Art von Krebs informieren, offenbart, beinhaltend das Bearbeiten zellfreier DNA von einer biologischen Probe mit einem Desaminierungsmittel, um eine Probe zellfreier DNA zu erzeugen, die desaminierte Nukleotide beinhaltet, und das Anreichern der Probe zellfreier DNA hinsichtlich informationshaltiger Moleküle zellfreier DNA, wobei das Anreichern der Probe zellfreier DNA hinsichtlich informationshaltiger Moleküle zellfreier DNA das In-Kontakt-Bringen der zellfreien DNA mit einer Vielzahl von Sonden beinhaltet, die konfiguriert sind, um an Moleküle zellfreier DNA zu hybridisieren, die Regionen entsprechen, die in einer beliebigen der Tabellen 1-24 identifiziert sind, und das Sequenzieren der angereicherten Moleküle zellfreier DNA, wodurch ein Satz Sequenzlesungen erhalten wird, die über ein Vorliegen oder Nichtvorliegen eines Krebses, ein Krebsstadium oder eine Art von Krebs informieren.
-
In manchen Ausführungsformen beinhaltet die Vielzahl von Sonden eine Vielzahl von Primern und beinhaltet das Anreichern der zellfreien DNA das Amplifizieren (z. B. mittels PCR) der Fragmente zellfreier DNA unter Verwendung der Primer (optional in Abwesenheit von Einfangen durch Hybridisierung). In manchen Ausführungsformen wird die Probe zellfreier DNA durch ein beliebiges geeignetes hierin beschriebenes Verfahren angereichert und beinhaltet die Vielzahl von Sonden die Vielzahl polynukleotidhaltiger Sonden.
-
In manchen Ausführungsformen beinhalten die Verfahren ferner den späteren Schritt des: Bestimmens einer Krebsklassifizierung durch Bewerten des Satzes Sequenzlesungen, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs, ein Krebsstadium, ein Vorliegen oder Nichtvorliegen einer Art von Krebs oder ein Vorliegen oder Nichtvorliegen von mindestens 1, 2, 3, 4 oder 5 unterschiedlichen Arten von Krebs ist.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus einer der Tabellen 1, 11, 12, 13, 14 oder 15 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Krebs oder ein Krebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer der Tabellen 1, 11, 12, 13, 14 oder 15 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 2 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 2 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 3 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 3 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 4 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 4 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 5 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 5 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 6 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 6 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 7 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 7 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 8 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 8 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 9 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 9 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 10 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 10 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 16 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Blutkrebs oder ein Blutkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 16 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 17 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Brustkrebs oder ein Brustkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 17 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 18 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Kolorektalkrebs oder ein Kolorektalkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 18 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 19 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Speiseröhrenkrebs oder ein Speiseröhrenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 19 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 20 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines Kopf-Hals-Karzinoms oder ein Stadium eines Kopf-Hals-Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 20 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 21 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen eines hepatobiliären Karzinoms oder ein Stadium eines hepatobiliären Karzinoms ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 21 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 22 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Lungenkrebs oder ein Lungenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 22 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 23 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Eierstockkrebs oder ein Eierstockkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 23 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an durch Bearbeiten von cfDNA-Molekülen erhaltene bisulfitumgewandelte Fragmente zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren aus Tabelle 24 ausgewählten Genomregionen entspricht oder davon abgeleitet ist, wobei die Krebsklassifizierung ein Vorliegen oder Nichtvorliegen von Bauchspeicheldrüsenkrebs oder ein Bauchspeicheldrüsenkrebsstadium ist. In manchen Ausführungsformen ist die Vielzahl von Sonden konfiguriert, um an bisulfitumgewandelte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in Tabelle 24 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet das Bestimmen einer Krebsklassifizierung das Erzeugen eines Testmerkmalsvektors auf der Basis des Satzes Sequenzlesungen und das Anwenden des Testmerkmalsvektors auf ein Modell, das durch einen Trainingsprozess mit einem krebsbefallenen Satz Fragmente von einer oder mehreren Trainingspersonen mit Krebs und einem krebsfreien Satz Fragmente von einer oder mehreren Trainingspersonen ohne Krebs erhalten wurde, wobei sowohl der krebsbefallene Satz Fragmente als auch der krebsfreie Satz Fragmente eine Vielzahl von Trainingsfragmenten beinhalten.
-
In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und hypermethylierten Trainingsfragmente und Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs.
-
In manchen Ausführungsformen beinhaltet der Trainingsprozess Folgendes: Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; für jedes Trainingsfragment Erzeugen einer aggregierten Hypomethylierungspunktzahl auf der Basis der Hypomethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment und einer aggregierten Hypermethylierungspunktzahl auf der Basis der Hypermethylierungspunktzahl der CpG-Stellen in dem Trainingsfragment; für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs und Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs.
-
In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell. In manchen Ausführungsformen beinhalten die Verfahren ferner das Erhalten einer Krebsprobabilität für die Testprobe auf der Basis des Modells und das Vergleichen der Krebsprobabilität mit einer Schwellenprobabilität, um zu bestimmen, ob die Testprobe von einer Person mit Krebs oder ohne Krebs ist. In manchen Ausführungsformen beinhalten die Verfahren ferner das Verabreichen eines Antikrebsmittels an die Person.
-
Ferner werden hierin Verfahren zum Behandeln eines Krebspatienten offenbart, die das Verabreichen eines Antikrebsmittels an eine Person beinhalten, die mit den hierin offenbarten Verfahren als eine krebsbefallene Person identifiziert wurde. In manchen Ausführungsformen ist das Antikrebsmittel ein chemotherapeutisches Mittel, ausgewählt aus der Gruppe, bestehend aus Alkylierungsmitteln, Antimetaboliten, Anthrazyklinen, Antitumorantibiotika, Disruptoren des Zellskeletts (Taxanen), Topoisomerasehemmern, Mitosehemmern, Kortikosteroiden, Kinasehemmern, Nukleotidanaloga und Mitteln auf Platinbasis.
-
Darüber hinaus werden hierin Verfahren zum Bereitstellen von Sequenzinformationen, die über ein Vorliegen oder Nichtvorliegen eines Krebses informieren, offenbart, beinhaltend das In-Kontakt-Bringen zellfreier DNA von einer biologischen Probe mit einem Desaminierungsmittel, um eine Probe zellfreier DNA zu erzeugen, die desaminierte Nukleotide beinhaltet, das Anreichern der zellfreien DNA hinsichtlich einer Vielzahl von DNA-Fragmenten, die zusammen mindestens 100, 200, 500 oder 1000 Genomregionen entsprechen, die aus in einer beliebigen der Tabellen
1-24 identifizierten Genomregionen ausgewählt sind, und das Sequenzieren der angereicherten Moleküle zellfreier DNA, wodurch ein Satz Sequenzlesungen erhalten wird.
-
In manchen Ausführungsformen involviert das Anreichern der zellfreien DNA nicht das Einfangen durch Hybridisierung. In manchen Ausführungsformen beinhaltet das Anreichern der zellfreien DNA das Amplifizieren der Vielzahl von DNA-Fragmenten. In manchen Ausführungsformen beinhaltet das Amplifizieren der Moleküle zellfreier DNA das In-Kontakt-Bringen der zellfreien DNA mit einer Vielzahl von Sätzen von Primern und das Amplifizieren der Moleküle zellfreier DNA mittels PCR, wobei jeder Primersatz einen Vorwärtsprimer und einen Rückwärtsprimer beinhaltet.
-
Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die mindestens 50 unterschiedliche Paare von Polynukleotidsonden beinhalten, wobei jedes Paar der mindestens 50 Sondenpaare (i) zwei unterschiedliche Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz von 30 oder mehr Nukleotiden zu überlappen, und (ii) konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist, wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
-
In manchen Ausführungsformen beinhaltet die Überlappungssequenz mindestens 40, 50, 75 oder 100 Nukleotide. In manchen Ausführungsformen beinhalten die hierin offenbarten Assay-Panels mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Sondenpaare.
-
Ferner werden hierin Assay-Panels zum Anreichern von cfDNA-Molekülen für die Krebsdiagnose offenbart, die mindestens 100 Polynukleotidsonden beinhalten, wobei jede der mindestens 100 Sonden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Polynukleotid zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist, wobei jede der einen oder der mehreren Genomregionen mindestens fünf Methylierungsstellen beinhaltet und in karzinomatösen Trainingsproben ein anomales Methylierungsmuster aufweist.
-
In manchen Ausführungsformen beinhaltet das Bearbeiten der cfDNA-Moleküle das Umwandeln von unmethyliertem C (Cytosin) in U (Uracil) in den cfDNA-Molekülen. In manchen Ausführungsformen ist jede der Sonden auf dem Panel an eine Biotineinheit konjugiert. In manchen Ausführungsformen sind die Trainingsproben Proben, die von einer Vielzahl von Personen stammen, bei denen bestimmt wurde, dass sie Krebs haben. In manchen Ausführungsformen weist eine Genomregion in karzinomatösen Trainingsproben ein anomales Methylierungsmuster auf, wenn ein Methylierungszustandsvektor, der die Genomregion in den karzinomatösen Trainingsproben darstellt, in Referenzproben weniger häufig vorhanden ist als ein Schwellenwert. In manchen Ausführungsformen beträgt der Schwellenwert 0,1, 0,01, 0,001 oder 0,0001.
-
In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen in den karzinomatösen Trainingsproben entweder hypermethyliert oder hypomethyliert. In manchen Ausführungsformen sind mindestens 80, 85, 90, 92, 95 oder 98 % der mindestens fünf Methylierungsstellen in den karzinomatösen Trainingsproben entweder methyliert oder unmethyliert. In manchen Ausführungsformen beinhalten mindestens 3 %, 5 %, 10 %, 15 %, 20 %, 30 % oder 40 % der Sonden auf dem Panel kein G (Guanin). In manchen Ausführungsformen weisen mindestens 80, 85, 90, 92, 95, 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen.
-
In manchen Ausführungsformen ist jede der Sonden auf dem Panel so gestaltet, dass sie Sequenzhomologie oder Sequenzkomplementarität zu weniger als 20, 15, 10 oder 8 Fehltreffer-Genomregionen aufweist. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie identifiziert. In manchen Ausführungsformen werden die weniger als 20 Fehltreffer-Genomregionen unter Verwendung einer k-mer-Beimpfungsstrategie, kombiniert mit lokaler Alinierung an Beimpfungsorten, identifiziert.
-
In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 100, 200, 300 oder 400 Sonden. In manchen Ausführungsformen beinhalten die mindestens 500 Sondenpaare oder die mindestens 100 Sonden zusammen mindestens 0,01 Millionen, 0,02 Millionen oder 0,05 Millionen Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel mindestens 50, 75, 100 oder 120 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel weniger als 300, 250, 200 oder 150 Nukleotide. In manchen Ausführungsformen beinhaltet jede der Sonden auf dem Panel 100-150 Nukleotide.
-
In manchen Ausführungsformen beinhalten die Assay-Panels ferner eine Vielzahl virusspezifischer Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment von cfDNA zu hybridisieren. In manchen Ausführungsformen ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhalten die Assay-Panels mindestens 50, 100, 200, 500, 1000, 2000 oder 3000 virusspezifische Sonden.
-
In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer oder mehreren der Genomregionen der Tabellen 2-10 oder 16-24 ausgewählt. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen aus einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind.
-
Figurenliste
-
- 1A illustriert eine 2x geschindelte Sondengestaltung gemäß einer Ausführungsform, wobei jede Base in einer Zielregion (in dem gepunkteten Rechteck eingefasst) von exakt zwei Sonden abgedeckt wird.
- 1B illustriert eine Sondengestaltung gemäß einer Ausführungsform, die auf hypomethylierte und/oder hypermethylierte Fragmente in Genomregionen abzielt.
- 2 ist ein Schema, das einen Prozess zum Erzeugen eines Krebs-Assay-Panels gemäß einer Ausführungsform beschreibt.
- 3A ist ein Flussdiagramm, das einen Prozess zum Erstellen einer Datenstruktur für eine Kontrollgruppe gemäß einer Ausführungsform beschreibt.
- 3B ist ein Flussdiagramm, das einen zusätzlichen Schritt des Validierens der Datenstruktur für die Kontrollgruppe von 3A gemäß einer Ausführungsform beschreibt.
- 4 ist ein Flussdiagramm, das einen Prozess zum Auswählen von Genomregionen zum Gestalten von Sonden für ein Krebs-Assay-Panel gemäß einer Ausführungsform beschreibt.
- 5 ist eine Illustration einer Beispielberechnung der p-Wert-Punktzahl gemäß einer Ausführungsform.
- 6A ist ein Flussdiagramm, das einen Prozess zum Trainieren eines Klassifikators auf der Basis hypomethylierter und hypermethylierter Krebs anzeigender Fragmente gemäß einer Ausführungsform beschreibt.
- 6B ist ein Flussdiagramm, das einen Prozess zum Identifizieren Krebs anzeigender Fragmente, die durch probabilistische Modelle bestimmt werden, gemäß einer Ausführungsform beschreibt.
- 7A ist ein Flussdiagramm, das einen Prozess zum Sequenzieren eines Fragments zellfreier (cf) DNA gemäß einer Ausführungsform beschreibt.
- 7B ist eine Illustration des Prozesses von 7A zum Sequenzieren eines Fragments zellfreier (cf) DNA, um einen Methylierungszustandsvektor zu erhalten, gemäß einer Ausführungsform.
- 8A ist ein Flussdiagramm von Geräten zum Sequenzieren von Nukleinsäureproben gemäß einer Ausführungsform.
- 8B stellt ein Analysesystem gemäß einer Ausführungsform bereit, das den Methylierungsstatus von cfDNA analysiert.
- 9 ist eine Grafik der Mengen an DNA-Fragmenten, die an Sonden hybridisieren in Abhängigkeit von der Größe von Überlappungen zwischen den DNA-Fragmenten und den Sonden.
- 10 vergleicht die Anzahlen Sonden hoher Qualität (hohe Q), niedriger Qualität (niedrige Q) und schlechter Qualität (schlechte Q) unter den Sonden, die auf hypermethylierte Fragmente (Hyper) bzw. hypomethylierte Fragmente (Hypo) abzielen.
- 11A, 11B und 11C umfassen Grafiken, die das Krebs-log-Quotenverhältnis zeigen, das für verschiedene Krebsarten über unterschiedliche Stadien und Arten von Krebs hinweg bestimmt wurde.
- 12 fasst die Häufigkeiten von Genomannotationen anvisierter Genomregionen (schwarz) und zufällig ausgewählter Regionen (grau) zusammen.
- 13A und 13B zeigen drei Grafiken von Daten, die die Konsistenz der Sequenzierung von einer Kontrollgruppe validieren.
- 14A zeigt die Empfindlichkeit eines Krebsklassifikators, der auf drei unterschiedliche Quellen von Daten - Mscore.testV1, Mscore.testV1.cv und Mscore.testV1.cv.panel - angewandt wurde, bei 95 % Spezifität.
- 14B zeigt ROC-Kurven (Receiver-Operator Characteristic) für die Leistungsanalyse des Krebsklassifikators an den drei unterschiedlichen Datensätzen.
-
Die folgenden in den Figuren verwendeten Referenzzeichen haben folgende Bedeutung:
1 | methyliert |
2 | unmethyliert |
3 | binäre Ziele (ziehen beide Arten herab) |
4 | semi-binäre Ziele (ziehen eine Art Fragment herab) |
210 | Merkmale |
211 | Fragmentzählungen |
212 | WGBS |
213 | Intensität |
214 | TCGA |
215 | Genom |
216 | CpGs |
220 | Bezug cfDNA |
221 | WGBS-Verfahren 1 - vereintes Modell unter Merkmalserzeugung |
222 | WGBS-Verfahren 2 - Begrenzung auf rauscharme Regionen + krebsfreie Klasse |
223 | TCGA-Verfahren - Begrenzung auf rauscharme Regionen |
230 | Regionenauswahl |
231 | allen paarweisen Kombinationen |
232 | eine gegenüber allen |
233 | Priorisierung von Regionen zur Sondergestaltung unter |
235 | Dickdarm |
236 | Brust |
501 | Berechnen des p-Wertes mit dem Markow-Kettenmodell |
502 | <M23, M24, M25, U26> |
503 | <M23, M24, M25, M26> |
504 | <U23, U24, U25, U26> |
505 | Testmethylierungszustandsvektor |
515 | Probabilitäten möglicher Methylierungszustandsvektoren |
525 | p-Wert des Testmethylierungszustandsvektor |
701 | Anfang |
701 | Ende |
801 | Sequenzlesungen |
-
Die Figuren bilden verschiedene Ausführungsformen der vorliegenden Beschreibung nur zu Zwecken der Illustration ab. Ein Fachmann wird aus der folgenden Erörterung ohne Weiteres erkennen, dass alternative Ausführungsformen der hierin illustrierten Strukturen und Verfahren eingesetzt werden können, ohne von den Prinzipien der hierin beschriebenen Beschreibung abzuweichen.
-
DETAILLIERTE BESCHREIBUNG
-
Definitionen
-
Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die Bedeutung, die üblicherweise von einem Fachmann auf dem Gebiet, zu dem diese Beschreibung gehört, verstanden wird. Wie hierin verwendet, haben die folgenden Begriffe die ihnen nachstehend zugeschriebene Bedeutung.
-
Der Begriff „Methylierung“, wie hierin verwendet, bezeichnet einen Prozess, durch den eine Methylgruppe zu einem DNA-Molekül hinzugefügt wird. Zwei der vier Basen von DNA, Cytosin („C“) und Adenin („A“), können methyliert werden. Zum Beispiel kann ein Wasserstoffatom an dem Pyrimidinring einer Cytosinbase in eine Methylgruppe umgewandelt werden, wodurch 5-Methylcytosin gebildet wird. Methylierung tritt tendenziell an Dinukleotidem von Cytosin und Guanin auf, die hierin als „CpG-Stellen“ bezeichnet werden. In anderen Fällen kann Methylierung an einem Cytosin auftreten, das nicht Teil einer CpG-Stelle ist, oder an einem anderen Nukleotid, das nicht Cytosin ist; diese Vorkommnisse sind jedoch seltener. In dieser vorliegenden Offenbarung wird Methylierung der Klarheit halber in Bezug auf CpG-Stellen erörtert. Die hierin beschriebenen Prinzipien sind jedoch gleichermaßen anwendbar für den Nachweis von Methylierung in einem Nicht-CpG-Kontext, umfassend Methylierung von Nicht-Cytosin. Zum Beispiel wurde bei Bakterien-, Pflanzen- und Säugetier-DNA Adenin-Methylierung festgestellt, obgleich dem beträchtlich weniger Beachtung geschenkt wurde.
-
In solchen Ausführungsformen kann der zum Nachweisen von Methylierung verwendete Nasslaborassay von den hierin beschriebenen variieren, wie nach dem Stand der Technik allgemein bekannt ist. Ferner können die Methylierungszustandsvektoren Elemente enthalten, die im Allgemeinen Vektoren von Stellen sind, an denen Methylierung nicht aufgetreten ist (selbst wenn diese Stellen nicht spezifisch CpG-Stellen sind). Mit dieser Substituierung sind die übrigen hierin beschriebenen Prozesse gleich und folglich sind die hierin beschriebenen erfinderischen Konzepte auf diese anderen Formen der Methylierung anwendbar.
-
Der Begriff „Methylierungsstelle“, wie hierin verwendet, bezeichnet eine Stelle in einem DNA-Molekül, an der eine Methylgruppe hinzugefügt werden kann. „CpG“-Stellen sind die üblichsten Methylierungsstellen, aber Methylierungsstellen sind nicht auf CpG-Stellen beschränkt.
-
Zum Beispiel kann DNA-Methylierung an Cytosinen in CHG und CHH auftreten, wobei H Adenin, Cytosin oder Thymin ist. Cytosinmethylierung in Form von 5-Hydroxymethylcytosin (siehe z.B.
WO 2010/037001 und
WO 2011/127136 , die durch Bezugnahme hierin eingebunden sind) und Merkmale davon können unter Verwendung der hierin offenbarten Verfahren und Prozeduren ebenfalls beurteilt werden.
-
Der Begriff „CpG-Stelle“, wie hierin verwendet, bezeichnet eine Region in einem DNA-Molekül, wo in der linearen Basensequenz entlang der 5'-3'-Richtung auf ein Cytosinnukleotid ein Guaninnukleotid folgt. „CpG“ ist eine Abkürzung für 5'-C-Phosphat-G-3', das heißt Cytosin und Guanin, nur durch eine einzelne Phosphatgruppe getrennt; Phosphat verknüpft in DNA zwei beliebige Nukleotide miteinander. Cytosine in CpG-Dinukleotiden können methyliert werden, sodass sie 5-Methylcytosin bilden.
-
Der Begriff „CpG-Nachweisstelle“, wie hierin verwendet, bezeichnet eine Region in einer Sonde, die konfiguriert ist, um an eine CpG-Stelle eines Ziel-DNA-Moleküls zu hybridisieren. Die CpG-Stelle in dem Ziel-DNA-Molekül kann Cytosin und Guanin, getrennt durch eine einzelne Phosphatgruppe, beinhalten, wobei Cytosin methyliert oder unmethyliert ist. Die CpG-Stelle in dem Ziel-DNA-Molekül kann Uracil und Guanin, getrennt durch eine einzelne Phosphatgruppe, beinhalten, wobei das Uracil durch die Umwandlung von unmethyliertem Cytosin erzeugt ist.
-
Der Begriff „UpG“ ist eine Abkürzung für 5'-U-Phosphat-G-3', das heißt Uracil und Guanin, getrennt durch eine einzelne Phosphatgruppe. UpG kann durch eine Bisulfitbehandlung einer DNA erzeugt werden, die unmethylierte Cytosine in Uracile umwandelt. Cytosine können durch andere nach dem Stand der Technik bekannte Verfahren, wie chemische Modifikation oder Synthese, in Uracile umgewandelt werden.
-
Die Begriffe „hypomethyliert“ oder „hypermethyliert“, wie hierin verwendet, bezeichnen einen Methylierungsstatus eines DNA-Moleküls, das mehrere CpG-Stellen (z. B. mehr als 3, 4, 5, 6, 7, 8, 9, 10 usw.) enthält, wobei ein hoher Prozentsatz der CpG-Stellen (z. B. mehr als 80 %, 85 %, 90 % oder 95 % oder ein beliebiger anderer Prozentsatz innerhalb des Bereichs 50 %-100 %) unmethyliert bzw. methyliert ist.
-
Die Begriffe „Methylierungszustandsvektor“ oder „Methylierungsstatusvektor“, wie hierin verwendet, bezeichnen einen Vektor, der mehrere Elemente enthält, wobei jedes Element den Methylierungsstatus einer Methylierungsstelle in einem DNA-Molekül, das mehrere Methylierungsstellen beinhaltet, in der Reihenfolge anzeigt, in der sie von 5' nach 3' in dem DNA-Molekül vorkommen. Zum Beispiel können < Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 > ... < Ux, Ux+1, Ux+2 > Methylierungsvektoren für DNA-Moleküle sein, die drei Methylierungsstellen beinhalten, wobei M eine methylierte Methylierungsstelle darstellt und U eine unmethylierte Methylierungsstelle darstellt.
-
Der Begriff „abnormales Methylierungsmuster“ oder „anomales Methylierungsmuster“, wie hierin verwendet, bezeichnet einen Methylierungszustandsvektor oder einen Methylierungsstatus eines DNA-Moleküls, das den Methylierungszustandsvektor aufweist, von dem erwartet wird, dass er in einer Probe weniger häufig zu finden ist als ein Schwellenwert. In einer besonderen hierin bereitgestellten Ausführungsform wird der Erwartungsgrad dafür, einen spezifischen Methylierungszustandsvektor in einer gesunden Kontrollgruppe, die gesunde Individuen beinhaltet, zu finden, von einem p-Wert dargestellt. Eine niedrige p-Wert-Punktzahl entspricht dabei im Allgemeinen einem Methylierungszustandsvektor, der im Vergleich mit anderen Methylierungszustandsvektoren innerhalb von Proben von gesunden Individuen in der gesunden Kontrollgruppe relativ unerwartet ist. Eine hohe p-Wert-Punktzahl entspricht im Allgemeinen einem Methylierungszustandsvektor, der im Vergleich mit anderen Methylierungszustandsvektoren, die in Proben von gesunden Individuen in der gesunden Kontrollgruppe zu finden sind, relativ eher erwartet wird. Ein Methylierungszustandsvektor mit einem p-Wert niedriger als ein Schwellenwert (z. B. 0,1, 0,01, 0,001, 0,0001 usw.) kann als ein abnormales Methylierungsmuster definiert werden. Verschiedene nach dem Stand der Technik bekannte Verfahren können verwendet werden, um einen p-Wert oder Erwartungsgrad eines Methylierungsmusters oder eines Methylierungszustandsvektors zu berechnen. Hierin bereitgestellte Beispielverfahren involvieren die Verwendung einer Markow-Kettenprobabilität, die annimmt, dass Methylierungsstatus von CpG-Stellen von Methylierungsstatus benachbarter CpG-Stellen abhängig sind. Hierin bereitgestellte Alternativverfahren berechnen den Erwartungsgrad für das Feststellen eines spezifischen Methylierungszustandsvektors in gesunden Individuen durch Nutzung eines Mischverteilungsmodells, das mehrere Mischungskomponenten umfasst, wobei jedes ein Modell unabhängiger Stellen ist, wobei angenommen wird, dass Methylierung an jeder CpG-Stelle von den Methylierungsstatus an anderen CpG-Stellen unabhängig ist.
-
Hierin bereitgestellte Verfahren verwenden Genomregionen, die ein anomales Methylierungsmuster aufweisen. Es kann bestimmt werden, dass eine Genomregion ein anomales Methylierungsmuster aufweist, wenn cfDNA-Fragmente, die der Genomregion entsprechen oder davon stammen, Methylierungszustandsvektoren aufweisen, die weniger häufig vorkommen als ein Schwellenwert in Referenzproben. Die Referenzproben können Proben von Kontrollpersonen oder gesunden Personen sein. Die Häufigkeit, mit der ein Methylierungszustandsvektor in den Referenzproben vorkommt, kann als eine p-Wert-Punktzahl dargestellt werden. Wenn cfDNA-Fragmente, die der Genomregion entsprechen oder davon stammen, keinen einzelnen, gleichförmigen Methylierungszustandsvektor aufweisen, kann die Genomregion mehrere p-Wert-Punktzahlen für mehrere Methylierungszustandsvektoren aufweisen. In diesem Fall können die mehreren p-Wert-Punktzahlen addiert oder gemittelt werden, bevor sie mit dem Schwellenwert verglichen werden. Verschiedene nach dem Stand der Technik bekannte Verfahren können herangezogen werden, um p-Wert-Punktzahlen zu vergleichen, die der Genomregion und dem Schwellenwert entsprechen, einschließlich, aber nicht beschränkt auf, arithmetisches Mittel, geometrisches Mittel, harmonisches Mittel, Median, Modus usw.
-
Der Begriff „karzinomatöse Probe“, wie hierin verwendet, bezeichnet eine Probe, die genomische DNAs von einem Individuum beinhaltet, bei dem Krebs diagnostiziert wurde. Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs von einer Person mit Krebs sein, sind aber nicht darauf beschränkt. Mit nach dem Stand der Technik bekannten Verfahren, zum Beispiel Bisulfitsequenzierung, können die genomischen DNAs sequenziert werden und kann ihr Methylierungsstatus beurteilt werden. Wenn Genomsequenzen von einer öffentlichen Datenbank (z. B. The Cancer Genome Atlas (TCGA)) erhalten werden oder experimentell durch Sequenzieren eines Genoms von einem Individuum, bei dem Krebs diagnostiziert wurde, erhalten werden, kann „karzinomatöse Probe“ genomische DNAs oder cfDNA-Fragmente mit den Genomsequenzen bezeichnen. Der Begriff „karzinomatöse Proben“ als ein Plural bezeichnet Proben, die genomische DNAs von mehreren Individuen beinhalten, wobei bei jedem Individuum Krebs diagnostiziert wurde. In verschiedenen Ausführungsformen werden karzinomatöse Proben von mehr als 100, 300, 500, 1000, 10000, 20000, 40000, 50 000 oder mehr Individuen, bei denen Krebs diagnostiziert wurde, verwendet.
-
Der Begriff „nicht karzinomatöse Probe“, wie hierin verwendet, bezeichnet eine Probe, die genomische DNAs von einem Individuum beinhaltet, bei dem kein Krebs diagnostiziert wurde. Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs von einer Person ohne Krebs sein, sind aber nicht darauf beschränkt. Mit nach dem Stand der Technik bekannten Verfahren, zum Beispiel Bisulfitsequenzierung, können die genomischen DNAs sequenziert werden und kann ihr Methylierungsstatus beurteilt werden. Wenn Genomsequenzen von einer öffentlichen Datenbank (z. B. The Cancer Genome Atlas (TCGA)) erhalten werden oder experimentell durch Sequenzieren eines Genoms von einem Individuum ohne Krebs erhalten werden, kann „nicht karzinomatöse Probe“ genomische DNAs oder cfDNA-Fragmente mit den Genomsequenzen bezeichnen. Der Begriff „nicht karzinomatöse Proben“ als ein Plural bezeichnet Proben, die genomische DNAs von mehreren Individuen beinhalten, wobei bei jedem Individuum kein Krebs diagnostiziert wurde. In verschiedenen Ausführungsformen werden karzinomatöse Proben von mehr als 100, 300, 500, 1000, 10000, 20000, 40000, 50 000 oder mehr Individuen ohne Krebs verwendet.
-
Der Begriff „Trainingsprobe“, wie hierin verwendet, bezeichnet eine Probe, die verwendet wird, um einen hierin beschriebenen Klassifikator zu trainieren und/oder um eine oder mehrere Genomregionen für die Krebsdiagnose auszuwählen. Die Trainingsproben können genomische DNAs oder eine Modifikation davon von einer oder mehreren gesunden Personen und von einer oder mehreren Personen mit einer Erkrankung zur Diagnose beinhalten (z. B. Krebs, einer spezifischen Art von Krebs, einem spezifischen Krebsstadium usw.). Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs sein, sind aber nicht darauf beschränkt. Mit nach dem Stand der Technik bekannten Verfahren, zum Beispiel Bisulfitsequenzierung, können die genomischen DNAs sequenziert werden und kann ihr Methylierungsstatus beurteilt werden. Wenn Genomsequenzen von einer öffentlichen Datenbank (z. B. The Cancer Genome Atlas (TCGA)) erhalten werden oder experimentell durch Sequenzieren eines Genoms von einem Individuum erhalten werden, kann eine Trainingsprobe genomische DNAs oder cfDNA-Fragmente mit den Genomsequenzen bezeichnen.
-
Der Begriff „Testprobe“, wie hierin verwendet, bezeichnet eine Probe von einer Person, deren Gesundheitszustand unter Verwendung eines hierin beschriebenen Klassifikators und/oder eines hierin beschriebenen Assay-Panels getestet wurde, getestet worden ist oder getestet werden wird. Die Testprobe kann genomische DNAs oder eine Modifikation davon beinhalten. Die genomischen DNAs können cfDNA-Fragmente oder chromosomale DNAs sein, sind aber nicht darauf beschränkt.
-
Der Begriff „Zielgenomregion“, wie hierin verwendet, bezeichnet eine Region in einem Genom, die zum Gestalten einer Sonde, die in ein Assay-Panel aufgenommen werden soll, ausgewählt ist. Die Sonde kann gestaltet sein, um an ein Nukleinsäurefragment zu hybridisieren (und es optional herabzuziehen), das der Zielgenomregion oder einem Fragment davon entspricht oder davon abgeleitet ist. Ein Nukleinsäurefragment, das der Zielgenomregion entspricht oder davon abgeleitet ist, bezeichnet ein durch Abbau, Spaltung oder andere biologische Bearbeitung der Zielgenomregion erzeugtes Nukleinsäurefragment oder ein Nukleinsäurefragment mit einer Sequenz, die zur Zielgenomregion homolog oder komplementär ist.
-
Der Begriff „Fehltreffer-Genomregion“, wie hierin verwendet, bezeichnet eine Region in einem Genom, die nicht zum Gestalten einer Sonde, die in ein Assay-Panel aufgenommen werden soll, ausgewählt ist, aber ausreichend Homologie zu einer Zielgenomregion aufweist, um von einer Sonde, die gestaltet ist, um auf die Zielgenomregion abzuzielen, gebunden und herabgezogen zu werden. In einer Ausführungsform ist die Fehltreffer-Genomregion eine Genomregion, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit einer Sonde aliniert.
-
Die Begriffe „zellfreie Nukleinsäure“, „zellfreie DNA“ oder „cfDNA“ bezeichnen Nukleinsäurefragmente, die im Körper eines Individuums (z. B. im Blutstrom) zirkulieren und von einer oder mehreren gesunden Zellen und/oder von einer oder mehreren Krebszellen stammen. Außerdem kann cfDNA von anderen Quellen, wie Viren, Föten usw., herrühren.
-
Die Begriffe „umgewandelte DNA-Moleküle“, „umgewandelte cfDNA-Moleküle“ oder „durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment“ bezeichnen DNA-Moleküle, die durch Bearbeiten von DNA- oder cfDNA-Molekülen in der Probe in einer chemischen Reaktion zum Zweck des Differenzierens eines methylierten Nukleotids und eines unmethylierten Nukleotids in den DNA- oder cfDNA-Molekülen erhalten werden. Zum Beispiel kann die Probe in einer Ausführungsform mit Bisulfition behandelt werden (z. B. unter Verwendung von Natriumbisulfit), wie nach dem Stand der Technik allgemein bekannt ist, um unmethylierte Cytosine („C“) in Uracile („U“) umzuwandeln. In einer weiteren Ausführungsform wird die Umwandlung unmethylierter Cytosine in Uracile unter Verwendung einer enzymatischen Umwandlungsreaktion, zum Beispiel unter Verwendung einer Cytidindesaminase (wie APOBEC), bewerkstelligt. Nach der Behandlung umfassen umgewandelte DNA-Moleküle oder cfDNA-Moleküle zusätzliche Uracile, die in der ursprünglichen cfDNA-Probe nicht vorhanden waren.
-
Der Begriff „zirkulierende Tumor-DNA“ oder „ctDNA“ bezeichnet Nukleinsäurefragmente, die von Tumorzellen oder anderen Zellarten stammen, die als Resultat biologischer Prozesse, wie Apoptose oder Nekrose absterbender Zellen, in den Blutstrom eines Individuums freigesetzt werden können oder von lebensfähigen Tumorzellen aktiv freigesetzt werden können.
-
Der Begriff „Individuum“ bezeichnet ein menschliches Individuum. Der Begriff „gesundes Individuum“ bezeichnet ein Individuum, bei dem davon ausgegangen wird, dass es keinen Krebs und keine Krankheit hat.
-
Der Begriff „Person“ bezeichnet ein Individuum, dessen DNA analysiert wird. Eine Person kann eine Testperson sein, deren DNA unter Verwendung eines gezielten Panels wie hierin beschrieben bewertet wird, um zu bewerten, ob der Mensch Krebs oder eine andere Krankheit hat. Eine Person kann auch Teil einer Kontrollgruppe sein, die bekanntermaßen keinen Krebs und keine andere Krankheit aufweist. Eine Person kann auch Teil einer von Krebs oder einer anderen Krankheit befallenen Gruppe sein, die bekanntermaßen Krebs oder eine andere Krankheit aufweist. Kontroll- und krebs-/krankheitsbefallene Gruppen können verwendet werden, um beim Gestalten oder Validieren des gezielten Panels zu helfen.
-
Der Begriff „Sequenzlesungen“, wie hierin verwendet, bezeichnet von einer Probe gelesene Nukleotidsequenzen. Sequenzlesungen können durch verschiedene hierin bereitgestellte oder nach dem Stand der Technik bekannte Verfahren erhalten werden.
-
Der Begriff „Sequenzierungstiefe“, wie hierin verwendet, bezeichnet die Zählung der Anzahl Male, die eine gegebene Zielnukleinsäure in einer Probe sequenziert wurde (z. B. die Zählung von Sequenzlesungen in einer gegebenen Zielregion). Erhöhen der Sequenzierungstiefe kann die erforderlichen Mengen des Zielnukleinsäurebedarfs zum Beurteilen eines Krankheitszustands (z. B. Krebs oder Krebsursprungsgewebe) reduzieren.
-
Der Begriff „Ursprungsgewebe“ oder „UG“, wie hierin verwendet, bezeichnet das Organ, die Organgruppe, die Körperregion oder die Zellart in dem/der Krebs entsteht oder seinen Ursprung hat. Die Identifizierung eines Ursprungsgewebes oder einer Krebszellart gestattet typischerweise die Identifizierung der angemessensten nächsten Schritte im Versorgungskontinuum bei Krebs zur weiteren Diagnose, Stadiumsbestimmung und Behandlungsentscheidung.
-
„Eine Gesamtheit von Sonden“ eines Panels oder Ködersatzes oder „eine Gesamtheit polynukleotidhaltiger Sonden“ eines Panels oder Ködersatzes bezeichnet im Allgemeinen alle mit einem spezifizierten Panel oder Ködersatz gelieferten Sonden. Zum Beispiel kann ein Panel oder Ködersatz in manchen Ausführungsformen sowohl (1) Sonden mit hierin spezifizierten Merkmalen (z. B. Sonden zum Binden an Fragmente zellfreier DNA, die Genomregionen, die hierin in einer oder mehreren Tabellen aufgeführt sind, entsprechen oder davon abgeleitet sind) als auch (2) zusätzliche Sonden, die kein solches (keine solchen) Merkmal(e) enthalten, umfassen. Die Gesamtheit von Sonden eines Panels bezeichnet im Allgemeinen alle mit dem Panel oder Ködersatz gelieferten Sonden, einschließlich solcher Sonden, die das spezifizierte Merkmal (die spezifizierten Merkmale) nicht enthalten.
-
Sonstige interpretatorische Konventionen
-
Es versteht sich, dass hierin wiedergegebene Bereiche eine Abkürzung für alle Werte innerhalb des Bereichs, einschließlich der wiedergegebenen Endpunkte, sind. Zum Beispiel versteht sich ein Bereich von 1 bis 50 so, dass er eine beliebige Zahl, Kombination von Zahlen oder einen beliebigen Unterbereich von der Gruppe, bestehend aus 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 und 50, umfasst.
-
Krebs-Assay-Panel
-
In einem ersten Aspekt stellt die vorliegende Beschreibung ein Krebs-Assay-Panel (z. B. einen Ködersatz) bereit, das eine Vielzahl von Sonden oder eine Vielzahl von Sondenpaaren beinhaltet. Die Sonden können polynukleotidhaltige Sonden sein, die spezifisch gestaltet sind, um auf ein oder mehrere NukleinsäureMoleküle abzuzielen, die Genomregionen entsprechen oder davon abgeleitet sind, die zwischen krebsbefallenen und krebsfreien Proben, zwischen unterschiedlichen Krebsursprungsgewebearten, zwischen unterschiedlichen Krebszellarten oder zwischen Proben unterschiedlicher Krebsstadien differenziell methyliert sind, wie durch hierin bereitgestellte Verfahren identifiziert. In manchen Ausführungsformen zielen Sonden auf Genomregionen (oder davon abgeleitete Nukleinsäuremoleküle) ab, die für eine Krebsart, z.B. (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliäres Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs oder (9) Bauchspeicheldrüsenkrebs, spezifische Methylierungsmuster aufweisen. In manchen Ausführungsformen umfasst das Panel Sonden, die auf Genomregionen abzielen, die für eine einzelne Krebsart spezifisch sind. In manchen Ausführungsformen umfasst das Panel für 2, 3, 4, 5, 6, 7, 8 oder 9 oder mehr Krebsarten spezifische Sonden. In manchen Ausführungsformen sind die Zielgenomregionen ausgewählt, um die Klassifizierungsgenauigkeit zu maximieren, vorbehaltlich einer Größenbeschränkung (die durch ein Sequenzierungsbudget und eine gewünschte Tiefe der Sequenzierung bestimmt werden kann).
-
Gestaltungsmerkmale und potenzieller Nutzen eines beispielhaften Krebs-Assay-Panels sind in 2 gezeigt. Zum Gestalten des Krebs-Assay-Panels kann ein Analysesystem Proben sammeln, die verschiedenen betrachteten Ergebnissen entsprechen, z. B. Proben, die bekanntermaßen Krebs aufweisen, Proben, die als gesund betrachtet werden, Proben von einem bekannten Ursprungsgewebe usw. Diese Proben können mit Bisulfit-Ganzgenomsequenzierung (WGBS) bearbeitet oder von einer öffentlichen Datenbank (z. B. TCGA) erhalten werden. Das Analysesystem kann ein beliebiges allgemeines Rechensystem mit einem Computerprozessor und einem computerlesbaren Speichermedium mit Anweisungen zum Ausführen des Computerprozessors, um eine beliebige oder alle in dieser vorliegenden Offenbarung beschriebenen Operationen auszuführen, sein. Mit den Proben bestimmt das Analysesystem für jedes Nukleinsäurefragment in der Probe den Methylierungsstatus an einer oder mehreren CpG-Stellen. Das Analysesystem kann dann auf der Basis von Methylierungsmustern von Nukleinsäurefragmenten Zielgenomregionen auswählen. Ein Ansatz betrachtet die paarweise Unterscheidbarkeit zwischen Paaren von Ergebnissen für Regionen oder spezifischer eine oder mehrere CpG-Stellen. Ein weiterer Ansatz betrachtet die Unterscheidbarkeit für Regionen oder spezifischer eine oder mehrere CpG-Stellen, wenn jedes Ergebnis gegenüber den übrigen Ergebnissen betrachtet wird. Von den ausgewählten Zielgenomregionen mit hoher Unterscheidbarkeitskraft kann das Analysesystem Sonden gestalten, um auf Nukleinsäurefragmente abzuzielen, die die ausgewählten Genomregionen umfassen. Das Analysesystem kann variable Größen des Krebs-Assay-Panels erzeugen, wobei z. B. ein kleines Krebs-Assay-Panel Sonden umfasst, die auf die Genomregion mit dem größten Informationsgehalt abzielen, ein mittelgroßes Krebs-Assay-Panel Sonden von dem kleinen Krebs-Assay-Panel und zusätzlich Sonden, die auf eine zweite Schicht informationshaltiger Genomregionen abzielen, umfasst und ein großes Krebs-Assay-Panel Sonden von dem kleinen und dem mittelgroßen Krebs-Assay-Panel und noch mehr Sonden, die auf eine dritte Schicht informationshaltiger Genomregionen abzielen, umfasst. Mit solchen Krebs-Assay-Panels kann das Analysesystem Klassifikatoren mit verschiedenen Klassifikationstechniken trainieren, um die Wahrscheinlichkeit vorherzusagen, mit der eine Probe ein besonderes Ergebnis, z. B. Krebs, eine spezifische Krebsart, eine andere Störung usw., aufweist.
-
Spezifisch beinhaltet das Krebs-Assay-Panel in manchen Ausführungsformen mindestens 50 Sondenpaare, wobei jedes Paar der mindestens 50 Paare zwei Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz zu überlappen, wobei die Überlappungssequenz eine Sequenz von 30 Nukleotiden beinhaltet und wobei die Sequenz von 30 Nukleotiden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle, die einer oder mehreren Genomregionen entsprechen, erhaltenes modifiziertes Fragment zu hybridisieren, wobei jede der Genomregionen mindestens fünf Methylierungsstellen beinhaltet und wobei die mindestens fünf Methylierungsstellen in Trainingsproben ein anomales Methylierungsmuster aufweisen. Mit anderen Worten, wenn cfDNA-Moleküle in Trainingsproben, die der Genomregion entsprechen, analysiert werden, weisen sie Methylierungsstatusvektoren auf, die weniger häufig vorkommen als ein Schwellenwert in Referenzproben.
-
In weiteren Ausführungsformen beinhaltet das Krebs-Assay-Panel mindestens 500 Sondenpaare, wobei jedes Paar der mindestens 500 Paare zwei Sonden beinhaltet, die konfiguriert sind, um einander mit einer Überlappungssequenz zu überlappen, wobei die Überlappungssequenz eine Sequenz von 30 Nukleotiden beinhaltet und wobei die Sequenz von 30 Nukleotiden konfiguriert ist, um an ein durch Bearbeiten der cfDNA-Moleküle, die einer oder mehreren Genomregionen entsprechen, erhaltenes modifiziertes Fragment zu hybridisieren, wobei jede der Genomregionen mindestens fünf Methylierungsstellen beinhaltet und wobei die mindestens fünf Methylierungsstellen in Trainingsproben ein anomales Methylierungsmuster aufweisen. Wenn cfDNA-Moleküle in Trainingsproben, die der Genomregion entsprechen, analysiert werden, weisen sie wiederum Methylierungsstatusvektoren auf, die weniger häufig vorkommen als ein Schwellenwert in Referenzproben.
-
In einer bevorzugten Ausführungsform sind die mindestens fünf Methylierungsstellen entweder zwischen karzinomatösen und nicht karzinomatösen Proben oder zwischen einem oder mehreren Paaren von Proben von unterschiedlichen Krebsarten differenziell methyliert. In manchen Ausführungsformen beinhalten die umgewandelten cfDNA-Moleküle cfDNA-Moleküle, die behandelt sind (z. B. durch Bisulfitbehandlung), um unmethyliertes C (Cytosin) in U (Uracil) umzuwandeln. In manchen Fällen wird das Uracil weiter zu Thymin umgewandelt (z. B. bei PCR-Amplifikation).
-
Da die Sonden konfiguriert sind, um an ein umgewandeltes DNA- oder cfDNA-Molekül, das einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist, zu hybridisieren, können die Sonden eine Sequenz aufweisen, die sich von der anvisierten Genomregion unterscheidet. Zum Beispiel wird ein DNA-Molekül, das eine unmethylierte CpG-Stelle enthält, umgewandelt, sodass es UpG umfasst, weil unmethylierte Cytosine durch eine Umwandlungsreaktion (z. B. Bisulfitbehandlung) in Uracile umgewandelt werden. Als ein Resultat wird eine Sonde konfiguriert, um an eine Sequenz zu hybridisieren, die UpG anstelle eines natürlich existierenden unmethylierten CpG umfasst. Demgemäß kann eine zu der unmethylierten Stelle komplementäre Stelle in der Sonde CpA anstelle von CpG beinhalten und können manche Sonden, die auf eine hypomethylierte Stelle abzielen, bei der alle Methylierungsstellen unmethyliert sind, keine Guaninbasen (G) aufweisen. In manchen Ausführungsformen fehlt es mindestens 3 %, 5 %, 10 %, 15%, 20 %, 30 % oder 40 % der Sonden an G (Guanin). In manchen Ausführungsformen weisen mindestens 80, 85, 90, 92, 95, 98 % der Sonden auf dem Panel an CpG-Nachweisstellen ausschließlich entweder CpG oder CpA auf. Demgemäß weisen in manchen Ausführungsformen polynukleotidhaltige Sonden eine Nukleinsäuresequenz auf, die entweder (1) in der Sequenz mit einer Sequenz innerhalb einer Zielgenomregion (z. B. hierin in den Tabellen 1-24 aufgeführten Zielgenomregionen) identisch ist oder (2) hinsichtlich einer Sequenz innerhalb der Genomregion nur durch eine oder mehrere Transitionen (z. B. Änderungen der Basenzusammensetzung an einer Stelle aufgrund von Bisulfitumwandlung oder anderen Umwandlungstechniken) variiert, wobei jede Transition von der einen oder den mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht.
-
In manchen Ausführungsformen beinhalten Sonden auf dem Panel weniger als 20, 15, 10, 8 oder 6 CpG-Nachweisstellen. In manchen Ausführungsformen beinhalten Sonden auf dem Panel mehr als 5, 6, 7, 8, 9 oder 10 CpG-Nachweisstellen.
-
In manchen Ausführungsformen sind Sonden an eine Markierung (z. B. eine Nicht-Nukleinsäureaffinitätseinheit), wie eine Biotineinheit, konjugiert.
-
Das Krebs-Assay-Panel kann verwendet werden, um das Vorliegen oder Nichtvorliegen von Krebs im Allgemeinen nachzuweisen und/oder eine Krebsklassifizierung wie Krebsart oder Krebsstadium, wie I, II, III oder IV, oder wo der Krebs vermutlich seinen Ursprung hat, bereitzustellen. Das Panel kann Sonden umfassen, die auf Nukleinsäuren abzielen, die von Genomregionen abgeleitet sind, die zwischen allgemein karzinomatösen (pan-krebsbefallenen) Proben und nicht karzinomatösen Proben oder nur in karzinomatösen Proben mit einer spezifischen Krebsart (z. B. lungenkrebsspezifischen Zielen) differenziell methyliert sind. Zum Beispiel ist in manchen Ausführungsformen ein Krebs-Assay-Panel gestaltet, um von differenziell methylierten Genomregionen in karzinomatösen Proben abgeleitete Nukleinsäuren anzureichern, die auf der Basis von Bisulfitsequenzierungsdaten identifiziert wurden, die von der cfDNA von krebsbefallenen und krebsfreien Individuen erzeugt wurden.
-
Jede der Sonden (oder jedes der Sondenpaare) kann gestaltet sein, um auf von einer oder mehreren Zielgenomregionen abgeleitete Nukleinsäuren abzuzielen. Die Zielgenomregionen werden auf der Basis einiger Kriterien ausgewählt, die gestaltet sind, um die selektive Anreicherung informationshaltiger cfDNA-Fragmente zu erhöhen, während Rauschen und nicht spezifische Bindungen verringert werden.
-
In einem Beispiel kann ein Panel Sonden umfassen, die selektiv an cfDNA-Fragmente, die in karzinomatösen Proben differenziell methyliert sind, hybridisieren (d. h. daran binden) und diese anreichern können. In diesem Fall kann das Sequenzieren der angereicherten Fragmente die Krebsdiagnose betreffende Informationen bereitstellen. Des Weiteren sind die Sonden gestaltet, um auf Genomregionen abzuzielen, bei denen bestimmt wurde, dass sie in krebsbefallenen Proben oder in Proben von bestimmten Gewebearten oder Zellarten ein anomales Methylierungsmuster aufweisen. In einer Ausführungsform sind Sonden gestaltet, um auf Genomregionen abzuzielen, bei denen bestimmt wurde, dass sie bei bestimmten Krebsarten oder Krebsursprungsgeweben hypermethyliert oder hypomethyliert sind, um zusätzliche Selektivität und Spezifität des Nachweises bereitzustellen. In manchen Ausführungsformen beinhaltet ein Panel Sonden, die auf hypomethylierte Fragmente abzielen. In manchen Ausführungsformen beinhaltet ein Panel Sonden, die auf hypermethylierte Fragmente abzielen. In manchen Ausführungsformen beinhaltet ein Panel sowohl einen ersten Satz Sonden, die auf hypermethylierte Fragmente abzielen, als auch einen zweiten Satz Sonden, die auf hypomethylierte Fragmente abzielen (1B). In manchen Ausführungsformen liegt das Verhältnis zwischen dem ersten Satz Sonden, die auf hypermethylierte Fragmente abzielen, und dem zweiten Satz Sonden, die auf hypomethylierte Fragmente abzielen, (Hyper:Hypo-Verhältnis) im Bereich zwischen 0,4 und 2, zwischen 0,5 und 1,8, zwischen 0,5 und 1,6, zwischen 1,4 und 1,6, zwischen 1,2 und 1,4, zwischen 1 und 1,2, zwischen 0,8 und 1, zwischen 0,6 und 0,8 oder zwischen 0,4 und 0,6.
-
Verfahren zum Identifizieren von Genomregionen (d. h. Genomregionen, die anomal methylierte DNA-Moleküle oder zwischen krebsbefallenen und krebsfreien Proben, zwischen unterschiedlichen Krebsursprungsgewebearten, zwischen unterschiedlichen Krebszellarten oder zwischen Proben von unterschiedlichen Krebsstadien differenziell methylierte DNA-Moleküle hervorrufen) werden im Detail in dem Abschnitt mit der Überschrift „Verfahren zum Auswählen von Zielgenomregionen“ bereitgestellt und Verfahren zum Identifizieren anomal methylierter DNA-Moleküle oder -Fragmente, die als Krebs anzeigend identifiziert sind, werden im Detail in dem Unterabschnitt mit der Überschrift „Anomal methylierte Fragmente“ bzw. dem Unterabschnitt mit der Überschrift „Filterung anomal methylierter Fragmente“ bereitgestellt.
-
In einem zweiten Beispiel können Genomregionen ausgewählt werden, wenn die Genomregionen in krebsbefallenen Proben oder Proben mit einer bekannten Krebsart anomal methylierte DNA-Moleküle hervorrufen. Zum Beispiel kann, wie hierin beschrieben, ein an einem Satz Referenzproben (z. B. Proben von einer gesunden Person) trainiertes Markow-Modell verwendet werden, um Genomregionen zu identifizieren, die anomal methylierte DNA-Moleküle (d. h. DNA-Moleküle mit einem Methylierungsmuster unterhalb einer p-Wert-Schwelle) hervorrufen.
-
Jede der Sonden kann auf eine Genomregion abzielen, die mindestens 30 bp, 35 bp, 40 bp, 45 bp, 50 bp, 60 bp, 70 bp, 80 bp, 90 bp, 100 bp oder mehr beinhaltet. In manchen Ausführungsformen können die Genomregionen so ausgewählt sein, dass sie weniger als 30, 25, 20, 15, 12, 10, 8 oder 6 Methylierungsstellen aufweisen.
-
Die Genomregionen können ausgewählt werden, wenn mindestens 80, 85, 90, 92, 95 oder 98 % der mindestens fünf Methylierungs- (z. B. CpG-)Stellen innerhalb der Region in nicht karzinomatösen oder karzinomatösen Proben in krebsbefallenen Proben von einer besonderen Krebsart entweder methyliert oder unmethyliert sind.
-
Genomregionen können ferner gefiltert werden, um nur diejenigen auszuwählen, die wahrscheinlich auf der Basis ihrer Methylierungsmuster informationshaltig sind, zum Beispiel CpG-Stellen, die zwischen karzinomatösen und nicht karzinomatösen Proben differenziell methyliert sind (z. B. abnormal methyliert oder unmethyliert bei krebsbefallen gegenüber krebsfrei), zwischen karzinomatösen Proben eines Ursprungsgewebes und karzinomatösen Proben eines anderen Ursprungsgewebes differenziell methyliert sind, oder CpG-Stellen, die nur in karzinomatösen Proben einer spezifischen Art differenziell methyliert sind. Für die Auswahl kann eine Berechnung hinsichtlich jeder CpG-Stelle oder einer Vielzahl von CpG-Stellen durchgeführt werden. Zum Beispiel wird eine erste Zählung bestimmt, die die Anzahl krebshaltiger Proben (cancer_count) ist, die ein Fragment umfassen, das die CpG überlappt, und wird eine zweite Zählung bestimmt, die die Anzahl von Proben insgesamt ist, die Fragmente enthalten, die diese CpG-Stelle überlappen (total). Genomregionen können auf der Basis von Kriterien ausgewählt werden, die mit der Anzahl krebshaltiger Proben (cancer_count), die ein Krebs anzeigendes Fragment umfassen, das diese CpG-Stelle überlappt, positiv korrelieren und mit der Anzahl Proben insgesamt (total), die Krebs anzeigende Fragmente enthalten, die diese CpG-Stelle überlappen, invers korrelieren. In einer Ausführungsform werden die Anzahl nicht karzinomatöser Proben (nkein-Krebs) und die Anzahl karzinomatöser Proben (nKrebs) mit einem Fragment, das eine CpG-Stelle überlappt, gezählt. Dann wird die Probabilität, dass eine Probe krebsbefallen ist, geschätzt, zum Beispiel als (nKrebs + 1)/(nKrebs + nkein-Krebs + 2).
-
CpG-Stellen können anhand dieser Kennzahl in eine Rangordnung gebracht und gierig zu einem Panel hinzugefügt werden, bis das Panelgrößenbudget erschöpft ist. Der Prozess des Auswählens von Krebs anzeigenden Genomregionen wird in dem Unterabschnitt mit der Überschrift „Krebs anzeigende Genomregionen und Klassifikatoren“ weiter detailliert beschrieben.
-
Abhängig davon, ob der Assay ein Pan-Krebs-Assay oder ein Einzelkrebs-Assay sein soll, oder abhängig davon, welches Maß an Flexibilität gewünscht ist, wenn ausgesucht wird, welche CpG-Stellen zu dem Panel beitragen. Ein Panel zum Diagnostizieren einer spezifischen Krebsart kann unter Verwendung eines ähnlichen Prozesses gestaltet werden. In dieser Ausführungsform wird für jede Krebsart und für jede CpG-Stelle der Informationsgewinn errechnet, um zu bestimmen, ob eine Sonde, die auf diese CpG-Stelle abzielt, aufgenommen werden soll. Der Informationsgewinn kann für Proben mit einer gegebenen Krebsart eines Ursprungsgewebes verglichen mit allen anderen Proben errechnet werden. Zum Beispiel zwei zufällige Variablen, „AF“ und „KA“. „AF“ ist eine binäre Variable, die anzeigt, ob es ein abnormales Fragment gibt, das eine besondere CpG-Stelle in einer besonderen Probe überlappt (ja oder nein). „KA“ ist eine binäre zufällige Variable, die anzeigt, ob der Krebs von einer besonderen Art ist (z. B. Lungenkrebs oder ein anderer als Lungenkrebs). Man kann die wechselseitige Information hinsichtlich „KA“ bei gegebenem „AF“ errechnen. Das heißt, wie viele Einzelinformationen über die Krebsart (im Beispiel Lunge gegenüber nicht Lunge) gewonnen werden, wenn man weiß, ob es ein anomales Fragment gibt, das eine besondere CpG-Stelle überlappt. Dies kann verwendet werden, um eine Rangordnung der CpGs auf der Basis, wie lungenspezifisch sie sind, zu erstellen. Diese Prozedur wird für eine Vielzahl von Krebsarten wiederholt. Wenn eine besondere Region üblicherweise nur bei Lungenkrebs (und nicht anderen Krebsarten oder keinem Krebs) differenziell methyliert ist, würden CpGs in dieser Region tendenziell hohe Informationsgewinne für Lungenkrebs aufweisen. Für jede Krebsart wird eine Rangordnung der CpG-Stellen nach dieser Informationsgewinnkennzahl erstellt und dann werden sie gierig zu einem Panel hinzugefügt, bis das Größenbudget für diese Krebsart erschöpft ist.
-
Weitere Filterung kann durchgeführt werden, um Sonden mit hoher Spezifität für die Anreicherung (d. h. hoher Bindungseffizienz) von Nukleinsäuren, die von anvisierten Genomregionen abgeleitet sind, auszuwählen. Sonden können gefiltert werden, um nicht spezifische Bindung (oder Fehltreffer-Bindung) an Nukleinsäuren, die von nicht anvisierten Genomregionen abgeleitet sind, zu reduzieren. Zum Beispiel können Sonden gefiltert werden, um nur die Sonden auszuwählen, die weniger als einen festgesetzten Schwellenwert von Fehltreffer-Bindungsereignissen aufweisen. In einer Ausführungsform können Sonden mit einem Referenzgenom (z. B. einem menschlichen Referenzgenom) aliniert werden, um Sonden auszuwählen, die über das Genom hinweg mit weniger als einem festgesetzten Schwellenwert von Regionen alinieren. Zum Beispiel können Sonden ausgewählt werden, die über das Referenzgenom hinweg mit weniger als 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9 oder 8 Fehltreffer-Regionen alinieren. In anderen Fällen wird Filterung durchgeführt, um Genomregionen zu entfernen, wenn die Sequenz der Zielgenomregionen mehr als 5, 10, 15, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34 oder 35 Mal in einem Genom vorkommt. Weitere Filterung kann durchgeführt werden, um Zielgenomregionen auszuwählen, wenn eine Sequenz oder ein Satz Sequenzen, die zu 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % oder 99 % zu den Zielgenomregionen homolog sind, weniger als 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9 oder 8 Mal in einem Referenzgenom vorkommt, oder um Zielgenomregionen zu entfernen, wenn die Sequenz oder ein Satz Sequenzen, die zu 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % oder 99 % zu den Zielgenomregionen homolog sind, mehr als 5, 10, 15, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34 oder 35 Mal in einem Referenzgenom vorkommt. Dies ist zum Ausschließen von Sonden, die Fehltreffer-Fragmente, die nicht gewünscht sind und die Effizienz des Assays beeinträchtigen können, herabziehen können.
-
Eine Fragment-Sonden-Überlappung von mindestens 45 bp ermöglichte eine nicht vernachlässigbare Menge an Herabziehen (obwohl diese Anzahl abhängig von den Assay-Details anders sein kann), wie in Beispiel 1 bereitgestellt. Somit sind Sonden in manchen Ausführungsformen mindestens 45 Basenpaare lang. In manchen Ausführungsformen reicht eine Fehlpaarungsrate zwischen der Sonde und den Fragmentsequenzen in der Überlappungsregion von mehr als 10 % aus, um die Bindung und somit die Effizienz des Herabziehens stark zu stören. Daher sind Sequenzen, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit der Sonde alinieren können, Kandidaten für Fehltreffer-Herabziehen. Somit wird in einer Ausführungsform für die Anzahl solcher Regionen eine Punktzahl vergeben. Die besten Sonden weisen eine Punktzahl von 1 auf, was bedeutet, dass sie an nur einem Ort (der beabsichtigten Zielregion) übereinstimmen. Sonden mit einer niedrigen Punktzahl (sagen wir weniger als 5 oder 10) werden akzeptiert, aber alle Sonden über der Punktzahl werden verworfen. Für spezifische Proben können andere Grenzwerte verwendet werden.
-
Sobald die Sonden an DNA-Fragmente, die einer Zielgenomregion entsprechen oder davon abgeleitet sind, hybridisieren und sie fangen werden die hybridisierten Sonde-DNA-Fragment-Zwischenprodukte herabgezogen (oder isoliert) und dann wird die anvisierte DNA amplifiziert und sequenziert. Die Sequenzlesung stellt die Krebsdiagnose betreffende Informationen bereit. Zu diesem Zweck wird ein Panel gestaltet, um eine Vielzahl von Sonden zu umfassen, die Fragmente fangen können, die zusammen die Krebsdiagnose betreffende Informationen bereitstellen können. In manchen Ausführungsformen umfasst ein Panel mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 unterschiedliche Sondenpaare. In weiteren Ausführungsformen umfasst ein Panel mindestens 500, 1000, 2000, 2500, 5000, 6000, 7500, 10000, 15000, 20000, 25000 oder 50000 unterschiedliche Sondenpaare. In manchen Ausführungsformen umfasst ein Panel mindestens 100, 120, 140, 160, 180, 200, 240, 300 oder 400 unterschiedliche Sonden. In weiteren Ausführungsformen umfasst ein Panel mindestens 1000, 2000, 5000, 10000, 12000, 15000, 20000, 30000, 40000, 50000 oder 100 000 unterschiedliche Sonden. Die Vielzahl von Sonden kann zusammen mindestens 0,01 Millionen, 0,02 Millionen, 0,03 Millionen, 0,04 Millionen, 0,05 Millionen, 0,1 Millionen, 0,2 Millionen, 0,4 Millionen, 0,6 Millionen, 0,8 Millionen, 1 Million, 2 Millionen, 3 Millionen, 4 Millionen, 5 Millionen, 6 Millionen, 7 Millionen, 8 Millionen, 9 Millionen oder 10 Millionen Nukleotide beinhalten.
-
Die ausgewählten Zielgenomregionen können sich an verschiedenen Positionen in einem Genom befinden, einschließlich, aber nicht beschränkt auf, Exons, Introns, Zwischengenregionen und anderer Teile. In manchen Ausführungsformen können Sonden, die auf nicht menschliche Genomregionen abzielen, wie diejenigen, die auf Virusgenomregionen abzielen, hinzugefügt werden.
-
Sonden
-
Hierin bereitgestellte Krebs-Assay-Panels (z. B. Ködersätze) können einen Satz Hybridisierungssonden (hierin auch als „Sonden“ bezeichnet) umfassen, die gestaltet sind, um während der Anreicherung Nukleinsäurefragmente von Interesse für den Assay anzuvisieren und herabzuziehen (z. B. durch Einfangen durch Hybridisierung). In manchen Ausführungsformen sind die Sonden gestaltet, um an ein durch Bearbeiten von DNA- oder cfDNA-Molekülen von Proben von einer Person mit Krebs oder einer Person mit einer spezifischen Krebsart erhaltenes modifiziertes Fragment zu hybridisieren und dieses anzureichern. Der Bearbeitungsschritt kann unmethylierte Cytosine (C) in Uracile (U) umwandeln. Die Sonden können so gestaltet sein, dass sie sich an einen (komplementären) Zielstrang des modifizierten Fragments (z. B. DNA oder RNA) anlagern (oder daran hybridisieren). Der Zielstrang kann der „positive“ Strang (z. B. der Strang, der in mRNA transkribiert und anschließend in ein Protein übersetzt wird) oder der komplementäre „negative“ Strang sein. In einer besonderen Ausführungsform umfasst ein Krebs-Assay-Panel Sätze von zwei Sonden, wobei eine Sonde auf den positiven Strang einer Zielgenomregion abzielt und die andere Sonde auf den negativen Strang abzielt.
-
Für jede Zielgenomregion können vier mögliche Sondensequenzen gestaltet werden. DNA-Moleküle, die jeder Zielregion entsprechen oder davon abgeleitet sind, ist doppelsträngig, als solche kann eine Sonde oder ein Sondensatz entweder auf den „positiven“ oder Vorwärtsstrang oder sein umgekehrtes Gegenstück (den „negativen“ Strang) abzielen. Außerdem sind in manchen Ausführungsformen die Sonden oder Sondensätze gestaltet, um DNA-Moleküle oder -Fragmente anzureichern, die bearbeitet wurden, um unmethylierte Cytosine (C) in Uracile (U) umzuwandeln. Da die Sonden oder Sondensätze gestaltet sind, um DNA-Moleküle anzureichern, die den anvisierten Regionen nach der Umwandlung entsprechen oder davon abgeleitet sind, kann die Sequenz der Sonde gestaltet sein, um DNA-Moleküle von Fragmenten anzureichern, bei denen unmethylierte Cs in Us umgewandelt wurden (durch Nutzung von As anstelle von Gs an Stellen, die in DNA-Molekülen oder -Fragmenten, die der anvisierten Region entsprechen oder davon abgeleitet sind, unmethylierte Cytosine sind). In einer Ausführungsform sind Sonden gestaltet, um an DNA-Moleküle oder -Fragmente von Genomregionen zu binden oder hybridisieren, die bekanntermaßen krebsspezifische Methylierungsmuster (z. B. hypermethylierte oder hypomethylierte DNA-Moleküle) enthalten, wodurch krebsspezifische DNA-Moleküle oder -Fragmente angereichert werden. Das Abzielen auf Genomregionen oder krebsspezifische Methylierungsmuster kann vorteilhaft sein, da es gestattet, dass man spezifisch DNA-Moleküle oder -Fragmente anreichert, die als Informationen über Krebs oder Krebsursprungsgewebe enthaltend identifiziert wurden, und somit Sequenzierungsbedarf und Sequenzierungskosten zu senken. In weiteren Ausführungsformen können zwei Sondensequenzen pro einer Zielgenomregion gestaltet sein (eine für jeden DNA-Strang). In noch weiteren Fällen sind Sonden gestaltet, um alle DNA-Moleküle oder -Fragmente anzureichern, die einer anvisierten Region entsprechen oder davon abgeleitet sind (d. h. ungeachtet des Strangs oder Methylierungsstatus). Dies kann sein, weil der Krebsmethylierungsstatus nicht hochgradig methyliert oder unmethyliert ist oder weil die Sonden gestaltet sind, auf kleine Mutationen oder andere Variationen anstatt Methylierungsänderungen abzuzielen, wobei diese anderen Variationen auf ähnliche Weise das Vorliegen oder Nichtvorliegen eines Krebses oder das Vorliegen oder Nichtvorliegen eines Krebses mit einem oder mehreren Ursprungsgeweben anzeigen. In diesem Fall können alle vier möglichen Sondensequenzen pro einer Zielgenomregion umfasst werden.
-
Zum Beispiel können Krebs-Assay-Panels, wie Ködersätze zum Einfangen durch Hybridisierung, polynukleotidhaltige Sonden umfassen, die jeweils eine Nukleinsäuresequenz umfassen, die entweder (1) in der Sequenz mit einer Sequenz innerhalb einer Genomregion (z. B. einer in einer beliebigen der Tabellen 1-24 aufgelisteten Genomregion) identisch ist oder (2) hinsichtlich einer Sequenz in der Genomregion nur durch eine oder mehrere Transitionen variiert, wobei jede Transition von der einen oder den mehreren Transitionen jeweils an einem Nukleotid auftritt, das einer CpG-Stelle in der Genomregion entspricht. Sonden, die in der Sequenz mit einer Sequenz innerhalb einer Genomregion identisch sind, können verwendet werden, um an „vollständig methylierte“ Moleküle zellfreier DNA zu binden, in denen keine der Cytosinbasen zu Uracil umgewandelt ist. Umgekehrt können Sonden mit einer Nukleinsäuresequenz, die hinsichtlich einer Sequenz in der Genomregion nur durch eine oder mehrere Transitionen (z. B. an CpG-Stellen) variiert, verwendet werden, um an teilweise oder vollständig methylierte Sonden zu binden, bei denen eines oder mehrere (z. B. alle) der Cytosine unmethyliert sind und anschließend durch ein Desaminierungsmittel wie Natriumbisulfit zu Uracil umgewandelt werden.
-
Die Sonden können Längen im Bereich von mehreren 10, Hunderten, Zweihunderten oder Dreihunderten Basenpaaren haben. Die Sonden können mindestens 45, 50, 75, 100 oder 120 Nukleotide beinhalten. Die Sonden können weniger als 300, 250, 200 oder 150 Nukleotide beinhalten. In einer Ausführungsform beinhalten die Sonden 45-200 oder 100-150 Nukleotide. In einer besonderen Ausführungsform beinhalten die Sonden 120 Nukleotide.
-
Die Sonden sind gestaltet, um den Methylierungsstatus von Zielgenomregionen (z. B. des menschlichen oder eines anderen Organismus) zu analysieren, die im Verdacht stehen, mit dem Vorliegen oder Nichtvorliegen von Krebs im Allgemeinen, dem Vorliegen oder Nichtvorliegen bestimmter Krebsarten, dem Krebsstadium oder dem Vorliegen oder Nichtvorliegen anderer Arten von Krankheit zu korrelieren.
-
Des Weiteren können die Sonden gestaltet sein, um effektiv an cfDNA-Fragmente, die eine Zielgenomregion enthalten, zu hybridisieren (oder zu binden) und diese herabzuziehen. In manchen Ausführungsformen sind die Sonden gestaltet, um überlappende Abschnitte einer Zielgenomregion abzudecken, sodass jede Sonde hinsichtlich der Abdeckung „geschindelt“ ist, sodass jede Sonde hinsichtlich der Abdeckung mindestens teilweise mit einer anderen Sonde in der Bibliothek überlappt (1A). In solchen Ausführungsformen enthält das Panel mehrere Sondenpaare, wobei jedes Paar mindestens zwei Sonden beinhaltet, die einander mit einer Überlappungssequenz von mindestens 25, 30, 35, 40, 45, 50, 60, 70, 75 oder 100 Nukleotiden überlappen. In manchen Ausführungsformen kann die Überlappungssequenz gestaltet sein, um mit einer Zielgenomregion (oder einer umgewandelten Version davon) Sequenzhomologie aufzuweisen oder dazu komplementär zu sein, somit kann ein Nukleotidfragment, das der Zielgenomregion entspricht oder davon abgeleitet ist oder sie enthält, von mindestens einer der Sonden gebunden und herabgezogen werden.
-
In einer Ausführungsform wird eine 2× geschindelte Gestaltung, wie in 1A illustriert, verwendet, wobei jede Base in einer Zielregion (das gepunktete Rechteck in 1A) von zwei Sonden überlappt wird. Zum Beispiel kann jedes Sondenpaar eine erste Sonde und eine zweite Sonde, die sich sowohl von der ersten Sonde unterscheidet als auch in der Sequenz mit der ersten Sonde überlappt (z. B. Überlappung um mindestens 30 Nukleotide), umfassen. Dies wird getan, um sicherzustellen, dass selbst relativ kurze DNA-Fragmente (z. B. 100 bp), die einer anvisierten Region entsprechen oder davon abgeleitet sind, garantiert eine wesentliche Überlappung (oder Sequenzkomplementarität) mit mindestens einer Sonde aufweisen, was das effiziente Einfangen des relativ kurzen DNA-Fragments gestattet. Zum Beispiel würde ein DNA-Fragment von 100 bp, das eine Zielregion von 30 bp überlappt, eine Überlappung von mindestens 75 bp mit mindestens einer der zwei Sonden aufweisen. Andere Stufen des Schindelns sind möglich. Zum Beispiel können, um die Zielgröße und Einfangeffizienz zu erhöhen, mehr Sonden über eine gegebene Zielregion geschindelt sein. Um das Einfangen eines jeglichen DNA-Fragments, das die Zielregion überlappt, zu erhöhen, können die Sonden so gestaltet sein, dass sie sich auf einer Seite oder beiden Seiten über die Enden der Zielregion hinaus erstrecken. Zum Beispiel können Sonden gestaltet sein, um sich um mindestens 50 bp, 60 bp, 70 bp, 80 bp, 90 oder 100 bp über die Enden einer Zielregion von 30 bp hinaus zu erstrecken.
-
In einer Ausführungsform beträgt die kleinste Zielgenomregion 30 bp. Wenn eine neue Zielregion zu dem Panel hinzugefügt wird (auf der Basis der gierigen Auswahl, wie oben beschrieben), kann die neue Zielregion von 30 bp eine spezifische CpG-Stelle von Interesse als Mittelpunkt haben. Dann wird überprüft, ob jeder Rand dieses neuen Ziels nah genug zu anderen Zielen ist, sodass sie zusammengeführt werden können. Dies basiert auf einem Parameter „Zusammenführungsabstand“, der standardmäßig 200 bp betragen kann, aber justiert werden kann. Dies gestattet es, dass nahe, aber distinkte Zielregionen mit überlappenden Sonden angereichert werden. In Abhängigkeit davon, ob links oder recht von dem neuen Ziel Ziele existieren, die nah genug sind, kann das neue Ziel mit nichts zusammengeführt werden (wodurch die Anzahl Panelziele um eins erhöht wird), mit nur einem Ziel entweder links oder rechts zusammengeführt werden (wodurch die Anzahl Panelziele nicht geändert wird) oder mit existierenden Zielen sowohl links als auch rechts zusammengeführt werden (wodurch die Anzahl Panelziele um eins reduziert wird).
-
Ein hierin bereitgestelltes Assay-Panel beinhaltet eine Vielzahl von Polynukleotidsonden, die konfiguriert sind, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen entspricht oder davon abgeleitet ist. Anders ausgedrückt können die polynukleotidhaltigen Sonden eines Ködersatzes als Gruppe einer Anzahl Genomregionen entsprechen. In manchen Ausführungsformen befinden sich mindestens 15 %, 20 %, 30 % oder 40 % der Genomregionen in Exons oder Introns. In manchen Ausführungsformen befinden sich mindestens 5 %, 10 %, 15 %, 20 %, 30 % oder 40 % der Genomregionen in Exons. In manchen Ausführungsformen befinden sich weniger als 5 %, 10 %, 15 %, 20 %, 25 % oder 30 % der Genomregionen in Zwischengenregionen.
-
In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer oder mehreren der Tabellen 1-24 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus einer oder mehreren der Tabellen 2-10 oder 16-24 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 1 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 2 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 3 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 4 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 5 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 6 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 7 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 8 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 9 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 10 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 11 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 12 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 13 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 14 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 15 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 16 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 17 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 18 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 19 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 20 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 21 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 22 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 23 ausgewählt. In manchen Ausführungsformen ist jede der einen oder der mehreren Genomregionen aus Tabelle 24 ausgewählt.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 1-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 % oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 1 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 2 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 3 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 4 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 5 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 6 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 7 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 8 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 9 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 10 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 11 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 12 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 16 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 17 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 18 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 19 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 20 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 21 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 22 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 23 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90% oder 95 % der Genomregionen in einer oder mehreren der Genomregionen in Tabelle 24 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in einer oder mehreren der Tabellen 1 oder 11-15 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 50, 60, 70, 80, 90, 100, 120, 150 oder 200 Genomregionen aus einer oder mehreren der Tabellen 2-10 oder 16-24 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10 000 oder 15 000 Genomregionen in Tabelle 13 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15000 Genomregionen in Tabelle 14 entsprechen oder davon abgeleitet sind. In manchen Ausführungsformen ist eine Gesamtheit von Sonden auf dem Panel zusammen konfiguriert, um an modifizierte Fragmente zu hybridisieren, die von den cfDNA-Molekülen erhalten werden, die mindestens 500, 1000, 5000, 10000 oder 15 000 Genomregionen in Tabelle 15 entsprechen oder davon abgeleitet sind.
-
In manchen Ausführungsformen beinhaltet ein Assay-Panel ferner virusspezifische Sonden, wobei jede der virusspezifischen Sonden konfiguriert ist, um an ein Virusgenomfragment zu hybridisieren. Die Sonden können konfiguriert sein, um an ein Virusgenomfragment von einem mit Krebs assoziierten Virusstamm zu hybridisieren. In mancher Ausführungsform ist das Virusgenomfragment von MCV, EBV, HBV, HCMV, HCV, HHV5, HPV16 oder HPV18. In manchen Ausführungsformen beinhaltet das Panel mindestens 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500 oder 3000 virusspezifische Sonden.
-
Verfahren zum Auswählen von Zielgenomregionen
-
In einem weiteren Aspekt werden Verfahren zum Auswählen von Zielgenomregionen zur Diagnose von Krebs und/oder einem Ursprungsgewebe bereitgestellt. Die anvisierten Genomregionen können verwendet werden, um Sonden für ein Krebs-Assay-Panel zu gestalten und anzufertigen. Methylierungsstatus von DNA- oder cfDNA-Molekülen, die den Zielgenomregionen entsprechen oder davon abgeleitet sind, können durch gezielte Sequenzierung unter Verwendung des Krebs-Assay-Panels untersucht werden. Alternative Verfahren, zum Beispiel mittels WGBS oder anderer nach dem Stand der Technik bekannter Verfahren, können ebenfalls umgesetzt werden, um den Methylierungsstatus von DNA-Molekülen oder -Fragmenten, die den Zielgenomregionen entsprechen oder davon abgeleitet sind, nachzuweisen.
-
Probenbearbeitung
-
Zum Auswählen von Zielgenomregionen werden einer oder mehreren Personen entnommene Nukleinsäureproben (DNA oder RNA) verwendet. In der vorliegenden Offenbarung können DNA und RNA austauschbar verwendet werden, sofern nicht anders angezeigt. Das heißt, die hierin beschriebenen Ausführungsformen können auf beide Arten von Nukleinsäuresequenzen, DNA und RNA, anwendbar sein. Jedoch können sich die hierin beschriebenen Beispiele zum Zweck der Klarheit und Erläuterung auf DNA konzentrieren. Die Probe kann ein beliebiger Teilsatz des menschlichen Genoms, einschließlich des ganzen Genoms, sein. Die Probe kann Blut, Plasma, Serum, Urin, Kot, Speichel, andere Arten von Körperflüssigkeiten oder eine beliebige Kombination davon umfassen. In manchen Ausführungsformen können Verfahren zum Abnehmen einer Blutprobe (z. B. Spritze oder Stich in den Finger) weniger invasiv sein als Prozeduren zum Erhalten einer Gewebebiopsie, die eine Operation erfordern können. Die entnommene Probe kann cfDNA und/oder ctDNA beinhalten. Bei gesunden Individuen kann der menschliche Körper cfDNA und sonstigen Zellabfall auf natürliche Weise beseitigen. Wenn eine Person einen Krebs oder eine Krankheit aufweist, kann ctDNA in einer entnommenen Probe in einem nachweisbaren Niveau für die Diagnose vorhanden sein.
-
Die cfDNA-Fragmente werden behandelt, um unmethylierte Cytosine in Uracile umzuwandeln. In einer Ausführungsform verwendet das Verfahren eine Bisulfitbehandlung der DNA, welche die unmethylierten Cytosine in Uracile umwandelt, ohne die methylierten Cytosine umzuwandeln. Zum Beispiel wird zur Bisulfitumwandlung ein kommerzielles Kit wie das EZ DNA Methylation™ - Gold, EZ DNA Methylation™ - Direct oder ein Kit EZ DNA Methylation™ - Lightning (verfügbar von Zymo Research Corp (Irvine, CA)) verwendet. In einer weiteren Ausführungsform wird die Umwandlung unmethylierter Cytosine in Uracile unter Verwendung einer enzymatischen Reaktion bewerkstelligt. Zum Beispiel kann die Umwandlung ein kommerziell verfügbares Kit zur Umwandlung unmethylierter Cytosine in Uracile, wie APOBEC-Seq (NEBiolabs, Ipswich, MA), verwenden.
-
Mit den umgewandelten cfDNA-Fragmenten wird eine Sequenzierbibliothek vorbereitet. In einem ersten Schritt wird unter Verwendung einer ssDNA-Ligationsreaktion ein ssDNA-Adapter zu dem 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls hinzugefügt. In einer Ausführungsform verwendet die ssDNA-Ligationsreaktion CircLigase II (Epicentre), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren, wobei das 5'-Ende des Adapters phosphoryliert ist und die bisulfitumgewandelte ssDNA dephosphoryliert wurde (d. h. das 3'-Ende weist eine Hydroxylgruppe auf). In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion Thermostable 5' AppDNA/RNA Ligase (verfügbar von New England BioLabs (Ipswich, MA)), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In diesem Beispiel ist der erste UMI-Adapter am 5'-Ende adenyliert und am 3'-Ende blockiert. In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion eine T4 RNA Ligase (verfügbar von New England BioLabs), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In einem zweiten Schritt wird in einer Verlängerungsreaktion ein zweiter Strang DNA synthetisiert. Zum Beispiel wird ein Verlängerungsprimer, der an eine von dem ssDNA-Adapter umfasste Primersequenz hybridisiert, in einer Primerverlängerungsreaktion verwendet, um ein doppelsträngiges bisulfitumgewandeltes DNA-Molekül zu bilden. Optional verwendet die Verlängerungsreaktion in einer Ausführungsform ein Enzym, das in der Lage ist, durch Uracilreste in dem bisulfitumgewandelten Matrizenstrang hinwegzulesen. Optional wird in einem dritten Schritt ein dsDNA-Adapter zu dem doppelsträngigen bisulfitumgewandelten DNA-Molekül hinzugefügt. Schließlich wird die doppelsträngige bisulfitumgewandelte DNA amplifiziert, um Sequenzieradapter hinzuzufügen. Zum Beispiel wird PCR-Amplifikation unter Verwendung eines Vorwärtsprimers, der eine P5-Sequenz umfasst, und eines Rückwärtsprimers, der eine P7-Sequenz umfasst, verwendet, um P5- und P7-Sequenzen zu der bisulfitumgewandelten DNA hinzuzufügen. Optional können während der Bibliotheksvorbereitung eindeutige molekulare Identifikatoren (UMI) durch Adapterligation zu den Nukleinsäuremolekülen (z. B. DNA-Molekülen) hinzugefügt werden. Die UMIs sind kurze Nukleinsäuresequenzen (z. B. 4-10 Basenpaare), die während der Adapterligation an Enden von DNA-Fragmenten hinzugefügt werden. In manchen Ausführungsformen sind UMIs degenerierte Basenpaare, die als eine eindeutige Markierung dienen, die verwendet werden kann, um Sequenzlesungen zu identifizieren, die von einem spezifischen DNA-Fragment stammen. Während der auf die Adapterligation folgenden PCR-Amplifikation werden die UMIs zusammen mit dem angefügten DNA-Fragment repliziert, was eine Weise bereitstellt, in einer nachgelagerten Analyse Sequenzlesungen zu identifizieren, die von demselben Ursprungsfragment herrühren.
-
Von den DNA-Sequenzen werden Sequenzlesungen erzeugt. Das Verfahren kann Techniken der Sequenzierung der nächsten Generation (NGS) umfassen, einschließlich Synthesetechnologie (Illumina), Pyrosequenzierung (454 Life Sciences), lonen-Halbleiter-Technologie (Ion-Torrent-Sequenzierung), Einzelmolekül-Echtzeitsequenzierung (Pacific Biosciences), Sequenzierung durch Ligation (SOLiD-Sequenzierung), Nanoporensequenzierung (Oxford Nanopore Technologies) oder Endpaar-Sequenzierung. In manchen Ausführungsformen wird massive Parallelsequenzierung unter Verwendung von Sequenzierung durch Synthese mit reversiblen Farbstoffterminatoren durchgeführt.
-
Von den Sequenzlesungen werden dann Methylierungszustandsvektoren erzeugt. Um das zu tun, wird eine Sequenzlesung mit einem Referenzgenom aliniert. Das Referenzgenom hilft, den Kontext bereitzustellen bezüglich von welcher Position in einem menschlichen Genom die Fragment-cfDNA stammt. In einem vereinfachten Beispiel wird die Sequenzlesung so aliniert, dass die drei CpG-Stellen mit den CpG-Stellen 23, 24 und 25 korrelieren (willkürliche, zur bequemen Beschreibung verwendete Referenzidentifikatoren). Nach der Alinierung gibt es Informationen sowohl über den Methylierungsstatus aller CpG-Stellen in dem cfDNA-Fragment als auch darüber, welche Position im menschlichen Genom die CpG-Stellen abbilden. Mit dem Methylierungsstatus und Ort kann ein Methylierungszustandsvektor für das cfDNA-Fragment erzeugt werden.
-
Erzeugung einer Datenstruktur
-
3A ist ein Flussdiagramm, das einen Prozess 300 zum Erzeugen einer Datenstruktur für eine gesunde Kontrollgruppe (z. B. Referenzproben) gemäß einer Ausführungsform beschreibt. Um die Datenstruktur einer gesunden Kontrollgruppe zu erstellen, erhält das Analysesystem Informationen bezüglich des Methylierungsstatus einer Vielzahl von CpG-Stellen in Sequenzlesungen, die von einer Vielzahl von DNA-Molekülen oder -Fragmenten von einer Vielzahl gesunder Personen abgeleitet sind. Das hierin bereitgestellte Verfahren zum Erstellen einer Datenstruktur einer gesunden Kontrollgruppe kann auf ähnliche Weise für Personen mit Krebs, Personen mit Krebs eines Ursprungsgewebes, Personen mit einer bekannten Krebsart oder Personen mit einem anderen bekannten Krankheitzustand durchgeführt werden. Für jedes DNA-Molekül oder -Fragment wird ein Methylierungszustandsvektor erzeugt, zum Beispiel über den Prozess 100.
-
Mit dem Methylierungszustandsvektor eines jeden Fragments unterteilt 310 das Analysesystem den Methylierungszustandsvektor in Abfolgen von CpG-Stellen. In einer Ausführungsform unterteilt 310 das Analysesystem den Methylierungszustandsvektor so, dass die resultierenden Abfolgen alle weniger als eine gegebene Länge betragen. Zum Beispiel kann ein Methylierungszustandsvektor der Länge 11 in Abfolgen einer Länge von weniger als oder gleich 3 unterteilt werden, was in 9 Abfolgen der Länge 3, 10 Abfolgen der Länge 2 und 11 Abfolgen der Länge 1 resultieren würde. In einem weiteren Beispiel würde ein Methylierungszustandsvektor der Länge 7, der in Abfolgen einer Länge von weniger als oder gleich 4 unterteilt wird, in 4 Abfolgen der Länge 4, 5 Abfolgen der Länge 3, 6 Abfolgen der Länge 2 und 7 Abfolgen der Länge 1 resultieren. Wenn ein Methylierungszustandsvektor kürzer als die spezifizierte Abfolgenlänge ist oder dieselbe Länge aufweist, dann kann der Methylierungszustandsvektor in eine einzige Abfolge, die alle CpG-Stellen des Vektors enthält, umgewandelt werden.
-
Das Analysesystem gleicht die Abfolgen ab 320, indem es für jede mögliche CpG-Stelle und Möglichkeit von Methylierungszuständen in dem Vektor die Anzahl in der Kontrollgruppe vorhandener Abfolgen zählt, die die spezifizierte CpG-Stelle als erste CpG-Stelle in der Abfolge aufweisen und die diese Möglichkeit von Methylierungszuständen aufweisen. Zum Beispiel gibt es an einer gegebenen CpG-Stelle und bei Betrachtung von Abfolgenlängen von 3 2^3 oder 8 mögliche Abfolgenkonfigurationen. An dieser gegebenen CpG-Stelle gleicht das Analysesystem für jede der 8 möglichen Abfolgenkonfigurationen ab 320, wie viele Vorkommnisse einer jeden Möglichkeit für den Methylierungszustandsvektor in der Kontrollgruppe erscheinen. Unter Fortsetzung dieses Beispiels kann dies das Abgleichen der folgenden Quantitäten involvieren: < Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 > ... < Ux, Ux+1, Ux+2 > für jede Anfangs-CpG-Stelle x in dem Referenzgenom. Das Analysesystem erstellt 330 die Datenstruktur, die die abgeglichenen Zählungen für jede Anfangs-CpG-Stelle und Abfolgemöglichkeit speichert.
-
Es gibt einige Vorteile davon, eine Obergrenze für die Abfolgenlänge festzusetzen. Erstens kann, abhängig von der maximalen Länge für eine Abfolge, die Größe der von dem Analysesystem erstellten Datenstruktur dramatisch an Größe zunehmen. Zum Beispiel bedeutet eine maximale Abfolgenlänge von 4, dass jede CpG-Stelle zuallermindest 24 Anzahlen aufweist, die für Abfolgen der Länge 4 abgeglichen werden müssen. Erhöhen der maximalen Abfolgenlänge auf 5 bedeutet, dass jede CpG-Stelle weitere 24 oder 16 abzugleichende Anzahlen aufweist, wodurch die abzugleichenden Anzahlen (und der erforderliche Computerarbeitsspeicher) verglichen mit der vorherigen Abfolgenlänge verdoppelt wird. Reduzieren der Abfolgengröße hilft, die Erstellung und Leistung (z. B. Verwendung für späteren Zugriff wie unten beschrieben) der Datenstruktur im Hinblick auf Rechenarbeit und Speicher vernünftig zu halten. Zweitens ist eine statistische Überlegung dazu, die maximale Abfolgenlänge zu beschränken, die übermäßige Auslegung nachgelagerter Modelle, die die Abfolgenzählungen verwenden, zu vermeiden. Wenn lange Abfolgen von CpG-Stellen biologisch keine starke Wirkung auf das Ergebnis (z. B. Vorhersagen von Anomalität, die das Vorliegen von Krebs vorhersagt) aufweisen, kann das Berechnen von Probabilitäten auf der Basis großer Abfolgen von CpG-Stellen problematisch sein, da es eine signifikante Menge an Daten erfordert, die möglicherweise nicht verfügbar sind und somit zu spärlich wären, als dass ein Modell angemessen funktionieren würde. Zum Beispiel würde das Berechnen einer Probabilität von Anomalität/Krebs bedingt auf den vorherigen 100 CpG-Stellen in der Datenstruktur Zählungen von Abfolgen der Länge 100 erfordern, von denen manche idealerweise exakt mit den vorherigen 100 Methylierungszuständen übereinstimmen. Wenn nur spärliche Zählungen von Abfolgen der Länge 100 verfügbar sind, gibt es unzureichende Daten, um zu bestimmen, ob eine gegebene Abfolge der Länge 100 in einer Testprobe anomal ist oder nicht.
-
Validierung der Datenstruktur
-
Sobald die Datenstruktur erstellt wurde, kann das Analysesystem versuchen, die Datenstruktur und/oder jegliche nachgelagerten Modelle, die die Datenstruktur verwenden, zu validieren 340. Eine Art der Validierung überprüft die Konsistenz innerhalb der Datenstruktur der Kontrollgruppe. Wenn es zum Beispiel bei den Personen, Proben und/oder Fragmenten innerhalb einer Kontrollgruppe irgendwelche Ausreißer gibt, dann kann das Analysesystem verschiedene Berechnungen durchführen, um zu bestimmen, ob irgendwelche Fragmente aus einer dieser Kategorien ausgeschlossen werden sollen. In einem repräsentativen Beispiel kann die gesunde Kontrollgruppe eine Probe enthalten, die nicht diagnostiziert, aber karzinomatös ist, sodass die Probe anomal methylierte Fragmente enthält. Diese erste Art der Validierung stellt sicher, dass potenzielle karzinomatöse Proben aus der gesunden Kontrollgruppe entfernt werden, sodass sie die Reinheit der Kontrollgruppe nicht beeinträchtigen.
-
Eine zweite Art der Validierung überprüft das probabilistische Modell, das verwendet wird, um mit den Zählungen der Datenstruktur selbst (d. h. von der gesunden Kontrollgruppe) p-Werte zu berechnen. Ein Prozess zur p-Wert-Berechnung ist unten in Zusammenhang mit 5 beschrieben. Sobald das Analysesystem einen p-Wert für die Methylierungszustandsvektoren in der Validierungsgruppe erzeugt, stellt das Analysesystem eine kumulative Dichtefunktion (CDF) mit den p-Werten auf. Mit der CDF kann das Analysesystem verschiedene Berechnungen an der CDF durchführen, um die Datenstruktur der Kontrollgruppe zu validieren. Ein Test verwendet die Tatsache, dass die CDF idealerweise bei oder unterhalb einer identischen Abbildung liegen sollte, sodass CDF(x)≤x. Im Gegensatz dazu deckt die Lage über der identischen Abbildung einen Mangel innerhalb des für die Datenstruktur der Kontrollgruppe verwendeten probabilistischen Modells auf. Wenn zum Beispiel 1/100 der Fragmente eine p-Wert-Punktzahl von 1/1000 aufweist, was bedeutet CDF(1/1000) = 1/100 > 1/1000, dann scheitert die zweite Art der Validierung, was ein Problem mit dem probabilistischen Modell anzeigt.
-
Eine dritte Art der Validierung verwendet einen gesunden Satz Validierungsproben, getrennt von denen, die zum Aufstellen der Datenstruktur verwendet wurden, wodurch getestet wird, ob die Datenstruktur ordnungsgemäß aufgestellt ist und das Modell funktioniert. Ein Beispielprozess zum Ausführen dieser Art der Validierung ist unten in Zusammenhang mit 3B beschrieben. Die dritte Art der Validierung kann quantifizieren, wie gut die gesunde Kontrollgruppe die Verteilung gesunder Proben verallgemeinert. Wenn die dritte Art der Validierung scheitert, dann lässt sich die gesunde Kontrollgruppe nicht gut auf die gesunde Verteilung verallgemeinern.
-
Eine vierte Art der Validierung testet mit Proben von einer nicht gesunden Validierungsgruppe. Das Analysesystem berechnet p-Werte und stellt die CDF für die nicht gesunde Validierungsgruppe auf. Mit einer nicht gesunden Validierungsgruppe erwartet das Analysesystem, für mindestens manche Proben CDF(x) > x zu sehen, oder anders ausgedrückt das Gegenteil von dem, was bei der zweiten Art der Validierung und der dritten Art der Validierung mit der gesunden Kontrollgruppe und der gesunden Validierungsgruppe erwartet wurde. Wenn die vierte Art der Validierung scheitert, dann zeigt dies an, dass das Modell die Anomalität, zu deren Identifizierung es gestaltet wurde, nicht angemessen identifiziert.
-
3B ist ein Flussdiagramm, das den zusätzlichen Schritt 340 des Validierens der Datenstruktur für die Kontrollgruppe von 3A gemäß einer Ausführungsform beschreibt. In dieser Ausführungsform des Schritts 340 des Validierens der Datenstruktur führt das Analysesystem die vierte Art von Validierungtest wie oben beschrieben durch, der eine Validierungsgruppe mit einer unterstellten ähnlichen Zusammensetzung von Personen, Proben und/oder Fragmenten wie die Kontrollgruppe nutzt. Wenn zum Beispiel das Analysesystem für die Kontrollgruppe gesunde Personen ohne Krebs auswählte, dann verwendet das Analysesystem in der Validierungsgruppe ebenfalls gesunde Personen ohne Krebs.
-
Das Analysesystem nimmt die Validierungsgruppe und erzeugt 100 einen Satz Methylierungszustandsvektoren, wie in 3A beschrieben. Das Analysesystem führt für jeden Methylierungszustandsvektor aus der Validierungsgruppe eine p-Wert-Berechnung durch. Der Prozess der p-Wert-Berechnung wird in Zusammenhang mit 4 und 5 näher beschrieben. Für jede Möglichkeit von Methylierungszustandsvektor berechnet das Analysesystem anhand der Datenstruktur der Kontrollgruppe eine Probabilität. Sobald die Probabilitäten für die Möglichkeiten von Methylierungszustandsvektoren berechnet sind, berechnet 350 das Analysesystem auf der Basis der berechneten Probabilitäten eine p-Wert-Punktzahl für diesen Methylierungszustandsvektor. Die p-Wert-Punktzahl stellt einen Erwartungsgrad dafür dar, diesen spezifischen Methylierungszustandsvektor und andere mögliche Methylierungszustandsvektoren mit noch geringeren Probabilitäten in der Kontrollgruppe zu finden. Eine niedrige p-Wert-Punktzahl entspricht dabei im Allgemeinen einem Methylierungszustandsvektor, der im Vergleich mit anderen Methylierungszustandsvektoren innerhalb der Kontrollgruppe relativ unerwartet ist, wobei eine hohe p-Wert-Punktzahl im Allgemeinen einem Methylierungszustandsvektor entspricht, der im Vergleich mit anderen in der Kontrollgruppe zu findenden Methylierungszustandsvektoren relativ eher erwartet wird. Sobald das Analysesystem eine p-Wert-Punktzahl für die Methylierungszustandsvektoren in der Validierungsgruppe erzeugt, stellt das Analysesystem eine kumulative Dichtefunktion (CDF) mit den p-Wert-Punktzahlen von der Validierungsgruppe auf 360. Das Analysesystem validiert 370 die Konsistenz der CDF, wie oben in der vierten Art von Validierungstests beschrieben.
-
Anomal methylierte Fragmente
-
4 ist ein Flussdiagramm, das einen Prozess 400 zum Identifizieren anomal methylierter Fragmente von einer Person gemäß einer Ausführungsform beschreibt. Ein Beispiel für Prozess 400 ist in 5 visuell illustriert und wird unteren in der Beschreibung von 4 weiter beschrieben. In Prozess 400 erzeugt 100 das Analysesystem Methylierungszustandsvektoren von cfDNA-Fragmenten der Person. Das Analysesystem geht mit jedem Methylierungszustandsvektor wie folgt um.
-
In manchen Ausführungsformen filtert das Analysesystem Fragmente mit unbestimmten Zuständen an einer oder mehreren CpG-Stellen. In solchen Ausführungsformen setzt das Analysesystem ein Vorhersagemodell um, um zum Filtern Fragmente zu identifizieren, die wahrscheinlich kein anomales Methylierungsmuster aufweisen. Für ein Probenfragment berechnet das Vorhersagemodell eine Probenprobabilität, dass der Methylierungszustandsvektor des Probenfragments auftritt, im Vergleich mit der Datenstruktur der gesunden Kontrollgruppe. Das Vorhersagemodell nimmt eine zufällige Stichprobe eines Teilsatzes möglicher Methylierungszustandsvektoren, die die CpG-Stellen im Methylierungszustandsvektor des Probenfragments einschließen. Das Vorhersagemodell berechnet für jeden der möglichen Methylierungszustandsvektoren in der Stichprobe eine entsprechende Probabilität. Probabilitätsberechnungen für den Methylierungszustandsvektor des Fragments und die Stichprobe möglicher Methylierungszustandsvektoren können gemäß einem Markow-Kettenmodell berechnet werden, wie unten in dem Unterabschnitt mit der Überschrift „Berechnung der p-Wert-Punktzahl“ beschrieben wird. Das Vorhersagemodell berechnet einen Anteil der Stichprobe möglicher Methylierungszustandsvektoren, der Probabilitäten von kleiner als oder gleich der Probenprobabilität entspricht. Das Vorhersagemodell erzeugt auf der Basis des berechneten Anteils eine geschätzte p-Wert-Punktzahl für das Fragment. Das Vorhersagemodell kann Fragmente filtern, die p-Wert-Punktzahlen über einem Schwellenwert entsprechen, und Fragmente behalten, die p-Wert-Punktzahlen unter dem Schwellenwert entsprechen.
-
In zusätzlichen Ausführungsformen kann das Vorhersagemodell eine Konfidenzprobabilität berechnen, die von dem Vorhersagemodell verwendet wird, um zu bestimmen, wann die Stichprobennahme fortzusetzen oder wann sie zu beenden ist. Die Konfidenzprobabilität beschreibt auf der Basis der geschätzten p-Wert-Punktzahl und der Probabilitäten der Stichprobe möglicher Methylierungszustandsvektoren, mit welcher Wahrscheinlichkeit die wahre p-Wert-Punktzahl des Fragments (die Berechnung der wahren p-Wert-Punktzahl wird unten in dem Unterabschnitt mit der Überschrift „Berechnung der p-Wert-Punktzahl“ näher beschrieben) unter einem Schwellenwert liegt. Das Vorhersagemodell kann eine Stichprobe eines oder mehrerer zusätzlicher möglicher Methylierungszustandsvektoren nehmen, während es iterativ die geschätzte p-Wert-Punktzahl und die Konfidenzprobabilität berechnet. Das Vorhersagemodell kann dann die Stichprobennahme beenden, wenn die Konfidenzprobabilität über einem Konfidenzschwellenwert liegt.
-
Für einen gegebenen Methylierungszustandsvektor zählt das Analysesystem alle Möglichkeiten von Methylierungszustandsvektoren auf 410, die die gleiche Anfangs-CpG-Stelle und die gleiche Länge (d. h. Satz CpG-Stellen) im Methylierungszustandsvektor aufweisen. Da jeder festgestellte Methylierungszustand methyliert oder unmethyliert sein kann, gibt es nur zwei mögliche Zustände an jeder CpG-Stelle, und somit hängt die Zählung distinkter Möglichkeiten von Methylierungszustandsvektoren von einer 2er-Potenz ab, sodass ein Methylierungszustandsvektor der Länge n mit 2n Möglichkeiten von Methylierungszustandsvektoren assoziiert wäre. Bei Methylierungszustandsvektoren, die für eine oder mehrere CpG-Stellen einen unbestimmten Zustand umfassen, kann das Analysesystem Möglichkeiten von Methylierungszustandsvektoren aufzählen 410, die nur CpG-Stellen in Betracht ziehen, die einen festgestellten Zustand aufweisen.
-
Das Analysesystem berechnet 420 die Probabilität, mit der eine jede Möglichkeit von Methylierungszustandsvektor für die identifizierte Anfangs-CpG-Stelle/Länge des Methylierungszustandsvektors festgestellt wird, indem es auf die Datenstruktur für die gesunde Kontrollgruppe zugreift. In einer Ausführungsform verwendet das Berechnen der Probabilität, eine gegebene Möglichkeit festzustellen, eine Markow-Kettenprobabilität, um die Berechnung der vereinten Probabilitäten zu modellieren, was unten mit Bezug auf 5 detaillierter beschrieben wird. In weiteren Ausführungsformen werden andere Berechnungsverfahren als Markow-Kettenprobabilitäten verwendet, um die Probabilität, mit der eine jede Möglichkeit von Methylierungszustandsvektor festgestellt wird, zu bestimmen.
-
Das Analysesystem berechnet 430 unter Verwendung der berechneten Probabilitäten für jede Möglichkeit eine p-Wert-Punktzahl für den Methylierungszustandsvektor. In einer Ausführungsform umfasst dies das Identifizieren der berechneten Probabilität, die der Möglichkeit entspricht, die mit dem fraglichen Methylierungszustandsvektor übereinstimmt. Spezifisch ist dies die Möglichkeit, die den gleichen Satz CpG-Stellen oder auf ähnliche Weise die gleiche Anfangs-CpG-Stelle und Länge wie der Methylierungszustandsvektor aufweist. Das Analysesystem addiert die berechneten Probabilitäten jeglicher Möglichkeiten mit einer Probabilität von weniger als oder gleich der identifizierten Probabilität, um die p-Wert-Punktzahl zu erzeugen.
-
Dieser p-Wert stellt die Probabilität dar, den Methylierungszustandsvektor des Fragments oder andere Methylierungszustandsvektoren, die in der gesunden Kontrollgruppe noch weniger wahrscheinlich sind, festzustellen. Eine niedrige p-Wert-Punktzahl entspricht dadurch im Allgemeinen einem Methylierungszustandsvektor, der bei einer gesunden Person selten ist und der verursacht, dass das Fragment als anomal methyliert, relativ zur gesunden Kontrollgruppe, gekennzeichnet wird. Eine hohe p-Wert-Punktzahl bezieht sich im Allgemeinen auf einen Methylierungszustandsvektor, dessen Vorhandensein, in einem relativen Sinn, bei einer gesunden Person erwartet wird. Wenn zum Beispiel die gesunde Kontrollgruppe eine nicht karzinomatöse Gruppe ist, zeigt ein niedriger p-Wert an, dass das Fragment relativ zu der krebsfreien Gruppe anomal methyliert ist und daher möglicherweise das Vorliegen von Krebs bei der Testperson anzeigt.
-
Wie oben berechnet das Analysesystem p-Wert-Punktzahlen für jeden von einer Vielzahl von Methylierungszustandsvektoren, die jeweils ein cfDNA-Fragment in der Testprobe darstellen. Um zu identifizieren, welche der Fragmente anomal methyliert sind, kann das Analysesystem den Satz Methylierungszustandsvektoren auf der Basis der p-Wert-Punktzahlen filtern 440. In einer Ausführungsform wird das Filtern durch Vergleichen der p-Wert-Punktzahlen mit einem Schwellenwert und Zurückhalten nur derjenigen Fragmente unter dem Schwellenwert durchgeführt. Diese Schwellen-p-Wert-Punktzahl könnte in der Größenordnung von 0,1, 0,01, 0,001, 0,0001 oder ähnlich liegen.
-
Gemäß Beispielresultaten von dem Prozess 400 kann das Analysesystem für Teilnehmer ohne Krebs im Training einen Median (Bereich) von 2800 (1500-12 000) Fragmenten mit anomalen Methylierungsmustern und für Teilnehmer mit Krebs im Training einen Median (Bereich) von 3000 (1200-220 000) Fragmenten mit anomalen Methylierungsmustern ergeben. Diese gefilterten Sätze von Fragmenten mit anomalen Methylierungsmustern können für die nachgelagerten Analysen verwendet werden, wie unten in dem Unterabschnitt mit der Überschrift „Filterung anomal methylierter Fragmente“ beschrieben.
-
Berechnung der p-Wert-Punktzahl
-
5 ist eine Illustration 500 einer Beispielberechnung der p-Wert-Punktzahl gemäß einer Ausführungsform. Um eine p-Wert-Punktzahl für einen gegebenen Methylierungszustandsvektor 505 zu berechnen, nimmt das Analysesystem den Methylierungszustandsvektor 505 und zählt Möglichkeiten von Methylierungszustandsvektoren auf 410. In diesem illustrativen Beispiel ist der Testmethylierungszustandsvektor 505 < M23, M24, M25, U26 >. Da die Länge des Testmethylierungszustandsvektors 505 4 beträgt, gibt es 24 Möglichkeiten von Methylierungszustandsvektoren, die die CpG-Stellen 23-26 einschließen. In einem allgemeinen Beispiel beträgt die Anzahl Möglichkeiten von Methylierungszustandsvektoren 2n, wobei n die Länge des Testmethylierungszustandsvektors oder alternativ die Länge des Gleitfensters (unten näher beschrieben) ist.
-
Das Analysesystem berechnet 420 Probabilitäten
515 für die aufgezählten Möglichkeiten von Methylierungszustandsvektoren. Da Methylierung bedingungsmäßig vom Methylierungszustand von CpG-Stellen in der Nähe abhängt, besteht eine Weise zum Berechnen der Probabilität, eine gegebene Möglichkeit von Methylierungszustandsvektor festzustellen, darin, das Markow-Kettenmodell zu verwenden. Im Allgemeinen weist ein Methylierungszustandsvektor wie <S
1, S
2 ... S
n>, wobei S den Methylierungszustand, ob methyliert (als M angegeben), unmethyliert (als U angegeben) oder unbestimmt (als I angegeben), angibt, eine vereinte Probabilität auf, die unter Verwendung der Kettenregel von Probabilitäten erweitert werden kann als:
-
Das Markow-Kettenmodell kann verwendet werden, um die Berechnung der bedingten Probabilitäten jeder Möglichkeit effizienter zu machen. In einer Ausführungsform wählt das Analysesystem eine Markow-Kettenordnung k aus, die dem entspricht, wie viele vorherige CpG-Stellen in dem Vektor (oder Fenster) bei der Berechnung der bedingten Probabilität zu betrachten sind, sodass die bedingte Probabilität als P(Sn | S1 ... Sn-1) ~ P(Sn | Sn-k-2 ... Sn-1) modelliert wird.
-
Um jede Markow-modellierte Probabilität für eine Möglichkeit von Methylierungszustandsvektor zu berechnen, greift das Analysesystem auf die Datenstruktur der Kontrollgruppe, spezifisch die Zählungen verschiedener Abfolgen von CpG-Stellen und Zuständen, zu. Um P(M
n | S
n-k-2 ... S
n-1) zu berechnen, nimmt das Analysesystem ein Verhältnis der gespeicherten Zählung der Anzahl Abfolgen aus der Datenstruktur, die mit < S
n-k-2 ... S
n-1, M
n > übereinstimmen, geteilt durch die Summe der gespeicherten Zählung der Anzahl Abfolgen aus der Datenstruktur, die mit < S
n-k-2 ... S
n-1, M
n > und < S
n-k-2 ... S
n-1, U
n > übereinstimmen. Somit ist P(M
n | S
n-k-2 ... S
n-1) ein berechnetes Verhältnis mit der Form:
-
Die Berechnung kann außerdem eine Glättung der Zählungen durch Anwenden einer A-priori-Verteilung umsetzen. In einer Ausführungsform ist die A-priori-Verteilung eine gleichförmige A-priori-Verteilung wie bei Laplace-Glättung. Als ein Beispiel dafür wird eine Konstante zum Zähler der obigen Gleichung hinzugezählt und wird eine andere Konstante (z. B. zweimal die Konstante im Zähler) zum Nenner hinzugezählt. In weiteren Ausführungsformen wird eine algorithmische Technik wie Kneser-Ney-Glättung verwendet.
-
In der Illustration werden die oben angegebenen Formeln auf den Testmethylierungszustandsvektor 505, der die Stellen 23-26 abdeckt, angewandt. Sobald die berechneten Probabilitäten 515 abgeschlossen sind, berechnet 430 das Analysesystem eine p-Wert-Punktzahl 525, die die Probabilitäten addiert, die kleiner als oder gleich der Probabilität der Möglichkeit eines Methylierungszustandsvektors sind, der mit dem Testmethylierungszustandsvektor 505 übereinstimmt.
-
In Ausführungsformen mit unbestimmten Zuständen, kann das Analysesystem eine p-Wert-Punktzahl berechnen, wobei es CpG-Stellen mit unbestimmtem Zustand im Methylierungszustandsvektor eines Fragments aufaddiert. Das Analysesystem identifiziert alle Möglichkeiten, die mit allen Methylierungszuständen des Methylierungszustandsvektors außer den unbestimmten Zuständen Konsens aufweisen. Das Analysesystem kann dem Methylierungszustandsvektor die Probabilität als eine Summe der Probabilitäten der identifizierten Möglichkeiten zuordnen. Als ein Beispiel berechnet das Analysesystem eine Probabilität eines Methylierungszustandsvektors von < M1, I2, U3 > als eine Summe der Probabilitäten für die Möglichkeiten von Methylierungszustandsvektoren von < M1, M2, U3 > und < M1, U2, U3 >, da der Methylierungszustand für die CpG-Stellen 1 und 3 festgestellt und im Konsens mit den Methylierungszuständen des Fragments an den CpG-Stellen 1 und 3 ist. Dieses Verfahren des Aufaddierens von CpG-Stellen mit unbestimmtem Zustand verwendet Berechnungen von Probabilitäten von Möglichkeiten bis zu 2i, wobei i die Anzahl unbestimmter Zustände im Methylierungszustandsvektor angibt. In zusätzlichen Ausführungsformen kann ein dynamischer Programmieralgorithmus umgesetzt werden, um die Probabilität eines Methylierungszustandsvektors mit einem oder mehreren unbestimmten Zuständen zu berechnen. Auf vorteilhafte Weise operiert der dynamische Programmieralgorithmus in linearer Rechenzeit.
-
In einer Ausführungsform kann die Rechenlast des Berechnens von Probabilitäten und/oder p-Wert-Punktzahlen durch Zwischenspeichern mindestens mancher Berechnungen weiter reduziert werden. Zum Beispiel kann das Analysesystem Berechnungen von Probabilitäten für Möglichkeiten von Methylierungszustandsvektoren (oder Fenstern davon) in flüchtigem oder dauerhaftem Arbeitsspeicher zwischenspeichern. Wenn andere Fragmente die gleichen CpG-Stellen aufweisen, gestattet das Zwischenspeichern der Möglichkeitsprobabilitäten die effiziente Berechnung von p-Wert-Punktzahlen ohne die zugrunde liegenden Möglichkeitsprobabilitäten erneut berechnen zu müssen. Gleichermaßen kann das Analysesystem für jede der Möglichkeiten von Methylierungszustandsvektoren, die mit einem Satz CpG-Stellen von einem Vektor (oder Fenster davon) assoziiert sind, p-Wert-Punktzahlen berechnen. Das Analysesystem kann die p-Wert-Punktzahlen zur Verwendung beim Bestimmen der p-Wert-Punktzahlen anderer Fragmente, die die gleichen CpG-Stellen umfassen, zwischenspeichern. Im Allgemeinen können die p-Wert-Punktzahlen von Möglichkeiten von Methylierungszustandsvektoren mit den gleichen CpG-Stellen verwendet werden, um die p-Wert-Punktzahl einer anderen der Möglichkeiten von dem gleichen Satz CpG-Stellen zu bestimmen.
-
Gleitfenster
-
In einer Ausführungsform verwendet 435 das Analysesystem ein Gleitfenster, um Möglichkeiten von Methylierungszustandsvektoren zu bestimmen und p-Werte zu berechnen. Anstatt für ganze Methylierungszustandsvektoren Möglichkeiten aufzuzählen und p-Werte zu berechnen, zählt das Analysesystem nur für ein Fenster sequenzieller CpG-Stellen Möglichkeiten auf und berechnet p-Werte, wobei das Fenster von kürzerer Länge (von CpG-Stellen) ist als mindestens manche Fragmente (anderenfalls würde das Fenster keinem Zweck dienen). Die Fensterlänge kann statisch, benutzerbestimmt, dynamisch oder auf andere Weise ausgewählt sein.
-
Beim Berechnen von p-Werten für einen Methylierungszustandsvektor, der größer als das Fenster ist, identifiziert das Fenster den sequenziellen Satz CpG-Stellen von dem Vektor innerhalb des Fensters, beginnend bei der ersten CpG-Stelle im Vektor. Das Analysesystem berechnet eine p-Wert-Punktzahl für das Fenster, das die erste CpG-Stelle umfasst. Das Analysesystem „schiebt“ das Fenster dann zur zweiten CpG-Stelle in dem Vektor und berechnet eine weitere p-Wert-Punktzahl für das zweite Fenster. Somit erzeugt jeder Methylierungszustandsvektor für eine Fenstergröße 1 und eine Methylierungsvektorlänge m m-/+1 p-Wert-Punktzahlen. Nach Abschließen der p-Wert-Berechnungen für jeden Abschnitt des Vektors wird die niedrigste p-Wert-Punktzahl von allen Gleitfenstern als die Gesamt-p-Wert-Punktzahl für den Methylierungszustandsvektor genommen. In einer weiteren Ausführungsform aggregiert das Analysesystem die p-Wert-Punktzahlen für die Methylierungszustandsvektoren, um eine Gesamt-p-Wert-Punktzahl zu erzeugen.
-
Verwendung des Gleitfensters hilft, die Anzahl aufgezählter Möglichkeiten von Methylierungszustandsvektoren und ihre entsprechenden Probabilitätsberechnungen, die anderenfalls durchgeführt werden müssten, zu reduzieren. Beispielprobabilitätsberechnungen sind in 5 gezeigt, doch im Allgemeinen nimmt die Anzahl Möglichkeiten von Methylierungszustandsvektoren mit der Größe des Methylierungszustandsvektors exponentiell um einen Faktor von 2 zu. Um ein realistisches Beispiel zu geben: Es ist möglich, dass Fragmente aufwärts von 54 CpG-Stellen aufweisen. Anstatt Probabilitäten für 2^54 (~ 1,8 × 10^16) Möglichkeiten zu errechnen, um eine einzige p-Wert-Punktzahl zu erzeugen, kann dass Analysesystem stattdessen (zum Beispiel) ein Fenster der Größe 5 verwenden, was in 50 p-Wert-Berechnungen für jedes der 50 Fenster des Methylierungszustandsvektors für dieses Fragment resultiert. Jede der 50 Berechnungen zählt 2^5 (32) Möglichkeiten von Methylierungszustandsvektoren auf, was insgesamt in 50 × 2^5 (1,6 × 10^3) Probabilitätsberechnungen resultiert. Dies resultiert in einer gewaltigen Reduzierung von durchzuführenden Berechnungen, ohne bedeutsame Auswirkung auf die genaue Identifizierung anomaler Fragmente. Dieser zusätzliche Schritt kann auch angewandt werden, wenn die Kontrollgruppe mit den Methylierungszustandsvektoren der Validierungsgruppe validiert 240 wird.
-
Filterung anomal methylierter Fragmente
-
In manchen Ausführungsformen wird ein zusätzlicher Filterungsschritt durchgeführt, um Genomregionen zu identifizieren, die zur Diagnose von Krebs oder einer Art oder eines Stadiums von Krebs anvisiert werden können.
-
Hypomethylierte und hypermethylierte Fragmente
-
Eine zusätzliche Analyse identifiziert 450 hypomethylierte Fragmente oder hypermethylierte Fragmente aus dem gefilterten Satz. Fragmente, die hypomethyliert bzw. hypermethyliert sind, können als Fragmente einer bestimmten Länge von CpG-Stellen (z. B. mehr als 3, 4, 5, 6, 7, 8, 9, 10 usw.) mit einem hohen Prozentsatz methylierter CpG-Stellen (z. B. mehr als 80 %, 85 %, 90 % oder 95 % oder ein beliebiger anderer Prozentsatz innerhalb des Bereichs von 50 %-100 %) bzw. einem hohen Prozentsatz unmethylierter CpG-Stellen (z. B. mehr als 80 %, 85 %, 90 % oder 95 % oder einem beliebigen anderen Prozentsatz innerhalb des Bereichs von 50 %-100 %) definiert werden. 6A-B, unten beschrieben, illustriert einen Beispielprozess zum Identifizieren dieser hypomethylierten oder hypermethylierten Abschnitte eines Genoms auf der Basis des Satzes anomal methylierter Fragmente.
-
Probabilistische Modelle
-
Gemäß einem zweiten Verfahren werden anomale Fragmente unter Nutzung probabilistischer Modelle von Methylierungsmustern weiter gefiltert, die entweder an Krebsart oder krebsfreie Art angepasst sind. Es berechnet das log-Quotenverhältnis, dass die anomalen Fragmente von einer Person Krebs im Allgemeinen oder besondere Arten von Krebs anzeigen. Das log-Quotenverhältnis kann berechnet werden, indem der log eines Verhältnisses einer Probabilität, karzinomatös zu sein, zu einer Probabilität, nicht karzinomatös zu sein (d. h. eins minus die Probabilität, karzinomatös zu sein), beide wie durch das angewandte 460 Klassifikationsmodell bestimmt, genommen wird.
-
In einer Ausführungsform des Aufteilens des Genoms teilt das Analysesystem das Genom in mehreren Stadien in Regionen auf. In einem ersten Stadium trennt das Analysesystem das Genom in Blöcke von CpG-Stellen. Jeder Block ist definiert, wenn es eine Trennung zwischen zwei benachbarten CpG-Stellen gibt, die einen gewissen Schwellenwert überschreitet, z. B. größer als 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp oder 1000 bp. Von jedem Block unterteilt das Analysesystem in einem zweiten Stadium jeden Block in Regionen einer bestimmten Länge, z. B. 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1000 bp, 1100 bp, 1200 bp, 1300 bp, 1400 bp oder 1500 bp. Das Analysesystem kann ferner benachbarte Regionen um einen Prozentsatz der Länge, z. B. 10 %, 20 %, 30 %, 40 %, 50 % oder 60 %, überlappen lassen.
-
Das Analysesystem analysiert für jede Region von DNA-Fragmenten abgeleitete Sequenzlesungen. Das Analysesystem kann Proben von Gewebe und/oder cfDNA mit hohem Signal bearbeiten. cfDNA-Proben mit hohem Signal können nach einem binären Klassifikationsmodell, nach Krebsstadium oder nach einer anderen Kennzahl bestimmt werden.
-
Für jede Krebsart und krebsfrei passt das Analysesystem ein getrenntes probabilistisches Modell für Fragmente an. In einem Beispiel ist jedes probabilistische Modell ein Mischverteilungsmodell, das eine Kombination einer Vielzahl von Mischungskomponenten beinhaltet, wobei jede Mischungskomponente ein Modell unabhängiger Stellen ist, bei dem angenommen wird, dass Methylierung an jeder CpG-Stelle unabhängig vom Methylierungsstatus an anderen CpG-Stellen ist.
-
In alternativen Ausführungsformen wird die Berechnung hinsichtlich jeder CpG-Stelle durchgeführt. Spezifisch wird eine erste Zählung bestimmt, die die Anzahl karzinomatöser Proben (cancer_count) ist, die ein anomal methyliertes DNA-Fragment umfassen, das dieses CpG überlappt, und wird eine zweite Zählung bestimmt, die die Gesamtanzahl Proben ist, die Fragmente enthalten, die diese CpG (total) in dem Satz überlappen. Genomregionen können auf der Basis der Anzahlen ausgewählt werden, zum Beispiel auf der Basis von Kriterien, die mit der Anzahl karzinomatöser Proben (cancer_count), die ein DNA-Fragment umfassen, das diese CpG überlappt, positiv korrelieren und mit der Gesamtanzahl Proben, die Fragmente enthalten, die diese CpG (total) in dem Satz überlappen, invers korrelieren.
-
Das Analysesystem kann ferner log-Wahrscheinlichkeitsverhältnisse („R“) für ein Fragment berechnen, die eine Wahrscheinlichkeit dafür anzeigen, dass das Fragment Krebs anzeigt, unter Betrachtung der verschiedenen Krebsarten mit den angepassten probabilistischen Modellen für jede Krebsart und die krebsfreie Art oder für ein Krebsursprungsgewebe. Die zwei Probabilitäten können von probabilistischen Modellen genommen werden, die für jede der Krebsarten und die krebsfreie Art angepasst sind, wobei die probabilistischen Modelle definiert sind, um eine Wahrscheinlichkeit zu berechnen, dass ein Methylierungsmuster in einem Fragment festgestellt wird, wobei jede der Krebsarten und die krebsfreie Art gegeben sind. Zum Beispiel können die probabilistischen Modelle für jede der Krebsarten und die krebsfreie Art angepasst sein.
-
11A-11C zeigen Grafiken verschiedener Krebsarten von verschiedenen Personen über unterschiedliche Stadien hinweg, wobei das log-Quotenverhältnis der anomalen Fragmente, die gemäß dem mit Bezug auf 4 oben beschriebenen Prozess identifiziert wurden, aufgetragen ist. Diese zugrunde liegenden Daten wurden mittels Bisulfit-Gesamtgenomsequenzierung von CCGA-Probanden erhalten (ClinicalTrial.gov-Identifikator: NCT02889978 (https://www.clinicaltrials.gov/ct2/show/NCT02889978); siehe Beispiel 3). Kurz, es wurden Daten von mehr als 1700 klinisch bewertbaren Personen erhalten, wobei über 1400 Personen gefiltert wurden, die nahezu 600 Personen ohne Krebs und knapp über 800 Personen mit Krebs umfassten. Die erste Grafik 1100 in 11A zeigt alle Krebsfälle über drei unterschiedliche Stufen - kein Krebs, Stadium I/II/III und Stadium IV - hinweg. Das Krebs-Iog-Quotenverhältnis für Stadium IV ist signifikant größer als diejenigen für Stadium I/II/II und krebsfrei. Die zweite Grafik 1110 in 11A zeigt Brustkrebsfälle über alle Stadien von Krebs und krebsfrei hinweg, mit einer ähnlichen Progression des log-Quotenverhältnisses, das durch die progressiven Krebsstadien zunimmt. Die dritte Grafik 1120 in 11B zeigt Unterarten von Brustkrebs. Die Unterarten HER2+ und TNBC sind merklich weiter verstreut, wohingegen HR+/HER2- näher bei ~ 1 konzentriert ist. Die vierte Grafik 1130 in 11C zeigt Lungenkrebsfälle über alle Stadien von Krebs und krebsfrei hinweg mit stetiger Progression durch progressive Stadien des Lungenkrebses. Die fünfte Grafik 1140 zeigt Kolorektalkrebsfälle über alle Stadien von Krebs und krebsfrei hinweg, die wiederum stetige Progression durch progressive Stadien des Kolorektalkrebses zeigen. Die sechste Grafik 1150 in 11C zeigt Prostatakrebsfälle über alle Stadien von Krebs und krebsfrei hinweg. Dieses Beispiel unterscheidet sich von den meisten zuvor illustrierten, nur Stadium IV ist signifikant unterschiedlich verglichen mit den anderen Stadien I/II/III und krebsfrei.
-
Krebs anzeigende Genomregionen und Klassifikatoren
-
Das Analysesystem identifiziert 460 Krebs anzeigende Genomregionen. Um diese informationshaltigen Regionen zu identifizieren, berechnet das Analysesystem einen Informationsgewinn für jede Genomregion oder spezifischer jede CpG-Stelle, die eine Fähigkeit beschreibt, zwischen verschiedenen Ergebnissen zu unterscheiden.
-
Ein Verfahren zum Identifizieren von Genomregionen, das zwischen krebsbefallener Art und krebsfreier Art zu unterscheiden vermag, nutzt ein trainiertes Klassifikationsmodell, das auf den Satz anomal methylierter DNA-Moleküle oder -Fragmente angewandt werden kann, die einer karzinomatösen oder nicht karzinomatösen Gruppe entsprechen oder davon abgeleitet sind. Das trainierte Klassifikationsmodell kann trainiert sein, um eine beliebige Erkrankung von Interesse, die anhand der Methylierungszustandsvektoren identifiziert werden kann, zu identifizieren.
-
In einer Ausführungsform ist das trainierte Klassifikationsmodell ein binärer Klassifikator, der auf der Basis von Methylierungszuständen für cfDNA-Fragmente oder Genomsequenzen, die von einer Personenkohorte mit Krebs oder einer Krebsart und einer gesunden Personenkohorte ohne Krebs erhalten wurden, trainiert wurde, und dann verwendet wird, um auf der Basis von Methylierungszustandsvektoren die Probabilität, mit der eine Testperson Krebs, eine Krebsart oder keinen Krebs hat, zu klassifizieren. In weiteren Ausführungsformen können unterschiedliche Klassifikatoren unter Verwendung von Personenkohorten trainiert werden, die bekanntermaßen einen besonderen Krebs (z. B. Brust, Lunge, Prostata usw.) aufweisen, die bekanntermaßen Krebs eines besonderen Ursprungsgewebes aufweisen, von dem vermutet wird, dass der Krebs dort seinen Ursprung hat, oder die bekanntermaßen unterschiedliche Stadien eines besonderen Krebses (z. B. Brust, Lunge, Prostata usw.) aufweisen. In diesen Ausführungsformen können unterschiedliche Klassifikatoren unter Verwendung von Sequenzlesungen trainiert werden, die von Proben erhalten werden, die hinsichtlich Tumorzellen von Personenkohorten, die bekanntermaßen einen besonderen Krebs (z. B. Brust, Lunge, Prostata usw.) aufweisen, angereichert sind. Die Fähigkeit einer jeden Genomregion, in dem Klassifikationsmodell zwischen Krebsart und krebsfreier Art zu unterscheiden, wird verwendet, um eine Rangordnung der Genomregionen hinsichtlich der Klassifikationsleistung zu erstellen von die meisten Informationen enthaltend hin zu die wenigsten Informationen enthaltend. Das Analysesystem kann von der Rangordnung gemäß dem Informationsgewinn bei der Klassifizierung zwischen krebsfreier Art und Krebsart Genomregionen identifizieren. Sonden können gestaltet 470 werden, um die identifizierten Genomregionen anzuvisieren.
-
Errechnen des Informationsgewinns von hypomethylierten und hypermethylierten Fragmenten, die Krebs anzeigen
-
Bei Krebs anzeigenden Fragmenten kann das Analysesystem gemäß einer Ausführungsform gemäß einem in 6A illustrierten Prozess 600 einen Klassifikator trainieren. Der Prozess 600 greift auf zwei Trainingsgruppen von Proben zu - einer krebsfreien Gruppe und einer krebsbefallenen Gruppe - und erhält 605 einen krebsfreien Satz Methylierungszustandsvektoren und einen krebsbefallenen Satz Methylierungszustandsvektoren, beinhaltend anomal methylierte Fragmente, z. B. über Schritt 440 von dem Prozess 400.
-
Der Prozess bestimmt 610 für jeden Methylierungszustandsvektor, ob der Methylierungszustandsvektor Krebs anzeigt. Hier können Krebs anzeigende Fragmente als hypermethylierte oder hypomethylierte Fragmente definiert sein, bestimmt wenn mindestens eine gewisse Anzahl CpG-Stellen einen besonderen Zustand (methyliert bzw. unmethyliert) aufweist und/oder einen Schwellenprozentsatz Stellen aufweist, die in dem besonderen Zustand sind (wieder methyliert bzw. unmethyliert). In einem Beispiel werden cfDNA-Fragmente als hypomethyliert bzw. hypermethyliert identifiziert, wenn das Fragment mindestens 5 CpG-Stellen überlappt und mindestens 80 % seiner CpG-Stellen methyliert sind bzw. mindestens 80 % unmethyliert sind. In einer alternativen Ausführungsform betrachtet der Prozess Abschnitte des Methylierungszustandsvektors und bestimmt, ob der Abschnitt hypomethyliert oder hypermethyliert ist, und kann diesen Abschnitt als hypomethyliert oder hypermethyliert unterscheiden. Dieses Alternativverfahren löst fehlende Methylierungszustandsvektoren auf, die von großer Größe sind aber mindestens eine Region dichter Hypomethylierung oder Hypermethylierung enthalten. Dieser Prozess des Definierens von Hypomethylierung und Hypermethylierung kann in Schritt 450 von 4 angewandt werden. In einer weiteren Ausführungsform können die Krebs anzeigenden Fragmente gemäß Wahrscheinlichkeiten definiert sein, die von trainierten probabilistischen Modellen ausgegeben werden.
-
In einer Ausführungsform erzeugt 620 der Prozess eine Hypomethylierungspunktzahl (Phypo) und eine Hypermethylierungspunktzahl (Phyper) pro CpG-Stelle im Genom. Um eine der Punktzahlen an einer gegebenen CpG-Stelle zu erzeugen, nimmt der Klassifikator vier Zählungen an dieser CpG-Stelle - (1) Zählung von als hypomethyliert gekennzeichneten (Methylierungszustands)vektoren des krebsbefallenen Satzes, die die CpG-Stelle überlappen; (2) Zählung von als hypermethyliert gekennzeichneten Vektoren des krebsbefallenen Satzes, die die CpG-Stelle überlappen; (3) Zählung von als hypomethyliert gekennzeichneten Vektoren des krebsfreien Satzes, die die CpG-Stelle überlappen; und (4) Zählung von als hypermethyliert gekennzeichneten Vektoren des krebsfreien Satzes, die die CpG-Stelle überlappen. Außerdem kann der Prozess diese Zähler für jede Gruppe normalisieren, um Varianz bei der Gruppengröße zwischen der krebsfreien Gruppe und der krebsbefallenen Gruppe zu berücksichtigen. In alternativen Ausführungsformen, bei denen Krebs anzeigende Fragmente allgemeiner verwendet werden, können die Punktzahlen breiter definiert sein als Zählungen von Krebs anzeigenden Fragmenten in jeder Genomregion und/oder an jeder CpG-Stelle.
-
Spezifisch nimmt der Prozess in einer Ausführungsform ein Verhältnis von (1) zu (1) addiert mit (3), um die Hypomethylierungspunktzahl an einer gegebenen CpG-Stelle zu erzeugen 620. Auf ähnliche Weise wird die Hypermethylierungspunktzahl durch Nehmen eines Verhältnisses von (2) zu (2) und (4) berechnet. Außerdem können diese Verhältnisse mit einer zusätzlichen Glättungstechnik berechnet werden, wie oben erörtert. Die Hypomethylierungspunktzahl und die Hypermethylierungspunktzahl beziehen sich auf eine Schätzung einer Krebsprobabilität bei gegebenem Vorliegen von Hypomethylierung oder Hypermethylierung von Fragmenten von dem krebsbefallenen Satz.
-
Der Prozess erzeugt 630 für jeden anomalen Methylierungszustandsvektor eine aggregierte Hypomethylierungspunktzahl und eine aggregierte Hypermethylierungspunktzahl. Die aggregierten Hyper- und Hypomethylierungspunktzahlen werden auf der Basis der Hyper- und Hypomethylierungspunktzahlen der CpG-Stellen in dem Methylierungszustandsvektor bestimmt. In einer Ausführungsform werden die aggregierten Hyper- und Hypomethylierungspunktzahlen als die größten Hyper- bzw. Hypomethylierungspunktzahlen der Stellen in jedem Zustandsvektor zugeordnet. In alternativen Ausführungsformen könnten die aggregierten Punktzahlen jedoch auf Mittelwerten, Medianwerten oder anderen Berechnungen basieren, die die Hyper- /Hypomethylierungspunktzahlen der Stellen in jedem Vektor verwenden.
-
Der Prozess 600 erstellt eine Rangordnung 640 aller Methylierungszustandsvektoren dieser Person anhand ihrer aggregierten Hypomethylierungspunktzahl und anhand ihrer aggregierten Hypermethylierungspunktzahl, was in zwei Rangordnungen pro Person resultiert. Der Prozess wählt aggregierte Hypomethylierungspunktzahlen aus der Hypomethylierungsrangordnung und aggregierte Hypermethylierungspunktzahlen aus der Hypermethylierungsrangordnung aus. Mit den ausgewählten Punktzahlen erzeugt 650 der Klassifikator für jede Person einen einzigen Merkmalsvektor. In einer Ausführungsform werden die aus beiden Rangordnungen ausgewählten Punktzahlen mit einer festen Reihenfolge, die für jeden erzeugten Merkmalsvektor für jede Person in jeder der Trainingsgruppen gleich ist, ausgewählt. Als ein Beispiel wählt der Klassifikator in einer Ausführungsform aus jeder Rangordnung die erste, die zweite, die vierte und die achte aggregierte Hypermethylierungspunktzahl aus und verfährt auf ähnliche Weise für jede aggregierte Hypomethylierungspunktzahl und schreibt diese Punktzahlen in den Merkmalsvektor für diese Person.
-
Der Prozess trainiert 660 einen binären Klassifikator, zwischen den krebsbefallenen und krebsfreien Trainingsgruppen Merkmalsvektoren zu unterscheiden. Im Allgemeinen kann eine beliebige einer Anzahl Klassifizierungstechniken verwendet werden. In einer Ausführungsform ist der Klassifikator ein nicht linearer Klassifikator. In einer spezifischen Ausführungsform ist der Klassifikator ein nicht linearer Klassifikator, der eine L2-regularisierte logistische Kernelregression mit einer Gauß'schen radialen Basisfunktion (RBF) als Kernel nutzt.
-
Spezifisch werden in einer Ausführungsform die Anzahl krebsfreier Proben oder unterschiedlicher Krebsart(en) (nandere) und die Anzahl krebsbefallener Proben oder Krebsart(en) (nKrebs) mit einem anomal methylierten Fragment, das eine CpG-Stelle überlappt, gezählt. Dann wird die Probabilität, dass eine Probe krebsbefallen ist, mittels einer Punktzahl („S“) abgeschätzt, die mit nKrebs positiv korreliert und mit nandere invers korreliert. Die Punktzahl kann unter Verwendung der folgenden Gleichung berechnet werden: (nKrebs + 1)/(nKrebs + nandere + 2) oder (nKrebs)/(nKrebs + nandere). Das Analysesystem errechnet 670 für jede Krebsart und für jede Genomregion oder CpG-Stelle einen Informationsgewinn, um zu bestimmen, ob die Genomregion oder CpG-Stelle Krebs anzeigt. Der Informationsgewinn wird für Trainingsproben mit einer gegebenen Krebsart verglichen mit allen anderen Proben errechnet. Zum Beispiel werden zwei zufällige Variablen „anomales Fragment“ („AF“) und „Krebsart“ („KA“) verwendet. In einer Ausführungsform ist AF eine binäre Variable, die anzeigt, ob es ein anomales Fragment gibt, das eine gegebene CpG-Stelle in einer gegebenen Probe überlappt, wie für die Anomaliepunktzahl/den Merkmalsvektor oben bestimmt. KA ist eine zufällige Variable, die anzeigt, ob der Krebs von einer besonderen Art ist. Das Analysesystem errechnet die wechselseitigen Informationen hinsichtlich KA bei gegebenem AF. Das heißt, wie viele Einzelinformationen über die Krebsart gewonnen werden, wenn bekannt ist, ob es ein anomales Fragment gibt, das eine besondere CpG-Stelle überlappt.
-
Für eine gegebene Krebsart verwendet das Analysesystem diese Informationen, um eine Rangordnung der CpG-Stellen auf der Basis, wie krebsspezifisch sie sind, zu erstellen. Diese Prozedur wird für alle betrachteten Krebsarten wiederholt. Wenn eine besondere Region üblicherweise in Trainingsproben eines gegebenen Krebses, aber nicht in Trainingsproben anderer Krebsarten oder in gesunden Trainingsproben anomal methyliert ist, dann weisen CpG-Stellen, die von diesen anomalen Fragmenten überlappt werden, tendenziell hohe Informationsgewinne für die gegebene Krebsart auf. Die in eine Rangordnung gebrachten CpG-Stellen für jede Krebsart werden zur Verwendung im Krebsklassifikator auf der Basis ihres Rangs gierig zu einem ausgewählten Satz CpG-Stellen hinzugefügt (ausgewählt).
-
Errechnen des paarweisen Informationsgewinns von mit probabilistischen Modellen identifizierten Krebs anzeigenden Fragmenten
-
Mit Krebs anzeigenden Fragmenten, die gemäß dem zweiten Verfahren unter den probabilistischen Modellen identifiziert wurden, kann die Analyse gemäß dem Prozess 680 in 6B Genomregionen identifizieren. Das Analysesystem definiert 690 für jede Probe, für jede Region, für jede Krebsart einen Merkmalsvektor anhand einer Zählung von DNA-Fragmenten mit einem berechneten log-Wahrscheinlichkeitsverhältnis, dass das Fragment Krebs anzeigt, über einer Vielzahl von Schwellenwerten, wobei jede Zählung ein Wert in dem Merkmalsvektor ist. In einer Ausführungsform zählt das Analysesystem die Anzahl Fragmente mit einem log-Wahrscheinlichkeitsverhältnis über einem oder einer Vielzahl möglicher Schwellenwerte, die in einer Probe in einer Region für jede Krebsart vorhanden sind. Das Analysesystem definiert für jede Probe einen Merkmalsvektor anhand einer Zählung von DNA-Fragmenten für jede Genomregion für jede Krebsart, die ein berechnetes log-Wahrscheinlichkeitsverhältnis für das Fragment über einer Vielzahl von Schwellenwerten bereitstellt, wobei jede Zählung ein Wert in dem Merkmalsvektor ist. Das Analysesystem verwendet die definierten Merkmalsvektoren, um für jede Genomregion eine Informationsgehaltspunktzahl zu berechnen, die die Fähigkeit dieser Genomregion beschreibt, zwischen jedem Paar von Krebsarten zu unterscheiden. Für jedes Paar von Krebsarten erstellt das Analysesystem eine Rangordnung von Regionen auf der Basis der Informationsgehaltspunktzahlen. Das Analysesystem kann Regionen auf der Basis der Rangordnung gemäß Informationsgehaltspunktzahlen auswählen.
-
Das Analysesystem berechnet 695 für jede Region eine Informationsgehaltspunktzahl, die die Fähigkeit dieser Region beschreibt, zwischen jedem Paar von Krebsarten zu unterscheiden. Für jedes Paar distinkter Krebsarten kann das Analysesystem eine Art als eine positive Art und die andere als eine negative Art spezifizieren. In einer Ausführungsform basiert die Fähigkeit einer Region, zwischen der positiven Art und der negativen Art zu unterscheiden, auf wechselseitigen Informationen, berechnet unter Verwendung des geschätzten Bruchteils von cfDNA-Proben der positiven Art und der negativen Art, für die erwartet würde, dass das Merkmal im endgültigen Assay ungleich null ist, d. h. mindestens eines Fragments dieser Schicht, das in einem gezielten Methylierungsassay sequenziert werden würde. Diese Bruchteile werden unter Verwendung der festgestellten Raten, mit denen das Merkmal in gesunder cfDNA und in cfDNA mit hohem Signal und/oder Tumorproben einer jeden Krebsart auftritt, geschätzt. Wenn zum Beispiel ein Merkmal häufig in gesunder cfDNA auftritt, dann wird geschätzt, dass es auch in cfDNA irgendeiner Krebsart häufig auftritt, und würde wahrscheinlich in einer niedrigen Informationsgehaltspunktzahl resultieren. Das Analysesystem kann für jedes Paar Krebsarten eine bestimmte Anzahl Regionen aus der Rangordnung wählen, z. B. 1024.
-
In zusätzlichen Ausführungsformen identifiziert das Analysesystem ferner überwiegend hypermethylierte oder hypomethylierte Regionen aus der Rangordnung von Regionen. Das Analysesystem kann den Satz Fragmente in der (den) positiven Art(en) für eine Region, die als informationshaltig identifiziert wurde, laden. Das Analysesystem bewertet anhand der geladenen Fragmente, ob die geladenen Fragmente überwiegend hypermethyliert oder hypomethyliert sind. Wenn die geladenen Fragmente überwiegend hypermethyliert oder hypomethyliert sind, kann das Analysesystem Sonden auswählen, die dem überwiegenden Methylierungsmuster entsprechen. Wenn die geladenen Fragmente nicht überwiegend hypermethyliert oder hypomethyliert sind, kann das Analysesystem eine Mischung von Sonden verwenden, um sowohl auf Hypermethylierung als auch auf Hypomethylierung abzuzielen. Das Analysesystem kann ferner einen Minimalsatz CpG-Stellen identifizieren, die zu mehr als einem gewissen Prozentsatz der Fragmente überlappen.
-
In weiteren Ausführungsformen kennzeichnet das Analysesystem, nachdem es auf der Basis von Informationsgehaltspunktzahlen eine Rangordnung der Regionen erstellt hat, jede Region mit dem niedrigsten Informationsgehaltsrang über alle Paare von Krebsarten hinweg. Wenn eine Region zum Beispiel die Region mit dem zehnthöchsten Informationsgehalt zum Unterscheiden von Brust von Lunge und mit dem fünfthöchsten Informationsgehalt zum Unterscheiden von Brust von Kolorektal wäre, dann würde ihr insgesamt eine Kennzeichnung von „5“ gegeben. Das Analysesystem kann Sonden gestalten, indem es mit den Regionen mit der niedrigsten Kennzeichnung anfängt, während es Regionen zum Panel hinzufügt, z. B. bis das Größenbudget des Panels erschöpft ist.
-
Fehltreffer-Genomregionen
-
In manchen Ausführungsformen werden Sonden, die auf ausgewählte Genomregionen abzielen, auf der Basis der Anzahl ihrer Fehltreffer-Regionen weiter gefiltert 475. Dies ist zum Aussondern von Sonden, die zu viele cfDNA-Fragmente herabziehen, die Fehltreffer-Genomregionen entsprechen oder davon abgeleitet sind. Der Ausschluss von Sonden mit vielen Fehltreffer-Regionen kann wertvoll sein, indem für eine gegebene Menge an Sequenzierung die Rate von Fehltreffern gesenkt und die Zielabdeckung erhöht wird.
-
Eine Fehltreffer-Genomregion ist eine Genomregion, die ausreichend Homologie zu einer Zielgenomregion aufweist, sodass von Fehltreffer-Genomregionen abgeleitete DNA-Moleküle oder -Fragmente an eine Sonde hybridisiert und von ihr herabgezogen werden, die gestaltet ist, um an eine Zielgenomregion zu hybridisieren. Eine Fehltreffer-Genomregion kann eine Genomregion sein, die entlang mindestens 35 bp, 40 bp, 45 bp, 50 bp, 60 bp, 70 bp oder 80 bp mit einer Übereinstimmungsrate von mindestens 80 %, 85 %, 90 %, 95 % oder 97 % mit einer Sonde aliniert. In einer Ausführungsform ist eine Fehltreffer-Genomregion eine Genomregion, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit einer Sonde aliniert. Verschiedene nach dem Stand der Technik bekannte Verfahren können herangezogen werden, um Fehltreffer-Genomregionen auszusondern.
-
Ausführliches Durchsuchen des Genoms, um alle Fehltreffer-Genomregionen zu finden, kann rechnerisch eine Herausforderung sein. In einer Ausführungsform wird eine k-mer-Beimpfungsstrategie (die eine oder mehrere Fehlpaarungen gestatten kann) mit lokaler Alinierung an den Beimpfungsorten kombiniert. In diesem Fall kann ausführliches Durchsuchen nach guten Alinierungen auf der Basis der k-mer-Länge, der gestatteten Anzahl Fehlpaarungen und der Anzahl k-mer-Keimtreffer an einem besonderen Ort garantiert werden. Dies erfordert das dynamische Programmieren örtlicher Alinierung an einer großen Anzahl Orte, sodass dieser Ansatz hochgradig optimiert ist, um Vektor-CPU-Anweisungen (z. B. AVX2, AVX512) zu verwenden, und auch über viele Prozessorkerne innerhalb einer Maschine und auch über viele durch ein Netzwerk vernetzte Maschinen hinweg parallelisiert werden kann. Ein gewöhnlicher Fachmann wird erkennen, dass Modifikationen und Variationen dieses Ansatzes zum Zweck des Identifizierens von Fehltreffer-Genomregionen umgesetzt werden können.
-
In manchen Ausführungsformen werden Sonden, die Sequenzhomologie zu Fehltreffer-Genomregionen oder DNA-Molekülen, die Fehltreffer-Genomregionen entsprechen oder davon abgeleitet sind, aufweisen und mehr als eine Schwellenwertanzahl beinhalten, aus dem Panel ausgeschlossen (oder gefiltert). Zum Beispiel werden Sonden ausgeschlossen, die zu Fehltreffer-Genomregionen oder DNA-Molekülen, die Fehltreffer-Genomregionen entsprechen oder davon abgeleitet sind, Sequenzhomologie von mehr als 30, mehr als 25, mehr als 20, mehr als 18, mehr als 15, mehr als 12, mehr als 10 oder mehr als 5 Fehltreffer-Regionen aufweisen.
-
In manchen Ausführungsformen werden Sonden abhängig von der Anzahl Fehltreffer-Regionen in 2, 3, 4, 5, 6 oder mehr getrennte Gruppen geteilt. Zum Beispiel werden Sonden, die zu keinen Fehltreffer-Regionen oder DNA-Molekülen, die Fehltreffer-Regionen entsprechen oder davon abgeleitet sind, Sequenzhomologie aufweisen, einer Gruppe hoher Qualität zugeordnet, werden Sonden, die zu 1-18 Fehltreffer-Regionen oder DNA-Molekülen, die 1-18 Fehltreffer-Regionen entsprechen oder davon abgeleitet sind, Sequenzhomologie aufweisen, einer Gruppe niedriger Qualität zugeordnet und werden Sonden, die zu mehr als 19 Fehltreffer-Regionen oder DNA-Molekülen, die 19 Fehltreffer-Regionen entsprechen oder davon abgeleitet sind, Sequenzhomologie aufweisen, einer Gruppe schlechter Qualität zugeordnet. Für die Gruppierung können andere Grenzwerte verwendet werden.
-
In manchen Ausführungsformen werden Sonden in der Gruppe niedrigster Qualität ausgeschlossen. In manchen Ausführungsformen werden Sonden in anderen Gruppen als der Gruppe höchster Qualität ausgeschlossen. In manchen Ausführungsformen werden für die Sonden in jeder Gruppe getrennte Panels hergestellt. In manchen Ausführungsformen werden alle Sonden auf das gleiche Panel gesetzt, aber wird auf der Basis der zugeordneten Gruppe eine getrennte Analyse durchgeführt.
-
In manchen Ausführungsformen beinhaltet ein Panel eine größere Anzahl Sonden hoher Qualität als die Anzahl Sonden in niedrigeren Gruppen. In manchen Ausführungsformen beinhaltet ein Panel eine kleinere Anzahl Sonden schlechter Qualität als die Anzahl Sonden in anderen Gruppen. In manchen Ausführungsformen sind mehr als 95 %, 90 %, 85 %, 80 %, 75 % oder 70 % der Sonden in einem Panel Sonden hoher Qualität. In manchen Ausführungsformen sind weniger als 35 %, 30 %, 20 %, 10 %, 5 %, 4 %, 3 %, 2 % oder 1 % der Sonden in einem Panel Sonden niedriger Qualität. In manchen Ausführungsformen sind weniger als 5 %, 4 %, 3 %, 2 % oder 1 % der Sonden in einem Panel Sonden schlechter Qualität. In manchen Ausführungsformen umfasst ein Panel keine Sonden schlechter Qualität.
-
In manchen Ausführungsformen werden Sonden mit unter 50 %, unter 40 %, unter 30 %, unter 20 %, unter 10 % oder unter 5 % ausgeschlossen. In manchen Ausführungsformen werden Sonden mit über 30 %, über 40 %, über 50 %, über 60 %, über 70 %, über 80 % oder über 90 % selektiv in ein Panel aufgenommen.
-
Verfahren der Verwendung des Krebs-Assay-Panels
-
In noch einem weiteren Aspekt werden Verfahren der Verwendung eines Krebs-Assay-Panels bereitgestellt. Die Verfahren können Schritte des Behandelns von DNA-Molekülen oder -Fragmenten, um unmethylierte Cytosine in Uracile umzuwandeln (z. B. unter Verwendung von Bisulfitbehandlung), des Anwendens eines Krebspanels (wie hierin beschrieben) auf die umgewandelten DNA-Moleküle oder -Fragmente, des Anreicherns eines Teilsatzes umgewandelter DNA-Moleküle oder -Fragmente, die an die Sonden in dem Panel hybridisieren (oder binden), und des Sequenzierens der angereicherten cfDNA-Fragmente beinhalten. Der Schritt des Anwendens des Krebspanels auf die umgewandelten DNA-Moleküle oder - Fragmente wird unter einer Bedingung durchgeführt, wobei die umgewandelten DNA-Moleküle oder -Fragmente an Sonden in dem Krebspanel binden können. Somit können an die Sonden gebundene umgewandelte DNA-Moleküle oder - Fragmente selektiv isoliert werden. In manchen Ausführungsformen können die Sequenzlesungen mit einem Referenzgenom (z. B. einem menschlichen Referenzgenom) verglichen werden, was die Identifizierung von Methylierungzuständen an einer Vielzahl von CpG-Stellen innerhalb der DNA-Moleküle oder -Fragmente gestattet, und somit die Krebsdiagnose betreffende Informationen bereitstellen.
-
Probenbearbeitung
-
7A ist ein Flussdiagramm eines Verfahrens zum Vorbereiten einer Nukleinsäureprobe zum Analysieren gemäß einer Ausführungsform. Das Verfahren umfasst, ist aber nicht beschränkt auf, die folgenden Schritte. Zum Beispiel kann jeder Schritt des Verfahrens einen Quantifizierungs-Unterschritt zur Qualitätskontrolle oder andere einem Fachmann bekannte Labor-Assay-Prozeduren beinhalten.
-
In Schritt 105 wird einer Person eine Nukleinsäureprobe (DNA oder RNA) entnommen. In der vorliegenden Offenbarung können DNA und RNA austauschbar verwendet werden, sofern nicht anders angezeigt. Das heißt, die hierin beschriebenen Ausführungsformen können auf beide Arten von Nukleinsäuresequenzen, DNA und RNA, anwendbar sein. Jedoch können sich die hierin beschriebenen Beispiele zum Zweck der Klarheit und Erläuterung auf DNA konzentrieren. Die Probe kann ein beliebiger Teilsatz des menschlichen Genoms, einschließlich des ganzen Genoms, sein. Die Probe kann Blut, Plasma, Serum, Urin, Kot, Speichel, andere Arten von Körperflüssigkeiten oder eine beliebige Kombination davon umfassen. In manchen Ausführungsformen können Verfahren zum Abnehmen einer Blutprobe (z. B. Spritze oder Stich in den Finger) weniger invasiv sein als Prozeduren zum Erhalten einer Gewebebiopsie, die eine Operation erfordern können. Die entnommene Probe kann cfDNA und/oder ctDNA beinhalten. Bei gesunden Individuen kann der menschliche Körper cfDNA und sonstigen Zellabfall auf natürliche Weise beseitigen. Wenn eine Person einen Krebs oder eine Krankheit aufweist, kann ctDNA in einer entnommenen Probe in einem nachweisbaren Niveau für die Diagnose vorhanden sein.
-
In Schritt 110 werden die cfDNA-Fragmente behandelt, um unmethylierte Cytosine in Uracile umzuwandeln. In einer Ausführungsform verwendet das Verfahren eine Bisulfitbehandlung der DNA, welche die unmethylierten Cytosine in Uracile umwandelt, ohne die methylierten Cytosine umzuwandeln. Zum Beispiel wird zur Bisulfitumwandlung ein kommerzielles Kit wie das EZ DNA Methylation™ - Gold, EZ DNA Methylation™ - Direct oder ein Kit EZ DNA Methylation™ - Lightning (verfügbar von Zymo Research Corp (Irvine, CA)) verwendet. In einer weiteren Ausführungsform wird die Umwandlung unmethylierter Cytosine in Uracile unter Verwendung einer enzymatischen Reaktion bewerkstelligt. Zum Beispiel kann die Umwandlung ein kommerziell verfügbares Kit zur Umwandlung unmethylierter Cytosine in Uracile, wie APOBEC-Seq (NEBiolabs, Ipswich, MA), verwenden.
-
In Schritt 115 wird eine Sequenzierbibliothek vorbereitet. In einem ersten Schritt wird unter Verwendung einer ssDNA-Ligationsreaktion ein ssDNA-Adapter zu dem 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls hinzugefügt. In einer Ausführungsform verwendet die ssDNA-Ligationsreaktion CircLigase II (Epicentre), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren, wobei das 5'-Ende des Adapters phosphoryliert ist und die bisulfitumgewandelte ssDNA dephosphoryliert wurde (d. h. das 3'-Ende weist eine Hydroxylgruppe auf). In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion Thermostable 5' AppDNA/RNA Ligase (verfügbar von New England BioLabs (Ipswich, MA)), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In diesem Beispiel ist der erste UMI-Adapter am 5'-Ende adenyliert und am 3'-Ende blockiert. In einer weiteren Ausführungsform verwendet die ssDNA-Ligationsreaktion eine T4 RNA Ligase (verfügbar von New England BioLabs), um den ssDNA-Adapter an das 3'-OH-Ende eines bisulfitumgewandelten ssDNA-Moleküls zu ligieren. In einem zweiten Schritt wird in einer Verlängerungsreaktion ein zweiter Strang DNA synthetisiert. Zum Beispiel wird ein Verlängerungsprimer, der an eine von dem ssDNA-Adapter umfasste Primersequenz hybridisiert, in einer Primerverlängerungsreaktion verwendet, um ein doppelsträngiges bisulfitumgewandeltes DNA-Molekül zu bilden. Optional verwendet die Verlängerungsreaktion in einer Ausführungsform ein Enzym, das in der Lage ist, durch Uracilreste in dem bisulfitumgewandelten Matrizenstrang hinwegzulesen. Optional wird in einem dritten Schritt ein dsDNA-Adapter zu dem doppelsträngigen bisulfitumgewandelten DNA-Molekül hinzugefügt. Schließlich wird die doppelsträngige bisulfitumgewandelte DNA amplifiziert, um Sequenzieradapter hinzuzufügen. Zum Beispiel wird PCR-Amplifikation unter Verwendung eines Vorwärtsprimers, der eine P5-Sequenz umfasst, und eines Rückwärtsprimers, der eine P7-Sequenz umfasst, verwendet, um P5- und P7-Sequenzen zu der bisulfitumgewandelten DNA hinzuzufügen. Optional können während der Bibliotheksvorbereitung eindeutige molekulare Identifikatoren (UMI) durch Adapterligation zu den Nukleinsäuremolekülen (z. B. DNA-Molekülen) hinzugefügt werden. Die UMIs sind kurze Nukleinsäuresequenzen (z. B. 4-10 Basenpaare), die während der Adapterligation an Enden von DNA-Fragmenten hinzugefügt werden. In manchen Ausführungsformen sind UMIs degenerierte Basenpaare, die als eine eindeutige Markierung dienen, die verwendet werden kann, um Sequenzlesungen zu identifizieren, die von einem spezifischen DNA-Fragment stammen. Während der auf die Adapterligation folgenden PCR-Amplifikation werden die UMIs zusammen mit dem angefügten DNA-Fragment repliziert, was eine Weise bereitstellt, in einer nachgelagerten Analyse Sequenzlesungen zu identifizieren, die von demselben Ursprungsfragment herrühren.
-
In Schritt 120 können anvisierte DNA-Sequenzen aus der Bibliothek angereichert werden (z. B. durch Hybridisierung). Jegliches geeignete Verfahren der Anreicherung kann verwendet werden. Zum Beispiel wird in manchen Ausführungsformen ein gezieltes Panel-Assay an den Proben durchgeführt (kommt z. B. damit in Kontakt). Während der Anreicherung können Hybridisierungssonden (hierin auch als „Sonden“ bezeichnet) verwendet werden, um Nukleinsäurefragmente anzuvisieren und herabzuziehen, die über das Vorliegen oder Nichtvorliegen von Krebs (oder einer Krankheit), den Krebsstatus oder eine Krebsklassifizierung (z. B. Krebsart oder Ursprungsgewebe) informieren. Für einen gegebenen Arbeitsablauf können die Sonden so gestaltet sein, dass sie sich an einen (komplementären) Zielstrang von DNA oder RNA anlagern (oder daran hybridisieren). Der Zielstrang kann der „positive“ Strang (z. B. der Strang, der in mRNA transkribiert und anschließend in ein Protein übersetzt wird) oder der komplementäre „negative“ Strang sein. Die Sonden können Längen im Bereich von mehreren 10, Hunderten oder Tausenden Basenpaaren haben. Darüber hinaus können die Sonden überlappende Abschnitte einer Zielregion abdecken.
-
In manchen Fällen können Primer verwendet werden, um spezifisch Ziele/Biomarker von Interesse zu amplifizieren (z. B. mittels PCR), wodurch die Probe hinsichtlich gewünschter Ziele/Biomarker angereichert wird (optional ohne Einfangen durch Hybridisierung). Zum Beispiel können für jede Genomregion von Interesse Vorwärts- und Rückwärtsprimer vorbereitet und verwendet werden, um Fragmente zu amplifizieren, die der gewünschten Genomregion entsprechen oder davon abgeleitet sind. Während die vorliegende Offenbarung Krebs-Assay-Panels und Ködersätzen besondere Aufmerksamkeit widmet, ist die Offenbarung somit breit genug, um andere Verfahren der Anreicherung zellfreier DNA einzuschließen. Demgemäß wird ein Fachmann mit dem Vorteil dieser Offenbarung erkennen, dass Verfahren analog zu den hierin in Verbindung mit Einfangen durch Hybridisierung beschriebenen alternativ durch Ersetzen des Einfangens durch Hybridisierung mit irgendeiner anderen Anreicherungsstrategie, wie PCR-Amplifikation von Fragmenten zellfreier DNA, die Genomregionen von Interesse entsprechen, bewerkstelligt werden können. In manchen Ausführungsformen wird Einfangen mit Bisulfit-Padlock-Sonden verwendet, um Regionen von Interesse anzureichern, wie in Zhang et al. (
US 2016/0340740 ) beschrieben ist. In manchen Ausführungsformen werden für die Anreicherung (z. B. nicht gezielte Anreicherung) zusätzliche oder alternative Verfahren verwendet, wie Reduced-Representation-Bisulfitsequenzierung, Methylierungs-Restriktionsenzym-Sequenzierung, Methylierungs-DNA-Immunopräzipitation-Sequenzierung, Methyl-CpG-Bindungsdomänenprotein-Sequenzierung, Methyl-DNA-Fang-Sequenzierung oder Mikrotröpfchen-PCR.
-
Nach dem Herabziehen und/oder der Hybridisierung (siehe Schritt 120) können die hybridisierten Nukleinsäurefragmente optional auch unter Verwendung von PCR amplifiziert werden (Anreicherung 125). Zum Beispiel können die Zielsequenzen angereichert werden, um angereicherte Sequenzen zu erhalten, die anschließend sequenziert werden können. Im Allgemeinen kann jedes nach dem Stand der Technik bekannte Verfahren verwendet werden, um sondenhybridisierte Zielnukleinsäuren zu isolieren und anzureichern. Zum Beispiel kann, wie nach dem Stand der Technik allgemein bekannt ist, eine Biotineinheit zu dem 5'-Ende der Sonden hinzugefügt (d. h. biotinyliert) werden, um die Isolierung von an Sonden hybridisierten Zielnukleinsäuren unter Verwendung einer streptavidinbeschichteten Oberfläche (z. B. streptavidinbeschichteter Kügelchen) zu erleichtern. Nukleinsäurefragmente werden auf ein Panel angewandt, das die Sonden in der Bedingung beinhaltet, die spezifisches Binden der Nukleinsäurefragmente an komplementäre Sonden gestattet. Somit ermöglicht es selektive Isolierung und Anreicherung von Nukleinsäurefragmenten, die eine hohe Affinität zu den Sonden aufweisen.
-
In Schritt 130 werden von den angereicherten DNA-Sequenzen, z. B. angereicherten Sequenzen, Sequenzlesungen erzeugt. Sequenzierungsdaten können von den angereicherten DNA-Sequenzen durch nach dem Stand der Technik bekannte Mittel erlangt werden. Zum Beispiel kann das Verfahren Techniken der Sequenzierung der nächsten Generation (NGS) umfassen, einschließlich Synthesetechnologie (Illumina), Pyrosequenzierung (454 Life Sciences), lonen-Halbleiter-Technologie (lon-Torrent-Sequenzierung), Einzelmolekül-Echtzeitsequenzierung (Pacific Biosciences), Sequenzierung durch Ligation (SOLiD-Sequenzierung), Nanoporensequenzierung (Oxford Nanopore Technologies) oder Endpaar-Sequenzierung. In manchen Ausführungsformen wird massive Parallelsequenzierung unter Verwendung von Sequenzierung durch Synthese mit reversiblen Farbstoffterminatoren durchgeführt.
-
Analyse von Sequenzlesungen
-
In manchen Ausführungsformen können die Sequenzlesungen unter Verwendung von nach dem Stand der Technik bekannten Verfahren mit einem Referenzgenom aliniert werden, um Alinierungspositionsinformationen zu bestimmen. Die Alinierungspositionsinformationen können eine Anfangsposition und eine Endposition einer Region im Referenzgenom anzeigen, die einer Anfangsnukleotidbase und Endnukleotidbase einer gegebenen Sequenzlesung entspricht. Alinierungspositionsinformationen können auch die Sequenzlesungslänge umfassen, die von der Anfangsposition und Endposition bestimmt werden kann. Eine Region im Referenzgenom kann mit einem Gen oder einem Segment eines Gens assoziiert sein.
-
In verschiedenen Ausführungsformen besteht eine Sequenzlesung aus einem als R1 und R2 angegebenen Lesungspaar. Zum Beispiel kann die erste Lesung R1 von einem ersten Ende eines Nukleinsäurefragments sequenziert werden, wohingegen die zweite Lesung R2 von dem zweiten Ende des Nukleinsäurefragments sequenziert werden kann. Daher können Nukleotidbasenpaare der ersten Lesung R1 und zweiten Lesung R2 konsistent (z. B. in gegenläufiger Orientierung) mit Nukleotidbasen des Referenzgenoms aliniert werden. Von dem Lesungspaar R1 und R2.abgeleitete Alinierungspositionsinformationen können eine Anfangsposition im Referenzgenom, die einem Ende einer ersten Lesung (z. B. R1) entspricht, und eine Endposition im Referenzgenom, die einem Ende einer zweiten Lesung (z. B. R2) entspricht, umfassen. Mit anderen Worten stellen die Anfangsposition und Endposition im Referenzgenom den wahrscheinlichen Ort innerhalb des Referenzgenoms dar, dem das Nukleinsäurefragment entspricht. Eine Ausgabedatei mit dem Format SAM (Sequence Alignment Map) oder dem Format BAM (Binary Alignment Map) kann erzeugt und zur weiteren Analyse ausgegeben werden.
-
Von den Sequenzlesungen können auf der Basis einer Alinierung mit einem Referenzgenom der Ort und Methylierungszustand für jede CpG-Stelle bestimmt werden. Ferner kann ein Methylierungszustandsvektor für jedes Fragment erzeugt werden, der einen Ort des Fragments im Referenzgenom (z. B. wie durch die Position der ersten CpG-Stelle in jedem Fragment oder eine andere ähnliche Kennzahl spezifiziert), eine Anzahl CpG-Stellen in dem Fragment und den Methylierungszustand jeder CpG-Stelle in dem Fragment, ob methyliert (z. B. als M angegeben), unmethyliert (z. B. als U angegeben) oder unbestimmt (z. B. als I angegeben), spezifiziert. Die Methylierungszustandsvektoren können für spätere Verwendung und Bearbeitung in zeitweisem oder dauerhaftem Computerarbeitsspeicher gespeichert werden. Ferner können doppelte Lesungen oder doppelte Methylierungszustandsvektoren von einer einzelnen Person entfernt werden. In einer zusätzlichen Ausführungsform kann bestimmt werden, dass ein bestimmtes Fragment eine oder mehrere CpG-Stellen aufweist, die einen unbestimmten Methylierungsstatus aufweisen. Solche Fragmente können von der späteren Bearbeitung ausgeschlossen oder selektiv aufgenommen werden, wenn ein nachgelagertes Datenmodell solche unbestimmten Methylierungsstatus berücksichtigt.
-
7B ist eine Illustration des Prozesses 100 von 7A zum Sequenzieren eines cfDNA-Fragments, um einen Methylierungszustandsvektor zu erhalten, gemäß einer Ausführungsform. Als ein Beispiel nimmt das Analysesystem ein cfDNA-Fragment 112. In diesem Beispiel enthält das cfDNA-Fragment 112 drei CpG-Stellen. Wie gezeigt sind die erste und dritte CpG-Stelle des cfDNA-Fragments 112 methyliert 114. Während des Behandlungsschritts 120 wird das cfDNA-Fragment 112 umgewandelt, um ein umgewandeltes cfDNA-Fragment 122 zu erzeugen. Während der Behandlung 120 wird das Cytosin der zweiten CpG-Stelle, die unmethyliert war, in Uracil umgewandelt. Die erste und dritte CpG-Stelle werden jedoch nicht umgewandelt.
-
Nach der Umwandlung wird eine Sequenzierbibliothek 130 vorbereitet und sequenziert 140, wodurch eine Sequenzlesung 142 erzeugt wird. Das Analysesystem aliniert 150 die Sequenzlesung 142 mit einem Referenzgenom 144. Das Referenzgenom 144 stellt den Kontext bereit, von welcher Position in einem menschlichen Genom die Fragment-cfDNA stammt. In diesem vereinfachten Beispiel aliniert 150 das Analysesystem die Sequenzlesung so, dass die drei CpG-Stellen mit den CpG-Stellen 23, 24 und 25 korrelieren (willkürliche Referenzidentifikatoren, zur bequemen Beschreibung verwendet). Das Analysesystem erzeugt somit Informationen über sowohl den Methylierungsstatus aller CpG-Stellen in dem cfDNA-Fragment 112 als auch, welche Position im menschlichen Genom die CpG-Stellen abbilden. Wie gezeigt werden CpG-Stellen in Sequenzlesung 142, die methyliert waren, als Cytosine gelesen. In diesem Beispiel kommen die Cytosine in der Sequenzlesung 142 nur in der ersten und dritten CpG-Stelle vor, was einem gestattet, rückzuschließen, dass die erste und dritte CpG-Stelle in dem ursprünglichen cfDNA-Fragment methyliert waren. Wohingegen die zweite CpG-Stelle als ein Thymin gelesen wird (U wird während des Sequenzierprozesses in T umgewandelt) und somit kann man rückschließen, dass die zweite CpG-Stelle in dem ursprünglichen cfDNA-Fragment unmethyliert war. Mit diesen zwei Informationen, dem Methylierungsstatus und dem Ort, erzeugt 160 das Analysesystem einen Methylierungszustandsvektor 152 für das Fragment cfDNA 112. In diesem Beispiel ist der resultierende Methylierungszustandsvektor 152 < M23, U24, M25 >, wobei M einer methylierten CpG-Stelle entspricht, U einer unmethylierten CpG-Stelle entspricht und die Indexzahl einer Position der jeweiligen CpG-Stelle im Referenzgenom entspricht.
-
13A und 13B zeigen drei Grafiken von Daten, die die Konsistenz der Sequenzierung von einer Kontrollgruppe validieren. Die erste Grafik 1300 zeigt die Umwandlungsgenauigkeit der Umwandlung unmethylierter Cytosine in Uracil (Schritt 120) in einem von einer Testprobe erhaltenen cfDNA-Fragment über Personen in variierenden Krebsstadien - Stadium 0, Stadium I, Stadium II, Stadium III, Stadium IV und krebsfrei - hinweg. Wie gezeigt bestand gleichförmige Konsistenz bei der Umwandlung unmethylierter Cytosine in cfDNA-Fragmenten in Uracile. Insgesamt gab es eine Umwandlungsgenauigkeit von 99,47 % mit einer Präzision von ± 0,024 %. Die zweite Grafik 1310 zeigt die mittlere Abdeckung über variierende Krebsstadien. Die mittlere Abdeckung über alle Gruppe beträgt ~34X im Mittel über die Genomabdeckung von DNA-Fragmenten hinweg, unter Verwendung nur derjenigen, die zuverlässig dem Genom zugeordnet sind, werden gezählt. Die dritte Grafik 1320 (13B) zeigt die Konzentration von cfDNA pro Probe über variierende Krebsstadien hinweg.
-
Krebsdiagnose
-
Mit den hierin bereitgestellten Verfahren erhaltene Sequenzlesungen können ferner durch automatisierte Algorithmen bearbeitet werden. Zum Beispiel wird das Analysesystem verwendet, um Sequenzierungsdaten von einem Sequenzierer zu empfangen und verschiedene Aspekte des Bearbeitens wie hierin beschrieben durchzuführen. Das Analysesystem kann eines von einem Personalcomputer (PC), einem Desktopcomputer, einem Laptopcomputer, einem Notebook, einem Tablet-PC, einem Mobilgerät sein. Ein Rechengerät kann zur Kommunikation durch eine drahtlose, drahtgebundene oder eine Kombination von drahtlosen und drahtgebundenen Kommunikationstechnologien an den Sequenzierer gekoppelt sein. Im Allgemeinen ist das Rechengerät mit einem Prozessor und einem Speicher, der Computeranweisungen speichert, die bei Ausführung durch den Prozessor verursachen, dass der Prozessor Schritte wie im Rest dieses Dokuments beschrieben durchführt, konfiguriert. Im Allgemeinen ist die Menge genetischer Daten und davon abgeleiteter Daten ausreichend groß und die Menge an erforderlicher Rechenleistung so groß, dass es unmöglich ist, dass sie auf Papier oder allein durch den menschlichen Verstand durchgeführt wird.
-
Die klinische Interpretation des Methylierungsstatus anvisierter Genomregionen ist ein Prozess, der das Klassifizieren der klinischen Wirkung jedes einzelnen oder einer Kombination des Methylierungsstatus und Berichten der Resultate auf Weisen, die für eine medizinische Fachperson aussagekräftig ist, umfasst. Die klinische Interpretation kann auf dem Vergleich der Sequenzlesungen mit einer für krebsbefallene oder krebsfreie Personen spezifischen Datenbank basieren und/oder auf Anzahlen und Arten der in einer Probe identifizierten cfDNA-Fragmente mit krebsspezifischen Methylierungsmustern basieren. In manchen Ausführungsformen werden anvisierte Genomregionen auf der Basis ihrer Ähnlichkeit, in krebsbefallenen Proben differenziell methyliert zu sein, in eine Rangordnung gebracht oder klassifiziert und werden die Rangordnungen oder Klassifizierungen im Interpretationsprozess verwendet. Die Rangordnungen und Klassifizierungen können (1) die Art der klinischen Wirkung, (2) die Stärke der Evidenz der Wirkung und (3) die Größe der Wirkung umfassen. Verschiedene Verfahren für die klinische Analyse und Interpretation von Genomdaten können für die Analyse der Sequenzlesungen herangezogen werden. In manchen anderen Ausführungsformen kann die klinische Interpretation der Methylierungszustände solcher differenziell methylierter Regionen auf Ansätzen des maschinellen Lernens basieren, die eine aktuelle Probe auf der Basis eines Klassifizierungs- oder Regressionsverfahrens interpretieren, das unter Verwendung der Methylierungszustände solcher differenziell methylierter Regionen von Proben von krebsbefallenen und krebsfreien Patienten mit bekanntem Krebsstatus, bekannter Krebsart, bekanntem Krebsstadium, bekanntem Ursprungsgewebe usw. trainiert wurde.
-
Die klinisch aussagekräftigen Informationen können das Vorliegen oder Nichtvorliegen von Krebs im Allgemeinen, das Vorliegen oder Nichtvorliegen bestimmter Arten von Krebs, das Krebsstadium oder das Vorliegen oder Nichtvorliegen anderer Arten von Krankheiten umfassen. In manchen Ausführungsformen beziehen sich die Informationen auf ein Vorliegen oder Nichtvorliegen von einer oder mehreren Krebsarten, ausgewählt aus der Gruppe, bestehend aus (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliärem Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs und (9) Bauchspeicheldrüsenkrebs.
-
Krebsklassifikator
-
Um einen Krebsartklassifikator zu trainieren, erhält das Analysesystem eine Vielzahl von Trainingsproben, die jeweils einen Satz Krebs anzeigender hypomethylierter und hypermethylierter Fragmente, z. B. identifiziert durch Schritt 450 im Prozess 400, und eine Kennzeichnung der Krebsart der Trainingsprobe aufweisen. Das Analysesystem bestimmt für jede Trainingsprobe einen Merkmalsvektor auf der Basis des Satzes Krebs anzeigender hypomethylierter und hypermethylierter Fragmente. Das Analysesystem berechnet für jede CpG-Stelle in den anvisierten Genomregionen eine Anomaliepunktzahl. In einer Ausführungsform definiert das Analysesystem die Anomaliepunktzahl für den Merkmalsvektor als eine binäre Bepunktung auf der Basis, ob es ein hypomethyliertes oder hypermethyliertes Fragment von dem Satz, der die CpG-Stelle einschließt, gibt. Sobald alle Anomaliepunktzahlen für eine Trainingsprobe bestimmt sind, bestimmt das Analysesystem den Merkmalsvektor als einen Vektor von Elementen, der für jedes Element eine der mit einer der CpG-Stellen assoziierten Anomaliepunktzahlen umfasst. Das Analysesystem kann die Anomaliepunktzahlen des Merkmalsvektors auf der Basis einer Abdeckung der Probe, d. h. einer medianen oder durchschnittlichen Sequenzierungstiefe über alle CpG-Stellen hinweg, normalisieren.
-
Mit den Merkmalsvektoren der Trainingsproben kann das Analysesystem den Krebsklassifikator trainieren. In einer Ausführungsform trainiert das Analysesystem auf der Basis der Merkmalsvektoren der Trainingsproben einen binären Krebsklassifikator, zwischen den Kennzeichnungen, krebsbefallen und krebsfrei, zu unterscheiden. In dieser Ausführungsform gibt der Klassifikator eine Vorhersagepunktzahl aus, die die Wahrscheinlichkeit des Vorliegens oder Nichtvorliegens von Krebs anzeigt. In einer weiteren Ausführungsform trainiert das Analysesystem einen Multiklassen-Krebsklassifikator, zwischen vielen Krebsarten zu unterscheiden. In dieser Ausführungsform mit einem Multiklassen-Krebsklassifikator wird der Krebsklassifikator trainiert, eine Krebsvorhersage zu bestimmen, die für jede der Krebsarten, für die klassifiziert wird, einen Vorhersagewert beinhaltet. Die Vorhersagewerte können einer Wahrscheinlichkeit, dass eine gegebene Probe die jeweilige Krebsart aufweist. Zum Beispiel gibt der Krebsklassifikator eine Krebsvorhersage aus, die einen Vorhersagewert für Brustkrebs, Lungenkrebs und krebsfrei umfasst. Zum Beispiel kann der Krebsklassifikator eine Krebsvorhersage für eine Testprobe zurückgeben, die eine Vorhersagepunktzahl für Brustkrebs, Lungenkrebs und/oder kein Krebs umfasst. In beiden Ausführungsformen trainiert das Analysesystem den Krebsklassifikator durch Eingeben von Sätzen Trainingsproben mit ihren Merkmalsvektoren in den Krebsklassifikator und Anpassen von Klassifizierungsparametern, sodass eine Funktion des Klassifikators die Trainingsmerkmalsvektoren genau mit ihrer entsprechenden Kennzeichnung in Bezug bringt. Das Analysesystem kann die Trainingsproben zum iterativen chargenweisen Training des Krebsklassifikators in Sätze von einer oder mehreren Trainingsproben gruppieren. Nach dem Eingeben aller Sätze von Trainingsproben einschließlich ihrer Trainingsmerkmalsvektoren und Anpassen der Klassifizierungsparameter ist der Krebsklassifikator ausreichend trainiert, um Testproben gemäß ihrem Merkmalsvektor innerhalb einer gewissen Fehlerspanne zu kennzeichnen. Das Analysesystem kann den Krebsklassifikator gemäß einem beliebigen von einer Anzahl von Verfahren trainieren. Als ein Beispiel kann der binäre Krebsklassifikator ein Klassifikator einer L2-regularisierten logistischen Regression sein, der unter Verwendung einer log-Verlustfunktion trainiert ist. Als ein weiteres Beispiel kann der Multikrebsklassifikator eine multinomiale logistische Regression sein. In der Praxis kann jede Art von Krebsklassifikator unter Verwendung anderer Techniken trainiert werden. Diese Techniken sind zahlreich, einschließlich der potenziellen Verwendung von Kernelverfahren, Algorithmen maschinellen Lernens wie mehrschichtigen neuronalen Netzen usw. Insbesondere können Verfahren wie in
PCT/US2019/022122 und der
US-Patentanmeldung Nr. 16/352,602 beschrieben, die durch Bezugnahme in ihrer Gesamtheit hierin eingebunden sind, für verschiedene Ausführungsformen verwendet werden.
-
In besonderen Ausführungsformen wird ein Krebsklassifikator durch den Prozess trainiert, der die folgenden Schritte beinhaltet: a. Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; b. für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, c. für jede Trainingsperson Erzeugen eines Trainingsmerkmalsvektors auf der Basis der hypomethylierten Trainingsfragmente und hypermethylierten Trainingsfragmente und d. Trainieren des Modells mit den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen ohne Krebs und den Trainingsmerkmalsvektoren von der einen oder den mehreren Trainingspersonen mit Krebs. Das Trainingsverfahren kann ferner die folgenden Schritte beinhalten: a. Erhalten von Sequenzinformationen für Trainingsfragmente von einer Vielzahl von Trainingspersonen; b. für jedes Trainingsfragment Bestimmen, ob dieses Trainingsfragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Trainingsfragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist, c. für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen; und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Trainingsfragmente und hypermethylierter Trainingsfragmente; d. für jedes Trainingsfragment Erzeugen eines aggregierten Hypomethylierungspunktwertes auf der Basis des Hypomethylierungspunktwertes der CpG-Stellen in dem Trainingsfragment und eines aggregierten Hypermethylierungspunktwertes auf der Basis des Hypermethylierungspunktwertes der CpG-Stellen in dem Trainingsfragment; und e. für jede Trainingsperson: Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypomethylierungspunktzahl und Erstellen einer Rangordnung der Vielzahl von Trainingsfragmenten auf der Basis der aggregierten Hypermethylierungspunktzahl und Erzeugen eines Merkmalsvektors auf der Basis der Rangordnung der Trainingsfragmente; f. Erhalten von Trainingsmerkmalsvektoren für eine oder mehrere Trainingspersonen ohne Krebs und von Trainingsmerkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs; und g. Trainieren des Modells mit den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen ohne Krebs und den Merkmalsvektoren für die eine oder die mehreren Trainingspersonen mit Krebs. In manchen Ausführungsformen beinhaltet das Modell eines von einem Klassifikator einer logistischen Kernelregression, einem Random-Forest-Klassifikator, einem Mischverteilungsmodell, einem konvolutionellen neuralen Netz und einem Autoencoder-Modell.
-
In manchen Ausführungsformen beinhaltet das Quantifizieren einer Zählung hypomethylierter Trainingsfragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Trainingsfragmente, die die CpG-Stelle überlappen, ferner: a. das Quantifizieren einer krebsbefallenen Zählung hypomethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen mit Krebs, die diese CpG-Stelle überlappen, und einer krebsfreien Zählung hypomethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen ohne Krebs, die diese CpG-Stelle überlappen, und b. das Quantifizieren einer krebsbefallenen Zählung hypermethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen mit Krebs, die diese CpG-Stelle überlappen, und einer krebsfreien Zählung hypermethylierter Trainingsfragmente von der einen oder den mehreren Trainingspersonen ohne Krebs, die diese CpG-Stelle überlappen. In manchen Ausführungsformen beinhaltet das Erzeugen eines Hypomethylierungspunktwertes und eines Hypermethylierungspunktwertes auf der Basis der Zählung von hypomethylierten Trainingsfragmenten und hypermethylierten Trainingsfragmenten ferner: a. zum Erzeugen des Hypomethylierungspunktwertes das Berechnen eines Hypomethylierungsverhältnisses der krebsbefallenen Zählung hypomethylierter Trainingsfragmente zu einer Hypomethylierungssumme der krebsbefallenen Zählung hypomethylierter Trainingsfragmente und der krebsfreien Zählung hypomethylierter Trainingsfragmente; und b. zum Erzeugen des Hypermethylierungspunktwertes das Berechnen eines Hypermethylierungsverhältnisses der krebsbefallenen Zählung hypermethylierter Trainingsfragmente zu einer Hypermethylierungssumme der krebsbefallenen Zählung hypermethylierter Trainingsfragmente und der krebsfreien Zählung hypermethylierter Trainingsfragmente.
-
Während des Einsatzes erhält das Analysesystem Sequenzlesungen von einer Testprobe, die einer Person abgenommen wurde. Verschiedene nach dem Stand der Technik verfügbare Sequenzierverfahren können verwendet werden, um Sequenzlesungen zu erhalten. In manchen Ausführungsformen werden die Sequenzlesungen durch Ganzgenomsequenzierung oder gezielte Sequenzierung erhalten. In manchen Ausführungsformen umfassen die Sequenzlesungen einen Satz Sequenzlesungen modifizierter Testfragmente, wobei die modifizierten Testfragmente durch Bearbeiten eines Satzes Nukleinsäurefragmente erhalten werden, wobei jedes der Nukleinsäurefragmente einer Vielzahl von Genomregionen, ausgewählt aus einer oder mehreren der Tabellen 1-24, entspricht oder davon abgeleitet ist. In manchen Ausführungsformen sind die Sequenzlesungen von den DNA-Proben, die unter Verwendung des hierin beschriebenen Assay-Panels angereichert wurden.
-
Das Analysesystem bearbeitet die Sequenzlesungen, um in einem ähnlichen Prozess wie für die Trainingsproben beschrieben einen Testmerkmalsvektor zu erhalten. In manchen Ausführungsformen wird der Testmerkmalsvektor durch den Prozess erhalten, der Folgendes beinhaltet: a. für jedes der Nukleinsäurefragmente Bestimmen, ob das Nukleinsäurefragment hypomethyliert oder hypermethyliert ist, wobei jedes der hypomethylierten und hypermethylierten Nukleinsäurefragmente mindestens eine Schwellenanzahl CpG-Stellen beinhaltet, wobei mindestens ein Schwellenprozentsatz der CpG-Stellen unmethyliert bzw. methyliert ist; b. für jede einer Vielzahl von CpG-Stellen in einem Referenzgenom: Quantifizieren einer Zählung hypomethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und einer Zählung hypermethylierter Nukleinsäurefragmente, die die CpG-Stelle überlappen, und Erzeugen einer Hypomethylierungspunktzahl und einer Hypermethylierungspunktzahl auf der Basis der Zählung hypomethylierter Nukleinsäurefragmente und hypermethylierter Nukleinsäurefragmente; c. für jedes Nukleinsäurefragment Erzeugen eines aggregierten Hypomethylierungspunktwertes auf der Basis des Hypomethylierungspunktwertes der CpG-Stellen in dem Nukleinsäurefragment und eines aggregierten Hypermethylierungspunktwertes auf der Basis des Hypermethylierungspunktwertes der CpG-Stellen in dem Nukleinsäurefragment; d. Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypomethylierungspunktwertes und Erstellen einer Rangordnung der Vielzahl von Nukleinsäurefragmenten auf der Basis des aggregierten Hypermethylierungspunktwertes; und e. Erzeugen des Testmerkmalsvektors auf der Basis der Rangordnung der Nukleinsäurefragmente.
-
Das Analysesystem gibt dann den Testmerkmalsvektor in den trainierten Krebsklassifikator ein, um eine Krebsvorhersage, z. B. eine binäre Vorhersage (krebsbefallen oder krebsfrei) oder eine Multiklassen-Krebsvorhersage (Vorhersagepunktzahl für jede von einer Vielzahl von Krebsarten), zu ergeben. In manchen Ausführungsformen gibt das Analysesystem eine Krebsprobabilität für die Testprobe aus. Die Krebsprobabilität kann mit einer Schwellenprobabilität verglichen werden, um zu bestimmen, ob die Testprobe von einer Person mit Krebs oder ohne Krebs ist.
-
Beispielsequenzierer und -analysesystem
-
8A ist ein Flussdiagramm von Systemen und Geräten zum Sequenzieren von Nukleinsäureproben gemäß einer Ausführungsform. Dieses illustrative Flussdiagramm umfasst Geräte wie einen Sequenzierer 820 und ein Analysesystem 800. Der Sequenzierer 820 und das Analysesystem 800 können Hand in Hand arbeiten, um einen oder mehrere Schritte in den hierin beschriebenen Prozessen durchzuführen.
-
In verschiedenen Ausführungsformen empfängt der Sequenzierer 820 eine angereicherte Nukleinsäureprobe 810. Wie in 8A gezeigt, kann der Sequenzierer 820 eine grafische Benutzerschnittstelle 825 umfassen, die Benutzerinteraktionen mit besonderen Aufgaben (z. B. Sequenzierung starten oder Sequenzierung beenden) ermöglicht, sowie eine oder mehrere Beladungsstationen 830 zum Laden einer die angereicherten Fragmentproben umfassenden Sequenzierkartusche und/oder zum Laden notwendiger Puffer zum Durchführen der Sequenzierassays. Daher kann, sobald ein Benutzer des Sequenzierers 820 der Beladungsstation 830 des Sequenzierers 820 die notwendigen Reagenzien und die Sequenzierkartusche bereitgestellt hat, der Benutzer durch Interagieren mit der grafischen Benutzerschnittstelle 825 des Sequenzierers 820 die Sequenzierung starten. Einmal gestartet, führt der Sequenzierer 820 die Sequenzierung durch und gibt die Sequenzlesungen der angereicherten Fragmente von der Nukleinsäureprobe 810 aus.
-
In manchen Ausführungsformen ist der Sequenzierer 820 zur Kommunikation an das Analysesystem 800 gekoppelt. Das Analysesystem 800 umfasst eine gewisse Anzahl Rechengeräte, die zum Bearbeiten der Sequenzlesungen für verschiedene Anwendungen, wie Beurteilen des Methylierungsstatus an einer oder mehreren CpG-Stellen, Variantenbenennung oder Qualitätskontrolle, verwendet werden. Der Sequenzierer 820 kann die Sequenzlesungen dem Analysesystem 800 in einem BAM-Dateiformat 800 bereitstellen. Das Analysesystem 800 kann zur Kommunikation durch eine drahtlose, drahtgebundene oder eine Kombination von drahtlosen und drahtgebundenen Kommunikationstechnologien an den Sequenzierer 820 gekoppelt sein. Im Allgemeinen ist das Analysesystem 800 mit einem Prozessor und einem nicht flüchtigen computerlesbaren Speichermedium, das Computeranweisungen speichert, die bei Ausführung durch den Prozessor verursachen, dass der Prozessor die Sequenzlesungen bearbeitet oder einen oder mehrere Schritte gemäß einem der hierin offenbarten Verfahren oder Prozesse durchführt, konfiguriert.
-
In manchen Ausführungsformen können die Sequenzlesungen unter Verwendung von nach dem Stand der Technik bekannten Verfahren mit einem Referenzgenom aliniert werden, um Alinierungspositionsinformationen zu bestimmen, z. B. Teil von Schritt 140 des Prozesses 100 in 3A. Alinierungsposition kann im Allgemeinen eine Anfangsposition und eine Endposition einer Region im Referenzgenom beschreiben, die einer Anfangsnukleotidbase und einer Endnukleotidbase einer gegebenen Sequenzlesung entspricht. Entsprechend der Methylierungssequenzierung können die Alinierungspositionsinformationen verallgemeinert werden, um eine erste CpG-Stelle und eine letzte CpG-Stelle, die von der Sequenzlesung umfasst werden, gemäß der Alinierung mit dem Referenzgenom anzuzeigen. Die Alinierungspositionsinformationen können ferner Methylierungsstatus und Ort aller CpG-Stellen in einer gegebenen Sequenzlesung anzeigen. Eine Region im Referenzgenom kann mit einem Gen oder einem Segment eines Gens assoziiert sein; als solches kann das Analysesystem 800 eine Sequenzlesung mit einem oder mehreren Genen kennzeichnen, die mit der Sequenzlesung alinieren. In einer Ausführungsform wird die Fragmentlänge (oder - größe) aus der Anfangs- und Endposition bestimmt.
-
In verschiedenen Ausführungsformen, zum Beispiel wenn ein Endpaar-Sequenzierungsprozess verwendet wird, besteht eine Sequenzlesung aus einem als R_1 und R_2 angegebenen Lesungspaar. Zum Beispiel kann die erste Lesung R_1 von einem ersten Ende eines doppelsträngigen DNA(dsDNA)-Moleküls sequenziert werden, wohingegen die zweite Lesung R_2 von dem zweiten Ende der doppelsträngigen DNA (dsDNA) sequenziert werden kann. Daher können Nukleotidbasenpaare der ersten Lesung R_1 und zweiten Lesung R_2 konsistent (z. B. in gegenläufiger Orientierung) mit Nukleotidbasen des Referenzgenoms aliniert werden. Von dem Lesungspaar R_1 und R_2 abgeleitete Alinierungspositionsinformationen können eine Anfangsposition im Referenzgenom, die einem Ende einer ersten Lesung (z. B. R_1) entspricht, und eine Endposition im Referenzgenom, die einem Ende einer zweiten Lesung (z. B. R_2) entspricht, umfassen. Mit anderen Worten stellen die Anfangsposition und Endposition im Referenzgenom den wahrscheinlichen Ort innerhalb des Referenzgenoms dar, dem das Nukleinsäurefragment entspricht. Eine Ausgabedatei mit dem Format SAM (Sequence Alignment Map) oder dem Format BAM (Binary) kann erzeugt und zur weiteren Analyse ausgegeben werden.
-
Jetzt auf 8B Bezug nehmend, ist 8B ein Blockdiagramm eines Analysesystems 800 zum Bearbeiten von DNA-Proben gemäß einer Ausführungsform. Das Analysesystem setzt ein oder mehrere Rechengeräte zur Verwendung beim Analysieren von DNA-Proben ein. Das Analysesystem 800 umfasst einen Sequenzprozessor 840, eine Sequenzdatenbank 845, eine Modelldatenbank 855, Modelle 850, eine Parameterdatenbank 865 und eine Punktzahl-Engine 860. In manchen Ausführungsformen führt das Analysesystem 800 einen oder mehrere Schritte in den Prozessen 100 von 3A, 340 von 3B, 400 von 4, 500 von 5, 600 von 6A oder 680 von 6B und anderem hierin beschriebenen Prozess aus.
-
Der Sequenzprozessor 840 erzeugt Methylierungszustandsvektoren für Fragmente aus einer Probe. An jeder CpG-Stelle in einem Fragment erzeugt der Sequenzprozessor 840 über den Prozess 100 von 3A einen Methylierungszustandsvektor für jedes Fragment, der einen Ort in dem Fragment im Referenzgenom, eine Anzahl CpG-Stellen in dem Fragment und den Methylierungszustand jeder CpG-Stelle in dem Fragment, ob methyliert, unmethyliert oder unbestimmt, spezifiziert. Der Sequenzprozessor 840 kann Methylierungszustandsvektoren für Fragmente in der Sequenzdatenbank 845 speichern. Daten in der Sequenzdatenbank 845 können so organisiert sein, dass die Methylierungszustandsvektoren von einer Probe miteinander assoziiert sind.
-
Ferner können mehrere unterschiedliche Modelle 850 in der Modelldatenbank 855 gespeichert werden oder zur Verwendung mit Testproben aufgerufen werden. In einem Beispiel ist ein Modell ein trainierter Krebsklassifikator zum Bestimmen einer Krebsvorhersage für eine Testprobe unter Verwendung eines von anomalen Fragmenten abgeleiteten Merkmalsvektors. Das Training und die Verwendung des Krebsklassifikators wird in Zusammenhang mit dem Unterabschnitt mit der Überschrift „Krebs anzeigende Genomregionen und Klassifikatoren“ weiter erörtert. Das Analysesystem 800 kann das eine oder die mehreren Modelle 850 trainieren und verschiedene trainierte Parameter in der Parameterdatenbank 865 speichern. Das Analysesystem 800 speichert die Modelle 850 zusammen mit Funktionen in der Modelldatenbank 855.
-
Während der Inferenz verwendet die Punktzahl-Engine 860 das eine oder die mehreren Modelle 850, um Ausgaben zurückzugeben. Die Punktzahl-Engine 860 greift auf die Modelle 850 in der Modelldatenbank 855 zusammen mit trainierten Parametern von der Parameterdatenbank 865 zu. Gemäß jedem Modell empfängt die Punktzahl-Engine eine angemessene Eingabe für das Modell und berechnet eine Ausgabe auf der Basis der empfangenen Eingabe, der Parameter und einer Funktion eines jeden Modells, die die Eingabe und die Ausgabe in Beziehung setzt. In manchen Verwendungsfällen berechnet die Punktzahl-Engine 860 ferner Kennzahlen, die mit einer Konfidenz in den berechneten Ausgaben von dem Modell korrelieren. In anderen Verwendungsfällen berechnet die Punktzahl-Engine 860 andere Zwischenwerte zur Verwendung in dem Modell.
-
Anwendung
-
In manchen Ausführungsformen können die Verfahren, Analysesysteme und/oder der Klassifikator der vorliegenden Erfindung verwendet werden, um das Vorliegen von Krebs nachzuweisen, das Fortschreiten oder Wiederauftreten von Krebs zu überwachen, das Anschlagen oder die Effektivität der Therapie zu überwachen, ein Vorliegen eine minimale Resterkrankung (MRD) zu bestimmen oder zu überwachen, oder eine beliebige Kombination davon. Zum Beispiel kann ein Klassifikator, wie hierin beschrieben, verwendet werden, um eine Wahrscheinlichkeits- oder Probabilitätspunktzahl (z. B. von 0 bis 100), dass ein Probenmerkmalsvektor von einer Person mit Krebs ist, zu erzeugen. In manchen Ausführungsformen wird die Probabilitätspunktzahl mit einer Schwellenprobabilität verglichen, um zu bestimmen, ob die Person Krebs hat oder nicht. In weiteren Ausführungsformen kann die Wahrscheinlichkeits- oder Probabilitätspunktzahl zu unterschiedlichen Zeitpunkten (z. B. vor oder nach Behandlung) beurteilt werden, um das Fortschreiten der Krankheit zu überwachen oder die Behandlungseffektivität (z. B. Wirksamkeit der Therapie) zu überwachen. In noch weiteren Ausführungsformen kann die Wahrscheinlichkeits- oder Probabilitätspunktzahl verwendet werden, um eine klinische Entscheidung (z. B. Krebsdiagnose, Behandlungsauswahl, Beurteilung der Behandlungseffektivität usw.) zu treffen oder zu beeinflussen. Zum Beispiel kann in einer Ausführungsform, wenn die Wahrscheinlichkeits- oder Probabilitätspunktzahl einen Schwellenwert überschreitet, ein Arzt eine angemessene Behandlung verschreiben.
-
Früher Nachweis von Krebs
-
In manchen Ausführungsformen werden die Verfahren und/oder der Klassifikator der vorliegenden Erfindung verwendet, um das Vorliegen oder Nichtvorliegen von Krebs bei einer Person, bei der der Verdacht auf Krebs besteht, nachzuweisen. Zum Beispiel kann ein Klassifikator (wie hierin beschrieben) verwendet werden, um eine Wahrscheinlichkeits- oder Probabilitätspunktzahl, dass ein Probenmerkmalsvektor von einer Person ist, die Krebs hat, zu bestimmen.
-
In einer Ausführungsform kann eine Probabilitätspunktzahl größer als oder gleich 60 anzeigen, dass die Person Krebs hat. In noch weiteren Ausführungsformen zeigte eine Probabilitätspunktzahl größer als oder gleich 65, größer als oder gleich 70, größer als oder gleich 75, größer als oder gleich 80, größer als oder gleich 85, größer als oder gleich 90 oder größer als oder gleich 95 an, dass die Person Krebs hat. In weiteren Ausführungsformen kann eine Probabilitätspunktzahl die Schwere der Erkrankung anzeigen. Zum Beispiel kann eine Probabilitätspunktzahl von 80 eine schwerere Form oder ein späteres Stadium von Krebs verglichen mit einer Punktzahl unter 80 (z. B. einer Punktzahl von 70) anzeigen. Auf ähnliche Weise kann eine Zunahme der Probabilitätspunktzahl mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) Fortschreiten der Krankheit anzeigen oder kann eine Abnahme der Probabilitätspunktzahl mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) erfolgreiche Behandlung anzeigen.
-
In einer weiteren Ausführungsform kann für eine Testperson ein Krebs-log-Quotenverhältnis berechnet werden, indem der log eines Verhältnisses einer Probabilität, karzinomatös zu sein, zu einer Probabilität, nicht karzinomatös zu sein (d. h. eins minus die Probabilität, karzinomatös zu sein), genommen wird, wie hierin beschrieben. Gemäß dieser Ausführungsform kann ein Krebs-log-Quotenverhältnis größer als 1 anzeigen, dass die Person Krebs hat. In noch weiteren Ausführungsformen zeigte ein Krebs-log-Quotenverhältnis größer als 1,2, größer als 1,3, größer als 1,4, größer als 1,5, größer als 1,7, größer als 2, größer als 2,5, größer als 3, größer als 3,5 oder größer als 4 an, dass die Person Krebs hat. In weiteren Ausführungsformen kann ein Krebs-log-Quotenverhältnis die Schwere der Erkrankung anzeigen. Zum Beispiel kann ein Krebs-log-Quotenverhältnis größer als 2 eine schwerere Form oder ein späteres Stadium von Krebs verglichen mit einer Punktzahl unter 2 (z. B. einer Punktzahl von 1) anzeigen. Auf ähnliche Weise kann eine Zunahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) Fortschreiten der Krankheit anzeigen oder kann eine Abnahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem zweiten, späteren Zeitpunkt) erfolgreiche Behandlung anzeigen.
-
Gemäß Aspekten der Erfindung können die Verfahren und Systeme der vorliegenden Erfindung trainiert werden, um mehrere Krebsindikationen nachzuweisen und zu klassifizieren. Zum Beispiel können die Verfahren, Systeme und Klassifikatoren der vorliegenden Erfindung verwendet werden, um das Vorliegen von einer oder mehreren, zwei oder mehr, drei oder mehr, fünf oder mehr oder zehn oder mehr unterschiedlichen Arten von Krebs nachzuweisen.
-
In manchen Ausführungsformen ist der Krebs einer oder mehrere von (1) Blutkrebs, (2) Brustkrebs, (3) Kolorektalkrebs, (4) Speiseröhrenkrebs, (5) Kopf-Hals-Karzinom, (6) hepatobiliäres Karzinom, (7) Lungenkrebs, (8) Eierstockkrebs und (9) Bauchspeicheldrüsenkrebs.
-
Krebs- und Behandlungsüberwachung
-
In manchen Ausführungsformen kann die Wahrscheinlichkeits- oder Probabilitätspunktzahl zu unterschiedlichen Zeitpunkten (z. B. vor oder nach Behandlung) beurteilt werden, um das Fortschreiten der Krankheit zu überwachen oder die Behandlungseffektivität (z. B. Wirksamkeit der Therapie) zu überwachen. Zum Beispiel stellt die vorliegende Offenbarung Verfahren bereit, die das Erhalten einer ersten Probe (z. B. einer ersten Plasma-cfDNA-Probe) von einem Krebspatienten zu einem ersten Zeitpunkt, das Bestimmen einer ersten Wahrscheinlichkeits- oder Probabilitätspunktzahl davon (wie hierin beschrieben), das Erhalten einer zweiten Testprobe (z. B. einer zweiten Plasma-cfDNA-Probe) von dem Krebspatienten zu einem zweiten Zeitpunkt und das Bestimmen einer zweiten Wahrscheinlichkeits- oder Probabilitätspunktzahl davon (wie hierin beschrieben) involvieren.
-
In bestimmten Ausführungsformen liegt der erste Zeitpunkt vor einer Krebsbehandlung (z. B. vor einer Resektionsoperation oder einem therapeutischen Eingriff) und liegt der zweite Zeitpunkt nach einer Krebsbehandlung (z. B. nach einer Resektionsoperation oder einem therapeutischen Eingriff) und wird das Verfahren genutzt, um die Effektivität der Behandlung zu überwachen. Wenn zum Beispiel die zweite Wahrscheinlichkeits- oder Probabilitätspunktzahl verglichen mit der ersten Wahrscheinlichkeits- oder Probabilitätspunktzahl abnimmt, dann wird die Behandlung als erfolgreich betrachtet. Wenn jedoch die zweite Wahrscheinlichkeits- oder Probabilitätspunktzahl verglichen mit der ersten Wahrscheinlichkeits- oder Probabilitätspunktzahl zunimmt, dann wird die Behandlung als nicht erfolgreich betrachtet. In weiteren Ausführungsformen liegen sowohl der erste als auch der zweite Zeitpunkt vor einer Krebsbehandlung (z. B. vor einer Resektionsoperation oder einem therapeutischen Eingriff). In noch weiteren Ausführungsformen liegen sowohl der erste als auch der zweite Zeitpunkt nach einer Krebsbehandlung (z. B. vor einer Resektionsoperation oder einem therapeutischen Eingriff) und wird das Verfahren verwendet, um die Effektivität der Behandlung oder den Verlust der Effektivität der Behandlung zu überwachen. In noch weiteren Ausführungsformen können cfDNA-Proben zu einem ersten und zweiten Zeitpunkt von einem Krebspatienten erhalten und analysiert werden, z. B. um das Fortschreiten von Krebs zu überwachen, um zu bestimmen, ob ein Krebs in Remission ist (z. B. nach Behandlung), um Resterkrankung oder Wiederauftreten der Krankheit zu überwachen oder nachzuweisen oder um die (z. B. therapeutische) Wirksamkeit der Behandlung zu überwachen.
-
Ein Fachmann wird es ohne Weiteres würdigen, dass Testproben über einen beliebigen gewünschten Satz Zeitpunkte von einem Krebspatienten erhalten und gemäß den Verfahren der Erfindung analysiert werden können, um einen Krebszustand bei dem Patienten zu überwachen. In manchen Ausführungsformen sind der erste und zweite Zeitpunkt durch eine Menge an Zeit getrennt, die von ungefähr 15 Minuten bis zu ungefähr 30 Jahren reicht, wie ungefähr 30 Minuten, wie ungefähr 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 oder ungefähr 24 Stunden, wie ungefähr 1, 2, 3, 4, 5, 10, 15, 20, 25 oder ungefähr 30 Tage oder wie ungefähr 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 oder 12 Monate oder wie ungefähr 1, 1,5, 2, 2,5, 3, 3,5, 4, 4,5, 5, 5,5, 6, 6,5, 7, 7,5, 8, 8,5, 9, 9,5, 10, 10,5, 11, 11,5, 12, 12,5, 13, 13,5, 14, 14,5, 15, 15,5, 16, 16,5, 17, 17,5, 18, 18,5, 19, 19,5, 20, 20,5, 21, 21,5, 22, 22,5, 23, 23,5, 24, 24,5, 25, 25,5, 26, 26,5, 27, 27,5, 28, 28,5, 29, 29,5 oder ungefähr 30 Jahre. In weiteren Ausführungsformen können Testproben mindestens einmal alle 3 Monate, mindestens einmal alle 6 Monate, mindestens einmal jährlich, mindestens einmal alle 2 Jahre, mindestens einmal alle 3 Jahre, mindestens einmal alle 4 Jahre oder mindestens einmal alle 5 Jahre von dem Patienten erhalten werden.
-
Behandlung
-
In noch einer weiteren Ausführungsform können durch ein beliebiges hierin beschriebenes Verfahren erhaltene Informationen (z. B. die Wahrscheinlichkeits- oder Probabilitätspunktzahl) verwendet werden, um eine klinische Entscheidung (z. B. Krebsdiagnose, Behandlungsauswahl, Beurteilung der Behandlungseffektivität usw.) zu treffen oder zu beeinflussen. Zum Beispiel kann in einer Ausführungsform, wenn die Wahrscheinlichkeits- oder Probabilitätspunktzahl einen Schwellenwert überschreitet, ein Arzt eine angemessene Behandlung (z. B. eine Resektionsoperation, Bestrahlungstherapie, Chemotherapie und/oder Immuntherapie) verschreiben. In manchen Ausführungsformen können Informationen wie eine Wahrscheinlichkeits- oder Probabilitätspunktzahl einem Arzt oder einer Person als eine Anzeige bereitgestellt werden.
-
Ein Klassifikator (wie hierin beschrieben) kann verwendet werden, um eine Wahrscheinlichkeits- oder Probabilitätspunktzahl, dass ein Probenmerkmalsvektor von einer Person ist, die Krebs hat, zu bestimmen. In einer Ausführungsform wird eine angemessene Behandlung (z. B. Resektionsoperation oder therapeutisch) verschrieben, wenn die Wahrscheinlichkeit oder Probabilität einen Schwellenwert überschreitet. Wenn zum Beispiel in einer Ausführungsform die Wahrscheinlichkeits- oder Probabilitätspunktzahl größer als oder gleich 60 ist, werden eine oder mehrere angemessene Behandlungen verschrieben. In einer weiteren Ausführungsform werden, wenn die Wahrscheinlichkeits- oder Probabilitätspunktzahl größer als oder gleich 65, größer als oder gleich 70, größer als oder gleich 75, größer als oder gleich 80, größer als oder gleich 85, größer als oder gleich 90 oder größer als oder gleich 95 ist, eine oder mehrere angemessene Behandlungen verschrieben. In weiteren Ausführungsformen kann ein Krebs-log-Quotenverhältnis die Effektivität einer Krebsbehandlung anzeigen. Zum Beispiel kann eine Zunahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem zweiten nach Behandlung) anzeigen, dass die Behandlung nicht effektiv war. Auf ähnliche Weise kann eine Abnahme des Krebs-log-Quotenverhältnisses mit der Zeit (z. B. zu einem nach Behandlung) eine erfolgreiche Behandlung anzeigen. In einer weiteren Ausführungsform werden, wenn das Krebs-Iog-Quotenverhältnis größer als 1, größer als 1,5, größer als 2, größer als 2,5, größer als 3, größer als 3,5 oder größer als 4 ist, eine oder mehrere angemessene Behandlungen verschrieben.
-
In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren krebstherapeutischen Mitteln, ausgewählt aus der Gruppe, bestehend aus einem Chemotherapiemittel, einem gezielten Krebstherapiemittel, einem differenzierenden Therapiemittel, einem Hormontherapiemittel und einem Immuntherapiemittel. Zum Beispiel kann die Behandlung in einem oder mehreren Chemotherapiemitteln, ausgewählt aus der Gruppe, bestehend aus Alkylierungsmitteln, Antimetaboliten, Anthrazyklinen, Antitumorantibiotika, Disruptoren des Zellskeletts (Taxanen), Topoisomerasehemmern, Mitosehemmern, Kortikosteroiden, Kinasehemmern, Nukleotidanaloga, Mitteln auf Platinbasis und einer beliebigen Kombination davon bestehen. In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren gezielten Krebstherapiemitteln, ausgewählt aus der Gruppe, bestehend aus Signalübertragungshemmern (z. B. Tyrosinkinase und Wachstumsfaktorrezeptorhemmern), Histondeacetylase(HDAC)-Hemmern, Retinsäurerezeptoragonisten, Proteasomenhemmern, Angiogenesehemmern und monoklonalen Antikörperkonjugaten. In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren differenzierenden Therapiemitteln, umfassend Retinoide wie Tretinoin, Alitretinoin und Bexaroten. In manchen Ausführungsformen besteht die Behandlung in einem oder mehreren Hormontherapiemitteln, ausgewählt aus der Gruppe, bestehend aus Antiestrogenen, Aromatasehemmern, Progestinen, Estrogenen, Antiandrogenen und GnRH-Agonisten oder -Analoga. In einer Ausführungsform besteht die Behandlung in einem oder mehreren Immuntherapiemitteln, ausgewählt aus der Gruppe, beinhaltend Therapien mit monoklonalen Antikörpern wie Rituximab (RITUXAN) und Alemtuzumab (CAMPATH), unspezifische Immuntherapien und Adjuvanzien wie BCG, Interleukin-2 (IL-2) und Interferon-alpha, immunmodulierende Arzneimittel, zum Beispiel Thalidomid und Lenalidomid (REVLIMID). Es liegt in der Fähigkeit eines qualifizierten Arztes oder Onkologen, auf der Basis von Charakterisitika wie der Art des Tumors, dem Krebsstadium, vorheriger Exposition gegenüber Krebsbehandlung oder therapeutischem Mittel und anderen Charakterisitika des Krebses ein angemessenes krebstherapeutisches Mittel auszuwählen.
-
Beispiele
-
Die folgenden Beispiele werden vorgebracht um gewöhnlichen Fachleuten eine vollständige Offenbarung und Beschreibung, wie die vorliegende Beschreibung herzustellen und zu verwenden ist, bereitzustellen und sollen nicht den Umfang dessen beschränken, was die Erfinder als ihre Beschreibung ansehen, noch sollen sie bedeuten, dass die Experimente unten alle oder die einzigen durchgeführten Experimente sind. Es wurde sich bemüht, hinsichtlich der verwendet Zahlen (z. B. Mengen, Temperatur usw.) Genauigkeit sicherzustellen, aber gewisse Experimentierfehler und Abweichungen sollten berücksichtigt werden.
-
Beispiel 1: Analyse der Sondenqualität
-
Um zu testen, wie viel Überlappung zwischen einem cfDNA-Fragment und einer Sonde erforderlich ist, um eine nicht vernachlässigbare Menge an Herabziehen zu erreichen, wurden verschiedene Längen von Überlappungen getestet unter Verwendung von Panels, die gestaltet waren, um drei unterschiedliche Arten Sonden (V1D3, V1D4, V1E2) mit verschiedenen Überlappungen mit für jede Sonde spezifischen Ziel-DNA-Fragmenten von 175 bp zu umfassen. Getestete Überlappungen lagen im Bereich zwischen 0 bp und 120 bp. Proben, die Ziel-DNA-Fragmente von 175 bp umfassten, wurden auf das Panel aufgetragen und gewaschen und dann wurden an die Sonden gebundene DNA-Fragmente gesammelt. Die Mengen der gesammelten DNA-Fragmente wurden gemessen und die Mengen wurden als Dichte gegen die Größe von Überlappungen aufgetragen, wie in 9 bereitgestellt.
-
Es gab kein signifikantes Binden und Herabziehen von Ziel-DNA-Fragmenten, wenn die Überlappung weniger als 45 bp betrug. Diese Resultate legen nahe, dass eine Fragment-Sonde-Überlappung von mindestens 45 bp im Allgemeinen erforderlich ist, um eine nicht vernachlässigbare Menge an Herabziehen zu erreichen, obwohl diese Zahl in Abhänigkeit von den Assay-Bedingungen variieren kann.
-
Des Weiteren wurde nahegelegt, dass eine Fehlpaarungsrate zwischen der Sonde und den Fragmentsequenzen in der Überlappungsregion von mehr als 10 % ausreicht, um die Bindung und somit die Effizienz des Herabziehens stark zu stören. Daher sind Sequenzen, die entlang mindestens 45 bp mit einer Übereinstimmungsrate von mindestens 90 % mit der Sonde alinieren können, Kandidaten für Fehltreffer-Herabziehen.
-
Folglich haben wir für jede Sonde eine ausführliche Durchsuchung nach allen Genomregionen mit Alinierungen von 45 bp mit einer Übereinstimmungsrate von 90 % und mehr (d. h. Fehltreffer-Regionen) durchgeführt. Spezifisch kombinierten wir eine k-mer-Beimpfungsstrategie (die eine oder mehrere Fehlpaarungen gestatten kann) mit lokaler Alinierung an den Beimpfungsorten. Dies garantierte, dass keine guten Alinierungen auf der Basis von k-mer-Länge, Anzahl gestatteter Fehlpaarungen und Anzahl k-mer-Keimtreffern an einem besonderen Ort nicht bemerkt wurden. Dies involviert das Durchführen einer dynamischen Programmierung örtlicher Alinierung an einer großen Anzahl Orte, sodass die Umsetzung optimiert war, um Vektor-CPU-Anweisungen (z. B. AVX2, AVX512) zu verwenden, und über viele Prozessorkerne innerhalb einer Maschine und auch über viele durch ein Netzwerk vernetzte Maschinen hinweg parallelisiert war. Dies gestattet eine ausführliche Durchsuchung, was beim Gestalten eines Hochleistungspanels (d. h. niedrige Fehltrefferrate und hohe Zielabdeckung für eine gegebene Menge an Sequenzierung) wertvoll ist.
-
Auf die ausführliche Suche folgend wurde jeder Sonde auf der Basis der Anzahl Fehltreffer-Regionen eine Punktanzahl zugeordnet. Die besten Sonden weisen eine Punktzahl von 1 auf, was bedeutet, dass sie an nur einem Ort (hohe Q) übereinstimmen. Sonden mit einer niedrigen Punktzahl zwischen 2-19 Treffern (niedrige Q) wurden akzeptiert, aber Sonden mit einer schlechten Punktzahl von mehr als 20 Treffern (schlechte Q) wurden verworfen. Für spezifische Proben können andere Grenzwerte verwendet werden.
-
Anzahlen von Sonden hoher Qualität, niedriger Qualität und schlechter Qualität wurden dann unter Sonden, die auf hypermethylierte Genomregionen oder hypomethylierte Genomregionen abzielen, gezählt. Wie in 10 bereitgestellt, weisen Sonden, die auf hypermethylierte Regionen abzielen, tendenziell signifikant weniger Fehltreffer-Regionen auf.
-
Beispiel 2: Annotation von Zielgenomregionen
-
Mit dem in 4 dargelegten Prozess identifizierte Zielgenomregionen wurden analysiert, um Merkmale der Zielregionen zu verstehen. Spezifisch wurden ausgewählte Zielgenomregionen mit einem Referenzgenom aliniert, um Alinierungspositionen zu bestimmen. Die Alinierungspositionsinformationen wurden für jede ausgewählte Zielgenomregion gesammelt, umfassend die Chromosomenzahl, Anfangsnukleotidbase, Endnukleotidbase und die Genomannotation für die gegebene Genomregion. Zielgenomregionen waren in Introns, Exons, Zwischengenregionen, 5'-UTRs, 3'-UTRs oder Steuerungsregionen wie Promotoren oder Enhancern positioniert. Die Anzahl Zielgenomregionen, die in jede Genomannotation fallen, wurde gezählt und in der in 12 bereitgestellten Grafik aufgetragen. 12 vergleicht auch die Anzahlen der ausgewählten Zielgenomregionen (schwarze Balken) bzw. Anzahlen zufällig ausgewählter Zielgenomregionen (graue Balken), die in jede Genomannotation fallen.
-
Die Analyse zeigt, dass die ausgewählten Zielgenomregionen in ihrer genomischen Verteilung nicht zufällig sind und sie im Vergleich mit zufällig ausgewählten Zielen derselben Größe höhere Anreicherung von regulatorischen und funktionellen Elementen wie Promotoren und 5UTRs und weniger Repräsentation von Zwischengensequenzen aufwiesen. Zum Beispiel wurde festgestellt, dass Zielgenomregionen eher Positionen in Promotoren, 5'-UTR, Exons, Intron-Exon-Grenzen, Introns, 3'-UTRs oder Enhancern als in Zwischengenregionen einnehmen.
-
Beispiel 3: Krebs-Assay-Panels (CCGA)
-
Zielgenomregionen wurden unter Verwendung einer durch Sequenzierung von cfDNA-Fragmenten, die von mehr als 1800 Individuen erhalten wurden, erzeugten Datenbank ausgewählt. Die cfDNA-Sequenzierungsdatenbank wird hierin als die Circulating Cell-free Genome Atlas Study („CCGA“) bezeichnet. Die CCGA-Studie wurde mit dem ClinicalTrial.gov-Identifikator NCT02889978 (https://www.clinicaltrials.gov/ct2/show/NCT02889978) beschrieben.
-
Spezifisch wurden cfDNA-Sequenzen in der Datenbank auf der Basis des p-Wertes unter Verwendung einer krebsfreien Verteilung gefiltert und nur Fragmente mit p < 0,001 wurden behalten. Die ausgewählten cfDNAs wurden weiter gefiltert, um nur diejenigen zu behalten, die zu mindestens 90 % methyliert oder 90 % unmethyliert waren. Als Nächstes wurde für jede CpG-Stelle in den ausgewählten Fragmenten die Anzahl krebsbefallener Proben bzw. krebsfreier Proben gezählt, die Fragmente umfassen, die diese CpG-Stelle überlappen. Spezifisch wurde für jedes CpG P (Krebs | überlappendes Fragment) berechnet und Genomstellen mit hohen P-Werten wurden als allgemeine krebsbefallene Ziele ausgewählt. Aufgrund der Gestaltung wiesen die ausgewählten Fragmente sehr niedriges Rauschen auf (d. h. wenige überlappende krebsfreie Fragmente).
-
Um krebsartspezifische Ziele zu finden, wurden ähnliche Auswahlprozesse durchgeführt. Auf der Basis ihres Informationsgewinns wurde eine Rangordnung der CpG-Stellen erstellt, wobei eine Krebsart mit allen anderen Proben (krebsfrei plus andere Krebsarten) verglichen wurde. Wir versuchten nur, krebsartspezifische Ziele für den Teilsatz Krebsarten in der CCGA zu finden, bei denen wir ahnten, dass sie genug Signal aufweisen sollten, um dies praktikabel zu machen. Diese Ahnung wurde bei Verwendung des gleichen Auswahlverfahrens, um Merkmale für einen Krebsartklassifikator zu finden, von einem guten Resultat unterstützt.
-
Krebs-Assay-Panels, die Sonden beinhalten, die auf die ausgewählten Genomregionen abzielen, wurden erzeugt. Spezifisch wurden die Panels gestaltet, um das Vorliegen und/oder Stadium von Krebs im Allgemeinen (d. h. gegenüber krebsfrei) bzw. einer spezifischen Krebsart wie unten aufgelistet nachzuweisen:
- Tabelle 1: Bauchspeicheldrüsenkrebs Nr. 1
- Tabelle 2: Blutkrebs Nr. 1
- Tabelle 3: Brustkrebs Nr. 1
- Tabelle 4: Kolorektalkrebs Nr. 1
- Tabelle 5: Speiseröhrenkrebs Nr. 1
- Tabelle 6: Kopf-Hals-Karzinom Nr. 1
- Tabelle 7: hepatobiliäres Karzinom Nr. 1
- Tabelle 8: Lungenkrebs Nr. 1
- Tabelle 9: Eierstockkrebs Nr. 1
- Tabelle 10: Bauchspeicheldrüsenkrebs Nr. 1
- Tabelle 12: Bauchspeicheldrüsenkrebs Nr. 2
- Tabelle 13: Bauchspeicheldrüsenkrebs Nr. 3
- Tabelle 14: Bauchspeicheldrüsenkrebs Nr. 4
- Tabelle 15: Bauchspeicheldrüsenkrebs Nr. 5
- Tabelle 16: Blutkrebs Nr. 2
- Tabelle 17: Brustkrebs Nr. 2
- Tabelle 18: Kolorektalkrebs Nr. 2
- Tabelle 19: Speiseröhrenkrebs Nr. 2
- Tabelle 20: Kopf-Hals-Karzinom Nr. 2
- Tabelle 21: hepatobiliäres Karzinom Nr. 2
- Tabelle 22: Lungenkrebs Nr. 2
- Tabelle 23: Eierstockkrebs Nr. 2
- Tabelle 24: Bauchspeicheldrüsenkrebs Nr. 2
-
Die Panels können Sonden umfassen, die konfiguriert sind, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen, die in der als Tabellen 1-24 bereitgestellten Liste enthalten sind, entspricht oder davon abgeleitet ist. Die in den Tabellen 1-10 und 12-13 bereitgestellten Genomregionen wurden mittels des in 4 dargelegten Prozesses unter Verwendung des CCGA-Datensatzes identifiziert. Die Tabellen 14-24 stellen Teilsätze der Tabellen 1-13 dar. Die Tabellen 1-10 listen die Genomregionen im folgenden Spaltenformat auf, angefangen bei der äußerst linken Spalte: das Chromosom, auf dem sich die Zielgenomregion befindet, Anfangs- und Endposition der Zielgenomregion, ob die Zielgenomregion hypermethyliert oder hypomethyliert ist und eine Annotation (falls bekannt) eines jeden Gens, das sich innerhalb von 10 000 bp von der anvisierten Region des Genoms befindet. Die Tabellen 12-24 weisen die folgende Spaltenformatierung auf, angefangen bei der äußerst linken Spalte: das Chromosom, auf dem sich die Zielgenomregion befindet, und die Anfangs- und Endposition der Zielgenomregion auf dem Chromosom. Die Chromosomenzahlen und die Anfangs- und Endpositionen werden relativ zu einem bekannten menschlichen Referenzgenom, hg19, bereitgestellt. Die Sequenz des menschlichen Referenzgenoms, hg19, ist vom Genome Reference Consortium mit einer Referenznummer, GRCh37/hg19, verfügbar und ist auch vom Genome Browser, bereitgestellt vom Santa Cruz Genomics Institute, verfügbar.
-
Im Allgemeinen kann eine Sonde entwickelt sein, um mit einer beliebigen der CpG-Stellen zu überlappen, die innerhalb der Anfangs-/Endbereiche einer beliebigen der in den Tabellen 1-24 enthaltenen anvisierten Regionen (z. B. anomaler Fragmente) enthalten sind.
-
Beispiel 4: Krebs-Assay-Panel (TCGA)
-
Ein Panel, das das Vorliegen und/oder Stadium von Krebs im Allgemeinen (d. h. Krebs gegenüber kein Krebs) nachzuweisen vermag, wurde erzeugt. Das Panel umfasst Sonden, die konfiguriert sind, um an ein durch Bearbeiten der cfDNA-Moleküle erhaltenes modifiziertes Fragment zu hybridisieren, wobei jedes der cfDNA-Moleküle einer oder mehreren Genomregionen in Tabelle 11 entspricht oder davon abgeleitet ist. Die Genomregionen in Tabelle 11 wurden unter Verwendung der im Rest dieses Dokuments beschriebenen Techniken sowie durch Anvisieren von Virussequenzen/-genomen identifiziert, Datensatz vom The Cancer Genome Atlas (TCGA), der als ein Resultat der Zusammenarbeit zwischen dem National Cancer Institute (NCI) und dem National Human Genome Research Institute (NHGRI) entwickelt wurde. Der Datensatz stellt umfassende, mehrdimensionale Karten der wichtigsten Genomveränderungen bei 33 Arten von Krebs bereit.
-
Tabelle 11 listet die Genomregionen im folgenden Spaltenformat auf, angefangen bei der äußerst linken Spalte: das Chromosom, auf dem sich die Zielgenomregion befindet, Anfangs- und Endposition der Zielgenomregion, ob die Zielgenomregion hypermethyliert oder hypomethyliert ist und eine Annotation (falls bekannt) eines jeden Gens, das sich innerhalb von 10 000 bp von der anvisierten Region des Genoms befindet. Die Chromosomenzahlen und die Anfangs- und Endpositionen werden relativ zu einem bekannten menschlichen Referenzgenom, hg19, bereitgestellt. Die Sequenz des menschlichen Referenzgenoms hg19 ist vom Genome Reference Consortium mit einer Referenznummer, GRCh37/hg19, verfügbar und ist auch vom Genome Browser, bereitgestellt vom Santa Cruz Genomics Institute, verfügbar.
-
Im Allgemeinen ist eine Sonde gestaltet, um mit einer beliebigen der CpG-Stellen zu überlappen, die von den Anfangs-/Endbereichen der von Tabelle 11 umfassten anvisierten Regionen (z. B. anomaler Fragmente) umfasst werden.
-
Zum Identifizieren von Genomregionen aus dem TCGA zur Verwendung in dem gezielten Panel wurde das 450K Illumina Array mit TCGA-Daten für BRCA (Brustkrebs), COAD (Dickdarmadenokarzinom), LIHC (hepatozelluläres Leberkarzinom), LUAD (Lungenadenokarzinom) und LUSC (Lungenplattenepithelkarzinom) verwendet. Da TCGA-Arraydaten auf dem Niveau der CpG-Stellen vorliegen, sind sie anfällig dafür, in Falsch-positiv-Meldungen zu resultieren. Um Falsch-positiv-Meldungen zu vermeiden, wurden CpG-Stellen über das Genom hinweg in Kontingente von 350 bp umgewandelt. Beta-Werte jedes Kontingents wurden als der Mittelwert von CpG-Beta-Werten in diesem Kontingent berechnet. Die Tabelle unten fasst die Anzahl Kontingente (Kontingentzählung) mit unterschiedlichen Bereichen mittlerer CpG-Werte (CpG/Kontingent) zusammen.
CpG/Kontingent | 1 | 2_5 | 6_10 | 11_15 | 16_20 | 20_25 |
Kontingentzählung | 220 424 | 83 644 | 6354 | 271 | 30 | 3 |
-
Kontingente mit weniger als 2 CpGs wurden von der Analyse ausgeschlossen. Als Nächstes wurden Kontingente mit Betadifferenz > 0,95 zwischen normalem und Krebsgewebe ausgewählt. Für die LIHC-Analyse (hepatozelluläres Leberkarzinom) wurde 0,9 als der Schwellenwert verwendet. Fachleute werden es würdigen, dass für jeden der obengenannten Parameter andere Schwellenwerte verwendet werden können, um auszuwählen, auf welche CpG-Stellen abgezielt werden soll.
-
Die Gesamtanzahl Kontingente unter Analyse und die Anzahl ausgewählter Kontingente für jede Krebsart sind unten zusammengefasst. Wie in der Tabelle unten angezeigt, überlappen mehr als 50 % der durch diese Analyse identifizierten anvisierten Genomregionen mit den Genomregionen, die unter Verwendung des CCGA-Datensatzes wie in Beispiel 3 bereitgestellt ausgewählt wurden. Jedoch waren 3459 CpG-Stellen in neuen Genomregionen, die durch Studie unter Verwendung von CCGA nicht identifiziert wurden.
Krebsart | Zählung aller Kontingente | Ausgewählte Kontingente in rauscharmen Regionen |
BRCA | 2622 | 314 |
COAD | 3282 | 779 |
LIHC | 649 | 109 |
LUAD | 3308 | 334 |
LUSC | 2110 | 130 |
Gesamtgröße (Mbp) Nicht überlappend mit CCGA-Zielen | 2,54 | 0,66 |
| 0,26 |
-
Zusätzliche leberspezifische Marker wurden ebenfalls zu den Zielgenomregionen hinzugefügt. Um diese Marker auszuwählen, wurden 49 Paare HCC-Tumor (hepatozelluläres Karzinom)/normal aus dem TCGA-Lebermethylierungsdatensatz von dem Array Illumina Infinium 450K verwendet. Eine differenzielle Methylierungsanalyse wurde an individuellen CpGs auf dem M-Wert durchgeführt und hypermethylierte CpGs mit Vervielfachung > 8 wurden ausgewählt. In dieser Version wurden nur hypermethylierte CpGs ausgewählt, da sie bei der Regulierung der Genexpression relevanter sind. Die geclusterten CpGs (definiert durch ausgewählte CpGs innerhalb 150 bp von einer anderen ausgewählt CpG) wurden in Cluster und expandierte Singletons in Regionen mit einer maximalen Länge von 300 bp kombiniert, vorausgesetzt, dass alle CpGs innerhalb des Clusters oder der Region übereinstimmend und signifikant hypermethyliert sind (mittlere Vervielfachung > 4, Mindestvervielfachung > 2).
-
Tabelle 11 umfasst auch manche Regionen, von denen in der Literatur berichtet wurde, dass sie mit unterschiedlichen Arten von Krebs assoziiert sind. Andere Regionen, wie SEPT9 und SHOX2, wurden ebenfalls in Tabelle 11 aufgenommen.
-
Tabelle 11 umfasst auch manche Zielregionen, die in der Lage sind, auch übliche Driver-Mutationen nachzuweisen. Zu diesem Zweck sind auch in dem Artikel von Cohen et al. von 2018 (Cohen et al., Detection and localization of surgically resectable cancers with a multi-analyte blood test, Science, 2018) untersuchte Regionen sowie alle Proteinvarianten im oncoKB-Satz aufgenommen.
-
Hinsichtlich der Auswahl von Virussequenzen für die Aufnahme in Tabelle 11 wurde für jeden oben erwähnten Krebs ein Modell mit allen möglichen Kombinationen von Viren für die Diagnose angepasst. Modelle innerhalb von 10 % der Spitzenpunktzahl wurden gespeichert. Alle Viren, die in irgendeinem Spitzenmodell für irgendeinen Krebs vorhanden waren, wurden behalten. Dies eliminierte JCV-PLYCG und HPV8-ZM130 und behielt HBV und HCV.
-
Fünfhundert Stellen wurden über die Virengenome hinweg aufgeteilt. Stellen wurden so zugewiesen, dass sie den Anteil Spitzenmodelle widerspiegeln, von denen jedes Virus umfasst wurde. Innerhalb des Genoms jedes Virus wurden Stellen in Intervallen von nicht weniger als 250 bp verteilt. Stellen wurden mit einer zur Lesungsverteilung des CCGA-Datensatzes proportionalen Probabilität vorgeschlagen. Diese Verteilung wurde als ein Stellvertreter sowohl für die Eindeutigkeit relativ zum Menschen (Spezifität) als auch die Konservierung über Virusstämme hinweg (Empfindlichkeit) gewählt. Jede vorgeschlagene Stelle wurde abgelehnt, wenn sie innerhalb von 250 bp von einer bestehenden Stelle lag, anderenfalls wurde sie akzeptiert. Wenn jedoch die Anzahl Stellen ausreichte, um das Genom zu umspannen, war die Stichprobennahme gleichförmig und jegliche überschüssigen Stellen wurden anderen Genomen zugewiesen. Die Neuzuweisung von Stellen an andere Genome wurde so durchgeführt, dass das Endresultat möglichst nah an die Zielzuweisung heranreichte.
-
Beispiel 5: Leistung eines Assay-Panels für die Krebsdiagnose
-
Die Leistung eines hierin beschriebenen Panels wurde durch Anwenden des Klassifikators der L2-regularisierten logistischen Kernelregression der binären Rangordnungspunktzahl, wie hierin beschrieben (siehe z. B.
6A; siehe auch
PCT/US2019/022122 und
US 16/352,602 ), zum Unterscheiden einer krebsbefallenen Probe von krebsfreien Proben unter Nutzung dreier rechnerisch distinkter Prozesse bewertet: (
1) Analyse von WGBS-Daten („Mscore.testV1“), (
2) Analyse von WGBS-Daten mit 10-facher Kreuzvalidierung(„Mscore.testV1.cv“) und (
3) Analyse von WGBS-Daten, rechnerisch gefiltert, um die Klassifizierung auf Sequenzlesungen von cfDNA-Molekülen zu beschränken, die von den in Tabelle 12 aufgelisteten zielenden Genomregionen abgeleitet sind („Mscore.testV1.cv.panel“). Die unter Nutzung aller drei Prozesse bewerteten Sequenzlesungen wurden von der hierin beschriebenen CCGA-Studie erhalten.
-
Ausgabepunktzahlen wurden gepoolt und verwendet, um eine ROC-Kurve (Receiver-Operator Characteristic) für die Leistungsanalyse zu konstruieren und die Empfindlichkeit und Spezifität abzuschätzen. Krebsfreie Proben wurden verwendet, um die Spezifität nach Korrektur von Störsignalen abzuschätzen. Die Beziehung zwischen Empfindlichkeit und Spezifität wird durch in 14B bereitgestellte Receiver-Operator-Characteristic-Kurven abgebildet und die Empfindlichkeit bei 95 % Spezifität für jeden Datensatz ist in 14A bereitgestellt.
-
Die Daten zeigen hohe Spezifität des Klassifikators, ungeachtet des verwendeten rechnerischen Ansatzes. Die Werte für den Bereich unter der Kurve (AUC; Area under Curve) und die Empfindlichkeit bei 95 % Spezifität waren über die drei rechnerisch distinkten Prozesse hinweg ähnlich. Dieses Ergebnis zeigt, dass der Klassifikator, wenn die Analyse auf anvisierte Genomregionen, ausgewählt wie hierin beschrieben, begrenzt ist, beim Diagnostizieren von Krebs genauso effektiv ist wie er es mit ungefilterten WGBS-Daten ist. Es gab im Grunde keinen Leistungsverlust, wenn die Analyse auf Sequenzlesungen von cfDNA-Molekülen begrenzt war, die von in Tabelle 12 aufgelisteten anvisierten Genomregionen abgeleitet waren. Durch Verwendung gezielter Sequenzlesungen, die durch Verwendung des Panels anstatt Sequenzierung der gesamten Nukleinsäuren erhalten wurden, kann das Verfahren auf Panelbasis die Sequenzierungstiefe der Zielregionen erhöhen und die Kosten verglichen mit WGBS senken, während es ähnliche Grade von Empfindlichkeit und Spezifität bereitstellt.
-
Beispiel 6: Diagnose von Krebs unter Verwendung des Krebs-Assay-Panels
-
Einer Gruppe von Individuen, bei denen zuvor Krebs diagnostiziert wurde, und einer anderen Gruppe von Individuen ohne Krebs werden Blutproben abgenommen. Aus den Blutproben werden cfDNAs extrahiert und mit Bisulfit behandelt, um unmethylierte Cytosine in Uracile umzuwandeln. Die mit Bisulfit behandelten Proben werden auf das Krebs-Assay-Panel aufgetragen, das wie hierin bereitgestellt gestaltet ist. Ungebundene cfDNAs werden abgewaschen und an die Sonden gebundene cfDNAs werden gesammelt. Die gesammelten cfDNAs werden amplifiziert und sequenziert. Die Sequenzierungsdaten bestätigen, dass die Sonden spezifisch cfDNAs anreichern, die Krebs anzeigende Methylierungsmuster aufweisen, und dass Proben von der krebsbefallenen Gruppe verglichen mit der krebsfreien Gruppe signifikant mehr der differenziell methylierten cfDNAs umfassen.
-
EINBINDUNG DURCH BEZUGNAHME
-
Alle in dieser Gebrauchsmusteranmeldung zitierten Veröffentlichungen, Patente, Patentanmeldungen und anderen Dokumente werden hiermit durch Bezugnahme in ihrer Gesamtheit für alle Zwecke in demselben Maß eingebunden, wie wenn für jede(s) einzelne Veröffentlichung, Patent, Patentanmeldung oder andere Dokument individuell angezeigt wäre, dass sie (es) durch Bezugnahme für alle Zwecke eingebunden ist.
-
ÄQUIVALENTE
-
Es versteht sich, dass die Figuren und Beschreibungen der vorliegenden Offenbarung vereinfacht wurden, um Elemente zu illustrieren, die für ein klares Verständnis der vorliegenden Offenbarung relevant sind, während viele andere Elemente, die in einem typischen System zu finden sind, zum Zweck der Klarheit weggelassen wurden. Gewöhnliche Fachleute können erkennen, dass andere Elemente und/oder Schritte bei der Umsetzung der vorliegenden Offenbarung wünschenswert und/oder erforderlich sind. Weil solche Elemente und Schritte nach dem Stand der Technik allgemein bekannt sind und weil sie kein besseres Verständnis der vorliegenden Offenbarung erleichtern, wird eine Erörterung solcher Elemente und Schritte jedoch hierin nicht bereitgestellt. Die Offenbarung hierin ist auf alle solchen Variationen und Modifikationen an solchen Fachleuten bekannten Elementen und Verfahren gerichtet.
-
Manche Abschnitte der obigen Beschreibung beschreiben die Ausführungsformen im Hinblick auf Algorithmen und symbolische Darstellungen von Operationen an Informationen. Diese algorithmischen Beschreibungen und Darstellungen werden von Fachleuten der Datenverarbeitung üblicherweise verwendet, um die Substanz ihrer Arbeit anderen Fachleuten effektiv zu vermitteln. Es versteht sich, dass diese Operationen zwar funktional, rechnerisch oder logisch beschrieben sind, aber von Computerprogrammen oder äquivalenten elektrischen Schaltkreisen, Mikrocode oder dergleichen umgesetzt werden. Die beschriebenen Operationen und ihre assoziierten Module können in Software, Firmware, Hardware oder beliebigen Kombinationen davon ausgeführt sein.
-
Wie hierin verwendet, bedeutet jede Bezugnahme auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“, dass ein besonderes Element, ein besonderes Merkmal, eine besondere Struktur oder ein besonderes Charakteristikum, das (die) in Verbindung mit der Ausführungsform beschrieben wird, von mindestens einer Ausführungsform umfasst wird. Die Vorkommen des Ausdrucks „in einer Ausführungsform“ an verschiedenen Stellen in der Gebrauchsmusterschrift nehmen nicht notwendigerweise alle Bezug auf dieselbe Ausführungsform, wodurch ein Rahmen für verschiedene Möglichkeiten bereitgestellt wird, wie beschriebene Ausführungsformen zusammen funktionieren.
-
Wie hierin verwendet, sollen die Begriffe „beinhaltet“, „beinhaltend“, „umfasst“, „umfassend“, „weist auf, „aufweisend“ oder jegliche andere Variation davon eine nicht ausschließende Einbeziehung abdecken. Zum Beispiel ist ein Prozess, ein Verfahren, ein Artikel oder eine Vorrichtung, der/die/das eine Liste von Elementen beinhaltet, nicht notwendigerweise auf nur diese Elemente beschränkt, sondern kann weitere Elemente umfassen, die nicht ausdrücklich aufgelistet sind oder einem solchen Prozess, einem solchen Verfahren, einem solchen Artikel oder einer solchen Vorrichtung zu eigen sind. Ferner bezieht sich „oder“, sofern nicht das Gegenteil ausdrücklich gesagt wird, auf ein einschließendes Oder und nicht auf ein ausschließendes Oder. Zum Beispiel ist eine Bedingung A oder B durch ein jedes der Folgenden erfüllt: A ist wahr (oder vorhanden) und B ist falsch (oder nicht vorhanden), A ist falsch (oder nicht vorhanden) und B ist wahr (oder vorhanden) und sowohl A als auch B sind wahr (oder vorhanden).
-
Außerdem wird die Verwendung von „ein“ oder „eine“ eingesetzt, um Elemente und Bestandteile der Ausführungsformen hierin zu beschreiben. Dies wird lediglich aus praktischen Gründen und um eine allgemeine Vorstellung von der Beschreibung zu geben, getan. Diese Beschreibung sollte als „genau ein(e)“ oder „mindestens ein(e)“ umfassend gelesen werden, und der Singular umfasst auch den Plural, sofern nicht offensichtlich ist, dass es anders gemeint ist.
-
Während besondere Ausführungsformen und Anwendungen illustriert und beschrieben wurden, ist es zu verstehen, dass die offenbarten Ausführungsformen nicht auf genau die hierin beschriebene Bauweise und genau die hierin beschriebenen Komponenten beschränkt sind. Verschiedene Modifikationen, Änderungen und Variationen, die dem Fachmann offenkundig sein werden, können in der Anordnung, Operation und den Details des hierin offenbarten Verfahrens und der hierin offenbarten Vorrichtung vorgenommen werden, ohne von dem in den anhängenden Schutzansprüchen definierten Sinn und Umfang abzuweichen.
-
Während verschiedene spezifische Ausführungsformen illustriert und beschrieben wurden, ist die obenstehende Gebrauchsmusterschrift nicht restriktiv. Es wird gewürdigt werden, dass verschiedene Änderungen gemacht werden können, ohne vom Sinn und Umfang der Beschreibung(en) abzuweichen. Viele Variationen werden dem Fachmann nach Prüfung dieser Gebrauchsmusterschrift offenkundig werden.
-
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 62651643 [0001]
- US 62/738271 [0001]
- WO 2010/037001 [0125]
- WO 2011/127136 [0125]
- US 2016/0340740 [0259]
- US 2019022122 PCT [0272, 0325]
- US 16352602 [0272, 0325]