DE202013012824U1

DE202013012824U1 - Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation

Info

Publication number: DE202013012824U1
Application number: DE202013012824.0U
Authority: DE
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2012-09-04
Filing date: 2013-09-04
Publication date: 2020-03-10
Anticipated expiration: 2023-09-05
Also published as: US20190185940A1; US9834822B2; KR102210852B1; IL237480A0; US20210032707A1; CA3190199A1; GB2533006B; JP2022169566A; US12110560B2; US20200248270A1; US11001899B1; GB201509071D0; MX2015002769A; JP6664025B2; JP2025016591A; ES2769241T5; US11879158B2; US10876171B2; US12054783B2; KR20220061271A

Abstract

Zusammensetzung, die zwischen 100 und 100000 menschliche haploide Genomäquivalente von cfDNA-Polynukleotiden umfasst, wobei die cfDNA-Polynukleotide mit zwischen 5 und 1000 verschiedenen Oligonukleotid-Barcodes markiert sind.

Description

QUERVERWEIS
Diese Anmeldung beansprucht die Priorität der US-Provisional-Patentanmeldung Nr. 61/696,734 , die am 4. September 2012 eingereicht worden ist, der US-Provisional-Patentanmeldung Nr. 61/704,400 , die am 21. September 2012 eingereicht worden ist, der US-Provisional-Patentanmeldung Nr. 61/793,997 , die am 15. März 2013 eingereicht worden ist, und der US-Provisional-Patentanmeldung Nr. 61/845,987 , die am 13. Juli 2013 eingereicht worden ist, wobei jede davon für alle Zwecke vollständig unter Bezugnahme hierin einbezogen ist.
HINTERGRUND DER ERFINDUNG
Die Detektion und Quantifizierung von Polynukleotiden ist für die Molekularbiologie und medizinische Anwendungen wie z.B. Diagnostik relevant. Genetische Testung ist für eine Reihe von Diagnoseverfahren besonders zweckdienlich. Beispielsweise können Störungen, die durch seltene genetische Alterationen (z.B. Sequenzvarianten) oder Veränderungen epigenetischer Marker, wie z.B. Krebs und teilweise oder vollständige Aneuploidie, mit DNA-Sequenzinformationen detektiert oder genauer charakterisiert werden.
Die Früherkennung und Überwachung genetischer Erkrankungen, wie z.B. Krebs, ist bei der erfolgreichen Behandlung oder Handhabung der Erkrankung häufig zweckdienlich und erforderlich. Ein Ansatz kann die Überwachung einer aus zellfreien Nukleinsäuren stammenden Probe umfassen, einer Population von Polynukleotiden, die in verschiedenen Typen von Körperflüssigkeiten zu finden sind. In manchen Fällen kann die Erkrankung basierend auf der Detektion genetischer Aberrationen, wie z.B. einer Änderung der Kopienzahlvariation und/oder Sequenzvariation einer oder mehrerer Nukleinsäuresequenzen, oder der Entwicklung bestimmter anderer seltener genetischer Alterationen charakterisiert oder detektiert werden. Zellfreie DNA („cfDNA“) ist auf dem Gebiet der Erfindung bereits seit Jahrzehnten bekannt und kann genetische Aberrationen enthalten, die mit einer bestimmten Erkrankung assoziiert sind. Mit Verbesserungen der Sequenzierung und Verfahren zur Manipulation von Nukleinsäuren besteht auf dem Gebiet der Erfindung ein Bedarf an verbesserten Verfahren und Systemen zur Verwendung zellfreier DNA, um Erkrankungen zu detektieren und überwachen.
ZUSAMMENFASSUNG DER ERFINDUNG
Die Offenbarung stellt ein Verfahren zum Detektieren einer Kopienzahlvariation bereit, umfassend: a) Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide optional an einzigartigen Barcodes angebracht ist; b) Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen; c) Kartieren von Sequenzauslesungen, die im Schritt (a) erhalten worden sind, auf eine Bezugssequenz; d) Quantifizieren/Zählen von kartierten Auslesungen in zwei oder mehr vordefinierten Regionen der Bezugssequenz; e) Bestimmen einer Kopienzahlvariation in einer oder mehreren der vordefinierten Regionen durch (i) Normalisieren der Anzahl von Auslesungen in den vordefinierten Regionen zueinander und/oder der Anzahl von einzigartigen Barcodes in den vordefinierten Regionen zueinander; und (ii) Vergleichen der im Schritt (i) erhaltenen normalisierten Anzahlen mit normalisierten Anzahlen, die von einer Kontrollprobe erhalten worden sind.
Die Offenbarung stellt auch ein Verfahren zum Detektieren einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe bereit, die von einem Individuum erhalten worden ist, umfassend: a) Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierungsauslesungen erzeugt; b) Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierungsauslesungen erzeugt; Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierungsauslesungen erzeugt; c) Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen; d) Kartieren von Sequenzierungsauslesungen, die vom Sequenzieren stammen, auf eine Bezugssequenz; e) Identifizieren einer Teilmenge von kartierten Sequenzierungsauslesungen, die mit einer Variante der Bezugssequenz bei jeder kartierbaren Basenposition übereinstimmen; f) für jede kartierbare Basenposition, Berechnen eines Verhältnisses (a) einer Anzahl von kartierten Sequenzierungsauslesungen, die verglichen mit der Bezugssequenz eine Variante umfassen, zu (b) einer Anzahl von gesamten Sequenzierungsauslesungen für jede kartierbare Basenposition; g) Normalisieren der Verhältnisse oder der Häufigkeit einer Varianz für jede kartierbare Basenposition und Bestimmen einer oder von potenziell seltenen Variante(n) oder Mutation(en); h) und Vergleichen der resultierenden Anzahl für jede der Regionen mit einer oder von potenziell seltenen Variante(n) oder Mutation(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
Zusätzlich stellt die Offenbarung auch ein Verfahren zum Charakterisieren der Heterogenität eines anormalen Zustands in einem Individuum bereit, wobei das Verfahren das Erzeugen eines genetischen Profils von extrazellulären Polynukleotiden in dem Individuum umfasst, wobei das genetische Profil eine Mehrzahl von Daten umfasst, die von der Analyse einer Kopienzahlvariation und/oder einer anderen seltenen Mutation (z.B. einer genetischen Veränderung bzw. Alteration) stammen.
In manchen Ausführungsformen wird die Prävalenz/Konzentration jeder seltenen Variante, die in dem Individuum identifiziert wird, gleichzeitig angegeben und quantifiziert. In anderen Ausführungsformen wird ein Konfidenzwert bezüglich der Prävalenz/Konzentrationen seltener Varianten in dem Individuum angegeben.
In manchen Ausführungsformen umfassen extrazelluläre Polynukleotide DNA. In anderen Ausführungsformen umfassen extrazelluläre Polynukleotide RNA. Polynukleotide können Fragmente sein oder nach der Isolierung fragmentiert werden. Zusätzlich stellt die Offenbarung ein Verfahren zum Isolieren und Extrahieren einer zirkulierenden Nukleinsäure bereit.
In manchen Ausführungsformen werden extrazelluläre Polynukleotide aus einer Körperprobe isoliert, die aus einer Gruppe, bestehend aus Blut, Plasma, Serum, Urin, Speichel, mukosalen Exkretionen, Sputum, Stuhl und Tränen, ausgewählt ist
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung auch einen Schritt des Bestimmens des Prozentsatzes von Sequenzen mit einer Kopienzahlvariation oder einer anderen seltenen genetischen Veränderung (z.B. Sequenzvarianten) in der Körperprobe.
In manchen Ausführungsformen wird der Prozentsatz von Sequenzen mit einer Kopienzahlvariation in der Körperprobe durch Berechnen des Prozentsatzes von vordefinierten Regionen mit einer Menge von Polynukleotiden oberhalb oder unterhalb einer vorgegebenen Schwelle bestimmt.
In manchen Ausführungsformen werden Körperflüssigkeiten aus einem Individuum entnommen, bei dem der Verdacht besteht, dass es ein anormales Leiden aufweist, das ausgewählt sein kann aus der Gruppe bestehend aus Mutationen, seltenen Mutationen, Einzelnukleotidvarianten, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen der chemischen Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen und Krebs.
In manchen Ausführungsformen kann das Individuum eine schwangere Frau sein, bei der das anormale Leiden eine Fötusanormalie sein kann, die aus der aus Einzelnukleotidvarianten, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversionen, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen der chemischen Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen und Krebs bestehenden Gruppe ausgewählt ist.
In manchen Ausführungsformen kann das Verfahren das Anbringen eines Barcodes oder von mehreren Barcodes an die extrazellulären Polynukleotide oder Fragmente davon vor dem Sequenzieren umfassen, wobei die einbezogenen Barcodes einzigartig sind. In anderen Ausführungsformen sind die Barcodes, die an die extrazellulären Polynukleotide oder Fragmente davon vor dem Sequenzieren angebracht werden, nicht einzigartig.
In manchen Ausführungsformen können die Verfahren der Offenbarung selektives Anreichern von Regionen aus dem Genom oder Transkriptom des Individuums vor der Sequenzierung umfassen. In anderen Ausführungsformen umfassen die Verfahren der Offenbarung selektives Anreichern von Regionen aus dem Genom oder Transkriptom des Individuums vor der Sequenzierung. In anderen Ausführungsformen umfassen die Verfahren der Offenbarung nichtselektives Anreichern von Regionen aus dem Genom oder Transkriptom des Individuums vor der Sequenzierung.
Ferner umfassen die Verfahren der Offenbarung das Anbringen eines oder mehrerer Barcodes an die extrazellulären Polynukleotide oder Fragmente davon vor jeglichem Amplifikations- oder Anreicherungsschritt.
In manchen Ausführungsformen ist der Barcode ein Polynukleotid, das ferner zufällige Sequenzen oder einen fixierten oder semizufälligen Satz von Oligonukleotiden umfassen kann, der in Kombination mit der Diversität von Molekülen, die aus einem ausgewählten Bereich sequenziert wurden, die Identifikation von einzigartigen Molekülen ermöglicht und eine Länge von zumindest 3-, 5-, 10-, 15-, 20-, 25-, 30-, 35-, 40-, 45- oder 50mer-Basenpaaren aufweisen kann.
In manchen Ausführungsformen können extrazelluläre Polynukleotide oder Fragmente davon amplifiziert werden. In manchen Ausführungsformen umfasst Amplifikation globale Amplifikation oder Amplifikation des ganzen Genoms.
In manchen Ausführungsformen können Sequenzauslesungen einzigartiger Identität basierend auf Sequenzinformationen an den Anfangs- (Start-) und End- (Stopp-) Regionen der Sequenzauslesung und der Länge der Sequenzauslesung detektiert werden. In anderen Ausführungsformen werden Sequenzmoleküle einzigartiger Identität basierend auf Sequenzinformationen an den Anfangs- (Start-) und End- (Stopp-) Regionen der Sequenzauslesung, der Länge der Sequenzauslesung und dem Anbringen eines Barcodes detektiert.
In manchen Ausführungsformen umfasst Amplifikation selektive Amplifikation, nichtselektive Amplifikation, Suppressionsamplifikation oder subtraktive Anreicherung.
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung das Entfernen einer Teilmenge der Auslesungen aus der weiteren Analyse, bevor die Auslesungen quantifiziert oder abgezählt werden.
In manchen Ausführungsformen kann das Verfahren das Herausfiltern von Auslesungen mit einem Genauigkeits- oder Qualitätswert unter einer Schwelle, z.B. 90 %, 99 %, 99,9 % oder 99,99 %, und/oder einem Kartierungswert unter einer Schwelle, z.B. 90 %, 99 %, 99,9 % oder 99,99 %, umfassen. In weiteren Ausführungsformen umfassen Verfahren der Offenbarung das Filtern von Auslesungen mit einem Qualitätswert unter einer festgelegten Schwelle.
In manchen Ausführungsformen weisen vordefinierte Regionen eine einheitliche oder im Wesentlichen einheitliche Größe auf, etwa eine Größe von 10 kb, 20 kb, 30 kb 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb oder 100 kb. In manchen Ausführungsformen werden zumindest 50, 100, 200, 500, 1000, 2000, 5000, 10.000, 20.000 oder 50.000 Regionen analysiert.
In manchen Ausführungsformen kommt eine genetische Variante, seltene Mutation oder Kopienzahlvariation in einer Region des Genoms vor, die aus der aus Genfusionen, Genduplikationen, Gendeletionen, Gentranslokationen, Mikrosatellitregionen, Genfragmenten oder Kombinationen davon bestehenden Gruppe ausgewählt ist. In anderen Ausführungsformen kommt eine genetische Variante, seltene Mutation oder Kopienzahlvariation in einer Region des Genoms vor, die aus der aus Genen, Onkogenen, Tumorsuppressorgenen, Promotoren, Regulationssequenzelementen oder Kombinationen davon bestehenden Gruppe ausgewählt ist. In manchen Ausführungsformen ist die Variante eine Nukleotidvariante, Einzelbasensubstitution oder kleine Indel, Transversion, Translokation, Inversion, Deletion, Trunkierung oder Gentrunkierung mit einer Länge von etwa 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 oder 20 Nukleotiden.
In manchen Ausführungsformen umfasst das Verfahren das Korrigieren/Normalisieren/Anpassen der Menge kartierter Auslesungen unter Verwendung der Barcodes oder einzigartigen Eigenschaften einzelner Auslesungen.
In manchen Ausführungsformen wird das Abzählen der Auslesungen durch Abzählen von einzigartigen Barcodes in jeder der vordefinierten Regionen und Normalisieren dieser Anzahlen über zumindest eine Teilmenge von vordefinierten Regionen, die sequenziert worden sind, durchgeführt. In manchen Ausführungsformen werden Proben von aufeinanderfolgenden Zeitintervallen von demselben Individuum analysiert und mit den Ergebnissen der vorhergehenden Probe verglichen. Das Verfahren der Offenbarung kann ferner das Bestimmen einer partiellen Kopienzahlvariation-Häufigkeit, eines Verlusts an Heterozygotie, eine Expressionsanalyse, eine epigenetische Analyse und eine Hypermethylierungsanalyse nach dem Amplifizieren der extrazellulären Polynukleotide mit angebrachtem Barcode umfassen.
In manchen Ausführungsformen wird die Analyse der Kopienzahlvariation und seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe aus einem Individuum unter Verwendung von Multiplex-Sequenzierung bestimmt, die das Durchführen von über 10.000 Sequenzreaktionen; das gleichzeitige Sequenzieren von zumindest 10.000 verschiedenen Auslesungen; oder das Durchführen einer Datenanalyse bei zumindest 10.000 verschiedenen Auslesungen über das Genom umfasst. Das Verfahren kann eine Multiplex-Sequenzierung umfassen, die das Durchführen einer Datenanalyse bei zumindest 10.000 verschiedenen Auslesungen über das Genom umfasst. Das Verfahren kann ferner das Abzählen sequenzierter Auslesungen umfassen, die einzigartig identifizierbar sind.
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung Normalisierung, und Detektion wird unter Verwendung eines oder mehrerer aus Hidden-Markow-, Dynamische-Programmierungs-, Stützvektormaschinen-, Bayes'sches-Netz-, Trellis-Dekodierungs-, Viterbi-Dekodierungs-, Erwartungsmaximierung-, Kalman-Filter- oder Neuronales-Netz-Methodiken durchgeführt.
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung das Überwachen der Krankheitsprogression, das Überwachen der Resterkrankung, das Überwachen der Therapie, das Diagnostizieren eines Leidens, das Prognostizieren eines Leidens oder das Auswählen einer Therapie basierend auf entdeckten Varianten.
In manchen Ausführungsformen wird eine Therapie basierend auf der aktuellsten Probenanalyse modifiziert. Ferner umfassen die Verfahren der Offenbarung das Ableiten des genetischen Profils eines Tumors, einer Infektion oder einer anderen Gewebeanormalie. In manchen Ausführungsformen wird das Wachstum, die Remission oder Entwicklung eines Tumors, einer Infektion oder einer anderen Gewebeanormalie überwacht. In manchen Ausführungsformen wird das Immunsystem des Individuums analysiert und zu einzelnen Zeitpunkten oder im Zeitverlauf überwacht.
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung die Identifizierung einer Variante, die durch einen Bildgebungstest (z.B. CT, PET-CT, MRI, Röntgen, Ultraschall) nachbeobachtet wird, um die Gewebeanormalie zu lokalisieren, die im Verdacht steht, die identifizierte Variante hervorzurufen.
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung die Verwendung genetischer Daten, die aus einer Gewebe- oder Tumorbiopsie desselben Patienten erhalten wurden. In manchen Ausführungsformen wird die Phylogenetik eines Tumors, einer Infektion oder einer anderen Gewebeanormalie abgeleitet.
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung das Durchführen einer populationsbasierten Nichtzuordnung und Identifizierung von Regionen geringer Konfidenz. In manchen Ausführungsformen umfasst das Erhalten der Messdaten für den Sequenzabdeckungsgrad das Messen der Sequenzabdeckungsgradtiefe an jeder Position des Genoms. In manchen Ausführungsformen umfasst das Korrigieren der Messdaten für die Sequenzabdeckungsgradverzerrung das Berechnen eines Fenstergemittelten Abdeckungsgrads. In manchen Ausführungsformen umfasst das Korrigieren der Messdaten für die Sequenzabdeckungsgradverzerrung das Durchführen von Anpassungen, um die GC-Verzerrung in der Bibliothekserstellung und im Sequenzierungsverfahren zu berücksichtigen. In manchen Ausführungsformen umfasst das Korrigieren der Messdaten für die Sequenzabdeckungsgradverzerrung das Durchführen von Anpassungen basierend auf einem zusätzlichen Gewichtungsfaktor, der mit einzelnen Kartierungen assoziiert ist, um die Verzerrung auszugleichen.
In manchen Ausführungsformen umfassen die Verfahren der Offenbarung ein extrazelluläres Polynukleotid, das aus einer erkrankten Zelle stammt. In manchen Ausführungsformen stammt das extrazelluläre Polynukleotid aus einer gesunden Zelle.
Die Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der folgenden Schritte bereit: Auswählen von vordefinierten Regionen in einem Genom; Abzählen einer Anzahl von Sequenzauslesungen in den vordefinierten Regionen; Normalisieren der Anzahl von Sequenzauslesungen über den vordefinierten Regionen; und Bestimmen des Prozentsatzes einer Kopienzahlvariation in den vordefinierten Regionen. In manchen Ausführungsformen wird das gesamte Genom oder werden zumindest 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 % oder 90 % des Genoms analysiert. In manchen Ausführungsformen stellt das computerlesbare Medium einen Prozentsatz von Krebs-DNA oder -RNA im Plasma oder Serum für den Endnutzer bereit.
In manchen Ausführungsformen wird das Ausmaß einer genetischen Variation, wie z.B. Polymorphismen oder kausale Varianten, analysiert. In manchen Ausführungsformen wird das Vorliegen oder Fehlen von genetischen Veränderungen detektiert.
Die Offenbarung stellt auch ein Verfahren zum Detektieren einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe bereit, die von einem Individuum erhalten worden ist, umfassend: a) Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierungsauslesungen erzeugt; b) Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen; c) Kartieren von Sequenzauslesungen, die im Schritt (a) erhalten worden sind, auf eine Bezugssequenz; d) Identifizieren einer Teilmenge von kartierten Sequenzierungsauslesungen, die mit einer Variante der Bezugssequenz bei jeder kartierbaren Basenposition übereinstimmen; e) für jede kartierbare Basenposition Berechnen eines Verhältnisses (a) einer Anzahl von kartierten Sequenzierungsauslesungen, die verglichen mit der Bezugssequenz eine Variante umfassen, zu (b) einer Anzahl von gesamten Sequenzierungsauslesungen für jede kartierbare Basenposition; f) Normalisieren der Verhältnisse oder der Häufigkeit einer Varianz für jede kartierbare Basenposition und Bestimmen einer oder von potenziell seltenen Variante(n) oder Mutation(en); und g) Vergleichen der resultierenden Anzahl für jede der Regionen.
Diese Offenbarung stellt auch ein Verfahren bereit, umfassend: a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden: b. Amplifizieren der markierten Elternpolynukleotide in dem Satz, um einen entsprechenden Satz von amplifizierten Nachkommen-Polynukleotiden zu produzieren; c. Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden, um einen Satz von Sequenzierungsauslesungen zu produzieren; und d. Zusammenfassen des Satzes von Sequenzierungsauslesungen, um einen Satz von Consensussequenzen zu erzeugen, wobei jede Consensussequenz einem einzigartigen Polynukleotid unter dem Satz von markierten Elternpolynukleotiden entspricht. In bestimmten Ausführungsformen umfasst das Verfahren ferner: ein Analysieren des Satzes von Consensussequenzen für jeden Satz von markierten Elternmolekülen .
In manchen Ausführungsformen ist jedes Polynukleotid in einem Satz auf eine Bezugssequenz kartierbar.
In manchen Ausführungsformen umfasst das Verfahren das Bereitstellen einer Vielzahl von Sätzen markierter Elternpolynukleotide, wobei jeder Satz auf eine andere Bezugssequenz kartierbar ist.
In manchen Ausführungsformen umfasst das Verfahren ferner das Konvertieren eines zu Beginn vorliegenden genetischen Ausgangsmaterials zu markierten Elternpolynukleotiden.
In manchen Ausführungsformen umfasst das zu Beginn vorliegende genetische Ausgangsmaterial nicht mehr als 100 ng an Polynukleotiden.
In manchen Ausführungsformen umfasst das Verfahren eine starke Reduktion des zu Beginn vorliegenden genetischen Ausgangsmaterials vor der Konvertierung.
In manchen Ausführungsformen umfasst das Verfahren das Überführen des zu Beginn vorliegenden genetischen Materials in markierte Elternpolynukleotide mit einer Überführungseffizienz von zumindest 10 %, zumindest 20 %, zumindest 30 %, zumindest 40 %, zumindest 50 %, zumindest 60 %, zumindest 80 % oder zumindest 90 %.
In manchen Ausführungsformen umfasst das Überführen ein beliebiges aus Ligation stumpfer Enden, Ligation klebriger Enden, molekularen Inversionssonden, PCR, ligationsbasierter PCR, Einzelstrangligation und Einzelstrangzirkularisierung.
In manchen Ausführungsformen ist das zu Beginn vorliegende genetische Ausgangsmaterial eine zellfreie Nukleinsäure.
In manchen Ausführungsformen stammt eine Vielzahl der Bezugssequenzen aus demselben Genom.
In manchen Ausführungsformen ist jedes markierte Elternpolynukleotid in dem Satz einzigartig markiert.
In manchen Ausführungsformen sind die Markierungen nicht einzigartig.
In manchen Ausführungsformen basiert die Erzeugung von Consensussequenzen auf Informationen von der Markierung und/oder auf zumindest einem von Sequenzinformationen an dem Beginn- (Start-) Abschnitt der Sequenzauslesung, den End- (Stopp-) Abschnitten der Sequenzauslesung und der Länge der Sequenzauslesung.
In manchen Ausführungsformen umfasst das Verfahren das ausreichende Sequenzieren einer Teilmenge des Satzes von amplifizierten Nachkommen-Polynukleotiden, um Sequenzauslesungen für zumindest einen Nachkommen aus jedem der zumindest 20 %, zumindest 30 %, zumindest 40 %, zumindest 50 %, zumindest 60 %, zumindest 70 %, zumindest 80 %, zumindest 90 % zumindest 95 %, zumindest 98 %, zumindest 99 %, zumindest 99.9 % oder zumindest 99,99 % einzigartiger Polynukleotide in dem Satz markierter Elternpolynukleotide zu erzeugen.
In manchen Ausführungsformen ist der zumindest eine Nachkomme eine Vielzahl von Nachkommen, z.B. zumindest 2, zumindest 5 oder zumindest 10 Nachkommen.
In manchen Ausführungsformen ist die Anzahl der Sequenzauslesungen in dem Satz von Sequenzauslesungen größer als die Anzahl einzigartiger markierter Elternpolynukleotide in dem Satz von markierten Elternpolynukleotiden.
In manchen Ausführungsformen ist die Teilmenge des Satzes von amplifizierten sequenzierten Nachkommen-Polynukleotiden groß genug, dass eine beliebige Nukleotidsequenz, die in dem Satz von markierten Elternpolynukleotiden zu einem Prozentsatz, der gleich wie die prozentuelle Sequenzierungsfehlerrate pro Base der verwendeten Sequenzierungsplattform ist, repräsentiert ist, eine Wahrscheinlichkeit von zumindest 50 %, zumindest 60 %, zumindest 70 %, zumindest 80 %, zumindest 90 % zumindest 95 %, zumindest 98 %, zumindest 99 %, zumindest 99,9 % oder zumindest 99,99 % hat, in dem Satz von Consensussequenzen repräsentiert zu sein.
In manchen Ausführungsformen umfasst das Verfahren das Anreichern des Satzes von amplifizierten Nachkommen-Polynukleotiden mit Polynukleotiden, die auf eine oder mehrere ausgewählte Bezugssequenzen kartieren, durch: (i) selektive Amplifikation von Sequenzen von zu Beginn vorliegendem genetischem Material, das in markierte Elternpolynukleotide überführt wurde; (ii) selektive Amplifikation von markierten Elternpolynukleotiden; (iii) selektives Sequenzeinfangen von amplifizierten Nachkommen-Polynukleotiden; oder (iv) selektives Sequenzeinfangen von zu Beginn vorliegendem genetischem Ausgangsmaterial.
In manchen Ausführungsformen umfasst das Analysieren das Normalisieren eines Maßes (z.B. Anzahl), das von einem Satz von Consensussequenzen genommen wurde, in Bezug auf ein Maß, das von einem Satz von Consensussequenzen aus einer Kontrollprobe genommen wurde.
In manchen Ausführungsformen umfasst das Analysieren das Detektieren von Mutationen, seltenen Mutationen, Einzelnukleotidvarianten, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen chemischer Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen oder Krebs.
In manchen Ausführungsformen umfassen die Polynukleotide DNA, RNA, eine Kombination der zwei oder DNA plus RNA-abgeleitete cDNA.
In manchen Ausführungsformen wird eine bestimmte Teilmenge von Polynukleotiden basierend auf der Polynukleotidlänge in Basenpaaren aus dem zu Beginn vorliegenden Satz von Polynukleotiden oder aus den amplifizierten Polynukleotiden selektiert oder angereichert.
In manchen Ausführungsformen umfasst eine Analyse ferner die Detektion und Überwachung einer Anormalie oder Erkrankung in einem Individuum, wie z.B. einer Infektion und/oder Krebs.
In manchen Ausführungsformen wird das Verfahren in Kombination mit einer Immunrepertoireanalyse durchgeführt.
In manchen Ausführungsformen sind die Polynukleotide aus der aus Blut, Plasma, Serum, Urin, Speichel, mukosalen Exkretionen, Sputum, Stuhl und Tränen bestehenden Gruppe extrahiert.
In manchen Ausführungsformen umfasst das Zusammenfassen das Detektieren und/oder Korrigieren von Fehlern, Strangbrüchen oder Läsionen, die in dem Sense- oder Anti-Sense-Strang der markierten Elternpolynukleotide oder amplifizierten Nachkommen-Polynukleotide vorliegen.
Diese Offenbarung stellt auch ein Verfahren zum Detektieren einer genetischen Variation in einem anfänglichen genetischen Ausgangsmaterial mit einer Empfindlichkeit von zumindest 5 %, zumindest 1 %, zumindest 0,5 %, zumindest 0,1 % oder zumindest 0,05 % bereit. In manchen Ausführungsformen wird das anfängliche genetische Ausgangsmaterial in einer Menge von weniger als 100 ng Nukleinsäure bereitgestellt, die genetische Variation ist eine Kopienzahl/Heterozygotie-Variation und die Detektion wird mit einer subchromosomalen Auflösung durchgeführt; z.B. einer Auflösung von zumindest 100 Megabasen, einer Auflösung von zumindest 10 Megabasen, einer Auflösung von zumindest 1 Megabase, einer Auflösung von zumindest 100 Kilobasen, einer Auflösung von zumindest 10 Kilobasen oder einer Auflösung von zumindest 1 Kilobase. In einer weiteren Ausführungsform umfasst das Verfahren das Bereitstellen einer Mehrzahl von Sätzen von markierten Elternpolynukleotiden, wobei jeder Satz zu einer verschiedenen Bezugssequenz kartierbar ist. In einer weiteren Ausführungsform ist die Bezugssequenz der Ort eines Tumormarkers und das Analysieren umfasst das Detektieren des Tumormarkers in dem Satz von Consensussequenzen. In einer weiteren Ausführungsform liegt der Tumormarker in dem Satz von Consensussequenzen mit einer Häufigkeit vor, die geringer ist als die Fehlerrate, die bei dem Amplifizierungsschritt eingeführt wird. In einer weiteren Ausführungsform ist der zumindest eine Satz eine Mehrzahl von Sätzen und die Bezugssequenzen umfassen eine Mehrzahl von Bezugssequenzen, wobei jede davon der Ort eines Tumormarkers ist. In einer weiteren Ausführungsform umfasst das Analysieren das Detektieren einer Kopienzahlvariation von Consensussequenzen zwischen zumindest zwei Sätzen von Elternpolynukleotiden. In einer weiteren Ausführungsform umfasst das Analysieren das Detektieren des Vorliegens von Sequenzvariationen verglichen mit den Bezugssequenzen. In einer weiteren Ausführungsform umfasst das Analysieren das Detektieren des Vorliegens von Sequenzvariationen verglichen mit den Bezugssequenzen und das Detektieren einer Kopienzahlvariation von Consensussequenzen zwischen zumindest zwei Sätzen von Elternpolynukleotiden. In einer weiteren Ausführungsform umfasst das Zusammenfassen: i. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist; und ii. Bestimmen einer Consensussequenz auf der Basis der Sequenzauslesungen in einer Familie.
Diese Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der folgenden Schritte bereit: a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden; b. Amplifizieren der markierten Elternpolynukleotide in dem Satz zum Erzeugen eines entsprechenden Satzes von amplifizierten Nachkommen-Polynukleotiden; c. Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; und d. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht, und gegebenenfalls e. Analysieren des Satzes von Consensussequenzen für jeden Satz von markierten Elternmolekülen.
Diese Offenbarung stellt auch ein Verfahren bereit, umfassend: a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden; b. Amplifizieren der markierten Elternpolynukleotide in dem Satz zum Erzeugen eines entsprechenden Satzes von amplifizierten Nachkommen-Polynukleotiden; c. Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; d. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; und e. Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen. In einer Ausführungsform berücksichtigt die Qualitätsschwelle eine Anzahl von Sequenzauslesungen von amplifizierten Nachkommen-Polynukleotiden, die zu einer Consensussequenz zusammengefasst sind. In einer weiteren Ausführungsform berücksichtigt die Qualitätsschwelle eine Anzahl von Sequenzauslesungen von amplifizierten Nachkommen-Polynukleotiden, die zu einer Consensussequenz zusammengefasst sind. Diese Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen des vorstehend genannten Verfahrens bereit.
Diese Offenbarung stellt auch ein Verfahren bereit, umfassend: a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, wobei jeder Satz auf eine verschiedene Bezugssequenz in einem oder mehreren Genom(en) kartiert wird, und für jeden Satz von markierten Elternpolynukleotiden; i. Amplifizieren der ersten Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden; ii. Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; und iii. Zusammenfassen der Sequenzauslesungen durch: 1. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben Elternpolynukleotid amplifiziert worden ist. In einer Ausführungsform umfasst das Zusammenfassen ferner: 2. Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie. In einer weiteren Ausführungsform umfasst das Verfahren ferner (einschließlich a) einschließlich a): b. Bestimmen eines quantitativen Maßes von einzigartigen Familien; und c. auf der Basis von (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartigen markierten Elternpolynukleotiden in dem Satz. In einer weiteren Ausführungsform wird das Ableiten unter Verwendung von statistischen oder probabilistischen Modellen durchgeführt. In einer weiteren Ausführungsform ist der zumindest eine Satz eine Mehrzahl von Sätzen. In einer weiteren Ausführungsform umfasst das Verfahren ferner das Korrigieren einer Amplifizierungsverzerrung oder einer darstellungsmäßigen Verzerrung zwischen den zwei Sätzen. In einer weiteren Ausführungsform umfasst das Verfahren ferner das Verwenden einer Kontrollprobe oder eines Satzes von Kontrollproben zum Korrigieren einer Amplifizierungsverzerrung oder einer darstellungsmäßigen Verzerrung zwischen den zwei Sätzen. In einer weiteren Ausführungsform umfasst das Verfahren ferner das Bestimmen einer Kopienzahlvariation zwischen den Sätzen. In einer weiteren Ausführungsform umfasst das Verfahren ferner (einschließlich a, b, c): d. Bestimmen eines quantitativen Maßes von polymorphen Formen unter den Familien; und e. auf der Basis des quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartigen markierten Elternpolynukleotiden. In einer weiteren Ausführungsform umfassen die polymorphen Formen, sind jedoch nicht beschränkt auf: Substitutionen, Insertionen, Deletionen, Inversionen, Mikrosatellitenveränderungen, Transversionen, Translokationen, Fusionen, Methylierung, Hypermethylierung, Hydroxymethylierung, Acetylierung, epigenetische Varianten, regulatorisch-assoziierte Varianten oder Proteinbindungsstellen. In einer weiteren Ausführungsform, bei dem die Sätze von einer gemeinsamen Probe stammen, umfasst das Verfahren ferner: a. Ableiten einer Kopienzahlvariation für die Mehrzahl von Sätzen auf der Basis eines Vergleichs der abgeleiteten Anzahl von markierten Elternpolynukleotiden in jedem Satz, der auf jede einer Mehrzahl von Bezugssequenzen kartiert ist. In einer weiteren Ausführungsform wird ferner die ursprüngliche Anzahl von Polynukleotiden in jedem Satz abgeleitet. Diese Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der vorstehend genannten Verfahren bereit.
Diese Offenbarung stellt auch ein Verfahren zum Bestimmen einer Kopienzahlvariation in einer Probe bereit, die Polynukleotide umfasst, wobei das Verfahren umfasst: a. Bereitstellen von zumindest zwei Sätzen von ersten Polynukleotiden, wobei jeder Satz auf einer verschiedene Bezugssequenz in einem Genom kartiert wird, und für jeden Satz von ersten Polynukleotiden; i. Amplifizieren der Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden; ii. Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; iii. Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben Polynukleotid in dem Satz amplifiziert worden ist; iv. Ableiten eines quantitativen Maßes von Familien in dem Satz; b. Bestimmen einer Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz. Diese Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der vorstehend genannten Verfahren bereit.
Diese Offenbarung stellt auch ein Verfahren zum Ableiten der Häufigkeit von Sequenzaufrufen in einer Probe von Polynukleotiden bereit, umfassend: a. Bereitstellen zumindest eines Satzes von ersten Polynukleotiden, wobei jeder Satz auf eine verschiedene Bezugssequenz in einem oder mehreren Genom(en) kartiert wird, und für jeden Satz von ersten Polynukleotiden; i. Amplifizieren der ersten Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden; ii. Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; iii. Gruppieren der Sequenzauslesungen zu Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind; b. Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst: i. Zuordnen, für jede Familie, eines Konfidenzwerts für jeden der Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs zwischen Mitgliedern der Familie berücksichtigt; und ii. Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, der oder die jeder Familie zugeordnet ist oder sind. Diese Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der vorstehend genannten Verfahren bereit.
Diese Offenbarung stellt auch ein Verfahren zum Kommunizieren von Sequenzinformationen über zumindest ein einzelnes Polynukleotidmolekül bereit, umfassend: a. Bereitstellen zumindest eines einzelnen Polynukleotidmolekül; b. Kodieren von Sequenzinformationen in dem zumindest einen einzelnen Polynukleotidmolekül zum Erzeugen eines Signals; c. Leiten zumindest eines Teils des Signals durch einen Kanal zum Erzeugen eines empfangenen Signals, das Nukleotid-Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das empfangene Signal Rauschen und/oder Verzerrung umfasst; d. Dekodieren des empfangenen Signals zum Erzeugen einer Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das Dekodieren das Rauschen und/oder die Verzerrung in der Nachricht vermindert; und e. Bereitstellen der Nachricht für einen Empfänger. In einer Ausführungsform umfasst das Rauschen fehlerhafte Nukleotidaufrufe. In einer weiteren Ausführungsform umfasst die Verzerrung eine ungleichmäßige Amplifizierung des einzelnen Polynukleotidmoleküls verglichen mit anderen einzelnen Polynukleotidmolekülen. In einer weiteren Ausführungsform resultiert die Verzerrung aus einer Amplifizierungs- oder Sequenzierverzerrung. In einer weiteren Ausführungsform ist das zumindest eine einzelne Polynukleotidmolekül eine Mehrzahl von einzelnen Polynukleotidmolekülen und das Dekodieren erzeugt eine Nachricht über jedes Molekül in der Mehrzahl. In einer weiteren Ausführungsform umfasst das Kodieren das Amplifizieren des zumindest einen einzelnen Polynukleotidmoleküls, das gegebenenfalls markiert worden ist, wobei das Signal eine Kollektion von amplifizierten Molekülen umfasst. In einer weiteren Ausführungsform umfasst der Kanal einen Polynukleotidsequencer und das empfangene Signal umfasst Sequenzauslesungen von einer Mehrzahl von Polynukleotiden, die von dem zumindest einen einzelnen Polynukleotidmolekül amplifiziert worden sind. In einer weiteren Ausführungsform umfasst das Dekodieren das Gruppieren von Sequenzauslesungen von amplifizierten Molekülen, die von jedem des zumindest einen einzelnen Polynukleotidmoleküls amplifiziert worden sind. In einer weiteren Ausführungsform besteht das Dekodieren aus einem probabilistischen oder statistischen Verfahren des Filterns des erzeugten Sequenzsignals. Diese Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der vorstehend genannten Verfahren bereit.
In einer weiteren Ausführungsform sind die Polynukleotide von einer tumorgenomischen DNA oder RNA abgeleitet. In einer weiteren Ausführungsform sind die Polynukleotide von zellfreien Polynukleotiden, exosomalen Polynukleotiden, bakteriellen Polynukleotiden oder viralen Polynukleotiden abgeleitet. In einer weiteren Ausführungsform ist oder sind ferner die Detektion und/oder Assoziation von betroffenen molekularen Pfaden umfasst. In einer weiteren Ausführungsform ist ferner ein Reihenüberwachen der Gesundheit oder des Krankheitszustands eines Individuums umfasst. In einer weiteren Ausführungsform wird dadurch die Phylogenie eines Genoms, das mit einer Krankheit in einem Individuum zusammenhängt, abgeleitet. In einer weiteren Ausführungsform ist ferner die Diagnose, das Überwachen oder die Behandlung einer Krankheit umfasst. In einer weiteren Ausführungsform wird das Behandlungsverfahren auf der Basis von detektierten polymorphen Formen oder CNVs oder dazugehörigen Pfaden ausgewählt oder modifiziert. In einer weiteren Ausführungsform umfasst die Behandlung eine Kombinationstherapie.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: Auswählen von vordefinierten Regionen in einem Genom; Zugreifen auf Sequenzauslesungen und Abzählen der Anzahl von Sequenzauslesungen in den vordefinierten Regionen; Normalisieren der Anzahl von Sequenzauslesungen über den vordefinierten Regionen; und Bestimmen des Prozentsatzes der Kopienzahlvariation in den vordefinierten Regionen.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst; b. Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen; c. Kartieren von Sequenzauslesungen, die von dem Sequenzieren stammen, auf eine Bezugssequenz; d. Identifizieren einer Teilmenge von kartierten Sequenzauslesungen, die mit einer Variante der Bezugssequenz an jeder kartierbaren Basenposition übereinstimmen; e. für jede kartierbare Basenposition, Berechnen eines Verhältnisses von (a) einer Anzahl von kartierten Sequenzauslesungen, die eine Variante bezogen auf die Bezugssequenz umfassen, zu (b) einer Anzahl von gesamten Sequenzauslesungen für jede kartierbare Basenposition; f. Normalisieren der Verhältnisse oder der Häufigkeit der Varianz für jede kartierbare Basenposition und Bestimmen einer potenziell seltenen Variante(n) oder einer anderen oder anderer genetischer Variation(en); und g. Vergleichen der resultierenden Anzahl für jede der Regionen mit (einer) potenziell seltenen Variante(n) oder Mutation(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; b. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; b. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; c. Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und i. Zusammenfassen der Sequenzauslesungen durch: 1. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist, und gegebenenfalls 2. Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie. In bestimmten Ausführungsformen führt der ausführbare Kode ferner die Schritte durch: b. Bestimmen eines quantitativen Maßes von einzigartigen Familien; c. auf der Basis (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartig markierten Elternpolynukleotiden in dem Satz. In bestimmten Ausführungsformen führt der ausführbare Kode ferner die Schritte durch: d. Bestimmen eines quantitativen Maßes von polymorphen Formen unter den Familien; und e. auf der Basis des bestimmten quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartig markierten Elternpolynukleotiden.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben ersten Polynukleotid in dem Satz amplifiziert worden ist; b. Ableiten eines quantitativen Maßes von Familien in dem Satz; c. Bestimmen einer Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, Gruppieren der Sequenzauslesungen zu Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind; b. Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst: c. Zuordnen, für jede Familie, eines Konfidenzwerts für jeden einer Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs unter Mitgliedern der Familie berücksichtigt; und d. Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, die jeder Familie zugeordnet sind.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die ein empfangenes Signal umfasst, das kodierte Sequenzinformationen von zumindest einem einzelnen Polynukleotidmolekül umfasst, wobei das empfangene Signal ein Rauschen und/oder eine Verzerrung umfasst; b. Dekodieren des empfangenen Signals zum Erzeugen einer Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das Dekodieren das Rauschen und/oder die Verzerrung jedes einzelnen Polynukleotids in der Nachricht vermindert; und c. Schreiben der Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, auf eine Computerdatei.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; b. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; c. Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und b. Zusammenfassen der Sequenzauslesungen durch: i. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist; und ii. gegebenenfalls Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie. In bestimmten Ausführungsformen führt der ausführbare Kode ferner die Schritte durch: c. Bestimmen eines quantitativen Maßes von einzigartigen Familien; d. auf der Basis (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartig markierten Elternpolynukleotiden in dem Satz. In bestimmten Ausführungsformen führt der ausführbare Kode ferner die Schritte durch: e. Bestimmen eines quantitativen Maßes von polymorphen Formen unter den Familien; und f. auf der Basis des bestimmten quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartig markierten Elternpolynukleotiden. In bestimmten Ausführungsformen führt der ausführbare Kode ferner den Schritt durch: e. Ableiten der Kopienzahlvariation für die Mehrzahl von Sätzen auf der Basis eines Vergleichs der abgeleiteten Anzahl von markierten Elternpolynukleotiden in jedem Satz, der auf jede einer Mehrzahl von Bezugssequenzen kartiert ist.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; b. Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben ersten Polynukleotid in dem Satz amplifiziert worden ist; c. Ableiten eines quantitativen Maßes von Familien in dem Satz; d. Bestimmen der Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
Diese Offenbarung stellt auch ein computerlesbares Medium in einer nicht-flüchtigen, materiellen Form bereit, das einen ausführbaren Kode umfasst, der zum Ausführen der folgenden Schritte ausgebildet ist: a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, Gruppieren der Sequenzauslesungen in Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind; und b. Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst: i. Zuordnen, für jede Familie, eines Konfidenzwerts für jeden einer Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs zwischen Mitgliedern der Familie berücksichtigt; und ii. Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, die jeder Familie zugeordnet sind.
Diese Offenbarung stellt auch ein Verfahren bereit, umfassend: a. Bereitstellen einer Probe, die zwischen 100 und 100.000 haploide menschliche Genomäquivalente zellfreier DNA- (cfDNA-) Polynukleotide umfasst; und b. Markieren der Polynukleotide mit zwischen 2 und 1.000.000 einzigartigen Bezeichnungen. In bestimmten Ausführungsformen beträgt die Anzahl der einzigartigen Bezeichnungen zumindest 3, zumindest 5, zumindest 10, zumindest 15 oder zumindest 25 und höchstens 100, höchstens 1000 oder höchstens 10.000. In bestimmten Ausführungsformen beträgt die Anzahl einzigartiger Bezeichnungen höchstens 100, höchstens 1000, höchstens 10.000, höchstens 100.000.
Diese Offenbarung stellt auch ein Verfahren bereit, umfassend: a. Bereitstellen einer Probe, die eine Vielzahl von menschlichen haploiden Genomäquivalenten fragmentierter Polynukleotide umfasst; b. Bestimmen von z, wobei z ein Maß für die zentrale Tendenz (z.B. Mittel, Median oder Modalwert) der erwarteten Anzahl von Doppelpolynukleotiden beginnend an einer beliebigen Position im Genom ist, wobei Doppelpolynukleotide dieselben Start- und Stopp-Positionen aufweisen; und c. Markieren von Polynukleotiden in der Probe mit n einzigartigen Bezeichnungen, wobei n zwischen 2 und 100.000*z, 2 und 10.000*z, 2 und 1.000*z oder 2 und 100*z liegt.
Diese Offenbarung stellt auch ein Verfahren bereit, umfassend: a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden und für jeden Satz von markierten Elternpolynukleotiden; b. Erzeugen einer Vielzahl von Sequenzauslesungen für jedes markierte Elternpolynukleotid in dem Satz, um einen Satz von Sequenzierungsauslesungen zu erzeugen; und c. Zusammenfassen des Satzes von Sequenzierungsauslesungen, um einen Satz von Consensussequenzen zu erzeugen, wobei jede Consensussequenz einem einzigartigen Polynukleotid in dem Satz von markierten Elternpolynukleotiden entspricht.
Die Offenbarung stellt ein Verfahren zum Detektieren einer Kopienzahlvariation bereit, umfassend: a) Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierauslesungen erzeugt; b) Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen; c) Kartieren der Sequenzauslesungen, die von dem Schritt (a) erhalten worden sind, nachdem Auslesungen ausgefiltert worden sind, auf eine Bezugssequenz; d) Quantifizieren oder Abzählen von kartierten Auslesungen in zwei oder mehr vordefinierten Regionen der Bezugssequenz; und e) Bestimmen der Kopienzahlvariation in einer oder mehreren der vordefinierten Regionen durch: (ii) Normalisieren der Anzahl von Auslesungen in den vordefinierten Regionen miteinander und/oder der Anzahl von einzigartigen Sequenzauslesungen in den vordefinierten Regionen miteinander; (ii) Vergleichen der im Schritt (i) erhaltenen normalisierten Anzahlen mit normalisierten Anzahlen, die von einer Kontrollprobe erhalten worden sind.
Die Offenbarung stellt auch ein Verfahren zum Detektieren einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe, die von einem Individuum erhalten worden ist, bereit, umfassend: a) Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierauslesungen erzeugt; b) Durchführen eines Multiplex-Sequenzierens mit Regionen oder einer Gesamtgenomsequenzierung, wenn eine Anreicherung nicht durchgeführt wird; c) Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen; d) Kartieren von Sequenzauslesungen, die von dem Sequenzieren stammen, auf eine Bezugssequenz; e) Identifizieren einer Teilmenge von kartierten Sequenzauslesungen, die mit einer Variante der Bezugssequenz bei jeder kartierbaren Basenposition übereinstimmen; f) für jede kartierbare Basenposition, Berechnen eines Verhältnisses (a) einer Anzahl von kartierten Sequenzauslesungen, die eine Variante verglichen mit der Bezugssequenz umfassen, zu (b) einer Anzahl von gesamten Sequenzauslesungen für jede kartierbare Basenposition; g) Normalisieren der Verhältnisse oder der Häufigkeit der Varianz für jede kartierbare Basenposition und Bestimmen einer oder von potenziellen seltenen Variante(n) oder Mutation(en); und h) Vergleichen der resultierenden Anzahl für jede der Regionen mit (einer) potenziellen seltenen Variante(n) oder Mutation(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
Die Offenbarung stellt auch ein Verfahren zum Charakterisieren der Heterogenität eines anormalen Leidens bzw. Zustands in einem Individuum bereit, wobei das Verfahren das Erzeugen eines genetischen Profils von extrazellulären Polynukleotiden in dem Individuum umfasst, wobei das genetische Profil eine Mehrzahl von Daten umfasst, die aus der Analyse der Kopienzahlvariation und einer seltenen Mutation resultieren.
In manchen Ausführungsformen wird die Prävalenz/Konzentration jeder seltenen Variante, die in dem Individuum identifiziert wird, gleichzeitig angegeben und quantifiziert. In manchen Ausführungsformen wird ein Konfidenzwert bezüglich der Prävalenz/Konzentrationen seltener Varianten in dem Individuum angegeben.
In manchen Ausführungsformen umfassen die extrazellulären Polynukleotide DNA. In manchen Ausführungsformen umfassen die extrazellulären Polynukleotide RNA.
In manchen Ausführungsformen umfassen die Verfahren ferner das Isolieren extrazellulärer Polynukleotide aus der Körperprobe. In manchen Ausführungsformen umfasst das Isolieren ein Verfahren zur Isolierung und Extraktion zirkulierender Nukleinsäuren. In manchen Ausführungsformen umfassen die Verfahren ferner das Fragmentieren der isolierten extrazellulären Polynukleotide. In manchen Ausführungsformen ist die Körperprobe aus der aus Blut, Plasma, Serum, Urin, Speichel, mukosalen Exkretionen, Sputum, Stuhl und Tränen bestehenden Gruppe ausgewählt.
In manchen Ausführungsformen umfassen die Verfahren ferner den Schritt des Bestimmens des Prozentsatzes von Sequenzen, mit Kopienzahlvariation oder seltener Mutation oder Variante in der Körperprobe. In manchen Ausführungsformen umfasst das Bestimmen das Berechnen des Prozentsatzes vordefinierter Regionen mit einer Menge von Polynukleotiden über oder unter einer vorbestimmten Schwelle.
In manchen Ausführungsformen besteht bei dem Individuum der Verdacht, dass es ein anormales Leiden hat. In manchen Ausführungsformen ist das anormale Leiden ausgewählt aus der Gruppe bestehend aus Mutationen, seltenen Mutationen, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen der chemischen Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen und Krebs.
In manchen Ausführungsformen ist das Individuum eine schwangere Frau. In manchen Ausführungsformen zeigt die Kopienzahlvariation oder die seltene Mutation oder die genetische Variante eine fötale Anormalität an. In manchen Ausführungsformen ist die fötale Anormalität ausgewählt aus der Gruppe bestehend aus Mutationen, seltenen Mutationen, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen der chemischen Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen und Krebs.
In manchen Ausführungsformen umfassen die Verfahren ferner das Anbringen von einem oder mehreren Barcode(s) an die extrazellulären Polynukleotide oder Fragmenten davon vor dem Sequenzieren. In manchen Ausführungsformen ist jeder Barcode, der an den extrazellulären Polynukleotiden oder Fragmenten davon vor dem Sequenzieren angebracht ist, einzigartig. In manchen Ausführungsformen ist jeder Barcode, der an den extrazellulären Polynukleotiden oder Fragmenten davon vor dem Sequenzieren angebracht ist, nicht einzigartig.
In manchen Ausführungsformen umfassen die Verfahren ferner das selektive Anreichern von Regionen des Genoms oder Transkriptoms des Individuums vor dem Sequenzieren. In manchen Ausführungsformen umfassen die Verfahren ferner das unselektive Anreichern von Regionen des Genoms oder Transkriptoms des Individuums vor dem Sequenzieren.
In manchen Ausführungsformen umfassen die Verfahren ferner das Anbringen von einem oder mehreren Barcode(s) an die extrazellulären Polynukleotide oder Fragmenten davon vor jedwedem Amplifizierungs- oder Anreicherungsschritt. In manchen Ausführungsformen ist der Barcode ein Polynukleotid. In manchen Ausführungsformen umfasst der Barcode eine zufällige bzw. statistische Sequenz. In manchen Ausführungsformen umfasst der Barcode einen festgelegten oder halbzufälligen Satz von Oligonukleotiden, der in einer Kombination mit der Vielfältigkeit von Molekülen, die von einer ausgewählten Region sequenziert worden sind, die Identifizierung von einzigartigen Molekülen ermöglicht. In manchen Ausführungsformen umfassen die Barcodes Oligonukleotide mit einer Länge von zumindest 3, 5, 10, 15, 20 25, 30, 35, 40, 45 oder 50mer Basenpaaren.
In manchen Ausführungsformen umfassen die Verfahren ferner das Amplifizieren der extrazellulären Polynukleotide oder von Fragmenten davon. In manchen Ausführungsformen umfasst die Amplifikation globale Amplifikation oder Amplifikation des ganzen Genoms. In manchen Ausführungsformen umfasst die Amplifikation selektive Amplifikation. In manchen Ausführungsformen umfasst die Amplifikation nichtselektive Amplifikation. In manchen Ausführungsformen wird Suppressionsamplifikation oder subtraktive Anreicherung durchgeführt.
In manchen Ausführungsformen werden Sequenzauslesungen mit einer einzigartigen Identität auf der Basis von Sequenzinformationen an Beginn- (Start-) und End- (Stopp-) Abschnitten der Sequenzauslesung und der Länge der Sequenzauslesung detektiert. In manchen Ausführungsformen werden Sequenzmoleküle mit einer einzigartigen Identität auf auf der Basis von Sequenzinformationen an Beginn- (Start-) und End- (Stopp-) Abschnitten der Sequenzauslesung, der Länge der Sequenzauslesung und des Anbringens eines Barcodes detektiert.
In manchen Ausführungsformen umfassen die Verfahren ferner das Entfernen einer Teilmenge der Auslesungen von einer weiteren Analyse vor dem Quantifizieren oder Abzählen von Auslesungen. In manchen Ausführungsformen umfasst das Entfernen das Ausfiltern von Auslesungen mit einem Genauigkeits- oder Qualitätswert unterhalb einer Schwelle, wie z.B. 90 %, 99 %, 99,9% oder 99,99 % und/oder einem Kartierungswert unterhalb einer Schwelle, wie z.B. 90 %, 99 %, 99,9% oder 99,99 %. In manchen Ausführungsformen umfassen die Verfahren ferner das Filtern von Auslesungen mit einem Qualitätswert unterhalb einer eingestellten Schwelle.
In manchen Ausführungsformen weisen die vordefinierten Regionen eine einheitliche oder im Wesentlichen einheitliche Größe auf. In manchen Ausführungsformen weisen die vordefinierten Regionen eine Größe von zumindest etwa 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb oder 100 kb auf.
In manchen Ausführungsformen werden zumindest 50, 100, 200, 500, 1000, 2000, 5000, 10.000, 20.000 oder 50.000 Regionen analysiert.
In manchen Ausführungsformen kommt die Variante in einer Region des Genoms vor, die aus der aus Genfusionen, Genduplikationen, Gendeletionen, Gentranslokationen, Mikrosatellitenregionen, Genfragmenten oder Kombinationen davon bestehenden Gruppe ausgewählt ist. In manchen Ausführungsformen kommt die Variante in einer Region des Genoms vor, die aus der aus Genen, Onkogenen, Tumorsuppressorgenen, Promotoren, Regulationssequenzelementen oder Kombinationen davon bestehenden Gruppe ausgewählt ist. In manchen Ausführungsformen ist die Variante eine Nukleotidvariante, Einzelbasensubstitution, kleine Indel, Transversion, Translokation, Inversion, Deletion, Trunkierung oder Gentrunkierung mit einer Länge von 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 oder 20 Nukleotiden.
In manchen Ausführungsformen umfassen die Verfahren ferner das Korrigieren/Normalisieren/Einstellen der Menge von kartierten Auslesungen unter Verwendung der Barcodes oder von einzigartigen Eigenschaften von einzelnen Auslesungen. In manchen Ausführungsformen wird ein Abzählen der Auslesungen durch Abzählen von einzigartigen Barcodes in jeder der vordefinierten Regionen und Normalisieren dieser Anzahlen über zumindest eine Teilmenge von vordefinierten Regionen, die sequenziert worden sind, durchgeführt.
In manchen Ausführungsformen werden Proben bei aufeinanderfolgenden Zeitintervallen von demselben Individuum analysiert und mit früheren Probenergebnissen verglichen. In manchen Ausführungsformen umfasst das Verfahren ferner das Amplifizieren der extrazellulären Polynukleotide mit angebrachtem Barcode. In manchen Ausführungsformen umfassen die Verfahren ferner das Bestimmen der partiellen Häufigkeit der Kopienzahlvariation, das Bestimmen eines Verlusts an Heterozygotie, das Durchführen einer Genexpressionsanalyse, das Durchführen einet epigenetischen Analyse und/oder das Durchführen einer Hypermethylierungsanalyse.
Die Offenbarung stellt auch ein Verfahren bereit, welches das Bestimmen einer Kopienzahlvariation oder das Durchführen der Analyse einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe, die von einem Individuum erhalten worden ist, unter Verwendung eines Multiplex-Sequenzierens umfasst.
In manchen Ausführungsformen umfasst das Multiplex-Sequenzieren das Durchführen von mehr als 10.000 Sequenzierreaktionen. In manchen Ausführungsformen, umfasst das Multiplex-Sequenzieren das gleichzeitige Sequenzieren von 10.000 verschiedenen Auslesungen. In manchen Ausführungsformen umfasst das Multiplex-Sequenzieren das Durchführen einer Datenanalyse mit zumindest 10.000 verschiedenen Auslesungen über das Genom. In manchen Ausführungsforme wird die Normalisierung und Detektion unter Verwendung von einem oder mehreren einer bzw. eines Hidden-Markow-Modells, dynamische Programmierung, Stützvektormaschine, Bayes'sche oder probabilistische Modellierung, Trellis-Dekodierung, Viterbi-Dekodierung, Erwartungsmaximierung, Kalman-Filter-Methodiken und Verfahren mit neuronalen Netzen durchgeführt. In manchen Ausführungsformen umfassen die Verfahren ferner das Überwachen des Krankheitsverlaufs, das Überwachen einer Resterkrankung, das Überwachen einer Therapie, das Diagnostizieren eines Leidens, das Prognostizieren eines Leidens oder das Auswählen einer Therapie auf der Basis von gefundenen Varianten für das Individuum. In manchen Ausführungsformen wird eine Therapie auf der Basis der neuesten Probenanalyse modifiziert. In manchen Ausführungsformen wird das genetische Profil eines Tumors, einer Infektion oder einer anderen Gewebeanormalität abgeleitet.
In manchen Ausführungsformen wird das Wachstum, die Rückbildung oder die Weiterentwicklung eines Tumors, einer Infektion oder einer anderen Gewebeanormalität überwacht. In manchen Ausführungsformen werden Sequenzen, die mit dem Immunsystem des Individuums zusammenhängen, in Einzelfällen oder im Zeitverlauf analysiert und überwacht. In manchen Ausführungsformen wird nach der Identifizierung einer Variante ein Bildgebungstest (z.B. CT, PET-CT, MRI, Röntgen, Ultraschall) zur Lokalisierung des Gewebes durchgeführt, bei dem der Verdacht besteht, dass eine Anormalität die identifizierte Variante verursacht. In manchen Ausführungsformen umfasst die Analyse ferner die Verwendung von genetischen Daten, die von einer Gewebe- oder Tumorbiopsie von demselben Patienten erhalten worden ist. In manchen Ausführungsformen wird die Phylogenese eines Tumors, einer Infektion oder einer anderen Gewebeanormalität abgeleitet. In manchen Ausführungsformen umfasst das Verfahren ferner das Durchführen eines populationsbasierten nicht-Abfragens und das Identifizieren von Regionen mit geringer Konfidenz. In manchen Ausführungsformen umfasst das Erhalten von Messdaten für die Sequenzabdeckung das Messen der Sequenzabdeckungstiefe an jeder Position des Genoms. In manchen Ausführungsformen umfasst das Korrigieren der Messdaten bezüglich der Sequenzabdeckungsverzerrung das Berechnen einer fenstergemittelten Abdeckung. In manchen Ausführungsformen umfasst das Korrigieren der Messdaten bezüglich der Sequenzabdeckungsverzerrung das Durchführen von Einstellungen zum Berücksichtigen der GC-Verzerrung in dem Bibliotheksaufbau- und Sequenziervorgang. In manchen Ausführungsformen umfasst das Korrigieren der Messdaten bezüglich der Sequenzabdeckungsverzerrung das Durchführen von Einstellungen auf der Basis eines zusätzlichen Gewichtsfaktors, der mit einzelnen Kartierungen zum Kompensieren einer Verzerrung zusammenhängt.
In manchen Ausführungsformen stammt ein extrazelluläres Polynukleotid von einer abgestorbenen Zelle. In manchen Ausführungsformen stammt ein extrazelluläres Polynukleotid von einer gesunden Zelle.
Die Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der folgenden Schritte bereit: Auswählen von vordefinierten Regionen in einem Genom; Abzählen der Anzahl von Sequenzauslesungen in den vordefinierten Regionen; Normalisieren der Anzahl von Sequenzauslesungen über die vordefinierten Regionen; und Bestimmen des Prozentsatzes der Kopienzahlvariation in den vordefinierten Regionen.
In manchen Ausführungsformen wird die Gesamtheit des Genoms oder werden zumindest 85 % des Genoms analysiert. In manchen Ausführungsformen stellt das computerlesbare Medium Daten bezüglich des Prozentsatzes von Krebs-DNA oder -RNA im Plasma oder Serum für den Endnutzer bereit. In manchen Ausführungsformen sind die identifizierten Kopienzahlvarianten aufgrund einer Heterogenität in der Probe ein Bruchteil (d.h. nicht auf einem Niveau von ganzen Zahlen). In manchen Ausführungsformen wird eine Anreicherung von ausgewählten Regionen durchgeführt. In manchen Ausführungsformen werden Kopienzahlvariationsinformationen gleichzeitig auf der Basis der hier beschriebenen Verfahren extrahiert. In manchen Ausführungsformen umfassen die Verfahren einen anfänglichen Schritt eines Polynukleotid-Bottleneckings zum Begrenzen der Anzahl von anfänglichen Ausgangskopien oder der Vielfalt von Polynukleotiden in der Probe.
Die Offenbarung stellt auch ein Verfahren zum Detektieren einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe bereit, die von einem Individuum erhalten worden ist, umfassend: a) Sequenzieren eines extrazellulären Polynukleotids von einer Körperprobe eines Individuums, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierungsauslesungen erzeugt; b) Ausfiltern von Auslesungen, die eine eingestellte Qualitätsschwelle nicht erfüllen; c) Kartieren von Sequenzauslesungen, die von dem Sequenzieren stammen, auf eine Bezugssequenz; d) Identifizieren einer Teilmenge von kartierten Sequenzauslesungen, die mit einer Variante der Bezugssequenz bei jeder kartierbaren Basenposition übereinstimmen; e) für jede kartierbare Basenposition, Berechnen eines Verhältnisses von (a) einer Anzahl von kartierten Sequenzauslesungen, die eine Variante verglichen mit der Bezugssequenz umfassen, zu (b) einer Anzahl von gesamten Sequenzauslesungen für jede kartierbare Basenposition; f) Normalisieren der Verhältnisse oder der Häufigkeit einer Varianz für jede kartierbare Basenposition und Bestimmen einer oder von potenziellen seltenen Variante(n) oder (einer) anderen genetischen Veränderung(en); und g) Vergleichen der resultierenden Anzahl für jede der Regionen mit einer oder von potenziellen seltenen Variante(n) oder (einer) anderen genetischen Veränderung(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend: a) Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden; b) Amplifizieren der markierten Elternpolynukleotide in dem Satz zum Erzeugen eines entsprechenden Satzes von amplifizierten Nachkommen-Polynukleotiden; c) Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden zur Erzeugung eines Satzes von Sequenzierungsauslesungen; und d) Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht.
In manchen Ausführungsformen ist jedes Polynukleotid in einem Satz auf eine Bezugssequenz kartierbar. In manchen Ausführungsformen umfassen die Verfahren das Bereitstellen einer Mehrzahl von Sätzen von markierten Elternpolynukleotiden, wobei jeder Satz auf eine unterschiedliche Position in der Bezugssequenz kartierbar ist. In manchen Ausführungsformen umfasst das Verfahren ferner: e) Analysieren des Satzes von Consensussequenzen für jeden Satz von markierten Elternmolekülen getrennt oder in einer Kombination. In manchen Ausführungsformen umfasst das Verfahren ferner das Konvertieren eines anfänglichen genetischen Ausgangsmaterials in die markierten Elternpolynukleotide. In manchen Ausführungsformen umfasst das anfängliche genetische Ausgangsmaterial nicht mehr als 100 ng Polynukleotide. In manchen Ausführungsformen umfasst das Verfahren das Bottlenecking des anfänglichen genetischen Ausgangsmaterials vor dem Konvertieren. In manchen Ausführungsformen umfasst das Verfahren das Konvertieren des anfänglichen genetischen Ausgangsmaterials in die markierten Elternpolynukleotide mit einer Konversionseffizienz von zumindest 10 %, zumindest 20 %, zumindest 30 %, zumindest 40 %, zumindest 50 %, zumindest 60 %, zumindest 80 % oder zumindest 90 %. In manchen Ausführungsformen umfasst das Konvertieren jedwedes von einer Ligation stumpfer Enden, Ligation klebriger Enden, molekularen Inversionssonden, PCR, ligationsbasierter PCR, Multiplex-PCR, Einzelstrangligation und Einzelstrangzirkularisierung. In manchen Ausführungsformen ist das anfängliche genetische Ausgangsmaterial eine zellfreie Nukleinsäure. In manchen Ausführungsformen wird eine Mehrzahl der Sätze auf verschiedene kartierbare Positionen in einer Bezugssequenz von demselben Genom kartiert.
In manchen Ausführungsformen ist jedes markierte Elternpolynukleotid in dem Satz einzigartig markiert. In manchen Ausführungsformen ist jeder Satz von Elternpolynukleotiden auf eine Position in einer Bezugssequenz kartierbar und die Polynukleotide in jedem Satz sind nicht einzigartig markiert. In manchen Ausführungsformen basiert die Erzeugung von Consensussequenzen auf Informationen von der Markierung und/oder zumindest einem von (i) Sequenzinformation an dem Beginn- (Start-) Abschnitt der Sequenzauslesung, (ii) den End- (Stopp-) Abschnitten der Sequenzauslesung und (iii) der Länge der Sequenzauslesung
In manchen Ausführungsformen umfasst das Verfahren das Sequenzieren einer Teilmenge des Satzes von amplifizierten Nachkommen-Polynukleotiden, die ausreichend ist, um Sequenzauslesungen für zumindest einen Nachkommen von jeweils zumindest 20 %, zumindest 30 %, zumindest 40 %, zumindest 50 %, zumindest 60 %, zumindest 70 %, zumindest 80 %, zumindest 90 % zumindest 95 %, zumindest 98 %, zumindest 99 %, zumindest 99,9 % oder zumindest 99,99 % von einzigartigen Polynukleotiden in dem Satz von markierten Elternpolynukleotiden zu erzeugen. In manchen Ausführungsformen ist der zumindest eine Nachkomme eine Mehrzahl von Nachkommen, wie z.B. zumindest 2, zumindest 5 oder zumindest 10 Nachkommen. In manchen Ausführungsformen ist die Anzahl von Sequenzauslesungen in dem Satz von Sequenzauslesungen größer als die Anzahl von einzigartig markierten Elternpolynukleotiden in dem Satz von markierten Elternpolynukleotiden. In manchen Ausführungsformen weist die Teilmenge des Satzes von sequenzierten amplifizierten Nachkommen-Polynukleotiden eine ausreichende Größe auf, so dass jedwede Nukleotidsequenz, die in dem Satz von markierten Elternpolynukleotiden mit einem Prozentsatz dargestellt ist, der mit dem Prozentsatz der Sequenzierfehlerrate der verwendeten Sequenzierplattform pro Basis identisch ist, eine Wahrscheinlichkeit von zumindest 50 %, zumindest 60 %, zumindest 70 %, zumindest 80 %, zumindest 90 % zumindest 95 %, zumindest 98 %, zumindest 99 %, zumindest 99,9 % oder zumindest 99,99 % aufweist, in dem Satz Consensussequenzen repräsentiert zu sein.
In manchen Ausführungsformen umfasst das Verfahren das Anreichern des Satzes von Nachkommen-Polynukleotiden bezüglich Polynukleotiden, die auf eine oder mehrere ausgewählte kartierbare Position(en) in einer Bezugssequenz kartiert werden durch: (i) eine selektive Amplifizierung von Sequenzen von einem anfänglichen genetischen Ausgangsmaterial, das zu markierten Elternpolynukleotiden konvertiert worden ist; (ii) eine selektive Amplifizierung von markierten Elternpolynukleotiden; (iii) eine selektive Sequenzerfassung von amplifizierten Nachkommen-Polynukleotiden; oder (iv) eine selektive Sequenzerfassung von einem anfänglichen genetischen Ausgangsmaterial.
In manchen Ausführungsformen umfasst das Analysieren das Normalisieren eines Maßes (z.B. einer Anzahl), die von einem Satz von Consensussequenzen stammt, gegen ein Maß, das von einem Satz von Consensussequenzen von einer Kontrollprobe stammt. In manchen Ausführungsformen umfasst das Analysieren das Detektieren von Mutationen, seltenen Mutationen, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomaler Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen der chemischen Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen oder Krebs.
In manchen Ausführungsformen umfassen die Polynukleotide DNA, RNA, eine Kombination der zwei oder DNA plus RNA-abgeleitete cDNA. In manchen Ausführungsformen wird eine bestimmte Teilmenge von Polynukleotiden bezüglich der Polynukleotidlänge bezüglich Basenpaaren von dem anfänglichen Satz von Polynukleotiden oder von den amplifizierten Polynukleotiden ausgewählt oder angereichert. In manchen Ausführungsformen umfasst die Analyse ferner ein Erfassen und überwachen einer Anormalität oder Krankheit innerhalb eines Individuums, wie z.B. Infektion und/oder Krebs. In manchen Ausführungsformen wird das Verfahren in einer Kombination mit einer Immunrepertoireanalyse durchgeführt. In manchen Ausführungsformen sind die Polynukleotide aus der aus Blut, Plasma, Serum, Urin, Speichel, mukosalen Exkretionen, Sputum, Stuhl und Tränen bestehenden Gruppe ausgewählt. In manchen Ausführungsformen umfasst das Zusammenfassen das Detektieren und/oder Korrigieren von Fehlern, Brüchen oder Läsionen, die in dem Sense- oder Antisense-Strang der markierten Elternpolynukleotiden oder der amplifizierten Nachkommen-Polynukleotide vorliegen.
Die Offenbarung stellt auch ein Verfahren bereit, das die Detektion einer genetischen Variation in einem nicht-einzigartig markierten anfänglichen genetischen Ausgangsmaterial mit einer Empfindlichkeit von zumindest 5 %, zumindest 1 %, zumindest 0,5 %, zumindest 0,1 % oder zumindest 0,05 % umfasst.
In manchen Ausführungsformen wird das anfängliche genetische Ausgangsmaterial in einer Menge von weniger als 100 ng Nukleinsäure bereitgestellt, die genetische Variation ist eine Kopienzahl/Heterozygotie-Variation und die Detektion wird mit einer subchromosomalen Auflösung durchgeführt; z.B. mit einer Auflösung von zumindest 100 Megabasen, einer Auflösung von zumindest 10 Megabasen, einer Auflösung von zumindest 1 Megabase, einer Auflösung von zumindest 100 Kilobasen, einer Auflösung von zumindest 10 Kilobasen oder einer Auflösung von zumindest 1 Kilobase. In manchen Ausführungsformen umfasst das Verfahren das Bereitstellen einer Mehrzahl von Sätzen von markierten Elternpolynukleotiden, wobei jeder Satz auf eine verschieden kartierbare Position in einer Bezugssequenz kartierbar ist. In manchen Ausführungsformen ist die kartierbare Position in der Bezugssequenz die Stelle bzw. der Locus eines Tumormarkers und das Analysieren umfasst das Detektieren des Tumormarkers in dem Satz von Consensussequenzen.
In manchen Ausführungsformen liegt der Tumormarker in dem Satz von Consensussequenzen in einer Häufigkeit vor, die niedriger als die im Amplifizierungsschritt eingeführte Fehlerrate ist. In manchen Ausführungsformen ist der zumindest eine Satz eine Vielzahl von Sätzen, und die kartierbare Position der Bezugssequenz umfasst eine Vielzahl von kartierbaren Positionen in der Bezugssequenz, wobei jede kartierbare Position der Locus eines Tumormarkers ist. In manchen Ausführungsformen umfasst das Analysieren das Detektieren der Kopienzahlvariation von Consensussequenzen zwischen zumindest zwei Sätzen von Elternpolynukleotiden. In manchen Ausführungsformen umfasst das Analysieren das Detektieren des Vorliegens von Sequenzvariationen im Vergleich zu den Bezugssequenzen.
In manchen Ausführungsformen umfasst das Analysieren das Detektieren des Vorliegens von Sequenzvariationen im Vergleich zu den Bezugssequenzen und das Detektieren der Kopienzahlvariation von Consensussequenzen zwischen zumindest zwei Sätzen von Elternpolynukleotiden. In manchen Ausführungsformen umfasst das Zusammenfassen: (i) Gruppieren von Sequenzauslesungen aus amplifizierten Nachkommen-Polynukleotiden in Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert wurde; und (ii) Bestimmen einer Consensussequenz basierend auf Sequenzauslesungen in einer Familie.
Die Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der folgenden Schritte bereit: a) Erhalten von zumindest einem Satz von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden; b) Amplifizieren der markierten Elternpolynukleotiden in dem Satz zum Erzeugen eines entsprechenden Satzes von amplifizierten Nachkommen-Polynukleotiden; c) Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; d) Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Konsensussequenzen, wobei jede Konsensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht, und gegebenenfalls e) Analysieren des Satzes von Konsensussequenzen für jeden Satz von markierten Elternmolekülen.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 10 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 20 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 30 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 40 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 50 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 60 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 70 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 80 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 90 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 10 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 20 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 30 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 40 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 50 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 60 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 70 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 80 % des Genoms des Individuums sequenziert werden.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 90 % des Genoms des Individuums sequenziert werden.
In manchen Ausführungsformen ist die genetische Alteration eine Kopienzahlvariation oder eine oder mehrere seltene Mutationen. In manchen Ausführungsformen umfasst die genetische Variation eine oder mehrere kausale Varianten und eine oder mehrere Polymorphismen. In manchen Ausführungsformen kann die genetische Alteration und/oder das Ausmaß genetischer Variation in dem Individuum mit einer genetischen Alteration und/oder dem Ausmaß genetischer Variation in einem oder mehreren Individuen mit einer bekannten Erkrankung verglichen werden. In manchen Ausführungsformen kann die genetische Alteration und/oder das Ausmaß genetischer Variation in dem Individuum mit einer genetischen Alteration und/oder einem Ausmaß genetischer Variation in einem oder mehreren Individuen ohne eine Erkrankung verglichen werden. In manchen Ausführungsformen ist die zellfreie Nukleinsäure DNA. In manchen Ausführungsformen ist die zellfreie Nukleinsäure RNA. In manchen Ausführungsformen ist die zellfreie Nukleinsäure DNA und RNA. In manchen Ausführungsformen ist die Krankheit Krebs oder ein Vorstadium von Krebs. In manchen Ausführungsformen umfasst das Verfahren ferner eine Diagnose oder Behandlung einer Krankheit.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend: a) Bereitstellen von zumindest einem Satz von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden; b) Amplifizieren der markierten Elternpolynukleotide in dem Satz zum Erzeugen eines entsprechenden Satzes von amplifizierten Nachkommen-Polynukleotiden; c) Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; d) Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; und e) Ausfiltern von den Consensussequenzen diejenigen, die eine Qualitätsschwelle nicht erfüllen.
In manchen Ausführungsformen berücksichtigt die Qualitätsschwelle eine Anzahl von Sequenzauslesungen von amplifizierten Nachkommen-Polynukleotiden, die zu einer Consensussequenz zusammengefasst worden sind. In manchen Ausführungsformen berücksichtigt die Qualitätsschwelle eine Anzahl von Sequenzauslesungen von amplifizierten Nachkommen-Polynukleotiden, die zu einer Consensussequenz zusammengefasst worden sind.
Die Offenbarung stellt auch ein System, das ein computerlesbares Medium umfasst, zum Durchführen der hierin beschriebenen Verfahren bereit.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend: a) Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, wobei jeder Satz auf eine verschiedene kartierbare Position in einer Bezugssequenz in einem oder mehreren Genom(en) kartiert wird, und für jeden Satz von markierten Elternpolynukleotiden; i) Amplifizieren der ersten Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden; ii) Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; und iii) Zusammenfassen der Sequenzauslesungen durch: (1) Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist.
In manchen Ausführungsformen umfasst das Zusammenfassen ferner das Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie. In manchen Ausführungsformen umfasst das Verfahren ferner: a) Bestimmen eines quantitativen Maßes von einzigartigen Familien; und b) auf der Basis (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartigen markierten Elternpolynukleotiden in dem Satz. In manchen Ausführungsformen wird das Ableiten unter Verwendung von statistischen oder probabilistischen Modellen durchgeführt. In manchen Ausführungsformen ist der zumindest eine Satz eine Mehrzahl von Sätzen. In manchen Ausführungsformen umfasst das Verfahren ferner das Korrigieren einer Amplifizierungsverzerrung oder darstellungsmäßigen Verzerrung zwischen den zwei Sätzen. In manchen Ausführungsformen umfasst das Verfahren ferner die Verwendung einer Kontrollprobe oder eines Satzes von Kontrollproben zum Korrigieren von Amplifizierungsverzerrungen oder darstellungsmäßigen Verzerrungen zwischen den zwei Sätzen. In manchen Ausführungsformen umfasst das Verfahren ferner das Bestimmen einer Kopienzahlvariation zwischen den Sätzen.
In manchen Ausführungsformen umfasst das Verfahren ferner: d) Bestimmen eines quantitativen Maßes von polymorphen Formen zwischen den Familien; und e) auf der Basis des bestimmten quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartigen markierten Elternpolynukleotiden. In manchen Ausführungsformen umfassen polymorphe Formen, sind jedoch nicht beschränkt auf: Substitutionen, Insertionen, Deletionen, Inversionen, Mikrosatellitenveränderungen, Transversionen, Translokationen, Fusionen, Methylierung, Hypermethylierung, Hydroxymethylierung, Acetylierung, epigenetische Varianten, regulatorisch-assoziierte Varianten oder Proteinbindungsstellen.
In manchen Ausführungsformen sind die Sätze von einer gemeinsamen Probe abgeleitet und das Verfahren umfasst ferner: d) Ableiten einer Kopienzahlvariation für die Mehrzahl von Sätzen auf der Basis eines Vergleichs der abgeleiteten Anzahl von markierten Elternpolynukleotiden in jedem Satz, der auf jede einer Mehrzahl von kartierbaren Positionen in einer Bezugssequenz kartiert wird. In manchen Ausführungsformen wird ferner die ursprüngliche Anzahl von Polynukleotiden in jedem Satz abgeleitet. In manchen Ausführungsformen wird zumindest eine Teilmenge der markierten Elternpolynukleotide in jedem Satz nicht-einzigartig markiert.
Die Offenbarung stellt auch ein Verfahren zum Bestimmen einer Kopienzahlvariation in einer Probe bereit, die Polynukleotide umfasst, wobei das Verfahren umfasst: a) Bereitstellen von zumindest zwei Sätzen von ersten Polynukleotiden, wobei jeder Satz auf eine verschiedene kartierbare Position in einer Bezugssequenz in einem Genom kartiert wird, und für jeden Satz von ersten Polynukleotiden; (i) Amplifizieren der Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden; (ii) Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden, zum Erzeugen eines Satzes von Sequenzierungsauslesungen; (iii) Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben ersten Polynukleotid in dem Satz amplifiziert worden ist; (iv) Ableiten eines quantitativen Maßes von Familien in dem Satz; und b) Bestimmen der Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
Die Offenbarung stellt auch ein Verfahren zum Ableiten der Häufigkeit von Sequenzaufrufen in einer Probe von Polynukleotiden bereit, umfassend: a) Bereitstellen zumindest eines Satzes von ersten Polynukleotiden, wobei jeder Satz auf eine verschiedene kartierbare Position in einer Bezugssequenz in einem oder mehreren Genom(en) kartiert wird, und für jeden Satz von ersten Polynukleotiden; (i) Amplifizieren des ersten Satzes von Polynukleotiden zum Erzeugen eines Satzes von amplifizierten Polynukleotiden; (ii) Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; (iii) Gruppieren der Sequenzauslesungen zu Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind; b) Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst: (i) Zuordnen, für jede Familie, eines Konfidenzwerts für jeden einer Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs zwischen Mitgliedern der Familie berücksichtigt; und (ii) Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, die jeder Familie zugeordnet sind.
Die Offenbarung stellt auch ein Verfahren zum Kommunizieren von Sequenzinformationen über zumindest ein einzelnes Polynukleotidmolekül bereit, umfassend: a) Bereitstellen zumindest eines einzelnen Polynukleotidmoleküls; b) Kodieren von Sequenzinformationen in dem zumindest einen einzelnen Polynukleotidmolekül zum Erzeugen eines Signals; c) Leiten zumindest eines Teils des Signals durch einen Kanal zum Erzeugen eines empfangenen Signals, das Nukleotid-Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das empfangene Signal Rauschen und/oder Verzerrung umfasst; d) Dekodieren des empfangenen Signals zum Erzeugen einer Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das Dekodieren das Rauschen und/oder die Verzerrung in der Nachricht vermindert; und e) Bereitstellen der Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, für einen Empfänger.
In manchen Ausführungsformen umfasst das Rauschen falsche Nukleotidaufrufe. In manchen Ausführungsformen umfasst eine Verzerrung eine ungleichmäßige Amplifizierung des einzelnen Polynukleotidmoleküls verglichen mit anderen einzelnen Polynukleotidmolekülen. In manchen Ausführungsformen resultiert die Verzerrung aus einer Amplifizierungs- oder Sequenzierverzerrung. In manchen Ausführungsformen ist das zumindest eine einzelne Polynukleotidmolekül eine Mehrzahl von einzelnen Polynukleotidmolekülen und das Dekodieren erzeugt eine Nachricht über jedes Molekül in der Mehrzahl. In manchen Ausführungsformen umfasst das Kodieren das Amplifizieren des zumindest einen einzelnen Polynukleotidmoleküls, das gegebenenfalls markiert worden ist, wobei das Signal eine Kollektion von amplifizierten Molekülen umfasst. In manchen Ausführungsformen umfasst der Kanal einen Polynukleotidsequencer und das empfangene Signal umfasst Sequenzauslesungen einer Mehrzahl von Polynukleotiden, die von dem zumindest einen einzelnen Polynukleotidmolekül amplifiziert worden sind. In manchen Ausführungsformen umfasst das Dekodieren das Gruppieren von Sequenzauslesungen von amplifizierten Molekülen, die von jedem des zumindest einen einzelnen Polynukleotidmoleküls amplifiziert worden sind. In manchen Ausführungsformen besteht das Dekodieren aus einem probabilistischen oder statistischen Verfahren des Filterns des erzeugten Sequenzsignals.
In manchen Ausführungsformen stammen die Polynukleotide von genomischer Tumor-DNA oder -RNA. In manchen Ausführungsformen stammen die Polynukleotide von zellfreien Polynukleotiden, exosomalen Polynukleotiden, bakteriellen Polynukleotiden oder viralen Polynukleotiden. In manchen Ausführungsformen von jedweden der hier genannten Verfahren umfasst das Verfahren ferner das Detektieren und/oder die Assoziation von betroffenen molekularen Pfaden. In manchen Ausführungsformen von jedweden der hier genannten Verfahren umfasst das Verfahren ferner eine Reihenüberwachung des Gesundheits- oder Krankheitszustands eines Individuums. In manchen Ausführungsformen wird die Phylogenie eines Genoms, das mit einer Krankheit in einem Individuum zusammenhängt, abgeleitet. In manchen Ausführungsformen umfasst jedwedes der hier beschriebenen Verfahren ferner eine Diagnose, ein Überwachen oder ein Behandeln einer Krankheit. In manchen Ausführungsformen wird das Behandlungsverfahren auf der Basis von erfassten polymorphen Formen oder CNVs oder dazugehörigen Pfaden ausgewählt oder modifiziert. In manchen Ausführungsformen umfasst die Behandlung eine Kombinationstherapie. In manchen Ausführungsformen umfasst die Diagnose ferner das Lokalisieren der Krankheit mittels einer radiographischen Technik, wie z.B. einem CT-Scan, PET-CT, MRI, Ultraschall, Ultraschall mit Mikroblasen, usw.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: Auswählen von vordefinierten Regionen in einem Genom; Zugreifen auf Sequenzauslesungen und Abzählen der Anzahl von Sequenzauslesungen in den vordefinierten Regionen; Normalisieren der Anzahl von Sequenzauslesungen über den vordefinierten Regionen; und Bestimmen des Prozentsatzes der Kopienzahlvariation in den vordefinierten Regionen.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst; Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen; Kartieren von Sequenzauslesungen, die von dem Sequenzieren stammen, auf eine Bezugssequenz; Identifizieren einer Teilmenge von kartierten Sequenzauslesungen, die mit einer Variante der Bezugssequenz an jeder kartierbaren Basenposition übereinstimmen; für jede kartierbare Basenposition, Berechnen eines Verhältnisses von (a) einer Anzahl von kartierten Sequenzauslesungen, die eine Variante bezogen auf die Bezugssequenz umfassen, zu (b) einer Anzahl von gesamten Sequenzauslesungen für jede kartierbare Basenposition; Normalisieren der Verhältnisse oder der Häufigkeit der Varianz für jede kartierbare Basenposition und Bestimmen der potenziell seltenen Variante(n) oder einer anderen oder anderer genetischer Variation(en); und Vergleichen der resultierenden Anzahl für jede der Regionen mit (einer) potenziell seltenen Variante(n) oder Mutation(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und b) Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; b) Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; und c) Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen.
Ein computerlesbares Medium, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und i) Zusammenfassen der Sequenzauslesungen durch: (1) Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist, und gegebenenfalls (2) Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie.
In manchen Ausführungsformen führt der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durch: b) Bestimmen eines quantitativen Maßes von einzigartigen Familien; und c) auf der Basis (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartigen markierten Elternpolynukleotiden in dem Satz.
In manchen Ausführungsformen führt der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durch: d) Bestimmen eines quantitativen Maßes von polymorphen Formen von den Familien; und e) auf der Basis des bestimmten quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartigen markierten Elternpolynukleotiden.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben ersten Polynukleotid in dem Satz amplifiziert worden ist; b) Ableiten eines quantitativen Maßes von Familien in dem Satz; und c) Bestimmen einer Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; Gruppieren der Sequenzauslesungen zu Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind; b) Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst: c) Zuordnen, für jede Familie, eines Konfidenzwerts für jeden einer Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs von Mitgliedern der Familie berücksichtigt; und d) Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, die jeder Familie zugeordnet sind.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die ein empfangenes Signal umfasst, das kodierte Sequenzinformationen von zumindest einem einzelnen Polynukleotidmolekül umfasst, wobei das empfangene Signal ein Rauschen und/oder eine Verzerrung umfasst; b) Dekodieren des empfangenen Signals zum Erzeugen einer Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das Dekodieren das Rauschen und/oder die Verzerrung jedes einzelnen Polynukleotids in der Nachricht vermindert; und c) Schreiben der Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, auf eine Computerdatei.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; b) Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; und c) Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und b) Zusammenfassen der Sequenzauslesungen durch: (i) Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist; und (ii) gegebenenfalls Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie.
In manchen Ausführungsformen führt der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durch: d) Bestimmen eines quantitativen Maßes von einzigartigen Familien; e) auf der Basis (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartigen markierten Elternpolynukleotiden in dem Satz.
In manchen Ausführungsformen führt der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durch: e) Bestimmen eines quantitativen Maßes von polymorphen Formen von den Familien; und f) auf der Basis des bestimmten quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartigen markierten Elternpolynukleotiden.
In manchen Ausführungsformen führt der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durch: e) Ableiten der Kopienzahlvariation für die Mehrzahl von Sätzen auf der Basis eines Vergleichs der abgeleiteten Anzahl von markierten Elternpolynukleotiden in jedem Satz, der auf jede einer Mehrzahl von Bezugssequenzen kartiert ist.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: a) Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; b) Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben ersten Polynukleotid in dem Satz amplifiziert worden ist; c) Ableiten eines quantitativen Maßes von Familien in dem Satz; d) Bestimmen der Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
Die Offenbarung stellt auch ein computerlesbares Medium bereit, das einen nicht-flüchtigen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst: Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, wobei die Sequenzauslesungen in Familien gruppiert werden, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind; und Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst: (i) Zuordnen, für jede Familie, eines Konfidenzwerts für jeden einer Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs zwischen Mitgliedern der Familie berücksichtigt; und (ii) Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, die jeder Familie zugeordnet sind.
Die Offenbarung stellt auch eine Zusammensetzung bereit, die zwischen 100 und 100.000 menschliche haploide Genomäquivalente von cfDNA-Polynukleotiden umfasst, wobei die Polynukleotide mit zwischen 2 und 1.000.000 einzigartigen Bezeichnungen markiert sind.
In manchen Ausführungsformen umfasst die Zusammensetzung zwischen 1000 und 50.000 haploiden menschlichen Genomäquivalenten von cfDNA-Polynukleotiden, wobei die Polynukleotide mit zwischen 2 und 1.000 einzigartigen Bezeichnungen markiert sind. In manchen Ausführungsformen umfassen die einzigartigen Bezeichnungen Nukleotidbarcodes. Die Offenbarung stellt auch ein Verfahren bereit, umfassend: a) Bereitstellen einer Probe, die zwischen 100 und 100.000 haploide menschliche Genomäquivalente von cfDNA-Polynukleotiden umfasst; und b) Markieren der Polynukleotide mit zwischen 2 und 1.000.000 einzigartigen Bezeichnungen.
Die Offenbarung stellt auch ein Verfahren bereit, umfassend: a) Bereitstellen einer Probe, die eine Vielzahl von menschlichen haploiden Genomäquivalenten von fragmentierten Polynukleotiden umfasst; b) Bestimmen von z, wobei z ein Maß für die zentrale Tendenz (z.B. Mittel, Median oder Modalwert) der erwarteten Anzahl von Doppelpolynukleotiden beginnend an einer beliebigen Position im Genom ist, wobei Doppelpolynukleotide dieselben Start- und Stopp-Positionen aufweisen; und c) Markieren von Polynukleotiden in der Probe mit n einzigartigen Bezeichnungen, wobei n zwischen 2 und 100.000*z, 2 und 10.000*z, 2 und 1.000*z oder 2 und 100*z liegt. Die Offenbarung stellt auch ein Verfahren bereit, umfassend: a) Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden und für jeden Satz von markierten Elternpolynukleotiden; b) Erzeugen einer Vielzahl von Sequenzauslesungen für jedes markierte Elternpolynukleotid in dem Satz, um einen Satz von Sequenzierungsauslesungen zu erzeugen; und c) Zusammenfassen des Satzes von Sequenzierungsauslesungen, um einen Satz von Consensussequenzen zu erzeugen, wobei jede Consensussequenz einem einzigartigen Polynukleotid in dem Satz von markierten Elternpolynukleotiden entspricht.
Die Offenbarung stellt auch ein System bereit, das ein computerlesbares Medium umfasst, das maschinenausführbaren Kode wie hierin beschrieben umfasst. Die Offenbarung stellt auch ein System bereit, das ein computerlesbares Medium umfasst, das maschinenausführbaren Kode umfasst, der bei Ausführung durch einen Computerprozessor ein Verfahren wie hierin beschrieben implementiert.
Zusätzliche Aspekte und Vorteile der vorliegenden Offenbarung erschließen sich Fachleuten leicht aus der folgenden detaillierten Beschreibung, worin nur veranschaulichende Ausführungsformen der vorliegenden Offenbarung gezeigt und beschrieben sind. Es ist gut erkennbar, dass die vorliegende Offenbarung zu anderen und verschiedenen Ausführungsformen imstande ist und ihre einzelnen Details zu Modifikationen in unterschiedlicher offensichtlicher Hinsicht imstande sind, ganz ohne von der Offenbarung abzuweichen. Demgemäß sind die Zeichnungen und die Beschreibung als veranschaulichend in ihrer Natur und nicht als einschränkend zu erachten.
EINBEZIEHEN UNTER BEZUGNAHME
Alle Veröffentlichungen, Patente und Patentanmeldungen, die in dieser Beschreibung erwähnt werden, sind in demselben Maß unter Bezugnahme einbezogen, wie wenn jede(s) einzelne Veröffentlichung, Patent oder Patentanmeldung spezifisch und einzeln so angegeben wäre, dass es unter Bezugnahme einbezogen ist.
Figurenliste
Die neuen Merkmale eines Systems und Verfahren der vorliegenden Offenbarung sind in den beigefügten Ansprüchen spezifisch dargelegt. Ein besseres Verständnis für die Merkmale und Vorteile der vorliegenden Offenbarung werden durch Bezugnahme auf die folgende detaillierte Beschreibung, die veranschaulichende Ausführungsformen darlegt, in denen die Prinzipien eines Systems und Verfahren der vorliegenden Offenbarung zur Anwendung kommen, und die beigefügten Zeichnungen erhalten, in denen gilt:

1 ist eine Flussdiagramm-Darstellung eines Verfahrens zur Detektion der Kopienzahlvariation unter Verwendung einer einzelnen Probe.
2 ist eine Flussdiagramm-Darstellung eines Verfahrens zur Detektion der Kopienzahlvariation unter Verwendung gepaarter Proben.
3 ist eine Flussdiagramm-Darstellung eines Verfahrens zur Detektion von seltenen Mutationen (z.B. Einzelnukleotidvarianten).
4A ist ein grafischer Kopienzahlvariations-Detektionsbericht, der aus einem normalen, nicht kanzerösen Individuum erzeugt wurde.
4B ist ein grafischer Kopienzahlvariations-Detektionsbericht, der aus einem Individuum mit Prostatakrebs erzeugt wurde.
4C ist eine schematische Darstellung von Zugriff mittels Internet auf Berichte, die aus einer Kopienzahlvariationsanalyse eines Individuums mit Prostatakrebs erzeugt wurden.
5A ist ein grafischer Kopienzahlvariations-Detektionsbericht, der aus einem Individuum mit Prostatakrebsremission erzeugt wurde.
5B ist ein grafischer Kopienzahlvariations-Detektionsbericht, der aus einem Individuum mit rezidivierendem Prostatakrebs erzeugt wurde.
6A ist ein grafischer Detektionsbericht (z.B. für Einzelnukleotidvarianten), der aus verschiedenen Mischexperimenten unter Verwendung von DNA-Proben erzeugt wurde, die sowohl Wildtyp- als auch Mutantenkopien von MET und TP53 enthalten.
6B ist eine logarithmische grafische Darstellung von (z.B. Einzelnukleotidvarianten-) Detektionsergebnissen. Die beobachteten vs. erwarteten prozentuellen Krebsmessungen sind für verschiedene Mischexperimente unter Verwendung von DNA-Proben gezeigt, die sowohl Wildtyp- als auch Mutantenkopien von MET, HRAS und TP53 enthalten.
7A ist ein grafischer Bericht des Prozentsatzes von zwei (z.B. Einzelnukleotidvarianten) in zwei Genen, PIK3CA und TP53, in einem Individuum mit Prostatakrebs im Vergleich zu einer Referenz (Kontrolle).
7B ist eine schematische Darstellung von Zugriff mittels Internet auf Berichte, die aus einer (z.B. Einzelnukleotidvarianten-) Analyse eines Individuums mit Prostatakrebs erzeugt wurden.
8 ist eine Flussdiagramm-Darstellung eines Verfahrens zum Analysieren von genetischem Material.
9 ist eine Flussdiagramm-Darstellung eines Verfahrens zum Dekodieren von Informationen in einem Satz von Sequenzauslesungen, um eine Darstellung der Informationen in einem Satz von markierten Elternpolynukleotiden mit verringertem/r Rauschen und/oder Verzerrung zu erzeugen.
10 ist eine Flussdiagramm-Darstellung eines Verfahrens zur Verringerung von Verzerrung bei der Bestimmung von CNV aus einem Satz von Sequenzauslesungen.
11 ist eine Flussdiagramm-Darstellung eines Verfahrens zur Schätzung der Häufigkeit einer Base oder einer Sequenz von Basen an einem Locus in einer markierten Elternpolynukleotidpopulation aus einem Satz von Sequenzauslesungen.
12 zeigt ein Verfahren zum Kommunizieren von Sequenzinformationen.
13 zeigt detektierte Minorallel-Häufigkeiten in einem gesamten 70-kb-Bild in 0,3%iger LNCaP-cfDNA-Titration unter Verwendung von Standardsequenzierungs- und digitalen Sequenzierungs-Arbeitsabläufen. „Analoge“ Standardsequenzierung (13A) maskiert alle richtig positiven seltenen Varianten in beträchtlichem Rauschen aufgrund von PCR und Sequenzierungsfehler trotz Q30-Filterung. Digitale Sequenzierung (13B) eliminiert alle PCR- und Sequenzierungsrauschen, wobei richtige Mutationen ohne falsch Positive aufgezeigt werden: Grüne Kreise sind SNP-Punkte in normaler cfDNA, und rote Kreise sind detektierte LNCaP-Mutationen.
14: Zeigt Titration von LNCap-cfDNA.
15 zeigt ein Computersystem, das programmiert oder anderweitig konfiguriert ist, um verschiedene Verfahren der vorliegenden Offenbarung zu implementieren.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Allgemeiner Überblick
Diese Offenbarung stellt ein System und Verfahren für die Detektion von seltenen Mutationen (z.B. Einzel- oder Mehrfachnukleotidvariationen) und Kopienzahlvariationen in zellfreien Polynukleotiden bereit. Im Allgemeinen umfassen die Systeme und Verfahren Probenherstellung oder die Extraktion und Isolierung von zellfreien Polynukleotidsequenzen aus einer Körperflüssigkeit; darauffolgende Sequenzierung von zellfreien Polynukleotiden durch Verfahren, die auf dem Gebiet der Erfindung hinlänglich bekannt sind; und die Anwendung von Bioinformatik-Werkzeugen, um seltene Mutationen und Kopienzahlvariationen im Vergleich zu einer Referenz zu detektieren. Die Systeme und Verfahren können auch eine Datenbank oder Sammlung von verschiedenen seltenen Mutationen oder Kopienzahlvariationsprofilen verschiedener Erkrankungen enthalten, die als zusätzliche Referenzen bei der Unterstützung der Detektion von seltenen Mutationen (z.B. Einzelnukleotidvariationsanalyse), Kopienzahlvariationsanalyse oder allgemeinen genetischen Analyse einer Erkrankung zu verwenden sind.
Die Systeme und Verfahren können bei der Analyse zellfreier DNA besonders nützlich sein. In manchen Fällen werden zellfreie DNA aus einer gut zugänglichen Körperflüssigkeit wie z.B. Blut extrahiert und isoliert. Beispielsweise kann zellfreie DNA unter Verwendung einer Reihe von auf dem Gebiet der Erfindung bekannten Verfahren extrahiert werden, einschließlich Isopropanolausfällung und/oder Silica-basierter Reinigung, ohne darauf eingeschränkt zu sein. Zellfreie DNA kann aus einer beliebigen Anzahl von Individuen extrahiert werden, wie z.B. Individuen ohne Krebs, Individuen, bei denen das Risiko für Krebs besteht, oder Individuen, die bekanntermaßen Krebs haben (z.B. durch andere Mittel).
Nach dem Isolierungs-/Extraktionsschritt kann eine beliebige Anzahl von verschiedenen Sequenzierungsvorgängen an der zellfreien Polynukleotidprobe durchgeführt werden. Proben können vor der Sequenzierung mit einem oder mehreren Reagenzien (z.B. Enzymen, einzigartigen Bezeichnungen (z.B. Barcodes), Sonden usw.) verarbeitet werden. In manchen Fällen können die Proben oder Fragmente der Proben, wenn die Probe mit einer einzigartigen Bezeichnung wie z.B. einem Barcode verarbeitet wird, einzeln oder in Untergruppen mit der einzigartigen Bezeichnung markiert werden. Die einzigartige Probe kann dann in einer weiterführenden Anwendung wie z.B. einer Sequenzierungsreaktion, durch die einzelne Moleküle zu Elternmolekülen nachverfolgt werden können, verwendet werden.
Nachdem Sequenzierungsdaten von zellfreien Polynukleotidsequenzen erfasst worden sind, können ein oder mehrere Bioinformatikverfahren auf die Sequenzdaten angewendet werden, um genetische Merkmale oder Abweichungen wie z.B. Kopienzahlvariation, seltene Mutationen (z.B. Einzel- oder Mehrfachnukleotidvariationen) oder Änderungen epigenetischer Marker, einschließlich, aber nicht ausschließlich, Methylierungsprofilen, zu detektieren. In manchen Fällen, in denen eine Kopienzahlvariationsanalyse gewünscht ist, können Sequenzdaten: 1) mit einem Bezugsgenom abgeglichen werden; 2) gefiltert und kartiert werden; 3) in Sequenzfenster oder -unterteilungen eingeteilt werden; 4) Abdeckungsauslesungen für jedes Fenster gezählt werden; 5) Abdeckungsauslesungen dann unter Verwendung eines stochastischen oder statistischen Modellierungsalgorithmus normalisiert werden; 6) und eine Ausgabedatei erzeugt werden, die diskrete Kopienzahlzustände an verschiedenen Positionen im Genom wiedergibt. In anderen Fällen, in denen einen Analyse seltener Mutationen gewünscht ist, können Sequenzdaten 1) mit einem Bezugsgenom abgeglichen werden; 2) gefiltert und kartiert werden; 3) die Häufigkeit von Variantenbasen basierend auf Abdeckungsauslesungen für die spezifische Base berechnet werden; 4) die Häufigkeit der Basenvariante unter Verwendung eines stochastischen, statistischen oder probabilistischen Modellierungsalgorithmus normalisiert werden; 5) und eine Ausgabedatei erzeugt werden, die die Mutationszustände an verschiedenen Positionen im Genom wiedergibt.
In den hierin offenbarten Systemen und Verfahren können mehrere verschiedene Reaktionen und/oder Operationen erfolgen, einschließlich, ohne darauf eingeschränkt zu sein: Nukleinsäuresequenzierung, Nukleinsäurequantifizierung, Sequenzierungsoptimierung, Detektionsgenexpression, Quantifizierungsgenexpression, Genomanalyse, Krebsanalyse oder Analyse exprimierter Marker. Außerdem weisen die Systeme und Verfahren zahlreiche medizinische Anwendungen auf. Beispielsweise können sie für die Identifizierung, Detektion, Diagnose, Behandlung, Einstufung oder Risikovorhersage verschiedener genetischer und nichtgenetischer Erkrankungen und Störungen einschließlich Krebs verwendet werden. Sie können verwendet werden, um die Reaktion eines Individuums auf verschiedene Behandlungen der genetischen und nichtgenetischen Erkrankungen zu beurteilen oder Informationen bezüglich der Krankheitsprogression und -prognose bereitzustellen.
Polynukleotidsequenzierung kann mit einem Problem in der Kommunikationstheorie verglichen werden. Ein(e) zu Beginn vorliegende(s) einzelne(s) Polynukleotid oder Gruppe von Polynukleotiden wird als Ursprungsnachricht erachtet. Markieren und/oder Amplifizieren kann als Kodieren der Ursprungsnachricht in ein Signal erachtet werden. Sequenzierung kann als Kommunikationskanal erachtet werden. Die Ausgabe eines Sequenzierers, z.B. Sequenzauslesungen, kann als empfangenes Signal erachtet werden. Bioinformatische Verarbeitung kann als Empfänger erachtet werden, der das empfangene Signal dekodiert, um eine übertragene Nachricht zu erzeugen, z.B. eine Nukleotidsequenz oder -sequenzen. Das empfangene Signal kann Artefakte umfassen, wie z.B. Rauschen und Verzerrung. Rauschen kann als unerwünschter willkürlicher Zusatz zu einem Signal erachtet werden. Verzerrung kann als Alteration der Amplitude eines Signals oder Teils eines Signals erachtet werden.
Rauschen kann durch Fehler beim Kopieren und/oder Auslesen eines Polynukleotids eingeführt werden. Beispielsweise kann in einem Sequenzierungsverfahren ein einzelnes Polynukleotid zunächst einer Amplifikation unterzogen werden. Amplifikation kann Fehler einführen, sodass eine Teilmenge der amplifizierten Polynukleotide an einem bestimmten Locus eine Base enthalten kann, die nicht gleich wie die Ursprungsbase an diesem Locus ist. Ferner kann in dem Ausleseverfahren eine Base an einem beliebigen bestimmten Locus inkorrekt ausgelesen werden. Als Folge dessen kann die Sammlung von Sequenzauslesungen einen bestimmten Prozentsatz von Basenzuordnungen an einem Locus umfassen, die nicht gleich wie die Ursprungsbase sind. Bei typischen Sequenzierungstechnologien kann diese Fehlerrate einstellig sein, z.B. 2 bis 3 % betragen. Wenn eine Sammlung von Molekülen, von denen allen angenommen wird, dass sie dieselbe Sequenz aufweisen, sequenziert wird, ist dieses Rauschen gering genug, damit die Ursprungsbase mit hoher Zuverlässigkeit identifiziert werden kann.
Wenn allerdings eine Sammlung von Elternpolynukleotiden eine Teilmenge von Polynukleotiden umfasst, die Sequenzvarianten an einem bestimmten Locus aufweisen, kann Rauschen ein signifikantes Problem sein. Dies kann beispielsweise der Fall sein, wenn zellfreie DNA nicht nur Keimbahn-DNA, sondern auch DNA aus einer anderen Quelle, wie z.B. fötale DNA oder DNA aus einer Krebszelle, umfasst. In diesem Fall kann es sein, dass, wenn die Häufigkeit von Molekülen mit Sequenzvarianten im gleichen Bereich wie die Häufigkeit von Fehlern, die durch das Sequenzierungsverfahren eingeführt werden, liegt, richtige Sequenzvarianten nicht von Rauschen unterscheidbar sind. Dies könnte beispielsweise das Detektieren von Sequenzvarianten in einer Probe beeinträchtigen.
Verzerrung kann sich im Sequenzierungsverfahren als Differenz der Signalstärke manifestieren, z.B. der Gesamtanzahl von Sequenzauslesungen, die durch Moleküle in einer Elternpopulation in derselben Häufigkeit erzeugt werden. Verzerrung kann beispielsweise durch Amplifikations-Bias, GC-Bias oder Sequenzierungs-Bias eingeführt werden. Dies könnte das Detektieren der Kopienzahlvariation in einer Probe beeinträchtigen. GC-Bias führt zu einer ungleichmäßigen Darstellung von Bereichen, die reich oder arm an GC-Gehalt in der Sequenzauslesung sind.
Diese Erfindung stellt Verfahren zur Verringerung von Sequenzierungsartefakten wie z.B. Rauschen und/oder Verzerrung in einem Polynukleotid-Sequenzierungsverfahren bereit. Das Gruppieren von Sequenzauslesungen in Familien, die von einzelnen Ursprungsmolekülen stammen, kann Rauschen und/oder Verzerrung aus einem individuellen Einzelmolekül oder aus einer Gruppe von Molekülen verringern. In Bezug auf ein Einzelmolekül verringert das Gruppieren von Auslesungen in eine Familie die Verzerrung, indem beispielsweise angegeben wird, dass zahlreiche Sequenzauslesungen tatsächlich ein Einzelmolekül und nicht viele verschiedene Moleküle darstellen. Das Zusammenfassen von Sequenzauslesungen in eine Consensussequenz ist eine Art, um Rauschen in der empfangenen Nachricht aus einem Molekül zu verringern. Die Verwendung von Wahrscheinlichkeitsfunktionen, die empfangene Häufigkeiten umwandeln, stellt eine weitere Art dar. In Bezug auf eine Gruppe von Molekülen verringert das Gruppieren von Auslesungen in Familien und das Bestimmen eines quantitativen Maßes der Familien Verzerrung beispielsweise in der Menge von Molekülen an jedem einer Vielzahl verschiedener Loci. Auch hier eliminiert das Zusammenfassen von Sequenzauslesungen verschiedener Familien in Consensussequenzen Fehler, die durch Amplifikations- und/oder Sequenzierungsfehler eingeführt wurden. Außerdem verringert auch das Bestimmen der Häufigkeiten von Basenzuordnungen basierend auf Wahrscheinlichkeiten, die von Familieninformationen abgeleitet sind, Rauschen in der empfangenen Nachricht von einer Gruppe von Molekülen.
Verfahren zur Verringerung von Rauschen und/oder Verzerrung aus einem Sequenzierungsverfahren sind bekannt. Diese umfassen beispielsweise das Filtern von Sequenzen, wobei sie z.B. eine Qualitätsschwelle erreichen oder den GC-Bias verringern müssen. Solche Verfahren werden typischerweise an der Sammlung von Sequenzauslesungen durchgeführt, die die Ausgabe eines Sequenzierers sind, und können Sequenzauslesung um Sequenzauslesung durchgeführt werden, ungeachtet der Familienstruktur (Untersammlungen von Sequenzen, die aus einem einzelnen Ursprungselternmolekül stammen). Bestimmte Verfahren der vorliegenden Erfindung verringern Rauschen und Verzerrung, indem Rauschen und/oder Verzerrung in Familien von Sequenzauslesungen verringert werden, d. h., es werden Sequenzauslesungen bearbeitet, die in Familien gruppiert sind, die aus einem einzelnen Elternpolynukleotid-Molekül stammen. Eine Verringerung der Signalartefakte auf Familienebene kann signifikant weniger Rauschen und Verzerrung in der endgültigen Nachricht, die bereitgestellt wird, produzieren als eine Artefaktverringerung, die auf einer Sequenzauslesungs-um-Sequenzauslesungs-Ebene oder auf der Sequenzerausgabe als Ganzes durchgeführt wird.
Diese Offenbarung stellt ferner Verfahren und Systeme zum Detektieren genetischer Variationen mit hoher Empfindlichkeit in einer Probe genetischen Ausgangsmaterials bereit. Die Verfahren umfassen die Verwendung eines oder beider der folgenden Werkzeuge: Erstens die effiziente Überführung einzelner Polynukleotide in einer Probe von zu Beginn vorliegendem genetischem Material in Sequenz-bereite markierte Elternpolynukleotide, um die Wahrscheinlichkeit zu erhöhen, dass einzelne Polynukleotide in einer Probe von zu Beginn vorliegendem genetischen Material in einer Sequenz-bereiten Probe repräsentiert sind. Dies kann Sequenzinformationen über mehr Polynukleotide in der zu Beginn vorliegenden Probe produzieren. Zweitens die Erzeugung hoher Ausbeuten von Consensussequenzen für markierte Elternpolynukleotide durch schnelle Stichprobenahme von Nachkommen-Polynukleotiden, die aus den markierten Elternpolynukleotiden amplifiziert wurden, und Zusammenfassen von erzeugten Sequenzauslesungen in Consensussequenzen, die Sequenzen von markierten Elternpolynukleotiden darstellen. Dies kann Rauschen verringern, das durch Amplifikations-Bias und/oder Sequenzierungsfehler eingeführt wurde, und kann die Detektionsempfindlichkeit erhöhen. Das Zusammenfassen wird an einer Vielzahl von Sequenzauslesungen durchgeführt, die entweder aus Auslesungen amplifizierter Moleküle oder mehreren Auslesungen eines einzelnen Moleküls erzeugt wurden.
Sequenzierungsverfahren umfassen typischerweise Probenherstellung, Sequenzierung von Polynukleotiden in der hergestellten Probe, um Sequenzauslesungen zu erzeugen, und bioinformatische Manipulation der Sequenzauslesungen, um quantitative und/oder qualitative genetische Informationen zur Probe zu erzeugen. Probenherstellung umfasst typischerweise das Überführen von Polynukleotiden in einer Probe in eine Form, die mit der verwendeten Sequenzierungsplattform kompatibel ist. Diese Überführung kann das Markieren von Polynukleotiden umfassen. In bestimmten Ausführungsformen der vorliegenden Erfindung umfassen die Markierungen Polynukleotid-Sequenzmarkierungen. Überführungsmethodiken, die bei der Sequenzierung verwendet werden, sind möglicherweise nicht zu 100 % effizient. Beispielsweise ist es nicht ungewöhnlich, Polynukleotide in einer Probe mit einer Überführungseffizienz von etwa 1 bis 5 % zu überführen, d. h., etwa 1 bis 5 % der Polynukleotide in einer Probe werden in markierte Polynukleotide überführt. Polynukleotide, die nicht in markierte Moleküle überführt werden, sind in einer markierten Bibliothek zur Sequenzierung nicht repräsentiert. Demgemäß kann es sein, dass Polynukleotide mit genetischen Varianten, die in niedriger Häufigkeit in dem zu Beginn vorliegenden genetischen Material repräsentiert sind, nicht in der markierten Bibliothek repräsentiert sind und daher nicht sequenziert oder detektiert werden. Durch Erhöhen der Überführungseffizienz wird die Wahrscheinlichkeit erhöht, dass ein seltenes Polynukleotid in dem zu Beginn vorliegenden genetischen Material in der markierten Bibliothek repräsentiert ist und folglich mittels Sequenzieren detektiert wird. Des Weiteren erfordern die meisten Arbeitsvorschriften bislang mehr als 1 Mikrogramm DNA als Eingabematerial, anstatt auf das Problem der geringen Überführungseffizienz direkt zu reagieren. Wenn allerdings das Eingabeprobematerial begrenzt ist oder die Detektion von Polynukleotiden mit niedriger Repräsentation gewünscht ist, kann eine hohe Überführungseffizienz die Probe effizient sequenzieren und/oder solche Polynukleotide adäquat detektieren.
Diese Offenbarung stellt Verfahren zum Überführen von zu Beginn vorliegenden Polynukleotiden in markierte Polynukleotide mit einer Überführungseffizienz von zumindest 10 %, zumindest 20 %, zumindest 30 %, zumindest 40 %, zumindest 50 %, zumindest 60 %, zumindest 80 % oder zumindest 90 % bereit. Die Verfahren umfassen beispielsweise ein beliebiges aus Ligation stumpfer Enden, Ligation klebriger Enden, molekularen Inversionssonden, PCR, ligationsbasierter PCR, Multiplex-PCR, Einzelstrangligation und Einzelstrangzirkularisierung. Die Verfahren können auch das Begrenzen der Menge von zu Beginn vorliegendem genetischem Material umfassen. Beispielsweise kann die Menge von zu Beginn vorliegendem genetischem Material weniger als 1 µg, weniger als 100 ng oder weniger als 10 ng betragen. Diese Verfahren sind hierin ausführlicher beschrieben.
Der Erhalt genauer quantitativer und qualitativer Informationen über Polynukleotide in einer markierten Bibliothek kann zu einer empfindlicheren Charakterisierung des zu Beginn vorliegenden genetischen Materials führen. Typischerweise werden Polynukleotide in einer markierten Bibliothek amplifiziert, und die resultierenden amplifizierten Moleküle werden sequenziert. Abhängig vom Durchsatz der verwendeten Sequenzierungsplattform produziert nur eine Teilmenge der Moleküle in der amplifizierten Bibliothek Sequenzauslesungen. So kann beispielsweise die Anzahl amplifizierter Moleküle, die zur Sequenzierung herangezogen werden, nur etwa 50 % der einzigartigen Polynukleotide in der markierten Bibliothek ausmachen. Ferner kann Amplifizierung zugunsten oder zuungunsten bestimmter Sequenzen oder bestimmter Mitglieder der markierten Bibliothek verzerrt sein. Dies kann die quantitative Messung von Sequenzen in der markierten Bibliothek verzerren. Auch können Sequenzierungsplattformen Fehler bei der Sequenzierung einführen. Beispielsweise können Sequenzen eine Fehlerrate pro Base von 0,5 bis 1 % aufweisen. Amplifikations-Bias und Sequenzierungsfehler führen Rauschen in das Sequenzierungsendprodukt ein. Dieses Rauschen kann die Detektionsempfindlichkeit verringern. Beispielsweise können Sequenzvarianten, deren Häufigkeit in der markierten Population geringer als die Sequenzierungsfehlerrate ist, als Rauschen fehlinterpretiert werden. Auch kann Amplifikations-Bias durch Bereitstellen von Auslesungen von Sequenzen in höheren oder niedrigeren Mengen als ihre tatsächliche Anzahl in einer Population Messungen der Kopienzahlvariation verzerren. Alternativ dazu kann eine Vielzahl von Sequenzauslesungen aus einem einzelnen Polynukleotid ohne Amplifikation erzeugt werden. Dies kann beispielsweise mittels Nanoporenverfahren erfolgen.
Diese Offenbarung stellt Verfahren zum genauen Detektieren und Auslesen einzigartiger Polynukleotide in einem markierten Pool bereit. In bestimmten Ausführungsformen stellt die vorliegende Offenbarung sequenzmarkierte Polynukleotide bereit, die bei Amplifikation und Sequenzierung oder bei mehrmaliger Sequenzierung, um eine Vielzahl von Sequenzauslesungen zu erzeugen, Informationen bereitstellen, die das Nachverfolgen oder Zusammenfassen von Nachkommen-Polynukleotiden auf das einzigartige Markierungs-Elternpolynukleotid-Molekül erlauben. Das Zusammenfassen von Familien amplifizierter Nachkommen-Polynukleotide verringert den Amplifikations-Bias durch Bereitstellen von Informationen über ursprüngliche einzigartige Elternmoleküle. Das Zusammenfassen verringert auch Sequenzierungsfehler durch Eliminieren aus Sequenzierungsdaten-Mutantensequenzen von Nachkommen-Molekülen.
Das Detektieren und Auslesen einzigartiger Polynukleotide in der markierten Bibliothek kann zwei Strategien umfassen. Bei einer Strategie wird eine ausreichend große Teilmenge des amplifizierten Nachkommen-Polynukleotid-Pools sequenziert, sodass für einen großen Prozentsatz einzigartiger markierter Elternpolynukleotide in dem Satz von markierten Elternpolynukleotiden eine Sequenzauslesung besteht, die für zumindest ein amplifiziertes Nachkommen-Polynukleotid in einer Familie erzeugt wird, die aus einem einzigartigen markierten Elternpolynukleotid produziert wurde. Bei einer zweiten Strategie wird der amplifizierte Nachkommen-Polynukleotid-Satz zur Sequenzierung auf einem Level herangezogen, um Sequenzauslesungen aus mehreren Nachkommenmitgliedern einer Familie zu erzeugen, die von einem einzigartigen Elternpolynukleotid stammt. Die Erzeugung von Sequenzauslesungen von mehreren Nachkommenmitgliedern einer Familie erlaubt das Zusammenfassen von Sequenzen in Consensus-Elternsequenzen.
So erzeugt beispielsweise die Probenahme einer Anzahl von amplifizierten Nachkommen-Polynukleotiden aus dem Satz von amplifizierten Nachkommen-Polynukleotiden, die gleich der Anzahl von einzigartigen markierten Elternpolynukleotiden in dem Satz von markierten Elternpolynukleotiden ist (insbesondere wenn die Anzahl zumindest 10.000 beträgt), statistisch eine Sequenzauslesung für zumindest einen der Nachkommen von etwa 68 % der markierten Elternpolynukleotide in dem Satz, und etwa 40 % der einzigartigen markierten Elternpolynukleotide in dem ursprünglichen Satz werden durch zumindest zwei Nachkommen-Sequenzauslesungen repräsentiert. In bestimmten Ausführungsformen erfolgt eine ausreichende Probenahme aus dem amplifizierten Nachkommen-Polynukleotid-Satz, um ein Mittel von fünf bis zehn Sequenzauslesungen für jede Familie zu erzeugen. Eine Probenahme aus dem amplifizierten Nachkommensatz von 10-mal so vielen Molekülen wie die Anzahl von einzigartigen markierten Elternpolynukleotiden erzeugt statistisch Sequenzinformationen von etwa 99,995 % der Familien, von denen 99,95 % der gesamten Familien durch eine Vielzahl von Sequenzauslesungen abgedeckt sind. Eine Consensussequenz kann aus den Nachkommen-Polynukleotiden in jeder Familie erstellt werden, um die Fehlerrate aus der nominalen Sequenzierungsfehlerrate pro Base auf eine Rate zu verringern, die zahlreiche Größenordnungen niedriger sein kann. Wenn der Sequenzierer beispielsweise eine zufällige Fehlerrate pro Base von 1 % aufweist und die gewählte Familie 10 Auslesungen aufweist, besitzt eine Consensussequenz, die aus diesen 10 Auslesungen erstellt wurde, eine Fehlerrate von unter 0,0001 %. Demgemäß kann die Probengröße der zu sequenzierenden amplifizierten Nachkommenschaft ausgewählt sein, um sicherzustellen, dass eine Sequenz, die in der Probe eine Häufigkeit aufweist, die nicht größer als die nominale Sequenzierungsfehlerrate pro Base in Bezug auf eine Rate der verwendeten Sequenzierungsplattform ist, eine Wahrscheinlichkeit von zumindest 99 % aufweist, durch zumindest eine Auslesung repräsentiert zu sein.
In einer weiteren Ausführungsform erfolgt die Probenahme aus dem Satz von amplifizierten Nachkommen-Polynukleotiden auf einem Level, um eine hohe Wahrscheinlichkeit, z.B. zumindest 90 %, zu erzeugen, dass eine Sequenz, die in dem Satz von markierten Elternpolynukleotiden in einer Häufigkeit repräsentiert ist, die in etwa gleich wie die Sequenzierungsfehlerrate pro Base der Sequenzierungsplattform ist, durch zumindest eine Sequenzauslesung und vorzugsweise eine Vielzahl von Sequenzauslesungen abgedeckt ist. Wenn die Sequenzierungsplattform also beispielsweise eine Fehlerrate pro Base von 0,2 % in einer Sequenz oder einem Satz von Sequenzen aufweist, die in dem Satz von markierten Elternpolynukleotiden in einer Häufigkeit von etwa 0,2 % repräsentiert ist, dann kann die Anzahl von Polynukleotiden in dem amplifizierten Nachkommenpool, die sequenziert werden, etwa X-mal die Anzahl von einzigartigen Molekülen in dem Satz von markierten Elternpolynukleotiden betragen.
Diese Verfahren können mit beliebigen der hierin beschriebenen Verfahren zur Verringerung von Rauschen kombiniert werden, einschließlich beispielsweise des Qualifizierens von Sequenzauslesungen für die Aufnahme in den Pool von Sequenzen, die zur Erzeugung von Consensussequenzen verwendet werden.
Diese Informationen können nun sowohl für die qualitative als auch die quantitative Analyse verwendet werden. Beispielsweise wird für die quantitative Analyse ein Maß, z.B. ein Count, der Menge von markierten Elternmolekülen, die auf eine Bezugssequenz kartieren, bestimmt. Dieses Maß kann mit einem Maß markierter Elternpolynukleotide, die auf eine andere Genomregion kartieren, verglichen werden. Das heißt, die Menge von markierten Elternmolekülen, die auf eine erste Stelle oder kartierbare Position in einer Bezugssequenz wie z.B. dem menschlichen Genom kartieren, kann mit einem Maß markierter Elternmoleküle, die auf eine zweite Stelle oder kartierbare Position in einer Bezugssequenz kartieren, verglichen werden. Dieser Vergleich kann beispielsweise die relativen Mengen an Elternmolekülen, die auf jede Region kartieren, aufzeigen. Dies stellt wiederum eine Angabe der Kopienzahlvariation für Moleküle, die auf eine bestimmte Region kartieren, bereit. Wenn beispielsweise das Maß von Polynukleotiden, die auf eine erste Bezugssequenz kartieren, größer ist als das Maß von Polynukleotiden, die auf eine zweite Bezugssequenz kartieren, kann dies anzeigen, dass die Elternpopulation und infolgedessen die ursprüngliche Probe Polynukleotide aus Zellen, die Aneuploidie aufweisen, enthielten. Die Maße können in Bezug auf eine Kontrollprobe normalisiert werden, um verschiedene Bias zu eliminieren. Quantitative Maße können beispielsweise Anzahl, Count, Häufigkeit (seien sie relativ, abgeleitet oder absolut) umfassen.
Ein Bezugsgenom kann das Genom einer beliebigen Spezies von Interesse umfassen. Menschliche Genomsequenzen, die als Bezüge verwendbar sind, können die hg19-Anordnung oder eine beliebige vorherige oder verfügbare hg-Anordnung umfassen. Solche Sequenzen können unter Verwendung des unter genome.ucsc.edu/index.html verfügbaren Genom-Browsers abgefragt werden. Die Genome anderer Spezies umfassen beispielsweise PanTro2 (Schimpanse) und mm9 (Maus).
Für eine qualitative Analyse können Sequenzen aus einem Satz von markierten Polynukleotiden, die auf eine Bezugssequenz kartieren, auf Variantensequenzen analysiert werden, und ihre Häufigkeit in der Population von markierten Elternpolynukleotiden kann gemessen werden.
Probenherstellung
Isolierung und Extraktion von Polynukleotiden
Die Systeme und Verfahren der vorliegenden Offenbarung können zahlreiche Verwendungen bei der Manipulation, Herstellung, Identifizierung und/oder Quantifizierung von zellfreien Polynukleotiden aufweisen. Beispiele für Polynukleotide umfassen, ohne darauf eingeschränkt zu sein: DNA, RNA, Amplicons, cDNA, dsDNA, ssDNA, Plasmid-DNA, Cosmid-DNA, DNA mit hohem Molekulargewicht (MG), chromosomale DNA, genomische DNA, virale DNA, bakterielle DNA, mtDNA (mitochondriale DNA), mRNA, rRNA, tRNA, nRNA, siRNA, snRNA, snoRNA, scaRNA, microRNA, dsRNA, Ribozym, Riboswitch und virale RNA (z.B. retrovirale RNA).
Zellfreie Polynukleotide können aus einer Vielzahl von Quellen stammen, einschließlich menschlicher, Säugetier-, nichtmenschlicher Säugetier-, Menschenaffen-, Affen-, Schimpansen-, Reptilien-, Amphibien- oder Vogelquellen. Ferner können Proben aus einer Vielzahl von tierischen Flüssigkeiten, die zellfreie Sequenzen enthalten, extrahiert werden, einschließlich, aber nicht ausschließlich, Blut, Serum, Plasma, Glaskörperflüssigkeit, Sputum, Urin, Tränen, Schweiß, Speichel, Samenflüssigkeit, mukosalen Exkretionen, Schleim, Spinalflüssigkeit, Fruchtwasser, Lymphflüssigkeit und dergleichen. Zellfreie Polynukleotide können fötalen Ursprungs sein (über Flüssigkeit, die aus einem schwangeren Individuum entnommen wurde) oder können aus Gewebe des Individuums selbst stammen.
Die Isolierung und Extraktion zellfreier Polynukleotide kann durch Entnahme von Körperflüssigkeiten unter Verwendung zahlreicher Verfahren erfolgen. In manchen Fällen kann die Entnahme die Aspiration einer Körperflüssigkeit aus einem Individuum unter Verwendung einer Spritze umfassen. In anderen Fällen kann die Entnahme Pipettieren oder direkte Entnahme von Flüssigkeit in ein Auffanggefäß umfassen.
Nach der Entnahme der Körperflüssigkeit können zellfreie Polynukleotide unter Verwendung zahlreicher auf dem Gebiet der Erfindung bekannter Verfahren isoliert und extrahiert werden. In manchen Fällen kann zellfreie DNA isoliert, extrahiert und vorbereitet werden, indem im Handel erhältliche Sets wie z.B. die Arbeitsvorschrift des Qiagen Qiamp® Circulating Nukleic Acid Kit verwendet werden. In anderen Beispielen können die Arbeitsvorschrift des dsDNA-HS-Testsets Qiagen Qubit™, das DNA-1000-Set Agilent™ oder das Verfahren zur Sequenzierungsbibliotheksherstellung TruSeq™; eine Niedrig-Durchsatz-(LT-) Arbeitsvorschrift verwendet werden.
Im Allgemeinen werden zellfreie Polynukleotide aus Körperflüssigkeiten durch einen Abtrennungsschritt extrahiert und isoliert, in dem zellfreie DNAs, wie sie in Lösung zu finden sind, von Zellen und anderen nichtlöslichen Komponenten der Körperflüssigkeit getrennt werden. Das Abtrennen kann Verfahren wie Zentrifugierung oder Filtration umfassen, ohne darauf eingeschränkt zu sein. In anderen Fällen werden Zellen zunächst nicht von zellfreier DNA abgetrennt, sondern lysiert. In diesem Beispiel wird die genomische DNA intakter Zellen durch selektive Ausfällung abgetrennt. Zellfreie Polynukleotide, einschließlich DNA, können löslich bleiben und können von unlöslicher genomischer DNA getrennt und extrahiert werden. Im Allgemeinen kann DNA nach dem Zusetzen von Puffern und anderen Waschschritten, die für verschiedene Sets spezifisch sind, unter Verwendung von Isopropanolausfällung ausgefällt werden. Es können auch weitere Bereinigungsschritte eingesetzt werden, wie z.B. Silica-basierte Säulen zur Entfernung von Verunreinigungen oder Salzen. Allgemeine Schritte können für spezifische Anwendungen optimiert werden. Nichtspezifische Hauptträger-Polynukleotide können beispielsweise über die gesamte Reaktion zugesetzt werden, um bestimmte Aspekte der Verfahren wie z.B. die Ausbeute zu optimieren.
Isolierung und Reinigung zellfreier DNA kann unter Verwendung beliebiger Mittel erreicht werden, einschließlich, ohne darauf eingeschränkt zu sein, der Verwendung im Handel erhältlicher Sets und Arbeitsvorschriften, die von Firmen wie Sigma Aldrich, Life Technologies, Promega, Affymetrix, IBI oder dergleichen bereitgestellt werden. Sets und Arbeitsvorschriften können auch nicht im Handel erhältlich sein.
Nach der Isolierung werden die zellfreien Polynukleotide in manchen Fällen mit einem oder mehreren zusätzlichen Materialien wie z.B. einem oder mehreren Reagenzien (z.B. Ligase, Protease, Polymerase) vorgemischt, bevor die Sequenzierung erfolgt.
Ein Verfahren zur Erhöhung der Überführungseffizienz umfasst die Verwendung einer Ligase, die zur optimalen Reaktivität auf einzelsträngige DNA gentechnisch verändert wurde, wie z.B. eines ThermoPhage-ssDNA-Ligasederivats. Solche Ligasen umgehen herkömmliche Schritte in der Bibliothekserstellung der Endreparatur und A-Tailing, die schlechte Effizienzen und/oder akkumulierte Verluste aufgrund von Zwischenbereinigungsschritten aufweisen können, und ermöglicht die zweifache Wahrscheinlichkeit, dass entweder das Sense- oder Antisense-Ausgangspolynukleotid in ein entsprechend markiertes Polynukleotid überführt wird. Sie überführen auch doppelsträngige Polynukleotide, die Überhänge besitzen können, die möglicherweise keine ausreichend stumpfen Enden durch die typische Endreparaturreaktion aufweisen. Optimale Reaktionsbedingungen für diese ssDNA-Reaktion sind: 1 × Reaktionspuffer (50 mM MOPS (pH 7,5), 1 mM DTT, 5 mM MgCI2, 10 mM KCI) mit 50 mM ATP, 25 mg/ml BSA, 2,5 mM MnCI2, 200 pmol 85-nt-ssDNA-Oligomer und 5 U ssDNA-Ligase, die bei 65 °C 1 Stunde lang inkubiert wurde. Darauffolgende Amplifikation unter Verwendung von PCR kann die markierte einzelsträngige Bibliothek weiter in eine doppelsträngige Bibliothek überführen und eine Gesamtüberführungseffizienz von deutlich über 20 % ergeben. Weitere Verfahren zur Erhöhung der Überführungsrate, z.B. auf über 10 %, umfassen beispielsweise beliebige der folgenden, alleine oder in Kombination: anellierungsoptimierte molekulare Inversionssonden, Ligation stumpfer Enden mit einem gut kontrollierten Polynukleotidgrößenbereich, Ligation klebriger Enden oder einen Voraus-Multiplex-Amplifikationsschritt mit oder ohne Verwendung von Fusionsprimern.
Molekulares Barcoding von zellfreien Polynukleotiden
Die Systeme und Verfahren der vorliegenden Offenbarung können auch ermöglichen, dass die zellfreien Polynukleotide markiert oder nachverfolgt werden, um eine darauffolgende Identifizierung und Feststellung des Ursprungs des entsprechenden Polynukleotids zu erlauben. Diese Funktion steht im Gegensatz zu anderen Verfahren, die zusammenfassende oder Multiplexreaktionen verwenden und die nur Maße oder Analysen als Mittel mehrerer Proben bereitstellen. Hierin kann die Zuordnung einer Bezeichnung zu einzelnen oder Untergruppen von Polynukleotiden ermöglichen, dass einzelnen Sequenzen oder Fragmenten von Sequenzen eine einzigartige Identität zugewiesen wird. Dies kann den Erhalt von Daten aus einzelnen Proben erlauben und ist nicht auf Mittelwerte von Proben beschränkt.
In manchen Beispielen können Nukleinsäuren oder andere Moleküle, die aus einem einzelnen Strang stammen, eine gemeinsame Markierung oder Bezeichnung aufweisen, weshalb später identifiziert werden kann, dass sie von diesem Strang stammen. Ebenso können alle Fragmente aus einem einzelnen Nukleinsäurestrang mit derselben Bezeichnung oder Markierung markiert sein, wodurch eine darauffolgende Identifizierung von Fragmenten aus dem Elternstrang erlaubt wird. In anderen Fällen können Genexpressionsprodukte (z.B. mRNA) markiert werden, um die Expression zu quantifizieren, wodurch der Barcode oder der Barcode in Kombination mit der Sequenz, an die er gebunden ist, gezählt werden kann. In noch anderen Fällen können die Systeme und Verfahren als PCR-Amplifikationskontrolle verwendet werden. In solchen Fällen können mehrere Amplifikationsprodukte aus einer PCR-Reaktion mit derselben Markierung oder Bezeichnung markiert sein. Wenn die Produkte später sequenziert werden und Sequenzunterschiede aufweisen, können Unterschiede unter Produkten mit derselben Bezeichnung dann einem PCR-Fehler zugeschrieben werden.
Zusätzlich dazu können einzelne Sequenzen basierend auf Merkmalen von Sequenzdaten für die Auslesung selbst identifiziert werden. Beispielsweise kann die Detektion einzigartiger Sequenzdaten an den Beginn- (Start-) und End- (Stopp-) Abschnitten einzelner Sequenzauslesungen verwendet werden, alleine oder in Kombination mit der Länge oder Anzahl von Basenpaaren jeder in Bezug auf die Sequenzauslesung einzigartigen Sequenz, um einzelnen Molekülen einzigartige Identitäten zuzuweisen. Fragmente aus einem einzelnen Nukleinsäurestrang, denen eine einzigartige Identität zugewiesen wurde, können dadurch eine darauffolgende Identifizierung von Fragmenten aus dem Elternstrang erlauben. Dies kann in Verbindung mit einer starken Reduktion des zu Beginn vorliegenden genetischen Materials verwendet werden, um die Diversität zu beschränken.
Ferner können einzigartige Sequenzdaten an den Beginn- (Start-) und End- (Stopp-) Abschnitten einzelner Sequenzierungsauslesungen und die Länge einer Sequenzierungsauslesung alleine oder in Kombination mit den Barcodes verwendet werden. In manchen Fällen können die Barcodes einzigartig wie hierin beschrieben sein. In anderen Fällen kann es sein, dass die Barcodes selbst nicht einzigartig sind. In diesem Fall kann die Verwendung von nicht einzigartigen Barcodes, in Kombination mit Sequenzdaten an den Beginn- (Start-) und End- (Stopp-) Abschnitten einzelner Sequenzierungsauslesungen, und der Länge einer Sequenzauslesung die Zuweisung einer einzigartigen Identität an einzelne Sequenzen erlauben. Ebenso können Fragmente aus einem einzelnen Nukleinsäurestrang, denen eine einzigartige Identität zugewiesen wurde, dadurch eine darauffolgende Identifizierung von Fragmenten aus dem Elternstrang erlauben.
Im Allgemeinen sind die hierin bereitgestellten Verfahren und Systeme für die Herstellung zellfreier Polynukleotidsequenzen für eine Sequenzierungsreaktion einer weiterführenden Anwendung zweckmäßig. Häufig handelt es sich bei einem Sequenzierungsverfahren um die klassische Sanger-Sequenzierung. Sequenzierungsverfahren können die folgenden umfassen, ohne darauf eingeschränkt zu sein: Hochdurchsatzsequenzierung, Pyrosequenzierung, Sequenzierung durch Synthese, Einzelmolekülsequenzierung, Nanoporensequenzierung, Halbleitersequenzierung, Sequenzierung durch Ligation, Sequenzierung durch Hybridisierung, RNA-Seq (Illumina), Digital Gene Expression (Helicos), Next-Generation-Sequenzierung, Einzelmolekülsequenzierung durch Synthese (SMSS) (Helicos), massiv-parallele Sequenzierung, Clonal Single Molecule Array (Solexa), Shotgun-Sequenzierung, Maxim-Gilbert-Sequenzierung, Primer Walking und beliebige weitere Sequenzierungsverfahren, die auf dem Gebiet der Erfindung bekannt sind.
Zuweisung von Barcodes an zellfreie Polynukleotidsequenzen
Die hierin offenbarten Systeme und Verfahren können in Anwendungen verwendet werden, die die Zuweisung von einzigartigen oder nicht einzigartigen Bezeichnungen oder molekularen Barcodes an zellfreie Polynukleotide umfassen. Häufig ist die Bezeichnung ein Barcode-Oligonukleotid, das verwendet wird, um das Polynukleotid zu markieren, in manchen Fällen werden jedoch verschiedene einzigartige Bezeichnungen verwendet. Beispielsweise ist die einzigartige Bezeichnung in manchen Fällen eine Hybridisierungssonde. In anderen Fällen ist die einzigartige Bezeichnung ein Farbstoff, wobei in diesem Fall die Bindung eine Interkalation des Farbstoffs in das Analytmolekül (wie z.B. Interkalation in DNA oder RNA) oder Bindung an eine mit dem Farbstoff markierte Sonde umfassen kann. In noch weiteren Fällen kann die einzigartige Bezeichnung ein Nukleinsäureoligonukleotid sein, wobei in diesem Fall die Bindung der Polynukleotidsequenzen eine Ligationsreaktion zwischen dem Oligonukleotid und den Sequenzen oder Inkorporation durch PCR umfassen kann. In anderen Fällen kann die Reaktion das Zusetzen eines Metallisotops, entweder direkt zu dem Analyten oder durch eine mit dem Isotop markierte Sonde, umfassen. Im Allgemeinen kann die Zuweisung von einzigartigen oder nicht einzigartigen Bezeichnungen oder molekularen Barcodes in Reaktionen der vorliegenden Offenbarung Verfahren und Systemen folgen, die beispielsweise durch die US-Patentanmeldungen 20010053519, 20030152490, 20110160078 und US-Patent US 6,582,908 beschrieben sind.
Häufig umfasst das Verfahren das Anbringen von Oligonukleotid-Barcodes an Nukleinsäureanalyten durch eine enzymatische Reaktion, einschließlich, aber nicht ausschließlich, einer Ligationsreaktion. Beispielsweise kann das Ligaseenzym einen DNA-Barcode kovalent an fragmentierter DNA (z.B. hochmolekularer DNA) anbringen. Nach dem Anbringen der Barcodes können die Moleküle einer Sequenzierungsreaktion unterzogen werden.
Es können allerdings auch andere Reaktionen verwendet werden. Beispielsweise können Oligonukleotid-Primer, die Barcode-Sequenzen enthalten, in Amplifikationsreaktionen (z.B. PCR, qPCR, Reverse-Transkriptase-PCR, digitaler PCR usw.) der DNA-Matrizenanalyte verwendet werden, wodurch markierte Analyten produziert werden. Nach der Zuweisung von Barcodes an einzelne zellfreie Polynukleotidsequenzen kann der Pool von Molekülen sequenziert werden.
In manchen Fällen kann PCR für die globale Amplifikation von zellfreien Polynukleotidsequenzen verwendet werden. Dies kann die Verwendung von Adaptersequenzen umfassen, die zunächst an verschiedene Moleküle ligiert werden können, gefolgt von PCR-Amplifikation unter Verwendung von universellen Primern. PCR zur Sequenzierung kann unter Verwendung beliebiger Mittel durchgeführt werden, einschließlich, ohne darauf eingeschränkt zu sein, im Handel erhältlicher Sets, bereitgestellt von Nugen (WGA-Set), Life Technologies, Affymetrix, Promega, Qiagen und dergleichen. In anderen Fällen kann es sein, dass nur bestimmte Zielmoleküle in einer Population zellfreier Polynukleotidmoleküle amplifiziert werden. Spezifische Primer können in Verbindung mit Adapterligation verwendet werden, um bestimmte Targets für eine Stromab-Sequenzierung selektiv zu amplifizieren.
Die einzigartigen Bezeichnungen (z.B. Oligonukleotid-Barcodes, Antikörper, Sonden usw.) können zufällig oder nicht zufällig in zellfreie Polynukleotidsequenzen eingeführt werden. In manchen Fällen werden sie in einem erwarteten Verhältnis von einzigartigen Bezeichnungen in Mikrowells eingeführt. Beispielsweise können die einzigartigen Bezeichnungen so beladen werden, dass mehr als etwa 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50,000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 oder 1.000.000.000 einzigartige Bezeichnungen pro Genomprobe beladen werden. In manchen Fällen können die einzigartigen Bezeichnungen so beladen werden, dass weniger als etwa 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 oder 1.000.000.000 einzigartige Bezeichnungen pro Genomprobe beladen werden. In manchen Fällen beträgt die mittlere Anzahl einzigartiger Bezeichnungen, die pro Probengenom beladen werden, weniger als etwa oder mehr als etwa 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 oder 1.000.000.000 einzigartige Bezeichnungen pro Genomprobe.
In manchen Fällen können die einzigartigen Bezeichnungen eine Vielzahl von Längen sein, sodass jeder Barcode zumindest etwa 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 Basenpaare beträgt. In anderen Fällen können die Barcodes weniger als 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 Basenpaare umfassen.
In manchen Fällen können einzigartige Bezeichnungen vorbestimmte oder zufällige oder semizufällige Sequenzoligonukleotide sein. In anderen Fällen kann eine Vielzahl von Barcodes verwendet werden, sodass Barcodes in der Vielzahl nicht notwendigerweise einzigartig in Bezug zueinander sind. In diesem Beispiel können Barcodes an einzelne Moleküle ligiert sein, sodass die Kombination des Barcodes und der Sequenz, an die er ligiert sein kann, eine einzigartige Sequenz ergibt, die einzeln nachverfolgt werden kann. Wie hierin beschrieben kann die Detektion von nicht einzigartigen Barcodes in Kombination mit Sequenzdaten von Beginn- (Start-) und End- (Stopp-) Abschnitten von Sequenzauslesungen die Zuweisung einer einzigartigen Identität an ein bestimmtes Molekül erlauben. Die Länge oder Anzahl von Basenpaaren einer einzelnen Sequenzauslesung kann auch verwendet werden, um einem solchen Molekül eine einzigartige Identität zuzuweisen. Wie hierin beschrieben, können Fragmente aus einem Einzelstrang von Nukleinsäuren, denen eine einzigartige Identität zugewiesen wurde, dadurch eine darauffolgende Identifizierung von Fragmenten aus dem Elternstrang erlauben. Auf diese Weise können die Polynukleotide in der Probe einzigartig oder im Wesentlichen einzigartig markiert werden.
Die einzigartigen Bezeichnungen können zum Markieren eines breiten Bereichs von Analyten verwendet werden, einschließlich, jedoch nicht beschränkt auf, RNA- oder DNA-Moleküle. Beispielsweise können einzigartige Bezeichnungen (z.B. Barcode-Oligonukleotide) an die vollständigen Stränge von Nukleinsäuren oder an Fragmente von Nukleinsäuren (z.B. fragmentierte genomische DNA, fragmentierte RNA) angebracht werden. Die einzigartigen Bezeichnungen (z.B. Oligonukleotide) können auch an Genexpressionsprodukte, genomische DNA, mitochondriale DNA, RNA, mRNA und dergleichen binden.
In zahlreichen Anwendungen kann es wichtig sein, zu bestimmen, ob einzelne zellfreie Polynukleotidsequenzen jeweils eine andere einzigartige Bezeichnung erhalten (z.B. Oligonukleotid-Barcode). Wenn die Population einzigartiger Bezeichnungen, die in die Systeme und Verfahren eingeführt wurden, nicht signifikant divers ist, sind möglicherweise verschiedene Analyten mit identischen Bezeichnungen markiert. Die hierin offenbarten Systeme und Verfahren können die Detektion zellfreier Polynukleotidsequenzen, die mit derselben Bezeichnung markiert sind, ermöglichen. In manchen Fällen kann eine Bezugssequenz in der Population von zellfreien Polynukleotidsequenzen enthalten sein, die zu analysieren sind. Die Bezugssequenz kann beispielsweise eine Nukleinsäure mit einer bekannten Sequenz und einer bekannten Menge sein. Wenn die einzigartigen Bezeichnungen Oligonukleotid-Barcodes sind und die Analyten Nukleinsäuren sind, können die markierten Analyten folglich sequenziert und quantifiziert werden. Diese Verfahren können angeben, ob ein oder mehrere Fragmente und/oder Analyten möglicherweise einem identischen Barcode zugewiesen wurden.
Ein hierin offenbartes Verfahren kann die Verwendung von Reagenzien umfassen, die für die Zuweisung von Barcodes zu den Analyten nötig sind. Im Fall von Ligationsreaktionen können Reagenzien, einschließlich, ohne darauf eingeschränkt zu sein, Ligaseenzyme, Puffer, Adapteroligonukleotide, eine Vielzahl von DNA-Barcodes einzigartiger Bezeichnungen und dergleichen, in die Systeme und Verfahren eingebracht werden. Im Fall von Anreicherung können Reagenzien, einschließlich, ohne darauf eingeschränkt zu sein, einer Vielzahl von PCR-Primern, Oligonukleotiden enthaltend eine einzigartige Identifikationssequenz oder Barcodesequenz, DNA-Polymerase, DNTPs und Puffer und dergleichen, in der Vorbereitung auf die Sequenzierung verwendet werden.
Im Allgemeinen können die Verfahren und Systeme der vorliegenden Offenbarung die Verfahren von US-Patent US 7,537,897 bei der Verwendung von molekularen Barcodes zur Zählung von Molekülen oder Analyten nutzen.
In einer Probe, die fragmentierte genomische DNA, wie z.B. zellfreie DNA (cfDNA) aus einer Vielzahl von Genomen umfasst, besteht eine gewisse Wahrscheinlichkeit, dass mehr als ein Polynukleotid aus verschiedenen Genomen dieselben Start- und Stopp-Positionen aufweist („Duplikate“ oder „Kognate“). Die wahrscheinliche Anzahl von Duplikaten, die bei einer beliebigen Position beginnen, ist eine Funktion der Anzahl von haploiden Genomäquivalenten in einer Probe und der Verteilung der Fragmentgrößen. Beispielsweise weist cfDNA einen Peak von Fragmenten bei etwa 160 Nukleotiden auf, und die meisten Fragmente in diesem Peak liegen im Bereich von etwa 140 Nukleotiden bis 180 Nukleotiden. Demgemäß kann cfDNA aus einem Genom mit etwa 3 Milliarden Basen (z.B. dem menschlichen Genom) aus nahezu 20 Millionen (2×10⁷) Polynukleotidfragmenten bestehen. Eine Probe mit etwa 30 ng DNA kann etwa 10.000 haploide menschliche Genomäquivalente enthalten. (Ebenso kann eine Probe mit etwa 100 ng DNA etwa 30.000 haploide menschliche Genomäquivalente enthalten.) Eine Probe, die etwa 10.000 (10⁴) haploide Genomäquivalente solcher DNA enthält, kann etwa 200 Milliarden (2×10¹¹) einzelne Polynukleotidmoleküle aufweisen. Es ist empirisch bestimmt worden, dass in einer Probe von etwa 10.000 haploiden Genomäquivalenten menschlicher DNA etwa 3 doppelte Polynukleotide, die an einer beliebigen Position beginnen, vorliegen. Daher kann eine solche Sammlung eine Diversität von etwa 6×10¹⁰ bis 8×10¹⁰ (etwa 60 Milliarden bis 80 Milliarden, z.B. etwa 70 Milliarden (7×10¹⁰)) verschieden sequenzierten Polynukleotidmolekülen enthalten.

Die Wahrscheinlichkeit einer korrekten Identifizierung von Molekülen ist abhängig von der anfänglichen Anzahl der Genomäquivalente, der Längenverteilung sequenzierter Moleküle, der Sequenzeinheitlichkeit und der Anzahl von Markierungen. Wenn der Markierungscount gleich eins ist, entspricht dies keiner einzigartigen Markierung oder keinem Markieren. Die nachstehende Tabelle zeigt die Wahrscheinlichkeit des korrekten Identifizierens eines Moleküls als einzigartig, wobei von einer typischen zellfreien Größenverteilung wie oben ausgegangen wird.

Markierungscount	Markierung % korrekt einzigartig identifiziert
1000 menschliche haploide Genomäquivalente
1	96,9643
4	99,2290
9	99,6539
16	99,8064
25	99,8741
100	99,9685

3000 menschliche haploide Genomäquivalente
1	91,7233
4	97,8178
9	99,0198
16	99,4424
25	99,6412
100	99,9107

In diesem Fall kann es sein, dass es bei der Sequenzierung der genomischen DNA nicht möglich ist, zu bestimmen, welche Sequenzauslesungen von welchen Elternmolekülen stammen. Dieses Problem kann durch das Markieren von Elternmolekülen mit einer ausreichenden Anzahl von einzigartigen Bezeichnungen (z.B. dem Markierungscount) vermindert werden, sodass die Wahrscheinlichkeit besteht, dass zwei doppelte Moleküle, d. h. Moleküle, die dieselben Start- und Stopp-Positionen aufweisen, unterschiedliche einzigartige Bezeichnungen tragen, sodass Sequenzauslesungen zu bestimmten Elternmolekülen nachverfolgbar sind. Ein Ansatz für dieses Problem besteht darin, jedes oder nahezu jedes unterschiedliche Elternmolekül in einer Probe einzigartig zu markieren. Allerdings kann dies abhängig von der Anzahl an haploiden Genäquivalenten und der Verteilung der Fragmentgrößen in der Probe Milliarden verschiedener einzigartiger Bezeichnungen erfordern.
Dieses Verfahren kann umständlich und teuer sein. Diese Erfindung stellt Verfahren und Zusammensetzungen bereit, in denen eine Population von Polynukleotiden in einer Probe fragmentierter genomischer DNA mit n verschiedenen einzigartigen Bezeichnungen markiert ist, wobei n zumindest 2 und nicht mehr als 100.000*z ist, wobei z ein Maß für die zentrale Tendenz (z.B. Mittel, Median, Modalwert) einer erwarteten Anzahl von Doppelmolekülen mit denselben Start- und Stopp-Positionen ist. In bestimmten Ausführungsformen ist n zumindest eines aus 2*z, 3*z, 4*z, 5*z, 6*z, 7*z, 8*z, 9*z, 10*z, 11*z, 12*z, 13*z, 14*z, 15*z, 16*z, 17*z, 18*z, 19*z oder 20*z (z.B. Untergrenze) ist. In anderen Ausführungsformen ist n nicht größer als 100.000*z, 10.000*z, 1000*z oder 100*z (z.B. Obergrenze). Daher kann n zwischen einer beliebigen Kombination dieser Unter- und Obergrenzen liegen. In bestimmten Ausführungsformen ist n zwischen 5*z und 15*z, zwischen 8*z und 12*z oder etwa 10*z. Beispielsweise weist ein haploides menschliches Genomäquivalent etwa 3 Pikogramm DNA auf. Eine Probe mit etwa 1 Mikrogramm DNA enthält etwa 300.000 haploide menschliche Genomäquivalente. Die Anzahl n kann zwischen 15 und 45, zwischen 24 und 36 oder etwa 30 sein. Verbesserungen bei der Sequenzierung können erreicht werden, solange zumindest manche der doppelten oder kognaten Polynukleotide einzigartige Bezeichnungen tragen, das heißt, verschiedene Markierungen tragen. Allerdings ist in bestimmten Ausführungsformen die Anzahl der verwendeten Markierungen so ausgewählt, dass eine Wahrscheinlichkeit von zumindest 95 % besteht, dass alle doppelten Moleküle, die an einer beliebigen Position starten, einzigartige Bezeichnungen tragen. Beispielsweise kann eine Probe, die etwa 10.000 haploide menschliche Genomäquivalente cfDNA enthält, mit etwa 36 einzigartigen Bezeichnungen markiert sein. Die einzigartigen Bezeichnungen können sechs einzigartige DNA-Barcodes umfassen. Es werden 36 mögliche einzigartige Bezeichnungen, an beide Enden eines Polynukleotids gebunden, produziert. Proben, die auf eine solche Weise markiert sind, können jene mit einem Bereich von etwa 10 ng bis zu einem beliebigen aus etwa 100 ng, etwa 1 µg, etwa 10 µg fragmentierte Polynukleotide, z.B. genomische DNA, z.B. cfDNA, sein.
Demgemäß stellt diese Offenbarung auch Zusammensetzungen markierter cfDNA-Polynukleotide bereit. Die Polynukleotide können fragmentierte DNA, wie z.B. cfDNA, umfassen. Es kann sein, dass ein Satz von Polynukleotiden in der Zusammensetzung, die auf eine kartierbare Basenposition in einem Genom kartieren, nicht einzigartig markiert ist, das heißt, die Anzahl an verschiedenen Bezeichnungen kann zumindest 2 und geringer als die Anzahl an Polynukleotiden sein, die auf die kartierbare Basenposition kartieren. Eine Zusammensetzung von zwischen etwa 10 ng und etwa 10 µg (z.B. ein beliebiges aus 10 ng bis 1 µg, etwa 10 ng bis 100 ng, etwa 100 ng bis 10 µg, etwa 100 ng bis 1 µg, etwa 1 µg bis 10 µg) kann zwischen einem beliebigen aus 2, 5, 10, 50 und 100 und einem beliebigen aus 100, 1000, 10.000 und 100.000 verschiedene Bezeichnungen tragen. Beispielsweise können zwischen 5 und 100 verschiedene Bezeichnungen verwendet werden, um die Polynukleotide in einer solchen Zusammensetzung zu markieren.
Nukleinsäure-Sequenzierungsplattformen
Nach der Extraktion und Isolierung von zellfreien Polynukleotiden aus Körperflüssigkeiten können zellfreie Sequenzen sequenziert werden. Häufig ist ein Sequenzierungsverfahren die klassische Sanger-Sequenzierung. Sequenzierungsverfahren können die folgenden umfassen, ohne darauf eingeschränkt zu sein: Hochdurchsatzsequenzierung, Pyrosequenzierung, Sequenzierung durch Synthese, Einzelmolekülsequenzierung, Nanoporensequenzierung, Halbleitersequenzierung, Sequenzierung durch Ligation, Sequenzierung durch Hybridisierung, RNA-Seq (Illumina), Digital Gene Expression (Helicos), Next-Generation-Sequenzierung, Einzelmolekülsequenzierung durch Synthese (SMSS)(Helicos), massiv-parallele Sequenzierung, Clonal Single Molecule Array (Solexa), Shotgun-Sequenzierung, Maxim-Gilbert-Sequenzierung, Primer Walking, Sequenzierung unter Verwendung von PacBio, SOLiD, Ion Torrent oder Nanoporen-Plattformen und beliebige weitere Sequenzierungsverfahren, die auf dem Gebiet der Erfindung bekannt sind.
In manchen Fällen können Sequenzierungsreaktionen verschiedener Arten, wie hierin beschrieben, mehrere Probenverarbeitungseinheiten umfassen. Probenverarbeitungseinheiten können mehrere Spuren, mehrere Kanäle, mehrere Wells oder andere Mittel zur im Wesentlichen gleichzeitigen Verarbeitung mehrerer Probensätze umfassen, ohne darauf eingeschränkt zu sein. Zusätzlich dazu kann die Probenverarbeitungseinheit mehrere Probenkammern umfassen, um die gleichzeitige Verarbeitung mehrerer Durchgänge zu ermöglichen.
In manchen Beispielen können simultane Sequenzierungsreaktionen unter Verwendung von Multiplex-Sequenzierung durchgeführt werden. In manchen Fällen können zellfreie Polynukleotide mit zumindest 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10.000, 50.000, 100.000 Sequenzierungsreaktionen sequenziert werden. In anderen Fällen können zellfreie Polynukleotide mit weniger als 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000 Sequenzierungsreaktionen sequenziert werden. Sequenzierungsreaktionen können aufeinanderfolgend oder gleichzeitig durchgeführt werden. Eine darauffolgende Datenanalyse kann an allen oder einem Teil der Sequenzierungsreaktionen durchgeführt werden. In manchen Fällen kann die Datenanalyse an zumindest 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50.000, 100.000 Sequenzierungsreaktionen durchgeführt werden. In anderen Fällen kann die Datenanalyse an weniger als 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10.000, 50.000, 100.000 Sequenzierungsreaktionen durchgeführt werden.
In anderen Beispielen kann die Anzahl an Sequenzierungsreaktionen verschiedene Mengen des Genoms abdecken. In manchen Fällen kann die Sequenzabdeckung des Genoms zumindest 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 99 %, 99,9 % oder 100 % betragen. In anderen Fällen kann die Sequenzabdeckung des Genoms weniger als 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 99 %, 99,9 % oder 100 % betragen.
In manchen Beispielen kann Sequenzierung an zellfreien Polynukleotiden durchgeführt werden, die eine Vielzahl von verschiedenen Typen von Nukleinsäuren umfassen können. Nukleinsäuren können Polynukleotide oder Oligonukleotide sein. Nukleinsäuren umfassen, ohne darauf eingeschränkt zu sein, DNA oder RNA, einzelsträngige oder doppelsträngige oder ein RNA/cDNA-Paar.
Strategie zur Analyse von Polynukleotiden
8 ist ein Diagramm 800, das eine Strategie zur Analyse von Polynukleotiden in einer Probe von zu Beginn vorliegendem genetischem Material zeigt. In Schritt 802 ist eine Probe, die zu Beginn vorliegendes genetisches Material enthält, bereitgestellt. Die Probe kann Zielnukleinsäure in niedriger Menge umfassen. Beispielsweise kann Nukleinsäure aus einem normalen oder Wildtypgenom (z.B. einem Keimbahngenom) in einer Probe überwiegen, die auch nicht mehr als 20 %, nicht mehr als 10 %, nicht mehr als 5 %, nicht mehr als 1 %, nicht mehr als 0,5 % oder nicht mehr als 0,1 % Nukleinsäure aus zumindest einem anderen Genom umfasst, das eine genetische Variation enthält, z.B. einem Krebsgenom oder einem fötalen Genom oder einem Genom aus einer anderen Spezies. Die Probe kann beispielsweise zellfreie Nukleinsäure oder Nukleinsäure umfassende Zellen umfassen. Es kann sein, dass das zu Beginn vorliegende genetische Material nicht mehr als 100 ng Nukleinsäure ausmacht. Dies kann zu richtigem Oversampling der ursprünglichen Polynukleotide durch das Sequenzierungs- oder genetische Analyseverfahren beitragen. Alternativ dazu kann die Probe künstlich gedeckelt oder reduziert werden, um die Menge an Nukleinsäure auf nicht mehr als 100 ng zu verringern, oder selektiv angereicht werden, um nur Sequenzen von Interesse zu analysieren. Die Probe kann so modifiziert werden, dass sie selektiv Sequenzauslesungen von Molekülen produziert, die auf jede aus einer oder mehreren ausgewählten Stellen in einer Bezugssequenz kartieren. Eine Probe von 100 ng Nukleinsäure kann etwa 30.000 menschliche haploide Genomäquivalente enthalten, das heißt Moleküle, die zusammen die 30.000-fache Abdeckung eines menschlichen Genoms bereitstellen.
In Schritt 804 wird das zu Beginn vorliegende genetische Material in einen Satz von markierten Elternpolynukleotiden überführt. Das Markieren kann das Anbringen von sequenzierten Markierungen an Moleküle in dem zu Beginn vorliegenden genetischen Material umfassen. Sequenzierte Markierungen kann so ausgewählt sein, dass alle einzigartigen Polynukleotide, die auf dieselbe Stelle in einer Bezugssequenz kartieren, eine einzigartige bezeichnende Markierung aufweisen. Die Überführung kann in einer höheren Effizienz, beispielsweise zumindest 50 %, durchgeführt werden.
In Schritt 806 wird der Satz von markierten Elternpolynukleotiden amplifiziert, um einen Satz von amplifizierten Nachkommen-Polynukleotiden zu erzeugen. Die Amplifikation kann beispielsweise 1.000-fach sein.
In Schritt 808 erfolgt eine Probenahme aus dem Satz von amplifizierten Nachkommen-Polynukleotiden für die Sequenzierung. Die Probenahmerate wird so ausgewählt, dass die erzeugten Sequenzauslesungen sowohl (1) eine Zielanzahl einzigartiger Moleküle in dem Satz von markierten Elternpolynukleotiden abdecken als auch (2) einzigartige Moleküle in dem Satz von markierten Elternpolynukleotiden bei einer x-fachen Zielabdeckung (z.B. 5- bis 10-fachen Abdeckung) der Elternpolynukleotide abdecken.
In Schritt 810 wird der Satz von Sequenzauslesungen zusammengefasst, um einen Satz von Consensussequenzen zu erzeugen, die einzigartigen markierten Elternpolynukleotiden entsprechen. Sequenzauslesungen können für eine Aufnahme in die Analyse in Frage kommen. Sequenzauslesungen, die einem Qualitätskontrollwert nicht entsprechen, können aus dem Pool entfernt werden. Sequenzauslesungen können in Familien eingeteilt werden, die Auslesungen von Nachkommen-Molekülen darstellen, die aus einem bestimmten einzigartigen Elternmolekül stammen. Beispielsweise kann eine Familie von amplifizierten Nachkommen-Polynukleotiden jene amplifizierten Moleküle ausmachen, die aus einem einzelnen Elternpolynukleotid stammen. Durch Vergleichen der Sequenzen der Nachkommenschaft in einer Familie kann eine Consensussequenz des ursprünglichen Elternpolynukleotids abgeleitet werden. Dies produziert einen Satz von Consensussequenzen, die einzigartige Elternpolynukleotide in dem markierten Pool darstellen.
In Schritt 812 wird der Satz von Consensussequenzen unter Verwendung beliebiger der hierin beschriebenen Analyseverfahren analysiert. Beispielsweise können Consensussequenzen, die auf eine bestimmte Stelle einer Bezugssequenz kartieren, analysiert werden, um Fälle genetischer Variation zu detektieren. Consensussequenzen, die auf bestimmte Bezugssequenzen kartieren, können gemessen und in Bezug auf Kontrollproben normalisiert werden. Maße für Moleküle, die auf Bezugssequenzen kartieren, können über ein Genom verglichen werden, um Bereiche in dem Genom zu identifizieren, in denen die Kopienzahl variiert oder die Heterozygotie verlorengegangen ist.
9 ist ein Diagramm, das ein generischeres Verfahren zur Extraktion von Informationen aus einem Signal zeigt, das durch eine Sammlung von Sequenzauslesungen dargestellt ist. In diesem Verfahren werden die Sequenzauslesungen nach dem Sequenzieren von amplifizierten Nachkommen-Polynukleotiden in Familien von Molekülen gruppiert, die aus einem Molekül einzigartiger Identität amplifiziert wurden (910). Diese Gruppierung kann ein Ausgangspunkt für Verfahren zum Interpretieren der Informationen in der Sequenz sein, um die Inhalte der markierten Elternpolynukleotide mit höherer Genauigkeit, z.B. weniger Rauschen und/oder Verzerrung, zu bestimmen.
Durch die Analyse der Sammlung von Sequenzauslesungen können Rückschlüsse auf die Elternpolynukleotidpopulation, aus der die Sequenzauslesungen erzeugt wurden, gezogen werden. Solche Rückschlüsse können nützlich sein, da Sequenzierung typischerweise das Auslesen nur einer partiellen Teilmenge der globalen amplifizierten Polynukleotide umfasst. Daher kann man nicht sicher sein, dass jedes Elternpolynukleotid durch zumindest eine Sequenzauslesung in der Sammlung von Sequenzauslesungen repräsentiert wird.
Ein solcher Rückschluss ist die Anzahl einzigartiger Elternpolynukleotide in dem ursprünglichen Pool. Ein solcher Rückschluss kann basierend auf der Anzahl von einzigartigen Familien, in die die Sequenzauslesungen gruppiert werden können, und der Anzahl von Sequenzauslesungen in jeder Familie gezogen werden. In diesem Fall bezieht sich eine Familie auf eine Sammlung von Sequenzauslesungen, die zu einem ursprünglichen Elternpolynukleotid rückverfolgbar sind. Der Rückschluss kann unter Verwendung wohlbekannter statistischer Verfahren erfolgen. Wenn die Gruppierung beispielsweise mehrere Familien hervorbringt, wobei jede durch einen oder mehrere Nachkommen repräsentiert ist, kann abgeleitet werden, dass die ursprüngliche Population mehr einzigartige Elternpolynukleotide umfasste, die nicht sequenziert wurden. Wenn die Gruppierung andererseits nur einige wenige Familien hervorbringt, wobei jede Familie durch zahlreiche Nachkommen repräsentiert ist, kann abgeleitet werden, dass die meisten der einzigartigen Polynukleotide in der Elternpopulation durch zumindest eine Sequenzauslesungsgruppe in dieser Familie repräsentiert sind.
Ein anderer solcher Rückschluss ist die Häufigkeit einer Base oder Sequenz von Basen an einem bestimmten Locus in einem ursprünglichen Pool von Polynukleotiden. Ein solcher Rückschluss kann basierend auf der Anzahl von einzigartigen Familien, in die die Sequenzauslesungen gruppiert sein können, und der Anzahl von Sequenzauslesungen in jeder Familie gezogen werden. Beim Analysieren der Basenzuordnungen an einem Locus in einer Familie von Sequenzauslesungen wird jeder bestimmten Basenzuordnung oder Sequenz ein Konfidenzwert zugewiesen. Dann wird unter Berücksichtigung des Konfidenzwerts für jede Basenzuordnung in einer Vielzahl der Familien die Häufigkeit jeder Base oder Sequenz an dem Locus bestimmt.
Detektion einer Kopienzahlvariation
Detektion einer Kopienzahlvariation unter Verwendung einer einzelnen Probe
1 ist ein Diagramm 100, das eine Strategie zur Detektion einer Kopienzahlvariation in einem einzelnen Individuum zeigt. Wie hierin gezeigt, können Verfahren zur Detektion einer Kopienzahlvariation wie folgt implementiert werden. Nach der Extraktion und Isolierung zellfreier Polynukleotide in Schritt 102 kann eine einzelne einzigartige Probe durch eine auf dem Gebiet der Erfindung bekannte NukleinsäureSequenzierungsplattform in Schritt 104 sequenziert werden. Dieser Schritt erzeugt eine Vielzahl genomischer Fragmentsequenzauslesungen. In manchen Fällen können diese Sequenzauslesungen Barcode-Informationen enthalten. In anderen Beispielen werden keine Barcodes verwendet. Nach der Sequenzierung werden Auslesungen einem Qualitätswert zugeordnet. Ein Qualitätswert kann eine Darstellung von Auslesungen sein, die angibt, ob diese Auslesungen in einer darauffolgenden Analyse nützlich sein können, basierend auf einer Schwelle. In manchen Fällen sind manche Auslesungen nicht von ausreichender Qualität oder Länge, um den darauffolgenden Kartierungsschritt durchzuführen. Sequenzierungsauslesungen mit einem Qualitätswert von zumindest 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % können aus den Daten herausgefiltert werden. In anderen Fällen können Sequenzierungsauslesungen, denen ein Qualitätswert von weniger als 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % zugewiesen wurde, aus dem Datensatz herausgefiltert werden. In Schritt 106 werden die genomischen Fragmentauslesungen, die einer spezifizierten Qualitätswertschwelle entsprechen, auf ein Bezugsgenom oder eine Matrizensequenz kartiert, das/die bekanntermaßen keine Kopienzahlvariationen enthält. Nach dem Kartierungsabgleich werden Sequenzauslesungen einem Kartierungswert zugewiesen. Ein Kartierungswert kann eine Darstellung oder Auslesungen sein, die auf die Bezugssequenz zurückkartiert ist/sind, die angibt, ob jede Position einzigartig kartierbar ist oder nicht. Fallweise können Auslesungen Sequenzen sein, die nicht mit der Kopienzahlvariationsanalyse zusammenhängen. Beispielsweise können manche Sequenzauslesungen aus verunreinigten Polynukleotiden stammen. Sequenzierungsauslesungen mit einem Kartierungswert von zumindest 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % können aus dem Datensatz herausgefiltert werden. In anderen Fällen können Sequenzierungsauslesungen, denen ein Kartierungswert von weniger als 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % zugewiesen wurde, aus dem Datensatz herausgefiltert werden.
Nach dem Filtern und Kartieren der Daten erzeugt die Vielzahl von Sequenzauslesungen eine chromosomale Region mit Abdeckung. In Schritt 108 können diese chromosomalen Regionen in Fenster oder Unterteilungen variabler Länge geteilt werden. Ein Fenster oder eine Unterteilung kann zumindest 5 kb, 10 kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb oder 1000 kb betragen. Ein Fenster oder eine Unterteilung kann auch Basen mit bis zu 5 kb, 10 kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb oder 1000 kb aufweisen. Ein Fenster oder eine Unterteilung kann auch etwa 5 kb, 10 kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb oder 1000 kb betragen.
Für die Abdeckungsnormalisierung in Schritt 110 wird jede(s) Fenster oder Unterteilung so ausgewählt, dass es/sie etwa dieselbe Anzahl von kartierbaren Basen enthält. In manchen Fällen kann jede(s) Fenster oder Unterteilung in einer chromosomalen Region die exakte Anzahl kartierbarer Basen enthalten. In anderen Fällen kann jede(s) Fenster oder Unterteilung eine andere Anzahl von kartierbaren Basen enthalten. Zusätzlich dazu kann jede(s) Fenster oder Unterteilung nicht überlappend mit einem angrenzenden Fenster oder einer Unterteilung sein. In anderen Fällen kann ein Fenster oder eine Unterteilung mit einem anderen angrenzenden Fenster überlappen. In manchen Fällen kann ein Fenster oder eine Unterteilung eine Überlappung von zumindest 1 bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp oder 1000 bp aufweisen. In anderen Fällen kann ein Fenster oder eine Unterteilung eine Überlappung um bis zu 1 bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp oder 1000 bp aufweisen. In manchen Fällen kann ein Fenster oder eine Unterteilung eine Überlappung von etwa 1 bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp oder 1000 bp aufweisen.
In manchen Fällen kann jede der Fensterregionen eine solche Größe aufweisen, dass sie etwa dieselbe Anzahl von einzigartig kartierbaren Basen enthalten. Die Kartierbarkeit jeder Base, die eine Fensterregion umfasst, wird bestimmt und verwendet, um eine Kartierbarkeitsdatei zu erzeugen, die eine Darstellung von Auslesungen aus den Bezügen enthält, die für jede Datei auf den Bezug zurückkartiert sind. Die Kartierbarkeitsdatei enthält eine Zeile pro Position, die angibt, ob die jeweilige Position einzigartig kartierbar ist oder nicht.
Zusätzlich dazu können vordefinierte Fenster, die bekanntermaßen über das ganze Genom schwer sequenzierbar sind oder einen im Wesentlichen hohen GC-Bias enthalten, aus dem Datensatz gefiltert werden. Beispielsweise enthalten Regionen, die bekanntermaßen nahe das Centromer von Chromosomen fallen (d. h. centromere DNA), bekanntermaßen hoch repräsentative Sequenzen, die falsch positive Ergebnisse produzieren können. Diese Regionen können herausgefiltert werden. Andere Regionen des Genoms, wie z.B. Regionen, die eine unüblich hohe Konzentration von anderen hochrepräsentativen Sequenzen enthalten, wie z.B. Mikrosatelliten-DNA, können aus dem Datensatz herausgefiltert werden.
Die Anzahl von analysierten Fenstern kann auch variieren. In manchen Fällen werden zumindest 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5000, 10.000, 20.000, 50.000 oder 100.000 Fenster analysiert. In anderen Fällen beträgt die Anzahl von analysierten Fenstern bis zu 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5.000, 10.000, 20.000, 50.000 oder 100.000.
Für ein beispielhaftes Genom, das von zellfreien Polynukleotidsequenzen stammt, umfasst der nächste Schritt das Bestimmen der Auslesungsabdeckung für jede Fensterregion. Dies kann unter Verwendung von Auslesungen entweder mit Barcodes oder ohne Barcodes erfolgen. In Fällen ohne Barcodes stellen die vorherigen Kartierungsschritte eine Abdeckung verschiedener Basenpositionen bereit. Sequenzauslesungen, die ausreichende Kartierungs- und Qualitätswerte aufweisen und in Chromosomenfenster fallen, die nicht herausgefiltert wurden, können gezählt werden. Der Anzahl von Abdeckungsauslesungen kann ein Wert pro kartierbarer Position zugewiesen werden. In Fällen, die Barcodes umfassen, können alle Sequenzen mit demselben Barcode, denselben physikalischen Eigenschaften oder einer Kombination der beiden in eine Auslesung zusammengefasst werden, da sie alle von dem Probenelternmolekül stammen. Dieser Schritt verringert Bias, die möglicherweise während eines der vorangegangenen Schritte eingeführt wurden, wie z.B. Schritten, die Amplifikation umfassen. Wenn beispielsweise ein Molekül 10-mal amplifiziert wird, ein anderes jedoch 1000-mal amplifiziert wird, wird jedes Molekül nur einmal nach dem Zusammenfassen repräsentiert, wodurch die Wirkung unausgeglichener Amplifikation aufgehoben wird. Nur Auslesungen mit einzigartigen Barcodes können für jede kartierbare Position gezählt werden und den zugewiesenen Wert beeinflussen.
Consensussequenzen können durch ein beliebiges auf dem Gebiet der Erfindung bekanntes Verfahren aus Familien von Sequenzauslesungen erzeugt werden. Solche Verfahren umfassen beispielsweise lineare oder nichtlineare Verfahren zur Erstellung von Consensussequenzen (wie z.B. Voting, Mitteln, statistisch, Maximum-a-posteriori- oder Maximum-Likelihood-Detektion, dynamische Programmierung, Bayes'scher Ansatz, Hidden-Markow- oder Stützvektormaschinenverfahren usw.), die aus der digitalen Kommunikationstheorie, Informationstheorie oder Bioinformatik stammen.
Nachdem die Sequenzauslesungsabdeckung bestimmt wurde, wird ein stochastischer Modellierungsalgorithmus angewendet, um die normalisierte Nukleinsäuresequenz-Auslesungsabdeckung für jede Fensterregion in die diskreten Kopienzahlzustände zu überführen. In manchen Fällen kann dieser Algorithmus eines oder mehrere der folgenden umfassen: Hidden-Markow-Modell, dynamische Programmierung, Stützvektormaschine, Bayes'sches Netz, Trellis-Dekodierung, Viterbi-Dekodierung, Erwartungsmaximierung, Kalman-Filter-Methodik und neuronale Netzwerke.
In Schritt 112, können die diskreten Kopienzahlzustände jeder Fensterregion genutzt werden, um Kopienzahlvariation in den chromosomalen Regionen zu detektieren. In manchen Fällen können alle benachbarten Fensterregionen mit derselben Kopienzahl in ein Segment zusammengeführt werden, um die Gegenwart oder Abwesenheit eines Kopienzahlvariationszustands anzugeben. In manchen Fällen können verschiedene Fenster gefiltert werden, bevor sie mit anderen Segmenten zusammengeführt werden.
In Schritt 114 kann die Kopienzahlvariation als Diagramm angegeben werden, das verschiedene Positionen in dem Genom und eine entsprechende Zunahme oder Abnahme oder Beibehaltung der Kopienzahlvariation an jeder entsprechenden Position angibt. Zusätzlich dazu kann die Kopienzahlvariation verwendet werden, um einen Prozentwert anzugeben, der anzeigt, wie viel Krankheitsmaterial (oder Nukleinsäuren mit einer Kopienzahlvariation) in der zellfreien Polynukleotidprobe vorliegt.
Ein Verfahren zur Bestimmung der Kopienzahlvariation ist in 10 gezeigt. In diesem Verfahren werden nach Gruppieren der Sequenzauslesungen in Familien, die aus einem einzelnen Elternpolynukleotid erzeugt wurden (1010), die Familien quantifiziert, beispielsweise durch Bestimmen der Anzahl von Familien, die auf jede einer Vielzahl verschiedener Bezugssequenzstellen kartieren. CNVs können direkt bestimmt werden, indem ein quantitatives Maß von Familien an jedem einer Vielzahl verschiedener Loci verglichen wird (1016b). Alternativ dazu kann ein quantitatives Maß von Familien in der Population von markierten Elternpolynukleotiden abgeleitet werden, indem sowohl ein quantitatives Maß von Familien als auch ein quantitatives Maß von Familienmitgliedern in jeder Familie, z.B. wie oben diskutiert, verwendet wird. Dann kann eine CNV bestimmt werden, indem das abgeleitete Maß der Menge an der Vielzahl von Loci verglichen wird. In anderen Ausführungsformen kann ein gemischter Ansatz verwendet werden, wobei nach Normalisierung in Bezug auf den Repräsentations-Bias während des Sequenzierungsverfahrens, wie z.B. GC-Bias, usw., ein ähnlicher Rückschluss auf die ursprüngliche Menge erfolgen kann.
Kopienzahlvariationsdetektion unter Verwendung gepaarter Proben
Kopienzahlvariationsdetektion durch gepaarte Proben weist zahlreiche gemeinsame Schritte und Parameter mit dem hierin beschriebenen Einzelprobenansatz auf. Wie in 200 von 2 dargestellt, erfordert die Kopienzahlvariationsdetektion unter Verwendung gepaarter Proben einen Vergleich der Sequenzabdeckung mit einer Kontrollprobe anstatt eines Vergleichs mit der vorhergesagten Kartierbarkeit des Genoms
2 ist ein Diagramm 200, das eine Strategie zur Detektion der Kopienzahlvariation in einem gepaarten Individuum zeigt. Wie hierin gezeigt, können Kopienzahlvariationdetektionsverfahren wie folgt implementiert werden. In Schritt 204 kann eine einzelne einzigartige Probe durch eine Nukleinsäuresequenzierungsplattform, die auf dem Gebiet der Erfindung bekannt ist, nach Extraktion und Isolierung der Probe in Schritt 202 sequenziert werden. Dieser Schritt erzeugt eine Vielzahl von genomischen Fragmentsequenzauslesungen. Zusätzlich dazu wird eine Probe oder Kontrollprobe aus einem anderen Individuum entnommen. In manchen Fällen kann das Kontrollindividuum ein Individuum sein, von dem nicht bekannt ist, dass es eine Erkrankung hat, während das andere Individuum eine bestimmte Erkrankung haben kann oder das Risiko dazu bestehen kann. In manchen Fällen können diese Sequenzauslesungen Barcodeinformationen enthalten. In anderen Beispielen werden keine Barcodes genutzt. Nach dem Sequenzieren werden Auslesungen einem Qualitätswert zugewiesen. In manchen Fällen weisen manche Auslesungen keine ausreichende Qualität oder Länge auf, um den darauffolgenden Kartierungsschritt durchzuführen. Sequenzierungsauslesungen mit einem Qualitätswert von zumindest 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % können aus dem Datensatz herausgefiltert werden. In anderen Fällen können Sequenzierungsauslesungen, denen ein Qualitätswert von weniger als 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % zugewiesen wurde, aus dem Datensatz herausgefiltert werden. In Schritt 206 werden die genomischen Fragmentauslesungen, die einer spezifizierten Qualitätswertschwelle entsprechen, auf ein Bezugsgenom oder eine Matrizensequenz kartiert, die bekanntermaßen keine Kopienzahlvariationen enthält. Nach dem Kartierungsabgleich wird Sequenzauslesungen ein Kartierungswert zugewiesen. Fallweise kann es sein, dass Auslesungen nicht mit der Kopienzahlvariation zusammenhängen. Beispielsweise können manche Sequenzauslesungen aus verunreinigten Polynukleotiden stammen. Sequenzierungsauslesungen mit einem Kartierungswert von zumindest 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % können aus dem Datensatz herausgefiltert werden. In anderen Fällen können Sequenzierungsauslesungen, denen ein Kartierungswert unter 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % zugewiesen wurde, aus dem Datensatz herausgefiltert werden.
Nach der Datenfilterung und Kartierung erzeugt die Vielzahl von Sequenzauslesungen eine chromosomale Abdeckungsregion für jedes der Test- und Kontrollindividuen. In Schritt 208 können diese chromosomalen Regionen in Fenster oder Unterteilungen variabler Länge geteilt werden. Ein Fenster oder eine Unterteilung kann zumindest 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb oder 1000 kb lang sein. Ein Fenster oder eine Unterteilung kann auch weniger als 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb oder 1000 kb lang sein.
Für die Abdeckungsnormalisierung wird in Schritt 210 jede(s) Fenster oder Unterteilung so ausgewählt, dass es/sie etwa dieselbe Anzahl von kartierbaren Basen für jedes der Test- und Kontrollindividuen enthält. In manchen Fällen kann jede(s) Fenster oder Unterteilung in einer chromosomalen Region die genaue Anzahl von kartierbaren Basen enthalten. In anderen Fällen kann jede(s) Fenster oder jede Unterteilung eine andere Anzahl von kartierbaren Basen enthalten. Zusätzlich dazu kann jede(s) Fenster oder Unterteilung mit einem/r benachbarten Fenster oder Unterteilung überlappen. In anderen Fällen kann ein(e) Fenster oder Unterteilung mit einem/r anderen Fenster oder Unterteilung überlappen. In manchen Fällen kann ein(e) Fenster oder Unterteilung um zumindest 1 bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp oder 1000 bp überlappen. In anderen Fällen kann ein(e) Fenster oder Unterteilung um weniger als 1 bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp oder 1000 bp überlappen.
In manchen Fällen weist jede Fensterregion eine solche Größe auf, dass sie etwa dieselbe Anzahl von einzigartig kartierbaren Basen für jedes der Test- und Kontrollindividuen enthält. Die Kartierbarkeit jeder Base, die eine Fensterregion umfasst, wird bestimmt und verwendet, um eine Kartierbarkeitsdatei zu erzeugen, die eine Darstellung von Auslesungen aus den Bezügen enthält, die auf den Bezug für jede Datei zurückkartiert werden. Die Kartierbarkeitsdatei enthält eine Zeile pro Position, die angibt, ob die jeweilige Position einzigartig kartierbar ist oder nicht.
Zusätzlich dazu werden vordefinierte Fenster, die bekanntermaßen durch das ganze Genom schwer zu sequenzieren sind oder einen im Wesentlichen hohen GC-Bias enthalten, aus dem Datensatz herausgefiltert. Beispielsweise enthalten Regionen, die bekanntermaßen nahe das Centromer von Chromosomen fallen (d. h. centromere DNA), bekanntermaßen stark repetitive Sequenzen, die falsch positive Ergebnisse erzeugen können. Diese Regionen können herausgefiltert werden. Andere Regionen des Genoms, wie z.B. Regionen, die eine unüblich hohe Konzentration an anderen stark repetitiven Sequenzen enthalten, wie z.B. Mikrosatelliten-DNA, können aus dem Datensatz herausgefiltert werden.
Die Anzahl an analysierten Fenstern kann auch variieren. In manchen Fällen werden zumindest 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5,000, 10.000, 20.000, 50.000 oder 100.000 Fenster analysiert. In anderen Fällen werden weniger als 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5,000, 10.000, 20.000, 50.000 oder 100.000 Fenster analysiert.
Für ein beispielhaftes Genom, das aus zellfreien Polynukleotidsequenzen stammt, umfasst der nächste Schritt das Bestimmen der Auslesungsabdeckung für jede Fensterregion für jedes der Test- und Kontrollindividuen. Dies kann entweder unter Verwendung von Auslesungen mit Barcodes oder ohne Barcodes erfolgen. In Fällen ohne Barcodes stellen die vorangegangenen Kartierungsschritte eine Abdeckung verschiedener Basenpositionen bereit. Sequenzauslesungen, die ausreichende Kartierungs- und Qualitätswerte aufweisen und in Chromosomenfenster fallen, die nicht herausgefiltert werden, können gezählt werden. Der Anzahl von Abdeckungsauslesungen kann ein Wert pro kartierbarer Position zugewiesen werden. In Fällen mit Barcodes können alle Sequenzen mit demselben Barcode in eine Auslesung zusammengefasst werden, da sie alle aus dem Probenelternmolekül stammen. Dieser Schritt verringert Bias, die möglicherweise während eines der vorangegangenen Schritte eingeführt wurden, wie z.B. Schritte, die Amplifikation umfassen. Nur Auslesungen mit einzigartigen Barcodes können für jede kartierbare Position gezählt werden und die den zugewiesenen Wert beeinflussen. Aus diesem Grund ist es wichtig, dass der Barcodeligationsschritt in einer Weise ausgeführt wird, die für die Erzeugung der geringsten Menge Bias optimiert ist.
Bei der Bestimmung der Nukleinsäureabdeckung für jedes Fenster kann die Abdeckung jedes Fensters durch die mittlere Abdeckung dieser Probe normalisiert werden. Unter Verwendung eines solchen Ansatzes kann es wünschenswert sein, sowohl das Testindividuum als auch die Kontrolle unter ähnlichen Bedingungen zu sequenzieren. Die Auslesungsabdeckung für jedes Fenster kann dann als Verhältnis über ähnliche Fenster ausgedrückt werden.
Die Verhältnisse von Nukleinsäureauslesungsabdeckungen für jedes Fenster des Testindividuums können durch Teilen der Auslesungsabdeckung jeder Fensterregion der Testprobe durch die Auslesungsabdeckung einer entsprechenden Fensterregion der Kontrollprobe bestimmt werden.
Nachdem die Verhältnisse der Sequenzauslesungsabdeckungen bestimmt wurden, wird ein stochastischer Modellierungsalgorithmus angewendet, um die normalisierten Verhältnisse für jede Fensterregion in diskrete Kopienzahlzustände zu überführen. In manchen Fällen kann dieser Algorithmus ein Hidden-Markow-Modell umfassen. In anderen Fällen kann das stochastische Modell dynamische Programmierung, Stützvektormaschine, Bayes'sche Modellierung, probabilistische Modellierung, Trellis-Dekodierung, Viterbi-Dekodierung, Erwartungsmaximierung, Kalman-Filter-Methodiken oder neuronale Netze umfassen.
In Schritt 212 können die diskreten Kopienzahlzustände jeder Fensterregion verwendet werden, um Kopienzahlvariation in den chromosomalen Regionen zu identifizieren. In manchen Fällen können alle benachbarten Fensterregionen mit derselben Kopienzahl in ein Segment zusammengeführt werden, um die Gegenwart oder Abwesenheit eines Kopienzahlvariationszustands anzugeben. In manchen Fällen können verschiedene Fenster herausgefiltert werden, bevor sie mit anderen Segmenten zusammengeführt werden.
In Schritt 214 kann die Kopienzahlvariation als Diagramm angegeben sein, das verschiedene Positionen in dem Genom und eine entsprechende Zunahme oder Abnahme oder Beibehaltung der Kopienzahlvariation an jeder entsprechenden Position angibt. Zusätzlich dazu kann die Kopienzahlvariation verwendet werden, um einen Prozentwert anzugeben, der anzeigt, wie viel Krankheitsmaterial in der zellfreien Polynukleotidprobe vorliegt.
Detektion seltener Mutationen
Die Detektion seltener Mutationen weist ähnliche Merkmale wie beide Kopienzahlvariationsansätze auf. Wie in 3, 300, dargestellt, verwendet die Detektion seltener Mutationen einen Vergleich der Sequenzabdeckung mit einer Kontrollprobe oder Bezugssequenz anstatt eines Vergleichs mit der relativen Kartierbarkeit des Genoms. Dieser Ansatz kann zur Normalisierung über Fenster beitragen.
Im Allgemeinen kann die Detektion seltener Mutationen an selektiv angereicherten Regionen des in Schritt 302 gereinigten oder isolierten Genoms oder Transkriptoms durchgeführt werden. Wie hierin beschrieben können spezifische Regionen, die Gene, Onkogene, Tumorsuppressorgene, Promotoren, Regulationssequenzelemente, nichtkodierende Regionen, miRNAs, snRNAs und dergleichen umfassen können, ohne darauf eingeschränkt zu sein, aus einer Gesamtpopulation zellfreier Polynukleotide selektiv amplifiziert werden. Dies kann wie hierin beschrieben erfolgen. In einem Beispiel kann Multiplex-Sequenzierung verwendet werden, mit oder ohne Barcode-Markierungen für einzelne Polynukleotidsequenzen. In anderen Beispielen kann Sequenzierung unter Verwendung beliebiger Nukleinsäuresequenzierungsplattformen erfolgen, die auf dem Gebiet der Erfindung bekannt sind. Dieser Schritt erzeugt eine Vielzahl genomischer Fragmentsequenzauslesungen wie in Schritt 304. Zusätzlich dazu wird eine Bezugssequenz aus einer Kontrollprobe erhalten, die aus einem anderen Individuum erhalten wurde. In manchen Fällen kann das Kontrollindividuum ein Individuum sein, das bekanntermaßen keine genetischen Abweichungen oder Erkrankungen aufweist. In manchen Fällen können diese Sequenzauslesungen Barcode-Informationen enthalten. In anderen Beispielen werden keine Barcodes verwendet. Nach dem Sequenzieren wird den Auslesungen ein Qualitätswert zugewiesen. Ein Qualitätswert kann eine Darstellung von Auslesungen sein, die basierend auf einer Schwelle angibt, ob diese Auslesungen in einer darauffolgenden Analyse nützlich sein können. In manchen Fällen weisen manche Auslesungen keine ausreichende Qualität oder Länge auf, um den darauffolgenden Kartierungsschritt durchzuführen. Sequenzierungsauslesungen mit einem Qualitätswert von zumindest 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % können aus dem Datensatz herausgefiltert werden. In anderen Fällen können Sequenzierungsauslesungen, denen ein Qualitätswert von zumindest 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % zugewiesen wurde, aus dem Datensatz herausgefiltert werden. In Schritt 306 werden die genomischen Fragmentauslesungen, die einer spezifizierten Qualitätswertschwelle entsprechen, auf ein Bezugsgenom oder eine Bezugssequenz kartiert, von dem/der bekannt ist, dass es/sie keine seltenen Mutationen enthält. Nach dem Kartierungsabgleich wird den Sequenzauslesungen ein Kartierungswert zugewiesen. Ein Kartierungswert kann eine Darstellung von Auslesungen sein, die auf die Bezugssequenz zurückkartiert sind, die angibt, ob die jeweilige Position einzigartig kartierbar ist oder nicht. Fallweise können Auslesungen Sequenzen sein, die nicht mit einer Analyse seltener Mutationen zusammenhängen. Beispielsweise können manche Sequenzauslesungen aus verunreinigten Polynukleotiden stammen. Sequenzierungsauslesungen mit einem Kartierungswert von zumindest 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % können aus dem Datensatz herausgefiltert werden. In anderen Fällen können Sequenzierungsauslesungen, denen ein Kartierungswert unter 90 %, 95 %, 99 %, 99,9 %, 99,99 % oder 99,999 % zugewiesen wurde, aus dem Datensatz herausgefiltert werden.
Für jede kartierbare Base können Basen, die der Mindestschwelle für Kartierbarkeit nicht entsprechen, oder Basen niedrigerer Qualität durch die entsprechenden Basen ersetzt werden, die in der Bezugssequenz zu finden sind.
Nach der Datenfilterung und Kartierung werden Basenvarianten, die zwischen den aus dem Individuum erhaltenen Sequenzauslesungen und der Bezugssequenz zu finden sind, analysiert.
Für ein beispielhaftes Genom, das aus zellfreien Polynukleotidsequenzen stammt, umfasst der nächste Schritt das Bestimmen der Auslesungsabdeckung für jede kartierbare Basenposition. Dies kann unter Verwendung von Auslesungen mit Barcodes oder ohne Barcodes erfolgen. In Fällen ohne Barcodes stellen die vorangegangenen Kartierungsschritte eine Abdeckung verschiedener Basenpositionen bereit. Sequenzauslesungen, die ausreichende Kartierungs- und Qualitätswerte aufweisen, können gezählt werden. Der Anzahl von Abdeckungsauslesungen kann ein Wert pro kartierbarer Position zugewiesen werden. In Fällen mit Barcodes können alle Sequenzen mit demselben Barcode in eine Consensusauslesung zusammengefasst werden, da sie alle aus dem Probenelternmolekül stammen. Die Sequenz für jede Base wird als die dominanteste Nukleotidauslesung für diese spezifische Stelle abgeglichen. Ferner kann die Anzahl an einzigartigen Molekülen an jeder Position gezählt werden, um eine gleichzeitige Quantifizierung an jeder Position abzuleiten. Dieser Schritt verringert Bias, die während eines der vorangegangenen Schritte eingeführt wurden, wie z.B. Schritte, die Amplifikation umfassen. Nur Auslesungen mit einzigartigen Barcodes können für jede kartierbare Position gezählt werden und den zugewiesenen Wert beeinflussen.
Sobald die Auslesungsabdeckung festgestellt werden kann und Basenvarianten in Bezug auf die Kontrollsequenz in jeder Auslesung identifiziert sind, kann die Häufigkeit von Basenvarianten als die Anzahl der Auslesungen, die die Variante enthalten, berechnet werden, geteilt durch die Gesamtzahl an Auslesungen. Dies kann als Verhältnis für jede kartierbare Position im Genom ausgedrückt werden.
Für jede Basenposition werden die Häufigkeiten aller vier Nukleotide, Cytosin, Guanin, Thymin, Adenin, im Vergleich zur Bezugssequenz analysiert. Ein stochastischer oder statistischer Modellierungsalgorithmus wird angewendet, um die normalisierten Verhältnisse für jede kartierbare Position so zu überführen, dass sie die Häufigkeitszustände für jede Basenvariante widerspiegeln. In manchen Fällen kann dieser Algorithmus eines oder mehrere der folgenden umfassen: Hidden-Markow-Modell, dynamische Programmierung, Stützvektormaschine, Bayes'sche oder probabilistische Modellierung, Trellis-Dekodierung, Viterbi-Dekodierung, Erwartungsmaximierung, Kalman-Filter-Methodiken und neuronale Netze.
In Schritt 312 können die diskreten seltenen Mutationszustände jeder Basenposition genutzt werden, um eine Basenvariante mit hoher Varianzhäufigkeit im Vergleich zur Basislinie der Bezugssequenz zu identifizieren. In manchen Fällen kann die Basislinie für eine Häufigkeit von zumindest 0,0001 %, 0,001 %, 0,01 %, 0,1 %, 1,0 %, 2,0 %, 3,0 %, 4,0 % 5,0 %, 10 % oder 25 % stehen. In anderen Fällen kann die Basislinie für eine Häufigkeit von zumindest 0,0001 %, 0,001 %, 0,01 %, 0,1 %, 1,0 %, 2,0 %, 3,0 %, 40 % 5,0 %, 10 % oder 25 % stehen. In manchen Fällen können alle benachbarten Basenpositionen mit der Basenvariante oder Mutation in ein Segment zusammengeführt werden, um die Gegenwart oder Abwesenheit einer seltenen Mutation anzugeben. In manchen Fällen können verschiedene Positionen herausgefiltert werden, bevor sie mit anderen Segmenten zusammengeführt werden.
Nach der Berechnung von Varianzhäufigkeiten für jede Basenposition wird die Variante mit der größten Abweichung für eine spezifische Position in der vom Individuum stammenden Sequenz im Vergleich zur Bezugssequenz als seltene Mutation identifiziert. In manchen Fällen kann eine seltene Mutation eine Krebsmutation sein. In anderen Fällen kann eine seltene Mutation mit einem Krankheitszustand korrelieren.
Eine seltene Mutation oder Variante kann eine genetische Abweichung umfassen, die eine Einzelbasensubstitution oder kleine Indele, Transversionen, Translokationen, Inversion, Deletionen, Trunkierungen oder Gentrunkierungen umfasst, ohne darauf eingeschränkt zu sein. In manchen Fällen kann eine seltene Mutation höchstens 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 oder 20 Nukleotide lang sein. In anderen Fällen kann eine seltene Mutation zumindest 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 oder 20 Nukleotide lang sein.
In Schritt 314 kann die Gegenwart oder Abwesenheit einer Mutation in grafischer Form wiedergegeben werden, die verschiedene Positionen im Genom und eine entsprechende Zunahme oder Abnahme oder Beibehaltung einer Mutationshäufigkeit an jeder entsprechenden Position angibt. Zusätzlich dazu können seltene Mutationen verwendet werden, um einen Prozentwert anzugeben, der anzeigt, wie viel Krankheitsmaterial in der zellfreien Polynukleotidprobe vorliegt. Ein Konfidenzwert kann jede detektierte Mutation begleiten, wenn bekannte Statistiken typischer Varianzen an angegebenen Positionen in Nichtkrankheits-Bezugssequenzen gegeben sind. Mutationen können auch nach Häufigkeit im Individuum oder nach klinisch umsetzbarer Relevanz gereiht sein.
11 zeigt ein Verfahren zur Ableitung der Häufigkeit einer Base oder Sequenz von Basen an einem bestimmten Locus in einer Population von Polynukleotiden. Sequenzauslesungen sind in Familien gruppiert, die aus einem ursprünglichen markierten Polynukleotid erzeugt wurden (1110). Für jede Familie ist einer oder mehreren Basen an dem Locus ein Konfidenzwert zugewiesen. Der Konfidenzwert kann durch ein beliebiges einer Anzahl von bekannten statistischen Verfahren zugewiesen werden und kann zumindest teilweise auf der Häufigkeit basieren, in der eine Base unter den zu der Familie gehörenden Sequenzauslesungen auftritt (1112). Beispielsweise kann der Konfidenzwert die Häufigkeit sein, in der die Base unter den Sequenzauslesungen auftritt. Als weiteres Beispiel kann für jede Familie ein Hidden-Markow-Modell erstellt werden, sodass eine Maximum-Likelihood- oder Maximum-a-posteriori-Entscheidung basierend auf der Auftretenshäufigkeit einer bestimmten Base in einer einzelnen Familie getroffen werden kann. Im Zuge dieses Modells kann auch die Fehlerhäufigkeit und der resultierende Konfidenzwert für eine bestimmte Entscheidung ausgegeben werden. Eine Häufigkeit der Base in der ursprünglichen Population kann dann basierend auf den Konfidenzwerten unter den Familien zugewiesen werden (1114).
Anwendungen
Früherkennung von Krebs
Zahlreiche Krebsarten können unter Verwendung der hierin beschriebenen Verfahren und Systeme detektiert werden. Krebszellen können, wie die meisten Zellen, durch eine Turnoverrate gekennzeichnet sein, wobei alte Zellen sterben und durch neuere Zellen ersetzt werden. Im Allgemeinen können tote Zellen in Kontakt mit dem Gefäßsystem in einem gegebenen Individuum DNA oder Fragmente von DNA in den Blutstrom freisetzen. Dies trifft auch auf Krebszellen während verschiedener Stufen der Erkrankung zu. Krebszellen können abhängig von der Stufe der Erkrankung auch durch verschiedene genetische Abweichungen wie z.B. Kopienzahlvariation sowie seltene Mutationen gekennzeichnet sein. Dieses Phänomen kann genutzt werden, um die Gegenwart oder Abwesenheit von Krebsarten in Individuen unter Verwendung der hierin beschriebenen Verfahren und Systeme zu detektieren.
Beispielsweise kann Blut aus Individuen, bei denen ein Krebsrisiko besteht, wie hierin beschrieben abgenommen und vorbereitet werden, um eine Population zellfreier Polynukleotide zu erzeugen. In einem Beispiel kann dies zellfreie DNA sein. Die Systeme und Verfahren der Offenbarung können eingesetzt werden, um seltene Mutationen oder Kopienzahlvariationen zu detektieren, die in bestimmten vorliegenden Krebsarten existieren können. Das Verfahren kann dazu beitragen, die Gegenwart kanzeröser Zellen im Körper trotz der Abwesenheit von Symptomen oder anderen Kennzeichen einer Erkrankung zu detektieren.
Die Arten und Anzahl von Krebsarten, die detektiert werden können, können Blutkrebsarten, Gehirnkrebsarten, Lungenkrebsarten, Hautkrebsarten, Nasenkrebsarten, Halskrebsarten, Leberkrebsarten, Knochenkrebsarten, Lymphome, Pankreaskrebsarten, Hautkrebsarten, Darmkrebsarten, Rektumkrebsarten, Schilddrüsenkrebsarten, Blasenkrebsarten, Nierenkrebsarten, Mundkrebsarten, Magenkrebsarten, Festkörpertumoren, heterogene Tumoren, homogene Tumoren und dergleichen umfassen, ohne darauf eingeschränkt zu sein.
In der Früherkennung von Krebsarten können beliebige der hierin beschriebenen Systeme oder Verfahren, einschließlich Detektion seltener Mutationen oder Kopienzahlvariationsdetektion, genutzt werden, um Krebsarten zu detektieren. Diese Systeme und Verfahren können verwendet werden, um eine beliebige Anzahl genetischer Abweichungen zu detektieren, die Krebs hervorrufen können oder daraus resultieren. Dies können Mutationen, seltene Mutationen, Indele, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partielle Aneuploidie, Polyploidie, chromosomale Instabilität, chromosomale Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomale Läsionen, DNA-Läsionen, anormale Änderungen der chemischen Nukleinsäuremodifikationen, anormale Änderungen epigenetischer Muster, anormale Änderungen der Nukleinsäuremethylierung, Infektionen und Krebs umfassen, ohne darauf eingeschränkt zu sein.
Zusätzlich dazu können die hierin beschriebenen Systeme und Verfahren auch verwendet werden, um zur Charakterisierung bestimmter Krebsarten beizutragen. Genetische Daten, die aus den Systemen und Verfahren der vorliegenden Offenbarung erzeugt wurden, können praktischen Ärzten ermöglichen, zur besseren Charakterisierung einer spezifischen Form von Krebs beizutragen. Häufig sind Krebsarten sowohl in der Zusammensetzung als auch bei der Stufenbildung heterogen. Genetische Profildaten können eine Charakterisierung spezifischer Untertypen von Krebs ermöglichen, die bei der Diagnose oder Behandlung dieses spezifischen Untertyps wichtig sein können. Diese Information kann einem Individuum oder praktischen Arzt auch Hinweise zur Prognose eines spezifischen Typs von Krebs bereitstellen.
Krebsüberwachung und -prognose
Die hierin bereitgestellten Systeme und Verfahren können verwendet werden, um bereits bekannte Krebsarten oder andere Erkrankungen in einem bestimmten Individuum zu überwachen. Dies kann entweder einem Individuum oder praktischen Arzt ermöglichen, Behandlungsoptionen gemäß dem Fortschritt der Erkrankung anzupassen. In diesem Beispiel können die hierin beschriebenen Systeme und Verfahren verwendet werden, um genetische Profile eines bestimmten Individuums des Krankheitsverlaufs zu erstellen. In manchen Fällen können Krebsarten voranschreiten, wobei sie aggressiver und genetisch instabil werden. In anderen Beispielen können Krebsarten gutartig, inaktiv, dormant oder in Remission bleiben. Die Systeme und Verfahren der vorliegenden Offenbarung können bei der Bestimmung der/des Krankheitsprogression, -remission oder -rezidivs nützlich sein.
Ferner können die hierin beschriebenen Systeme und Verfahren bei der Bestimmung der Wirksamkeit einer bestimmten Behandlungsoption nützlich sein. In einem Beispiel können erfolgreiche Behandlungsoptionen das Ausmaß der Kopienzahlvariation oder seltener Mutationen, die im Blut des Individuums detektiert werden, tatsächlich erhöhen, wenn die Behandlung erfolgreich ist, da mehr Krebsarten sterben und DNA abstoßen können. In anderen Beispielen kann es sein, dass dies nicht vorkommt. In einem weiteren Beispiel können bestimmte Behandlungsoptionen mit genetischen Profilen von Krebsarten im Zeitverlauf korrelieren. Diese Korrelation kann beim Auswählen einer Therapie nützlich sein. Zusätzlich dazu können die hierin beschriebenen Systeme und Verfahren, wenn festgestellt wird, dass ein Krebs nach einer Behandlung in Remission ist, bei der Überwachung einer Resterkrankung oder eines Rezidivs einer Erkrankung nützlich sein.
Beispielsweise können Mutationen, die in einem Häufigkeitsbereich, der auf einem Schwellenlevel beginnt, aus DNA in einer Probe aus einem Individuum, z.B. einem Patienten, bestimmt werden. Die Mutationen können z.B. krebsbezogene Mutationen sein. Die Häufigkeit kann von beispielsweise im Bereich von zumindest 0,1 %, zumindest 1 % oder zumindest 5 bis 100 % liegen. Die Probe kann z.B. zellfreie DNA oder eine Tumorprobe sein. Ein Behandlungsverlauf kann basierend auf einer beliebigen oder allen Mutationen, die im Häufigkeitsbereich vorkommen, einschließlich z.B. ihrer Häufigkeiten, verschrieben werden. Eine Probe kann zu jeder darauffolgenden Zeit aus dem Individuum entnommen werden. Mutationen, die im ursprünglichen Häufigkeitsbereich oder einem anderen Häufigkeitsbereich vorkommen, können bestimmt werden. Der Behandlungsverlauf kann basierend auf den darauffolgenden Messungen angepasst werden.
Früherkennung und Überwachung anderer Erkrankungen oder Krankheitszustände
Die hierin beschriebenen Verfahren und Systeme sind möglicherweise nicht auf die Detektion seltener Mutationen und Kopienzahlvariationen, die nur mit Krebs assoziiert sind, beschränkt. Verschiedene andere Erkrankungen und Infektionen können zu anderen Typen von Leiden führen, die für die Früherkennung und Überwachung geeignet sein können. Beispielsweise können genetische Störungen oder Infektionserkrankungen in bestimmten Fällen einen bestimmten genetischen Mosaizismus in einem Individuum hervorrufen. Dieser genetische Mosaizismus kann Kopienzahlvariation und seltene Mutationen hervorrufen, die beobachtet werden können. In einem anderen Beispiel können die Systeme und Verfahren der Offenbarung auch verwendet werden, um die Genome von Immunzellen im Körper zu überwachen. Immunzellen, wie z.B. B-Zellen, können bei Vorliegen bestimmter Erkrankungen schnelle klonale Expansion erfahren. Klonale Expansionen können unter Verwendung von Kopienzahlvariationsdetektion überwacht werden, und bestimmte Immunzustände können überwacht werden. In diesem Beispiel kann eine Kopienzahlvariationsanalyse im Zeitverlauf durchgeführt werden, um ein Profil darüber zu erstellen, wie eine bestimmte Erkrankung voranschreiten kann.
Ferner können die Systeme und Verfahren der vorliegenden Offenbarung auch verwendet werden, um systemische Infektionen selbst zu überwachen, die durch ein Pathogen wie z.B. ein Bakterium oder Virus hervorgerufen werden. Kopienzahlvariation oder auch Detektion seltener Mutationen kann verwendet werden, um zu bestimmen, wie eine Population von Pathogenen sich im Verlauf einer Infektion verändert. Dies kann während chronischer Infektionen wie z.B. HIV/AIDS oder Hepatitisinfektionen besonders relevant sein, wobei Viren während des Infektionsverlaufs den Lebenszykluszustand verändern und/oder in virulentere Formen mutieren können.
Noch ein weiteres Beispiel, für das die Systeme und Verfahren der vorliegenden Offenbarung verwendet werden können, ist die Überwachung von Transplantatindividuen. Im Allgemeinen erfährt transplantiertes Gewebe einen bestimmten Grad an Abstoßung durch den Körper, der einer Transplantation unterzogen wird. Die Verfahren der vorliegenden Offenbarung können verwendet werden, um Abstoßungsaktivitäten des Wirtkörpers zu bestimmen oder zu analysieren, wobei Immunzellen versuchen, transplantiertes Gewebe zu zerstören. Dies kann beim Überwachen des Zustands von transplantiertem Gewebe sowie dem Verändern des Behandlungsverlaufs oder Verhindern von Abstoßung nützlich sein.
Ferner können die Verfahren der Offenbarung verwendet werden, um die Heterogenität eines anormalen Leidens in einem Individuum zu charakterisieren, wobei das Verfahren das Erzeugen eines genetischen Profils extrazellulärer Polynukleotide im Individuum umfasst, wobei das genetische Profil eine Vielzahl von Daten umfasst, die aus Analysen der Kopienzahlvariation und seltener Mutationen resultieren. In manchen Fällen, einschließlich, aber nicht ausschließlich, Krebs, kann eine Erkrankung heterogen sein. Es kann sein, dass Krankheitszellen nicht identisch sind. In dem Beispiel von Krebs umfassen manche Tumoren bekanntermaßen verschiedene Typen von Tumorzellen, manche Zellen in verschiedenen Stufen des Krebses. In anderen Beispielen kann Heterogenität mehrere Krankheitsfoki umfassen. Wieder in dem Beispiel von Krebs können mehrere Tumorfoki bestehen, mitunter wenn ein oder mehrere Foki das Ergebnis von Metastasen sind, die sich von einer Primärstelle aus verbreitet haben.
Die Verfahren der vorliegenden Offenbarung können verwendet werden, um einen Fingerprint oder Sätze von Daten, die eine Summierung genetischer Informationen sind, die aus verschiedenen Zellen in einer heterogenen Erkrankung stammen, zu erzeugen oder zu analysieren. Diese Datensätze können Analysen einer Kopienzahlvariation und seltener Mutationen alleine oder in Kombination umfassen.
Früherkennung und Überwachung anderer Erkrankungen oder Krankheitszustände fötalen Ursprungs
Zusätzlich dazu können die Systeme und Verfahren der Offenbarung verwendet werden, um Krebsarten oder andere Erkrankungen fötalen Ursprungs zu diagnostizieren, prognostizieren, überwachen oder beobachten. Das heißt, diese Methodiken können in einem schwangeren Individuum eingesetzt werden, um Krebsarten oder andere Erkrankungen in einem ungeborenen Individuum, dessen DNA und andere Polynukleotide mit Muttermolekülen kozirkulieren können, zu diagnostizieren, prognostizieren, überwachen oder beobachten
Terminologie
Die hierin verwendete Terminologie dient nur dem Zweck des Beschreibens bestimmter Ausführungsformen und soll nicht einschränkend in Bezug auf Systeme und Verfahren der vorliegenden Offenbarung sein. Wie hierin verwendet, sollen die Singularformen „ein/eine“ und „der/die/das“ auch die Pluralformen umfassen, sofern der Kontext nichts Anderes angibt. Insofern als die Begriffe „umfassend“, „umfasst“, „aufweisend“, „weist auf“, „mit“ oder Varianten davon in der detaillierten Beschreibung und/oder den Ansprüchen verwendet werden, sollen solche Begriffe des Weiteren auf eine dem Begriff „umfassend“ ähnliche Weise einschließend sein.
Mehrere Aspekte von Systemen und Verfahren der vorliegenden Offenbarung werden oben unter Bezugnahme auf beispielhafte Anwendungen zur Veranschaulichung beschrieben. Es versteht sich, dass zahlreiche spezifische Details, Zusammenhänge und Verfahren dargelegt werden, um ein volles Verständnis der Systeme und Verfahren bereitzustellen. Fachleute auf dem Gebiet der Erfindung erkennen jedoch leicht, dass Systeme und Verfahren ohne ein oder mehrere der spezifischen Details oder mit anderen Verfahren praktisch durchgeführt werden können. Die vorliegende Offenbarung ist durch die veranschaulichte Reihenfolge von Handlungen oder Ereignissen nicht eingeschränkt, da manche Handlungen in anderen Reihenfolgen und/oder gleichzeitig mit anderen Handlung und Ereignissen erfolgen können. Des Weiteren ist es nicht erforderlich, dass alle veranschaulichten Handlungen oder Ereignisse eine Methodik gemäß der vorliegenden Offenbarung umsetzen.
Bereiche können hierin als von „etwa“ einem bestimmten Wert und/oder bis zu „etwa“ einem weiteren bestimmten Wert ausgedrückt sein. Wenn ein solcher Bereich ausgedrückt wird, umfasst eine andere Ausführungsform einen Bereich von dem bestimmten Wert und/oder zu dem anderen bestimmten Wert. Ebenso versteht es sich, dass, wenn Werte als Annäherungen ausgedrückt werden, durch die Verwendung des Bezugsworts „etwa“ der jeweilige Wert eine andere Ausführungsform bildet. Ferner versteht es sich, dass die Endpunkte jedes der Bereiche sowohl in Bezug auf den anderen Endpunkt als auch unabhängig vom anderen Endpunkt signifikant sind. Der Begriff „etwa“ wie hierin verwendet bezieht sich auf einen Bereich, der 15 % plus oder minus von einem angegebenen numerischen Wert im Kontext der bestimmten Verwendung beträgt. Beispielsweise würde etwa 10 einen Bereich von 8,5 bis 11,5 umfassen.
Computersysteme
Verfahren der vorliegenden Offenbarung können unter Verwendung oder mithilfe von Computersystemen umgesetzt werden. 15 zeigt ein Computersystem 1501, das programmiert oder anderweitig konfiguriert ist, um die Verfahren der vorliegenden Offenbarung umzusetzen. Das Computersystem 1501 kann verschiedene Aspekte der Probenherstellung, Sequenzierung und/oder Analyse regeln. In manchen Beispielen ist das Computersystem 1501 konfiguriert, um Probenherstellung und Probenanalyse, einschließlich Nukleinsäuresequenzierung, durchzuführen.
Das Computersystem 1501 umfasst eine zentrale Verarbeitungseinheit (CPU, hierin auch „Prozessor“ und „Computerprozessor“) 1505, die ein Einzelkern- oder Mehrkernprozessor sein kann, oder eine Vielzahl von Prozessoren zur parallelen Verarbeitung. Das Computersystem 1501 umfasst auch einen Speicher oder Speicherort 1510 (z.B. Direktzugriffsspeicher, Nurlesespeicher, Flashspeicher), eine elektronische Permanentspeichereinheit 1515 (z.B. Festplatte), Kommunikationsschnittstelle 1520 (z.B. Netzwerkadapter) zum Kommunizieren mit einem oder mehreren anderen Systemen und Peripheriegeräte 1525, wie z.B. Cache, einen anderen Speicher, Datenpermanentspeicher und/oder elektronische Grafikkarten. Der Speicher 1510, die Permanentspeichereinheit 1515, Schnittstelle 1520 und Peripheriegeräte 1525 sind durch einen Kommunikationsbus (ausgezogene Linien), wie z.B. eine Mutterplatine, in Kommunikation mit der CPU 1505. Die Permanentspeichereinheit 1515 kann eine Datenpermanentspeichereinheit (oder Datendepot) zum Speichern von Daten sein. Das Computersystem 1501 kann mit einem Computernetzwerk („Netzwerk“) 1530 mithilfe der Kommunikationsschnittstelle 1520 operativ gekoppelt sein. Das Netzwerk 1530 kann das Internet, ein Internet und/oder Extranet oder ein Intranet und/oder Extranet sein, das mit dem Internet in Kommunikation ist. Das Netzwerk 1530 ist in manchen Fällen ein Telekommunikations- und/oder Datennetzwerk. Das Netzwerk 1530 kann einen oder mehrere Computerserver umfassen, die verteiltes Rechen wie Cloud-Computing ermöglichen können. Das Netzwerk 1530 kann in manchen Fällen mithilfe des Computersystems 1501 ein Peer-to-Peer-Netzwerk implementieren, das Vorrichtungen, die mit dem Computersystem 1501 gekoppelt sind, ermöglichen kann, als Client oder Server zu fungieren.
Die CPU 1505 kann eine Abfolge von maschinenlesbaren Anweisungen ausführen, die in einem Programm oder Software enthalten sein können. Die Anweisungen können in einem Speicherort wie z.B. dem Speicher 1510 gespeichert sein. Beispiele für Operationen, die durch die CPU 1505 durchgeführt werden, können Abrufen, Dekodieren, Ausführen und Umschreiben umfassen.
Die Permanentspeichereinheit 1515 kann Dateien wie z.B. Treiber, Bibliotheken und gespeicherte Programme speichern. Die Permanentspeichereinheit 1515 kann von Anwendern erzeugte Programme und aufgezeichnete Sitzungen wie mit den Programmen assoziierte Ausgabe(n) speichern. Die Permanentspeichereinheit 1515 kann Anwenderdaten, z.B. Anwendereinstellungen und Anwenderprogramme, speichern. Das Computersystem 1501 kann in manchen Fällen eine oder mehrere zusätzliche Datenpermanentspeichereinheiten umfassen, die sich extern des Computersystems 1501 befinden, z.B. auf einem weit entfernten Server, der mit dem Computersystem 1501 durch ein Intranet oder das Internet in Kommunikation steht.
Das Computersystem 1501 kann durch das Netzwerk 1530 mit einem oder mehreren Computersystemen kommunizieren. Beispielsweise kann das Computersystem 1501 mit einem weit entfernten Computersystem eines Anwenders (z.B. Operators) kommunizieren. Beispiele für weit entfernte Computersysteme umfassen persönliche Computer (z.B. portable PCs), Slate- oder Tablet-PCs (z.B. Apple® iPad, Samsung® Galaxy Tab), Telefone, Smartphones (z.B. Apple® iPhone, Android-fähiges Gerät, Blackberry®) oder persönliche digitale Assistenten. Der Anwender kann auf das Computersystem 1501 über das Netzwerk 1530 zugreifen.
Hierin beschriebene Verfahren können mittels maschinen- (z.B. computerprozessor-) ausführbarem Kode implementiert werden, der in einem elektronischen Permanentspeicherort des Computersystems 1501 gespeichert ist, wie z.B. im Speicher 1510 oder der elektronischen Permanentspeichereinheit 1515. Der maschinenausführbare oder maschinenlesbare Kode kann in Form von Software bereitgestellt sein. Während der Verwendung kann der Kode durch den Prozessor 1505 ausgeführt werden. In manchen Fällen kann der Kode von der Permanentspeichereinheit 1515 abgerufen und im Speicher 1510 für leichten Zugriff durch den Prozessor 1505 gespeichert werden. In manchen Situationen kann die elektronische Permanentspeichereinheit 1515 ausgeschlossen sein und die maschinenausführbaren Anweisungen im Speicher 1510 gespeichert werden.
Der Kode kann vorkompiliert und zur Verwendung mit einer Maschine mit einem Prozessor konfiguriert sein, der zur Ausführung des Codes geeignet ist, oder kann während der Laufzeit kompiliert werden. Der Kode kann in einer Programmiersprache bereitgestellt sein, die so ausgewählt sein kann, dass das Ausführen des Codes auf eine vorkompilierten oder währenddessen kompilierte Weise ermöglicht wird.
Aspekte der hierin bereitgestellten Systeme und Verfahren wie das Computersystem 1501 können in der Programmierung enthalten sein. Verschiedene Aspekte der Technologie können als „Produkte“ oder „Erzeugnisse“ typischerweise in Form von maschinen- (oder prozessor-) ausführbarem Kode und/oder assoziierten Daten erachtet werden, die auf einem Typ von maschinenlesbarem Medium übertragen oder darin enthalten sind. Maschinenausführbarer Kode kann in einer elektronischen Permanentspeichereinheit wie z.B. einem Speicher (z.B. Nurlesespeicher, Direktzugriffsspeicher, Flashspeicher) oder einer Festplatte gespeichert sein. Medien vom Typ „Permanentspeicher“ können beliebige der materiellen Speicher der Computer, Prozessoren oder dergleichen oder assoziierte Module davon, wie z.B. verschiedene Halbleiterspeicher, Bandlaufwerke, Festplattenlaufwerke und dergleichen, umfassen, die zu jeder Zeit einen nichtflüchtigen Permanentspeicher für die Softwareprogrammierung bereitstellen können. Die gesamte oder Teile der Software kann/können manchmal durch das Internet oder verschiedene andere Telekommunikationsnetze übertragen werden. Solche Übertragungen können beispielsweise das Laden der Software von einem Computer oder Prozessor in einen anderen ermöglichen, beispielsweise von einem Managementserver oder Host-Computer in die Computerplattform eines Anwendungsservers. Somit umfasst ein anderer Typ von Medium, das die Softwareelemente tragen kann, optische, elektrische und elektromagnetische Wellen, wie sie über physikalische Schnittstellen zwischen lokalen Geräten durch Kabel- und optische Festnetze und über verschiedene Luftverbindungen verwendet werden. Die physikalischen Elemente, die solche Wellen übertragen, wie z.B. Draht- oder Drahtlosverbindungen, optische Strecken oder dergleichen, können auch als Medien erachtet werden, die die Software tragen. Wie hierin verwendet, beziehen sich Begriffe wie computer- oder maschinen-„lesbares Medium“, wenn sie nicht auf nichtflüchtige, materielle „Permanentspeicher“-Medien eingeschränkt sind, auf ein beliebiges Medium, das am Bereitstellen von Anweisungen an einen Prozessor zur Ausführung beteiligt ist.
Somit kann ein maschinenlesbares Medium, wie z.B. computerausführbarer Kode, zahlreiche Formen annehmen, einschließlich eines materiellen Permanentspeichermediums, eines Trägerwellenmediums oder physikalischen Übertragungsmediums, ohne darauf eingeschränkt zu sein. Nichtflüchtige Permanentspeichermedien umfassen beispielsweise optische und Magnetplatten, wie z.B. beliebige der Permanentspeichervorrichtungen in einem oder mehreren Computern oder dergleichen, wie sie z.B. zur Implementierung der in den Zeichnungen gezeigten Datenbanken usw. verwendet werden können. Flüchtige Permanentspeichermedien umfassen einen dynamischen Speicher wie z.B. den Hauptspeicher einer solchen Computerplattform. Materielle Übertragungsmedien umfassen Koaxialkabel; Kupferdraht und Faseroptik, einschließlich der Drähte, die einen Bus in einem Computersystem umfassen. Trägerwellen-Übertragungsmedien können die Form von elektrischen oder elektromagnetischen Signalen oder akustischen oder Lichtwellen wie jenen einnehmen, die während Funkfrequenz- (RF-) und Infrarot- (IR-) Datenübertragungen erzeugt werden. Häufige Formen von computerlesbaren Medien umfassen daher beispielsweise: eine Diskette, eine flexible Platte, eine Festplatte, Magnetband, ein beliebiges anderes Magnetmedium, eine CD-ROM, DVD oder DVD-ROM, ein beliebiges weiteres optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physikalisches Permanentspeichermedium mit Lochmustern, einen RAM, einen ROM, einen PROM und EPROM, einen FLASH-EPROM, einen beliebigen anderen Speicherchip oder Speicherkassette, eine Trägerwelle, die Daten oder Anweisungen transportiert, Kabel oder Verbindungen, die eine solche Trägerwelle transportieren, oder ein beliebiges anderes Medium, aus dem ein Computer Programmiercode und/oder Daten auslesen kann. Viele dieser Formen von computerlesbaren Medien können an der Übertragung einer oder mehrerer Abfolgen einer oder mehrerer Anweisungen an einen Prozessor zur Ausführung beteiligt sein.
Das Computersystem 1501 kann eine elektronische Anzeige, die eine Benutzerschnittstelle (UI) umfasst, um beispielsweise ein oder mehrere Ergebnisse einer Probenanalyse bereitzustellen, umfassen oder mit ihr in Verbindung stehen. Beispiele für Uls umfassen ohne Einschränkung eine grafische Benutzerschnittstelle (GUI) und webbasierte Benutzerschnittstelle.
BEISPIELE
Beispiel 1 - Prognose und Behandlung von Prostatakrebs
Eine Blutprobe wird aus einem Individuum mit Prostatakrebs entnommen. Zuvor bestimmt ein Onkologe, dass das Individuum Prostatakrebs der Stufe II hat, und empfiehlt eine Behandlung. Zellfreie DNA wird extrahiert, isoliert, sequenziert und alle 6 Monate nach der ursprünglichen Diagnose analysiert.
Zellfreie DNA wird unter Verwendung der Arbeitsvorschrift des Qiagen-Qubit-Sets aus Blut extrahiert und isoliert. Eine Träger-DNA wird zugesetzt, um die Ausbeuten zu erhöhen. DNA wird unter Verwendung von PCR und universellen Primern amplifiziert. 10 ng DNA werden unter Verwendung eines massiv-parallelen Sequenzierungsansatzes mit einem Illumina MiSeq Personal Sequencer sequenziert. 90 % des Genoms des Individuums ist durch Sequenzierung zellfreier DNA abgedeckt.
Sequenzdaten werden assembliert und auf Kopienzahlvariation analysiert. Sequenzauslesungen werden kartiert und mit einem gesunden Individuum (Kontrolle) verglichen. Basierend auf der Anzahl von Sequenzauslesungen werden chromosomale Regionen in nichtüberlappende Regionen mit 50 kb unterteilt. Sequenzauslesungen werden miteinander verglichen, und ein Verhältnis wird für jede kartierbare Position bestimmt.
Ein Hidden-Markow-Modell wird angewendet, um Kopienzahlen in diskrete Zustände für jedes Fenster überzuführen.
Berichte werden erzeugt, wobei Genompositionen und Kopienzahlvariation kartiert werden, die in 4A (für ein gesundes Individuum) und 4B für das Individuum mit Krebs gezeigt sind.
Diese Berichte zeigen im Vergleich zu anderen Profilen von Individuen mit bekannten Ergebnissen an, dass dieser bestimmte Krebs aggressiv und behandlungsresistent ist. Die zellfreie Tumorlast beträgt 21 %. Das Individuum wird 18 Monate lang überwacht Bei Monat 18 beginnt das Profil der Kopienzahlvariation drastisch zu steigen, von einer zellfreien Tumorlast von 21 % auf 30 %. Ein Vergleich mit genetischen Profilen anderer Prostataindividuen erfolgt. Es wird bestimmt, dass dieser Anstieg der Kopienzahlvariation anzeigt, dass der Prostatakrebs von Stufe II zu Stufe III voranschreitet. Durch das ursprünglich verschriebene Behandlungsschema wird der Krebs nicht mehr behandelt. Eine neue Behandlung wird verschrieben.
Ferner werden diese Berichte über das Internet übertragen und elektronisch abgerufen. Eine Analyse der Sequenzdaten erfolgt an einem Ort, an dem sich das Individuum nicht befindet. Der Bericht wird erzeugt und an das Individuum übersendet. Über einen internetfähigen Computer greift das Individuum auf die Berichte zu, die seine Tumorlast wiedergeben (4C).
Beispiel 2 - Abklingen und Wiederauftreten von Prostatakrebs
Einem Überlebenden von Prostatakrebs wird eine Blutprobe entnommen. Das Individuum ist zuvor mehreren Durchgängen Chemotherapie und Bestrahlung unterzogen worden. Das Individuum wies zur Zeit der Testung keine Symptome oder gesundheitlichen Probleme in Zusammenhang mit dem Krebs auf. Standardscans und -tests zeigen, dass das Individuum krebsfrei ist.
Zellfreie DNA wird unter Verwendung der Arbeitsvorschrift eines Qiagen-TruSeq-Sets aus Blut extrahiert und isoliert. Eine Träger-DNA wird zugesetzt, um die Ausbeuten zu erhöhen. DNA wird unter Verwendung von PCR und universellen Primern amplifiziert. 10 ng DNA werden unter Verwendung eines massiv-parallelen Sequenzierungsansatzes mit einem Illumina MiSeq Personal Sequencer sequenziert. 12mer-Barcodes werden unter Verwendung eines Ligationsverfahrens zu einzelnen Molekülen zugesetzt.
Sequenzdaten werden assembliert und auf Kopienzahlvariation analysiert. Sequenzauslesungen werden kartiert und mit einem gesunden Individuum (Kontrolle) verglichen. Basierend auf der Anzahl von Sequenzauslesungen werden chromosomale Regionen in nichtüberlappende Regionen mit 40 kb unterteilt. Sequenzauslesungen werden miteinander verglichen, und ein Verhältnis wird für jede kartierbare Position bestimmt.
Nicht einzigartige mit Barcodes versehene Sequenzen werden in eine einzelne Auslesung zusammengefasst, um zur Normalisierung von Bias aus der Amplifikation beizutragen.
Ein Hidden-Markow-Modell wird angewendet, um Kopienzahlen in diskrete Zustände für jedes Fenster überzuführen.
Berichte werden erzeugt, wobei Genompositionen und Kopienzahlvariation kartiert werden, die in 5A für ein Individuum mit abnehmendem Krebs und 5B für ein Individuum mit wiederauftretendem Krebs gezeigt sind.
Dieser Bericht zeigt im Vergleich zu anderen Profilen von Individuen mit bekannten Ergebnissen an, dass bei Monat 18 eine seltene Mutationsanalyse für Kopienzahlvariation bei einer zellfreien Tumorlast von 5 % detektiert wird. Ein Onkologe verschreibt die Behandlung erneut.
Beispiel 3 - Schilddrüsenkrebs und Behandlung
Ein Individuum hat bekanntermaßen Schilddrüsenkrebs der Stufe IV und wird einer Standardbehandlung unterzogen, einschließlich Strahlentherapie mit I-131. CT-Scans sind im Hinblick darauf, ob die Strahlentherapie kanzeröse Massen zerstört, nicht eindeutig. Vor und nach der letzten Bestrahlungssitzung wird Blut abgenommen.
Zellfreie DNA wird unter Verwendung der Arbeitsvorschrift des Qiagen-Qubit-Sets aus Blut extrahiert und isoliert. Eine Probe von nichtspezifischer Ausgangs-DNA wird zu den Probenherstellungsreaktionen zugesetzt, um die Ausbeuten zu erhöhen.
Es ist bekannt, dass das BRAF-Gen an Aminosäureposition 600 bei diesem Schilddrüsenkrebs mutiert sein kann. Aus einer Population zellfreier DNA wird BRAF-DNA unter Verwendung von Primern, die für das Gen spezifisch sind, selektiv amplifiziert. 20mer-Barcodes werden als Kontrolle zum Auszählen von Auslesungen zu dem Elternmolekül zugesetzt.
10 ng DNA werden unter Verwendung eines massiv-parallelen Sequenzierungsansatzes mit einem Illumina MiSeq Personal Sequencer sequenziert.
Sequenzdaten werden assembliert und auf Kopienzahlvariationsdetektion analysiert. Sequenzauslesungen werden kartiert und mit einem gesunden Individuum (Kontrolle) verglichen. Basierend auf der Anzahl von Sequenzauslesungen, durch Zählen der Barcodesequenzen bestimmt, werden chromosomale Regionen in nichtüberlappende Regionen mit 50 kb unterteilt. Sequenzauslesungen werden miteinander verglichen, und ein Verhältnis wird für jede kartierbare Position bestimmt.
Ein Hidden-Markow-Modell wird angewendet, um Kopienzahlen in diskrete Zustände für jedes Fenster überzuführen.
Ein Bericht wird erzeugt, wobei Genompositionen und Kopienzahlvariation kartiert werden.
Die vor und nach der Behandlung erzeugten Berichte werden verglichen. Die Prozentzahl der Tumorzelllast schnellt nach der Bestrahlungssitzung von 30 % auf 60 %. Es wird bestimmt, dass der sprunghafte Anstieg der Tumorlast eine Zunahme an Nekrose von Krebsgewebe gegenüber normalem Gewebe aufgrund der Behandlung ist. Onkologen empfehlen dem Individuum, die verschriebene Behandlung fortzusetzen.
Beispiel 4 - Empfindlichkeit der Detektion seltener Mutationen
Um die Detektionsbereiche seltener Mutationen, die in einer Population von DNA vorliegen, zu bestimmen, werden Mischexperimente durchgeführt. Sequenzen von DNA, von denen manche Wildtypkopien der Gene TP53, HRAS und MET enthalten und manche Kopien mit seltenen Mutationen in denselben Genen enthalten, werden in verschiedenen Anteilen miteinander vermischt. DNA-Gemische werden so hergestellt, dass Verhältnisse oder Prozentsätze von mutierter DNA zu Wildtyp-DNA von 100 bis 0,01 % reichen.
10 ng DNA werden für jedes Mischexperiment unter Verwendung eines massiv-parallelen Sequenzierungsansatzes mit einem Illumina MiSeq Personal Sequencer sequenziert.
Sequenzdaten werden assembliert und auf die Detektion seltener Mutationen analysiert. Sequenzauslesungen werden kartiert und mit einer Bezugssequenz (Kontrolle) verglichen. Basierend auf der Anzahl von Sequenzauslesungen wird die Varianzhäufigkeit für jede kartierbare Position bestimmt.
Ein Hidden-Markow-Modell wird angewendet, um die Varianzhäufigkeit für jede kartierbare Position in diskrete Zustände für die Basenposition überzuführen.
Ein Bericht wird erzeugt, wobei Genombasenpositionen und prozentuelle Detektion der seltenen Mutation über der Basislinie wie durch die Bezugssequenz bestimmt kartiert werden (6A).
Die Ergebnisse verschiedener Mischexperimente, die im Bereich von 0,1 bis 100 % liegen, sind in einem Diagramm mit logarithmischer Skala dargestellt, wobei der gemessene Prozentsatz an DNA mit einer seltenen Mutation als Funktion des tatsächlichen Prozentsatzes an DNA mit einer seltenen Mutation gezeigt ist (6B). Die drei Gene TP53, HRAS und MET sind dargestellt. Zwischen gemessenen und erwarteten Populationen mit seltenen Mutationen wird eine starke lineare Korrelation festgestellt. Zusätzlich dazu wird bei diesen Experimenten eine niedrigere Empfindlichkeitsschwelle von etwa 0,1 % DNA mit einer seltenen Mutation in einer Population nicht mutierter DNA festgestellt (6B).
Beispiel 5 - Detektion seltener Mutationen in Individuen mit Prostatakrebs
Es wird vermutet, dass ein Individuum Prostatakrebs im Frühstadium hat. Weitere klinische Tests liefern keine eindeutigen Ergebnisse. Dem Individuum wird Blut abgenommen, und zellfreie DNA wird extrahiert, isoliert, hergestellt und sequenziert.
Eine Gruppe verschiedener Onkogene und Tumorsuppressorgene wird für die selektive Amplifikation unter Verwendung eines TaqMan©-PCR-Sets (Invitrogen) unter Verwendung genspezifischer Primer ausgewählt. Amplifizierte DNA-Regionen umfassen DNA, die PIK3CA- und TP53-Gene enthält.
10 ng DNA werden unter Verwendung eines massiv-parallelen Sequenzierungsansatzes mit einem Illumina MiSeq Personal Sequencer sequenziert.
Sequenzdaten werden assembliert und auf die Detektion seltener Mutationen analysiert. Sequenzauslesungen werden kartiert und mit einer Bezugssequenz (Kontrolle) verglichen. Basierend auf der Anzahl von Sequenzauslesungen wurde die Varianzhäufigkeit für jede kartierbare Position bestimmt.
Ein Hidden-Markow-Modell wird angewendet, um die Varianzhäufigkeit für jede kartierbare Position in diskrete Zustände für jede Basenposition überzuführen.
Ein Bericht wird erzeugt, wobei Genombasenpositionen und prozentuelle Detektion der seltenen Mutation über der Basislinie wie durch die Bezugssequenz bestimmt kartiert werden (7A). Seltene Mutationen werden in einer Auftretenshäufigkeit von 5 % in zwei Genen, PIK3CA bzw. TP53, festgestellt, was anzeigt, dass das Individuum Krebs im Frühstadium hat. Die Behandlung wird begonnen.
Ferner werden diese Berichte über das Internet übertragen und elektronisch abgerufen. Eine Analyse der Sequenzdaten erfolgt an einem Ort, an dem sich das Individuum nicht befindet. Der Bericht wird erzeugt und an das Individuum übersendet. Über einen internetfähigen Computer greift das Individuum auf die Berichte zu, die seine Tumorlast wiedergeben (7B).
Beispiel 6 - Detektion seltener Mutationen in Individuen mit Kolorektalkrebs
Es wird vermutet, dass ein Individuum Kolorektalkrebs in einem mittleren Stadium hat. Weitere klinische Tests liefern keine eindeutigen Ergebnisse. Dem Individuum wird Blut abgenommen, und zellfreie DNA wird extrahiert.
10 ng des zellfreien genetischen Materials, das aus einem einzelnen Röhrchen Plasma extrahiert wird, werden verwendet. Das zu Beginn vorliegende genetische Ausgangsmaterial wird in einen Satz von markierten Elternpolynukleotiden überführt. Das Markieren umfasste das Anbringen von Markierungen, die für die Sequenzierung erforderlich waren, sowie nicht einzigartigen Bezeichnungen zum Nachverfolgen von Nachkommen-Molekülen der Elternnukleinsäuren. Die Überführung wird durch eine optimierte Ligationsreaktion durchgeführt, wie oben beschrieben, und die Überführungsausbeute wird in Anbetracht des Größenprofils der Moleküle nach der Ligation bestätigt. Die Überführungsausbeute wird als Prozentsatz der zu Beginn vorliegenden Ausgangsmoleküle gemessen, bei denen beide Enden mit Markierungen ligiert sind. Überführung unter Verwendung dieses Ansatzes wird mit hoher Effizienz durchgeführt, beispielsweise zumindest 50 %.
Die markierte Bibliothek ist PCR-amplifiziert und mit Genen angereichert, die am stärksten mit Kolorektalkrebs assoziiert sind (z.B. KRAS, APC, TP53 usw.), und die resultierende DNA wird unter Verwendung eines massiv-parallelen Sequenzierungsansatzes mit einem Illumina MiSeq Personal Sequencer sequenziert.
Sequenzdaten werden assembliert und auf die Detektion seltener Mutationen analysiert. Sequenzauslesungen werden in familiale Gruppen, die zu einem Elternmolekül gehören, zusammengefasst (sowie beim Zusammenfassen fehlerkorrigiert) und unter Verwendung eines Bezugsgenoms (Kontrolle) kartiert. Basierend auf der Anzahl von Sequenzauslesungen werden die Häufigkeit seltener Variationen (Substitutionen, Insertionen, Deletionen usw.) und Variationen der Kopienzahl und Heterozygotie (gegebenenfalls) für jede kartierbare Position bestimmt.
Ein Bericht wird erzeugt, wobei Genombasenpositionen und prozentuelle Detektion der seltenen Mutation über der Basislinie wie durch die Bezugssequenz bestimmt kartiert werden. Seltene Mutationen werden in zwei Genen, KRAS bzw. FBXW7, in einer Auftretenshäufigkeit von 0,3 bis 0,4 % festgestellt, was anzeigt, dass das Individuum Restkrebs aufweist. Eine Behandlung wird begonnen.
Ferner werden diese Berichte über das Internet übertragen und elektronisch abgerufen. Eine Analyse der Sequenzdaten erfolgt an einem Ort, an dem sich das Individuum nicht befindet. Der Bericht wird erzeugt und an das Individuum übersendet. Über einen internetfähigen Computer greift das Individuum auf die Berichte zu, die seine Tumorlast wiedergeben.
Beispiel 7 - Digitale Sequenzierungstechnologie
Die Konzentrationen von durch Tumoren verbreiteten Nukleinsäuren sind typischerweise so niedrig, dass aktuelle Seqüenzierungstechnologien der nächsten Generation solche Signale nur sporadisch oder in Patienten mit terminal hohen Tumorlasten detektieren können. Der Hauptgrund besteht darin, dass solche Technologien von Fehlerraten und Bias gekennzeichnet sind, die größere Größenordnungen aufweisen können als jene, die erforderlich ist, um De-novo-Genalterationen, die mit Krebs in zirkulierender DNA assoziiert sind, zuverlässig zu detektieren. Hierin wird eine neue Sequenzierungsmethodik, Digital Sequenzieren von Technology (DST), gezeigt, die die Empfindlichkeit und Spezifität der Detektion und Quantifizierung von seltenen von Tumoren stammenden Nukleinsäuren unter Keimbahnfragmenten um zumindest 1 bis 2 Größenordnungen erhöht.
Die DST-Architektur ist durch modernste digitale Kommunikationssysteme inspiriert, die das Rauschen und die Verzerrung, die durch moderne Kommunikationskanäle hervorgerufen werden, bekämpfen und in der Lage sind, digitale Informationen einwandfrei bei äußerst hohen Datenraten zu übertragen. Ebenso sind aktuelle Arbeitsabläufe der nächsten Generation durch extrem hohe(s) Rauschen und Verzerrung (aufgrund von Probenherstellung, PCR-basierter Amplifizierung und Sequenzierung) gekennzeichnet. Digitale Sequenzierung ist in der Lage, die Fehler und Verzerrung, die durch diese Prozesse hervorgerufen werden, zu beseitigen und eine nahezu perfekte Darstellung aller seltenen Varianten (einschließlich CNVs) zu erzeugen.
Erstellen einer Bibliothek mit hoher Diversität
Im Gegensatz zu herkömmlichen Arbeitsvorschriften zur Erzeugung von Sequenzierungsbibliotheken, bei denen der Großteil von extrahierten zirkulierenden DNA-Fragmenten aufgrund einer ineffizienten Bibliotheksüberführung verlorengeht, ermöglicht der Arbeitsablauf der digitalen Sequenzierungstechnologie der Erfinder eine Überführung und Sequenzierung der allermeisten Ausgangsmoleküle. Dies ist entscheidend für die Detektion von seltenen Varianten, da es sein kann, dass nur eine Handvoll somatisch mutierter Moleküle in einem ganzen 10-ml-Röhrchen Blut enthalten ist. Das effiziente molekularbiologische Überführungsverfahren, das entwickelt wurde, erlaubt die höchstmögliche Empfindlichkeit für die Detektion seltener Varianten.
Umfangreiche Gruppe umsetzbarer Onkogene
Der rund um die DST-Plattform erstellte Arbeitsablauf ist flexibel und gut anpassbar, da Zielregionen so klein wie einzelne Exons oder so groß wie ganze Exome (oder auch ganze Genome) sein können. Eine Standardgruppe besteht aus allen exonischen Basen von 15 umsetzbaren krebsbezogenen Genen und Abdeckung der „heißen“ Exons von 36 zusätzlichen Onko-/Tumorsupressorgenen (z.B. Exons, die zumindest eine oder mehrere berichtete somatische Mutationen in COSMIC enthalten).
Beispiel 8: Analysestudien
Um die Leistung der Technologie der Erfinder zu untersuchen, wurde ihre Empfindlichkeit in Analyseproben ausgewertet. Die Erfinder brachten unterschiedliche Mengen der Krebszelllinien-DNA LNCaP in einen Hintergrund normaler cfDNA ein und waren in der Lage, somatische Mutationen bei einer Empfindlichkeit von 0,1 % erfolgreich zu detektieren (siehe 13).
Präklinische Studien
Die Übereinstimmung von zirkulierender DNA mit Tumor-gDNA in menschlichen Xenotransplantatmodellen in Mäusen wurde untersucht. In sieben CTC-negativen Mäusen, wobei jede einen von zwei verschiedenen menschlichen Brustkrebstumoren aufwies, wurden alle somatischen Mutationen, die in Tumor-gDNA detektiert wurden, auch in MäuseblutcfDNA detektiert, wobei DST verwendet wurde, um die Verwendbarkeit von cfDNA für eine nichtinvasive Tumorgenanalyse zu validieren.
Klinische Pilotstudien
Korrelation somatischer Mutationen bei Tumorbiopsie und zirkulierender DNA

Eine Pilotstudie wurde an menschlichen Proben über verschiedene Krebstypen begonnen. Die Übereinstimmung von Tumormutationsprofilen, die von zirkulierender zellfreier DNA stammten, mit jenen, die von angeglichenen Tumorbiopsieproben stammten, wurde untersucht. Es wurde eine Übereinstimmung von über 93 % zwischen somatischen Mutationsprofilen von Tumor und jenen von cfDNA sowohl in Kolorektal- als auch Melanomkrebsarten über 14 Patienten festgestellt (Tabelle 1). Tabelle 1

Patienten-ID	Stufe	Mutierte Gene in übereinstimmendem Tumor	Prozentsatz mutierter cfDNA
CRC Nr. 1	II-B	TP53	0,2 %
CRC Nr. 2	II-C	KRAS	0,6 %
		SMAD4	1,5 %
		GNAS	1,4 %
		FBXW7	0,8 %
CRC Nr. 3	III-B	KRAS	1,1 %
		TP53	1,4 %
		PIK3CA	1,7 %
		APC	0,7 %
CRC Nr. 4	III-B	KRAS	0,3 %
		TP53	0,4 %
CRC Nr. 5	III-B	KRAS	0,04 %
CRC Nr. 6	III-C	KRAS	0,03 %
CRC Nr. 7	IV	PIK3CA	1,3 %
		KRAS	0,6 %
		TP53	0,8 %
CRC Nr. 8	IV	APC	0,3 %
		SMO	0,6%
		TP53	0,4 %
		KRAS	0,0%
CRC Nr. 9	IV	APC	47,3 %
		APC	40,2%
		KRAS	37,7 %
		PTEN	0,0%
		TP53	12,9 %
CRC Nr. 10	IV	TP53	0,9 %
Melanom Nr. 1	IV	BRAF	0,2 %
Melanom Nr. 2	IV	APC	0,3 %
		EGFR	0,9 %
		MYC	10,5 %
Melanom Nr. 3	IV	BRAF	3,3 %
Melanom Nr. 4	IV	BRAF	0,7 %

Bezüglich des Vorstehenden sollte beachtet werden, dass, während spezielle Implementierungen gezeigt und beschrieben worden sind, damit verschiedene Modifizierungen vorgenommen werden können und hier vorgesehen sind. Es ist ebenfalls nicht beabsichtigt, dass die Erfindung durch die in der Beschreibung angegebenen spezifischen Beispiele beschränkt wird. Während die Erfindung unter Bezugnahme auf die vorstehend genannte Beschreibung beschrieben worden ist, sollen die Beschreibungen und Darstellungen der bevorzugten Ausführungsformen hier nicht in einem beschränkenden Sinn aufgefasst werden. Ferner sollte beachtet werden, dass alle Aspekte der Erfindung nicht auf die spezifischen Abbildungen, Konfigurationen oder relativen Proportionen bzw. Anteile beschränkt sind, die hier angegeben sind und die von verschiedenen Bedingungen und Variablen abhängen. Verschiedene Modifizierungen der Form und der Details der Ausführungsformen der Erfindung sind für einen Fachmann ersichtlich. Es ist daher vorgesehen, dass die Erfindung auch jedwede derartigen Modifizierungen, Variationen und Äquivalente umfassen soll.
Die vorliegende Erfindung betrifft ferner die nachstehenden Gegenstände 1 bis 206:

1. Verfahren zum Detektieren einer Kopienzahlvariation, umfassend:
1. a. Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide optional an einzigartigen Barcodes angebracht ist;
2. b. Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen;
3. c. Kartieren von Sequenzauslesungen, die im Schritt (a) erhalten worden sind, auf eine Bezugssequenz;
4. d. Quantifizieren/Zählen von kartierten Auslesungen in zwei oder mehr vordefinierten Regionen der Bezugssequenz; und
5. e. Bestimmen einer Kopienzahlvariation in einer oder mehreren der vordefinierten Regionen durch:
  1. (i) Normalisieren der Anzahl von Auslesungen in den vordefinierten Regionen zueinander und/oder der Anzahl von einzigartigen Barcodes in den vordefinierten Regionen zueinander;
  2. (ii) Vergleichen der im Schritt (i) erhaltenen normalisierten Anzahlen mit normalisierten Anzahlen, die von einer Kontrollprobe erhalten worden sind.
2. Verfahren zum Detektieren einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe bereit, die von einem Individuum erhalten worden ist, umfassend:
- a. Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierungsauslesungen erzeugt;
- b. Durchführen einer Multiplex-Sequenzierung mit Regionen oder einer Sequenzierung des gesamten Genoms, wenn eine Anreicherung nicht durchgeführt wird;
- c. Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen;
- d. Kartieren von Sequenzierungsauslesungen, die vom Sequenzieren stammen, auf eine Bezugssequenz;
- e. Identifizieren einer Teilmenge von kartierten Sequenzierungsauslesungen, die mit einer Variante der Bezugssequenz bei jeder kartierbaren Basenposition übereinstimmen;
- f. für jede kartierbare Basenposition, Berechnen eines Verhältnisses (a) einer Anzahl von kartierten Sequenzierungsauslesungen, die verglichen mit der Bezugssequenz eine Variante umfassen, zu (b) einer Anzahl von gesamten Sequenzierungsauslesungen für jede kartierbare Basenposition;
- g) Normalisieren der Verhältnisse oder der Häufigkeit einer Varianz für jede kartierbare Basenposition und Bestimmen einer oder von potenziell seltenen Variante(n) oder Mutation(en); und
- h. Vergleichen der resultierenden Anzahl für jede der Regionen mit einer oder von potenziell seltenen Variante(n) oder Mutation(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
3. Verfahren zum Charakterisieren der Heterogenität eines anormalen Zustands in einem Individuum, wobei das Verfahren das Erzeugen eines genetischen Profils von extrazellulären Polynukleotiden in dem Individuum umfasst, wobei das genetische Profil eine Mehrzahl von Daten umfasst, die von der Analyse einer Kopienzahlvariation und/oder einer anderen seltenen Mutation stammen.
4. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die Prävalenz/Konzentration jeder seltenen Variante, die in dem Individuum identifiziert wird, gleichzeitig angegeben und quantifiziert wird.
5. Verfahren nach Gegenstand 1, 2 oder 3, bei dem ein Konfidenzwert bezüglich der Prävalenz/Konzentrationen seltener Varianten in dem Individuum angegeben wird.
6. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die extrazellulären Polynukleotide DNA umfassen.
7. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die extrazellulären Polynukleotide RNA umfassen.
8. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Isolieren extrazellulärer Polynukleotide von der Körperprobe umfasst.
9. Verfahren nach Gegenstand 1, 2 oder 3, bei dem das Isolieren ein Verfahren zur Isolierung und Extraktion von zirkulierender Nukleinsäure umfasst.
10. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Fragmentieren der isolierten extrazellulären Polynukleotide umfasst.
11. Verfahren nach Gegenstand 8, bei dem die Körperprobe aus der Gruppe, bestehend aus Blut, Plasma, Serum, Urin, Speichel, mukosalen Exkretionen, Sputum, Stuhl und Tränen, ausgewählt ist
12. Verfahren nach Gegenstand 1, 2 oder 3, das ferner den Schritt des Bestimmens des Prozentsatzes von Sequenzen mit einer Kopienzahlvariation oder einer seltenen Mutation oder Variante in der Körperprobe umfasst.
13. Verfahren nach Gegenstand 12, bei dem das Bestimmen das Berechnen des Prozentsatzes von vordefinierten Regionen mit einer Menge von Polynukleotiden oberhalb oder unterhalb einer vorgegebenen Schwelle umfasst.
14. Verfahren nach Gegenstand 1, 2 oder 3, wobei bei dem Individuum der Verdacht besteht, dass es ein anormales Leiden aufweist.
15. Verfahren nach Gegenstand 14, bei dem das anormales Leiden ausgewählt ist aus der Gruppe, bestehend aus Mutationen, seltenen Mutationen, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen der chemischen Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen und Krebs.
16. Verfahren nach Gegenstand 1, 2 oder 3, bei dem das Individuum eine schwangere Frau ist.
17. Verfahren nach Gegenstand 1 oder 2, bei dem die Kopienzahlvariation oder die seltene Mutation oder die genetische Variante eine Fötusanormalie anzeigt.
18. Verfahren nach Gegenstand 17, bei dem die Fötusanormalie aus der Gruppe, bestehend aus Mutationen, seltenen Mutationen, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversionen, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen der chemischen Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen und Krebs, ausgewählt ist.
19. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Anbringen eines Barcodes oder von mehreren Barcodes an die extrazellulären Polynukleotide oder Fragmente davon vor dem Sequenzieren umfasst.
20. Verfahren nach Gegenstand 19, bei dem jeder Barcode, der an extrazelluläre Polynukleotide oder Fragmente davon vor dem Sequenzieren angebracht wird, einzigartig ist.
21. Verfahren nach Gegenstand 19, bei dem jeder Barcode, der an extrazelluläre Polynukleotide oder Fragmente davon vor dem Sequenzieren angebracht wird, nicht einzigartig ist.
22. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das selektive Anreichern von Regionen aus dem Genom oder Transkriptom des Individuums vor der Sequenzierung umfasst.
23. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das nichtselektive Anreichern von Regionen aus dem Genom oder Transkriptom des Individuums vor der Sequenzierung umfasst.
24. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Anbringen eines oder mehrerer Barcodes an die extrazellulären Polynukleotide oder Fragmente davon vor jeglichem Amplifikations- oder Anreicherungsschritt umfasst.
25. Verfahren nach Gegenstand 19, bei dem der Barcode ein Polynukleotid ist.
26. Verfahren nach Gegenstand 19, bei dem der Barcode eine zufällige Sequenz umfasst.
27. Verfahren nach Gegenstand 19, bei dem der Barcode einen fixierten oder semizufälligen Satz von Oligonukleotiden umfasst, der in Kombination mit der Diversität von Molekülen, die aus einem ausgewählten Bereich sequenziert wurden, die Identifikation von einzigartigen Molekülen ermöglicht.
28. Verfahren nach Gegenstand 19, bei dem die Barcodes Oligonukleotide mit einer Länge von zumindest 3-, 5-, 10-, 15-, 20-, 25-, 30-, 35-, 40-, 45- oder 50mer-Basenpaaren umfassen.
29. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Amplifizieren der extrazellulären Polynukleotide oder Fragmente davon umfasst.
30. Verfahren nach Gegenstand 19, bei dem die Amplifikation eine globale Amplifikation oder eine Amplifikation des ganzen Genoms umfasst.
31. Verfahren nach Gegenstand 1, 2 oder 3, bei dem Sequenzauslesungen einzigartiger Identität basierend auf Sequenzinformationen an den Anfangs- (Start-) und End- (Stopp-) Regionen der Sequenzauslesung und der Länge der Sequenzauslesung detektiert werden.
32. Verfahren nach Gegenstand 31, bei dem Sequenzmoleküle einzigartiger Identität basierend auf Sequenzinformationen an den Anfangs- (Start-) und End- (Stopp-) Regionen der Sequenzauslesung, der Länge der Sequenzauslesung und dem Anbringen eines Barcodes detektiert werden.
33. Verfahren nach Gegenstand 30, bei dem die Amplifikation eine selektive Amplifikation umfasst.
34. Verfahren nach Gegenstand 33, bei dem die Amplifikation eine nichtselektive Amplifikation umfasst.
35. Verfahren nach Gegenstand 1, 2 oder 3, bei dem eine Suppressionsamplifikation oder eine subtraktive Anreicherung durchgeführt wird.
36. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Entfernen einer Teilmenge der Auslesungen aus der weiteren Analyse, bevor die Auslesungen quantifiziert oder abgezählt werden, umfasst.
37. Verfahren nach Gegenstand 36, bei dem das Entfernen ein Herausfiltern von Auslesungen mit einem Genauigkeits- oder Qualitätswert unter einer Schwelle, z.B. 90 %, 99 %, 99,9 % oder 99,99 %, und/oder einem Kartierungswert unter einer Schwelle, z.B. 90 %, 99 %, 99,9 % oder 99,99 %, umfasst.
38. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Filtern von Auslesungen mit einem Qualitätswert unter einer festgelegten Schwelle umfasst.
39. Verfahren nach Gegenstand 1, bei dem die vordefinierten Regionen eine einheitliche oder im Wesentlichen einheitliche Größe aufweisen.
40. Verfahren nach Gegenstand 39, bei dem die vordefinierten Regionen eine Größe von zumindest etwa 10 kb, 20 kb, 30 kb 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb oder 100 kb aufweisen.
41. Verfahren nach Gegenstand 1, 2 oder 3, bei dem zumindest 50, 100, 200, 500, 1000, 2000, 5000, 10.000, 20.000 oder 50.000 Regionen analysiert werden.
42. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die Variante in einer Region des Genoms vorkommt, die aus der aus Genfusionen, Genduplikationen, Gendeletionen, Gentranslokationen, Mikrosatellitregionen, Genfragmenten oder Kombinationen davon bestehenden Gruppe ausgewählt ist.
43. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die Variante in einer Region des Genoms vorkommt, die aus der Gruppe, bestehend aus Genen, Onkogenen, Tumorsuppressorgenen, Promotoren, Regulationssequenzelementen oder Kombinationen davon, ausgewählt ist.
44. Verfahren nach Gegenstand 2, bei dem die Variante ein(e) Nukleotidvariante, Einzelbasensubstitution, kleines Indel, Transversion, Translokation, Inversion, Deletion, Trunkierung oder Gentrunkierung mit einer Länge von 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 oder 20 Nukleotiden ist.
45. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Korrigieren/Normalisieren/Anpassen der Menge kartierter Auslesungen unter Verwendung der Barcodes oder einzigartigen Eigenschaften einzelner Auslesungen umfasst.
46. Verfahren nach Gegenstand 1 oder 2, bei dem das Abzählen der Auslesungen durch Abzählen von einzigartigen Barcodes in jeder der vordefinierten Regionen und Normalisieren dieser Anzahlen über zumindest eine Teilmenge von vordefinierten Regionen, die sequenziert worden sind, durchgeführt wird.
47. Verfahren nach Gegenstand 1, 2 oder 3, bei dem Proben von aufeinanderfolgenden Zeitintervallen von demselben Individuum analysiert und mit den Ergebnissen der vorhergehenden Probe verglichen werden.
48. Verfahren nach Gegenstand 45, wobei das Verfahren ferner das Amplifizieren von extrazellulären Polynukleotiden mit angebrachtem Barcode umfasst.
49. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Bestimmen einer partiellen Kopienzahlvariation-Häufigkeit, das Bestimmen eines Verlusts an Heterozygotie, das Durchführen einer Genexpressionsanalyse, das Durchführen einer epigenetischen Analyse und/oder das Durchführen einer Hypermethylierungsanalyse umfasst.
50. Verfahren, umfassend: Bestimmen der Kopienzahlvariation oder das Durchführen einer Analyse einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe aus einem Individuum unter Verwendung von Multiplex-Sequenzierung.
51. Verfahren nach Gegenstand 50, bei dem die Multiplex-Sequenzierung das Durchführen von über 10.000 Sequenzierreaktionen umfasst.
52. Verfahren nach Gegenstand 50, bei dem die Multiplex-Sequenzierung das gleichzeitige Sequenzieren von zumindest 10.000 verschiedenen Auslesungen umfasst.
53. Verfahren nach Gegenstand 50, bei dem die Multiplex-Sequenzierung das Durchführen einer Datenanalyse bei zumindest 10.000 verschiedenen Auslesungen über das Genom umfasst.
54. Verfahren nach Gegenstand 1 oder 2, bei dem die Normalisierung und Detektion unter Verwendung eines oder mehrerer aus Hidden-Markow-, Dynamische-Programmierungs-, Stützvektormaschinen-, Bayes'sches oder probabilistisches Modellieren, Trellis-Dekodierungs-, Viterbi-Dekodierungs-, Erwartungsmaximierung-, Kalman-Filter- oder Neuronales-Netz-Methodiken durchgeführt wird.
55. Verfahren nach Gegenstand 1, 2 oder 3, das ferner das Überwachen der Krankheitsprogression, das Überwachen der Resterkrankung, das Überwachen der Therapie, das Diagnostizieren eines Leidens, das Prognostizieren eines Leidens oder das Auswählen einer Therapie basierend auf entdeckten Varianten für das Individuum umfasst.
56. Verfahren nach Gegenstand 55, bei dem eine Therapie basierend auf der aktuellsten Probenanalyse modifiziert wird.
57. Verfahren nach Gegenstand 1, 2 oder 3, bei dem das genetische Profils eines Tumors, einer Infektion oder einer anderen Gewebeanormalie abgeleitet wird.
58. Verfahren nach Gegenstand 1, 2 oder 3, bei dem das Wachstum, die Remission oder Entwicklung eines Tumors, einer Infektion oder einer anderen Gewebeanormalie überwacht wird.
59. Verfahren nach Gegenstand 1, 2 oder 3, bei dem Sequenzen betreffend das Immunsystem des Individuums analysiert und zu einzelnen Zeitpunkten oder im Zeitverlauf überwacht werden.
60. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die Identifizierung einer Variante durch einen Bildgebungstest (z.B. CT, PET-CT, MRI, Röntgen, Ultraschall) nachbeobachtet wird, um die Gewebeanormalie zu lokalisieren, die im Verdacht steht, die identifizierte Variante hervorzurufen.
61. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die Analyse ferner die Verwendung genetischer Daten, die aus einer Gewebe- oder Tumorbiopsie desselben Patienten erhalten wurden, umfasst.
62. Verfahren nach Gegenstand 1, 2 oder 3, bei dem die Phylogenetik eines Tumors, einer Infektion oder einer anderen Gewebeanormalie abgeleitet wird.
63. Verfahren nach Gegenstand 1 oder 2, wobei das Verfahren ferner das Durchführen einer populationsbasierten Nichtzuordnung und Identifizierung von Regionen geringer Konfidenz umfasst.
64. Verfahren nach Gegenstand 1 oder 2, bei dem das Erhalten der Messdaten für den Sequenzabdeckungsgrad das Messen der Sequenzabdeckungsgradtiefe an jeder Position des Genoms umfasst.
65. Verfahren nach Gegenstand 64, bei dem das Korrigieren der Messdaten für die Sequenzabdeckungsgradverzerrung das Berechnen eines Fenster-gemittelten Abdeckungsgrads umfasst.
66. Verfahren nach Gegenstand 64, bei dem das Korrigieren der Messdaten für die Sequenzabdeckungsgradverzerrung das Durchführen von Anpassungen umfasst, um die GC-Verzerrung in der Bibliothekserstellung und im Sequenzierungsverfahren zu berücksichtigen.
67. Verfahren nach Gegenstand 64, bei dem das Korrigieren der Messdaten für die Sequenzabdeckungsgradverzerrung das Durchführen von Anpassungen basierend auf einem zusätzlichen Gewichtungsfaktor umfasst, der mit einzelnen Kartierungen assoziiert ist, um die Verzerrung auszugleichen.
68. Verfahren nach Gegenstand 1, 2 oder 3, bei dem das extrazelluläre Polynukleotid aus einer erkrankten Zelle stammt.
69. Verfahren nach Gegenstand 1, 2 oder 3, bei dem das extrazelluläre Polynukleotid aus einer gesunden Zelle stammt.
70. System, das ein computerlesbares Medium umfasst, zum Durchführen der folgenden Schritte: Auswählen von vordefinierten Regionen in einem Genom; Abzählen einer Anzahl von Sequenzauslesungen in den vordefinierten Regionen; Normalisieren der Anzahl von Sequenzauslesungen über den vordefinierten Regionen; und Bestimmen des Prozentsatzes einer Kopienzahlvariation in den vordefinierten Regionen.
71. System nach Gegenstand 70, bei dem das gesamte Genom oder zumindest 85 % des Genoms analysiert werden.
72. System nach Gegenstand 70, bei dem das computerlesbare Medium einen Prozentsatz von Krebs-DNA oder -RNA im Plasma oder Serum für den Endnutzer bereitstellt.
73. Verfahren nach Gegenstand 1, bei dem die identifizierten Kopienzahlvarianten aufgrund der Heterogenität in der Probe ein Bruchteil (d.h. nicht auf einem Niveau von ganzen Zahlen) sind.
74. Verfahren nach Gegenstand 1, bei dem eine Anreicherung von ausgewählten Regionen durchgeführt wird.
75. Verfahren nach Gegenstand 1, bei dem die Informationen über die Kopienzahlvariation auf der Basis der in den Gegenständen 1, 64, 65, 66 und 67 beschriebenen Verfahren gleichzeitig extrahiert werden.
76. Verfahren nach Gegenstand 1 oder 2, das mit einem anfänglichen Schritt eines Polynukleotid-Bottleneckings zum Begrenzen der Anzahl von anfänglichen Ausgangskopien oder der Vielfalt von Polynukleotiden in der Probe verwendet wird.
77. Verfahren zum Detektieren einer seltenen Mutation in einer zellfreien oder im Wesentlichen zellfreien Probe, die von einem Individuum erhalten worden ist, umfassend:
1. a. Sequenzieren von extrazellulären Polynukleotiden von einer Körperprobe von einem Individuum, wobei jedes der extrazellulären Polynukleotide eine Mehrzahl von Sequenzierungsauslesungen erzeugt;
2. b. Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen;
3. c. Kartieren von Sequenzauslesungen, die von dem Sequenzieren abgeleitet worden sind, auf eine Bezugssequenz;
4. d. Identifizieren einer Teilmenge von kartierten Sequenzierungsauslesungen, die mit einer Variante der Bezugssequenz bei jeder kartierbaren Basenposition übereinstimmen;
5. e. für jede kartierbare Basenposition Berechnen eines Verhältnisses (a) einer Anzahl von kartierten Sequenzierungsauslesungen, die verglichen mit der Bezugssequenz eine Variante umfassen, zu (b) einer Anzahl von gesamten Sequenzierungsauslesungen für jede kartierbare Basenposition;
6. f. Normalisieren der Verhältnisse oder der Häufigkeit einer Varianz für jede kartierbare Basenposition und Bestimmen einer oder von potenziell seltenen Variante(n) oder (einer) anderen Veränderung(en); und
7. g. Vergleichen der resultierenden Anzahl für jede der Regionen mit (einer) potenziell seltenen Variante(n) oder Mutation(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
78. Verfahren, umfassend:
1. a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden:
2. b. Amplifizieren der markierten Elternpolynukleotide in dem Satz, um einen entsprechenden Satz von amplifizierten Nachkommen-Polynukleotiden zu produzieren;
3. c. Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden, um einen Satz von Sequenzierungsauslesungen zu produzieren; und
4. d. Zusammenfassen des Satzes von Sequenzierungsauslesungen, um einen Satz von Consensussequenzen zu erzeugen, wobei jede Consensussequenz einem einzigartigen Polynukleotid unter dem Satz von markierten Elternpolynukleotiden entspricht.
79. Verfahren nach Gegenstand 78, bei dem jedes Polynukleotid in einem Satz auf eine Bezugssequenz kartierbar ist.
80. Verfahren nach Gegenstand 78, welches das Bereitstellen einer Vielzahl von Sätzen markierter Elternpolynukleotide umfasst, wobei jeder Satz auf eine andere kartierbare Position in der Bezugssequenz kartierbar ist.
81. Verfahren nach Gegenstand 78, ferner umfassend: e. Analysieren des Satzes von Consensussequenzen für jeden Satz von markierten Elternmolekülen getrennt oder in einer Kombination.
82. Verfahren nach Gegenstand 78, ferner umfassend das Konvertieren eines zu Beginn vorliegenden genetischen Ausgangsmaterials zu den markierten Elternpolynukleotiden.
83. Verfahren nach Gegenstand 82, bei dem das zu Beginn vorliegende genetische Ausgangsmaterial nicht mehr als 100 ng an Polynukleotiden umfasst.
84. Verfahren nach Gegenstand 82, das eine starke Reduktion („bottlenecking“) des zu Beginn vorliegenden genetischen Ausgangsmaterials vor der Konvertierung umfasst.
85. Verfahren nach Gegenstand 82, welches das Überführen des zu Beginn vorliegenden genetischen Materials in markierte Elternpolynukleotide mit einer Überführungseffizienz von zumindest 10 %, zumindest 20 %, zumindest 30 %, zumindest 40 %, zumindest 50 %, zumindest 60 %, zumindest 80 % oder zumindest 90 % umfasst.
86. Verfahren nach Gegenstand 82, bei dem das Überführen ein beliebiges aus Ligation stumpfer Enden, Ligation klebriger Enden, molekularen Inversionssonden, PCR, ligationsbasierter PCR, Einzelstrangligation und Einzelstrangzirkularisierung umfasst.
87. Verfahren nach Gegenstand 82, bei dem das zu Beginn vorliegende genetische Ausgangsmaterial eine zellfreie Nukleinsäure ist.
88. Verfahren nach Gegenstand 79, bei dem eine Vielzahl der Sätze auf verschiedene kartierbare Positionen in einer Bezugssequenz aus demselben Genom kartiert wird.
89. Verfahren nach Gegenstand 78, bei dem jedes markierte Elternpolynukleotid in dem Satz einzigartig markiert ist.
90. Verfahren nach Gegenstand 78, bei dem jeder Satz von Elternpolynukleotiden auf eine Position in einer Bezugssequenz kartiert ist, und die Polynukleotide in jedem Satz nichteinzigartig markiert sind.
91. Verfahren nach Gegenstand 78, bei dem die Erzeugung von Consensussequenzen auf Informationen von der Markierung und/oder auf zumindest einem von (i) Sequenzinformationen an dem Beginn- (Start-) Abschnitt der Sequenzauslesung, (ii) den End- (Stopp-) Abschnitten der Sequenzauslesung und (iii) der Länge der Sequenzauslesung basiert.
92. Verfahren nach Gegenstand 78, umfassend das ausreichende Sequenzieren einer Teilmenge des Satzes von amplifizierten Nachkommen-Polynukleotiden, um Sequenzauslesungen für zumindest einen Nachkommen aus jedem der zumindest 20 %, zumindest 30 %, zumindest 40 %, zumindest 50 %, zumindest 60 %, zumindest 70 %, zumindest 80 %, zumindest 90 % zumindest 95 %, zumindest 98 %, zumindest 99 %, zumindest 99.9 % oder zumindest 99,99 % einzigartiger Polynukleotide in dem Satz markierter Elternpolynukleotide zu erzeugen.
93. Verfahren nach Gegenstand 92, bei dem der zumindest eine Nachkomme eine Vielzahl von Nachkommen, z.B. zumindest 2, zumindest 5 oder zumindest 10 Nachkommen, ist.
94. Verfahren nach Gegenstand 78, bei dem die Anzahl der Sequenzauslesungen in dem Satz von Sequenzauslesungen größer als die Anzahl einzigartiger markierter Elternpolynukleotide in dem Satz von markierten Elternpolynukleotiden ist.
95. Verfahren nach Gegenstand 78, bei dem die Teilmenge des Satzes von amplifizierten sequenzierten Nachkommen-Polynukleotiden groß genug ist, dass eine beliebige Nukleotidsequenz, die in dem Satz von markierten Elternpolynukleotiden zu einem Prozentsatz, der gleich wie die prozentuelle Sequenzierungsfehlerrate pro Base der verwendeten Sequenzierungsplattform ist, repräsentiert ist, eine Wahrscheinlichkeit von zumindest 50 %, zumindest 60 %, zumindest 70 %, zumindest 80 %, zumindest 90 % zumindest 95 %, zumindest 98 %, zumindest 99 %, zumindest 99,9 % oder zumindest 99,99 % hat, in dem Satz von Consensussequenzen repräsentiert zu sein.
96. Verfahren nach Gegenstand 78, umfassend das Anreichern des Satzes von amplifizierten Nachkommen-Polynukleotiden mit Polynukleotiden, die auf eine oder mehrere ausgewählte Bezugssequenzen kartieren, durch: (i) selektive Amplifikation von Sequenzen von zu Beginn vorliegendem genetischem Material, das in markierte Elternpolynukleotide überführt wurde; (ii) selektive Amplifikation von markierten Elternpolynukleotiden; (iii) selektives Sequenzeinfangen von amplifizierten Nachkommen-Polynukleotiden; oder (iv) selektives Sequenzeinfangen von zu Beginn vorliegendem genetischem Ausgangsmaterial.
97. Verfahren nach Gegenstand 81, bei dem das Analysieren das Normalisieren eines Maßes (z.B. Anzahl), das von einem Satz von Consensussequenzen genommen wurde, in Bezug auf ein Maß, das von einem Satz von Consensussequenzen aus einer Kontrollprobe genommen wurde, umfasst.
98. Verfahren nach Gegenstand 81, bei dem das Analysieren das Detektieren von Mutationen, seltenen Mutationen, Indelen, Kopienzahlvariationen, Transversionen, Translokationen, Inversion, Deletionen, Aneuploidie, partieller Aneuploidie, Polyploidie, chromosomaler Instabilität, chromosomalen Strukturalterationen, Genfusionen, Chromosomenfusionen, Gentrunkierungen, Genamplifikation, Genduplikationen, chromosomalen Läsionen, DNA-Läsionen, anormalen Änderungen chemischer Nukleinsäuremodifikationen, anormalen Änderungen epigenetischer Muster, anormalen Änderungen der Nukleinsäuremethylierung, Infektionen oder Krebs umfasst.
99. Verfahren nach Gegenstand 78, bei dem die Polynukleotide DNA, RNA, eine Kombination der zwei oder DNA plus RNA-abgeleitete cDNA umfassen.
100. Verfahren nach Gegenstand 82, bei dem eine bestimmte Teilmenge von Polynukleotiden basierend auf der Polynukleotidlänge in Basenpaaren aus dem zu Beginn vorliegenden Satz von Polynukleotiden oder aus den amplifizierten Polynukleotiden selektiert oder angereichert wird.
101. Verfahren nach Gegenstand 82, bei dem die Analyse ferner die Detektion und Überwachung einer Anormalie oder Erkrankung in einem Individuum, wie z.B. einer Infektion und/oder Krebs umfasst.
102. Verfahren nach Gegenstand 101, das in einer Kombination mit einer Immunrepertoireanalyse durchgeführt wird.
103. Verfahren nach Gegenstand 78, bei dem die Polynukleotide aus einer Probe, ausgewählt aus der Gruppe, bestehend aus Blut, Plasma, Serum, Urin, Speichel, mukosalen Exkretionen, Sputum, Stuhl und Tränen, extrahiert werden.
104. Verfahren nach Gegenstand 78, bei dem das Zusammenfassen das Detektieren und/oder Korrigieren von Fehlern, Strangbrüchen oder Läsionen, die in dem Sense- oder Anti-Sense-Strang der markierten Elternpolynukleotide oder amplifizierten Nachkommen-Polynukleotide vorliegen, umfasst.
105. Verfahren zum Detektieren einer genetischen Variation in einem nicht einzigartig markierten anfänglichen genetischen Ausgangsmaterial mit einer Empfindlichkeit von zumindest 5 %, zumindest 1 %, zumindest 0,5 %, zumindest 0,1 % oder zumindest 0,05 %.
106. Verfahren nach Anspruch 105, bei dem das anfängliche genetische Ausgangsmaterial in einer Menge von weniger als 100 ng Nukleinsäure bereitgestellt wird, die genetische Variation eine Kopienzahl/Heterozygotie-Variation ist und die Detektion mit einer subchromosomalen Auflösung durchgeführt wird; z.B. einer Auflösung von zumindest 100 Megabasen, einer Auflösung von zumindest 10 Megabasen, einer Auflösung von zumindest 1 Megabase, einer Auflösung von zumindest 100 Kilobasen, einer Auflösung von zumindest 10 Kilobasen oder einer Auflösung von zumindest 1 Kilobase.
107. Verfahren nach Anspruch 81, welches das Bereitstellen einer Mehrzahl von Sätzen von markierten Elternpolynukleotiden umfasst, wobei jeder Satz zu einer verschiedenen Bezugssequenz kartierbar ist.
108. Verfahren nach Anspruch 107, bei dem die kartierbare Position in der Bezugssequenz der Ort eines Tumormarkers ist und das Analysieren das Detektieren des Tumormarkers in dem Satz von Consensussequenzen umfasst.
109. Verfahren nach Anspruch 108, bei dem der Tumormarker in dem Satz von Consensussequenzen mit einer Häufigkeit vorliegt, die geringer ist als die Fehlerrate, die bei dem Amplifizierungsschritt eingeführt wird.
110. Verfahren nach Anspruch 107, bei dem der zumindest eine Satz eine Mehrzahl von Sätzen ist und die kartierbare Position der Bezugssequenzen eine Mehrzahl von kartierbaren Positionen in der Bezugssequenz umfasst, wobei jede kartierbare Position der Ort eines Tumormarkers ist.
111. Verfahren nach Anspruch 107, bei dem das Analysieren das Detektieren einer Kopienzahlvariation von Consensussequenzen zwischen zumindest zwei Sätzen von Elternpolynukleotiden umfasst.
112. Verfahren nach Anspruch 107, bei dem das Analysieren das Detektieren des Vorliegens von Sequenzvariationen verglichen mit den Bezugssequenzen umfasst.
113. Verfahren nach Anspruch 107, bei dem das Analysieren das Detektieren des Vorliegens von Sequenzvariationen verglichen mit den Bezugssequenzen und das Detektieren einer Kopienzahlvariation von Consensussequenzen zwischen zumindest zwei Sätzen von Elternpolynukleotiden umfasst.
114. Verfahren nach Anspruch 78, bei dem das Zusammenfassen umfasst:
1. i. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist; und
2. ii. Bestimmen einer Consensussequenz auf der Basis der Sequenzauslesungen in einer Familie.
115. System, das ein computerlesbares Medium umfasst, zum Durchführen der folgenden Schritte:
1. a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden;
2. b. Amplifizieren der markierten Elternpolynukleotide in dem Satz zum Erzeugen eines entsprechenden Satzes von amplifizierten Nachkommen-Polynukleotiden;
3. c. Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; und
4. d. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht, und gegebenenfalls
5. e. Analysieren des Satzes von Consensussequenzen für jeden Satz von markierten Elternmolekülen.
116. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 10 % des Genoms des Individuums sequenziert werden.
117. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 20 % des Genoms des Individuums sequenziert werden.
118. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 30 % des Genoms des Individuums sequenziert werden.
119. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 40 % des Genoms des Individuums sequenziert werden.
120. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 50 % des Genoms des Individuums sequenziert werden.
121. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 60 % des Genoms des Individuums sequenziert werden.
122. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 70 % des Genoms des Individuums sequenziert werden.
123. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 80 % des Genoms des Individuums sequenziert werden.
124. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung oder des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 90 % des Genoms des Individuums sequenziert werden.
125. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 10 % des Genoms des Individuums sequenziert werden.
126. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 20 % des Genoms des Individuums sequenziert werden.
127. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 30 % des Genoms des Individuums sequenziert werden.
128. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 40 % des Genoms des Individuums sequenziert werden.
129. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 50 % des Genoms des Individuums sequenziert werden.
130. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 60 % des Genoms des Individuums sequenziert werden.
131. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 70 % des Genoms des Individuums sequenziert werden.
132. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 80 % des Genoms des Individuums sequenziert werden.
133. Verfahren, umfassend das Detektieren des Vorliegens oder Fehlens einer genetischen Veränderung und des Ausmaßes einer genetischen Variation in einem Individuum, wobei das Detektieren mit Hilfe des Sequenzierens einer zellfreien Nukleinsäure durchgeführt wird, wobei zumindest 90 % des Genoms des Individuums sequenziert werden.
134. Verfahren nach den Gegenständen 116 bis 133, bei dem die genetische Veränderung eine Kopienzahlvariation oder eine oder mehrere seltene Mutation(en) ist.
135. Verfahren nach den Gegenständen 116 bis 133, bei dem die genetische Veränderung eine oder mehrere kausale Variante(n) und einen Polymorphismus oder mehrere Polymorphismen umfasst.
136. Verfahren nach den Gegenständen 116 bis 133, bei dem die genetische Veränderung und/oder das Ausmaß der genetischen Variation in dem Individuum mit einer genetischen Veränderung und/oder dem Ausmaß der genetischen Variation in einem Individuum oder mehreren Individuen mit einer bekannten Erkrankung verglichen werden kann.
137. Verfahren nach den Gegenständen 116 bis 133, bei dem die genetische Veränderung und/oder das Ausmaß der genetischen Variation in dem Individuum mit einer genetischen Veränderung und/oder dem Ausmaß der genetischen Variation in einem Individuum oder mehreren Individuen ohne Erkrankung verglichen werden kann.
138. Verfahren nach den Gegenständen 116 bis 133, bei dem die zellfreie Nukleinsäure DNA ist.
139. Verfahren nach den Gegenständen 116 bis 133, bei dem die zellfreie Nukleinsäure RNA ist.
140. Verfahren nach den Gegenständen 116 bis 133, bei dem die zellfreie Nukleinsäure DNA und RNA ist.
141. Verfahren nach Gegenstand 136, bei dem die Erkrankung Krebs oder ein Vorstadium von Krebs ist.
142. Verfahren nach den Gegenständen 116 bis 133, wobei das Verfahren ferner die Diagnose oder die Behandlung einer Erkrankung umfasst.
143. Verfahren, umfassend:
1. a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, und für jeden Satz von markierten Elternpolynukleotiden;
2. b. Amplifizieren der markierten Elternpolynukleotide in dem Satz zum Erzeugen eines entsprechenden Satzes von amplifizierten Nachkommen-Polynukleotiden;
3. c. Sequenzieren einer Teilmenge (einschließlich einer geeigneten Teilmenge) des Satzes von amplifizierten Nachkommen-Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen;
4. d. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; und
5. e. Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen.
144. Verfahren nach Gegenstand 143, bei dem die Qualitätsschwelle eine Anzahl von Sequenzauslesungen von amplifizierten Nachkommen-Polynukleotiden, die zu einer Consensussequenz zusammengefasst sind, berücksichtigt.
145. Verfahren nach Gegenstand 143, bei dem die Qualitätsschwelle eine Anzahl von Sequenzauslesungen von amplifizierten Nachkommen-Polynukleotiden, die zu einer Consensussequenz zusammengefasst sind, berücksichtigt.
146. System, das ein computerlesbares Medium umfasst, zum Durchführen des Verfahrens einem der Gegenstände 143 bis 145.
147. Verfahren, umfassend:
1. a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden, wobei jeder Satz auf eine verschiedene Bezugssequenz in einem oder mehreren Genom(en) kartiert wird, und für jeden Satz von markierten Elternpolynukleotiden
  1. i. Amplifizieren der ersten Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden;
  2. ii. Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen; und
  3. iii. Zusammenfassen der Sequenzauslesungen durch:
    1. 1. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben Elternpolynukleotid amplifiziert worden ist.
148. Verfahren nach Gegenstand 147, bei dem das Zusammenfassen ferner umfasst:
- 2. Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie.
149. Verfahren nach Gegenstand 148, ferner umfassend:
- b. Bestimmen eines quantitativen Maßes von einzigartigen Familien; und
- c. auf der Basis von (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartigen markierten Elternpolynukleotiden in dem Satz.
150. Verfahren nach Gegenstand 149, bei dem das Ableiten unter Verwendung von statistischen oder probabilistischen Modellen durchgeführt wird.
151. Verfahren nach Gegenstand 149, bei dem der zumindest eine Satz eine Mehrzahl von Sätzen ist.
152. Verfahren nach Gegenstand 151, das ferner das Korrigieren einer Amplifizierungsverzerrung oder einer darstellungsmäßigen Verzerrung zwischen den zwei Sätzen umfasst.
153. Verfahren nach Gegenstand 152, das ferner das Verwenden einer Kontrollprobe oder eines Satzes von Kontrollproben zum Korrigieren einer Amplifizierungsverzerrung oder einer darstellungsmäßigen Verzerrung zwischen den zwei Sätzen umfasst.
154. Verfahren nach Gegenstand 151, das ferner das Bestimmen einer Kopienzahlvariation zwischen den Sätzen umfasst.
155. Verfahren nach Gegenstand 149, ferner umfassend:
- d. Bestimmen eines quantitativen Maßes von polymorphen Formen unter den Familien; und
- e. auf der Basis des quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartigen markierten Elternpolynukleotiden.
156. Verfahren nach Gegenstand 155, bei dem die polymorphen Formen umfassen, jedoch nicht beschränkt sind auf: Substitutionen, Insertionen, Deletionen, Inversionen, Mikrosatellitenveränderungen, Transversionen, Translokationen, Fusionen, Methylierung, Hypermethylierung, Hydroxymethylierung, Acetylierung, epigenetische Varianten, regulatorisch-assoziierte Varianten oder Proteinbindungsstellen.
157. Verfahren nach Gegenstand 149, bei dem bei dem die Sätze von einer gemeinsamen Probe stammen und das Verfahren ferner umfasst:
- d. Ableiten einer Kopienzahlvariation für die Mehrzahl von Sätzen auf der Basis eines Vergleichs der abgeleiteten Anzahl von markierten Elternpolynukleotiden in jedem Satz, der auf jede einer Mehrzahl von kartierbaren Positionen in einer Bezugssequenz kartiert ist.
158. Verfahren nach Gegenstand 157, bei dem ferner die ursprüngliche Anzahl von Polynukleotiden in jedem Satz abgeleitet wird.
159. Verfahren nach Gegenstand 147, bei dem mindestens eine Teilmenge der markierten Elternpolynukleotide in jedem Satz nicht einzigartig markiert ist.
160. System, das ein computerlesbares Medium umfasst, das einen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren nach einem der Gegenstände 147 bis 158 implementiert.
161. Verfahren zum Bestimmen einer Kopienzahlvariation in einer Probe, die Polynukleotide umfasst, wobei das Verfahren umfasst:
1. a. Bereitstellen von zumindest zwei Sätzen von ersten Polynukleotiden, wobei jeder Satz auf eine verschiedene kartierbare Position in einer Bezugssequenz in einem Genom kartiert wird, und für jeden Satz von ersten Polynukleotiden;
  1. i. Amplifizieren der Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden;
  2. ii. Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen;
  3. iii. Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben Polynukleotid in dem Satz amplifiziert worden ist;
  4. iv. Ableiten eines quantitativen Maßes von Familien in dem Satz;
2. b. Bestimmen einer Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
162. System, das ein computerlesbares Medium umfasst, das einen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren nach Gegenstand 161 implementiert.
163. Verfahren zum Ableiten der Häufigkeit von Sequenzaufrufen in einer Probe von Polynukleotiden, umfassend:
1. a. Bereitstellen zumindest eines Satzes von ersten Polynukleotiden, wobei jeder Satz auf eine verschiedene kartierbare Position in einer Bezugssequenz in einem oder mehreren Genom(en) kartiert wird, und für jeden Satz von ersten Polynukleotiden;
  1. i. Amplifizieren der ersten Polynukleotide zum Erzeugen eines Satzes von amplifizierten Polynukleotiden;
  2. ii. Sequenzieren einer Teilmenge des Satzes von amplifizierten Polynukleotiden zum Erzeugen eines Satzes von Sequenzierungsauslesungen;
  3. iii. Gruppieren der Sequenzauslesungen zu Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind;
2. b. Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst:
  1. i. Zuordnen, für jede Familie, eines Konfidenzwerts für jeden der Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs zwischen Mitgliedern der Familie berücksichtigt; und
  2. ii. Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, der oder die jeder Familie zugeordnet ist oder sind.
164. System, das ein computerlesbares Medium umfasst, das einen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren nach Gegenstand 163 implementiert.
165. Verfahren zum Kommunizieren von Sequenzinformationen über zumindest ein einzelnes Polynukleotidmolekül, umfassend:
1. a. Bereitstellen zumindest eines einzelnen Polynukleotidmolekül;
2. b. Kodieren von Sequenzinformationen in dem zumindest einen einzelnen Polynukleotidmolekül zum Erzeugen eines Signals;
3. c. Leiten zumindest eines Teils des Signals durch einen Kanal zum Erzeugen eines empfangenen Signals, das Nukleotid-Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das empfangene Signal Rauschen und/oder Verzerrung umfasst;
4. d. Dekodieren des empfangenen Signals zum Erzeugen einer Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das Dekodieren das Rauschen und/oder die Verzerrung in Bezug auf jedes einzelne Polynukleotid in der Nachricht vermindert; und
5. e. Bereitstellen der Nachricht, die Sequenzierinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, für einen Empfänger.
166. Verfahren nach Gegenstand 165, bei dem das Rauschen fehlerhafte Nukleotidaufrufe umfasst.
167. Verfahren nach Gegenstand 165, bei dem die Verzerrung eine ungleichmäßige Amplifizierung des einzelnen Polynukleotidmoleküls verglichen mit anderen einzelnen Polynukleotidmolekülen umfasst.
168. Verfahren nach Gegenstand 167, bei dem die Verzerrung aus einer Amplifizierungs- oder Sequenzierverzerrung resultiert.
169. Verfahren nach Gegenstand 165, bei dem das zumindest eine einzelne Polynukleotidmolekül eine Mehrzahl von einzelnen Polynukleotidmolekülen ist und das Dekodieren eine Nachricht über jedes Molekül in der Mehrzahl erzeugt.
170. Verfahren nach Gegenstand 165, bei dem das Kodieren das Amplifizieren des zumindest einen einzelnen Polynukleotidmoleküls, das gegebenenfalls markiert worden ist, umfasst, wobei das Signal eine Kollektion von amplifizierten Molekülen umfasst.
171. Verfahren nach Gegenstand 165, bei dem der Kanal einen Polynukleotidsequencer umfasst und das empfangene Signal Sequenzauslesungen von einer Mehrzahl von Polynukleotiden umfasst, die von dem zumindest einen einzelnen Polynukleotidmolekül amplifiziert worden sind.
172. Verfahren nach Gegenstand 165, bei dem das Dekodieren das Gruppieren von Sequenzauslesungen von amplifizierten Molekülen umfasst, die von jedem des zumindest einen einzelnen Polynukleotidmoleküls amplifiziert worden sind.
173. Verfahren nach Gegenstand 169, bei dem das Dekodieren aus einem probabilistischen oder statistischen Verfahren des Filterns des erzeugten Sequenzsignals besteht.
174. System, das ein computerlesbares Medium umfasst, das einen maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren nach einem der Gegenstände 165 bis 173 implementiert.
175. Verfahren nach einem der Gegenstände 143 bis 145, 147 bis 159 und 161, bei dem die Polynukleotide von einer tumorgenomischen DNA oder RNA abgeleitet sind.
176. Verfahren nach einem der Gegenstände 143 bis 175, bei dem die Polynukleotide von zellfreien Polynukleotiden, exosomalen Polynukleotiden, bakteriellen Polynukleotiden oder viralen Polynukleotiden abgeleitet sind.
177. Verfahren nach einem der Gegenstände 1 bis 3 oder 143 bis 175, das ferner die Detektion und/oder Assoziation von betroffenen molekularen Pfaden umfasst.
178. Verfahren nach einem der Gegenstände 1 bis 3 oder 143 bis 175, das ferner ein Reihenüberwachen der Gesundheit oder des Krankheitszustands eines Individuums umfasst.
179. Verfahren nach einem der Gegenstände 1 bis 3 oder 143 bis 175, durch das die Phylogenie eines Genoms, das mit einer Krankheit in einem Individuum zusammenhängt, abgeleitet wird.
180. Verfahren nach einem der Gegenstände 1 bis 3 oder 143 bis 175, das ferner die Diagnose, das Überwachen oder die Behandlung einer Krankheit umfasst.
181. Verfahren nach Gegenstand 180, bei dem das Behandlungsverfahren auf der Basis von detektierten polymorphen Formen oder CNVs oder dazugehörigen Pfaden ausgewählt oder modifiziert wird.
182. Verfahren nach Gegenstand 180 oder 181, bei dem die Behandlung eine Kombinationstherapie umfasst.
183. Verfahren nach Gegenstand 179, bei dem die Diagnose ferner das Lokalisieren der Krankheit unter Verwendung einer radiographischen Technik, wie z.B. CT-Scan, PET-CT, MRI, Ultraschall, Ultraschall mit Mikroblasen, usw., umfasst.
184. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
- Auswählen von vordefinierten Regionen in einem Genom;
- Zugreifen auf Sequenzauslesungen und Abzählen der Anzahl von Sequenzauslesungen in den vordefinierten Regionen;
- Normalisieren der Anzahl von Sequenzauslesungen über den vordefinierten Regionen; und
- Bestimmen des Prozentsatzes der Kopienzahlvariation in den vordefinierten Regionen.
185. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst;
2. b. Ausfiltern von Auslesungen, die eine eingestellte Schwelle nicht erfüllen;
3. c. Kartieren von Sequenzauslesungen, die von dem Sequenzieren stammen, auf eine Bezugssequenz;
4. d. Identifizieren einer Teilmenge von kartierten Sequenzauslesungen, die mit einer Variante der Bezugssequenz an jeder kartierbaren Basenposition übereinstimmen;
5. e. für jede kartierbare Basenposition, Berechnen eines Verhältnisses von (a) einer Anzahl von kartierten Sequenzauslesungen, die eine Variante bezogen auf die Bezugssequenz umfassen, zu (b) einer Anzahl von gesamten Sequenzauslesungen für jede kartierbare Basenposition;
6. f. Normalisieren der Verhältnisse oder der Häufigkeit der Varianz für jede kartierbare Basenposition und Bestimmen einer potenziell seltenen Variante(n) oder einer anderen oder anderer genetischer Variation(en); und
7. g. Vergleichen der resultierenden Anzahl für jede der Regionen mit (einer) potenziell seltenen Variante(n) oder Mutation(en) mit entsprechend abgeleiteten Anzahlen von einer Bezugsprobe.
186. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und
2. b. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht.
187. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind;
2. b. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht; und
3. c. Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen.
188. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und
  1. i. Zusammenfassen der Sequenzauslesungen durch:
    1. 1. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist, und gegebenenfalls
    2. 2. Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie.
189. Computerlesbares Medium nach Gegenstand 188, bei dem der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durchführt:
- b. Bestimmen eines quantitativen Maßes von einzigartigen Familien;
- c. auf der Basis (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartig markierten Elternpolynukleotiden in dem Satz.
190. Computerlesbares Medium nach Gegenstand 189, bei dem der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durchführt:
- d. Bestimmen eines quantitativen Maßes von polymorphen Formen unter den Familien; und
- e. auf der Basis des bestimmten quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartig markierten Elternpolynukleotiden.
191. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben ersten Polynukleotid in dem Satz amplifiziert worden ist;
2. b. Ableiten eines quantitativen Maßes von Familien in dem Satz;
3. c. Bestimmen einer Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
192. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, Gruppieren der Sequenzauslesungen zu Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind;
2. b. Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst:
3. c. Zuordnen, für jede Familie, eines Konfidenzwerts für jeden einer Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs unter Mitgliedern der Familie berücksichtigt; und
4. d. Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, die jeder Familie zugeordnet sind.
193. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die ein empfangenes Signal umfasst, das kodierte Sequenzinformationen von zumindest einem einzelnen Polynukleotidmolekül umfasst, wobei das empfangene Signal ein Rauschen und/oder eine Verzerrung umfasst;
2. b. Dekodieren des empfangenen Signals zum Erzeugen einer Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, wobei das Dekodieren das Rauschen und/oder die Verzerrung jedes einzelnen Polynukleotids in der Nachricht vermindert; und
3. c. Schreiben der Nachricht, die Sequenzinformationen über das zumindest eine einzelne Polynukleotidmolekül umfasst, auf eine Computerdatei.
194. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind;
2. b. Zusammenfassen des Satzes von Sequenzierungsauslesungen zum Erzeugen eines Satzes von Consensussequenzen, wobei jede Consensussequenz einem einzigartigen Polynukleotid von dem Satz von markierten Elternpolynukleotiden entspricht;
3. c. Ausfiltern von den Consensussequenzen von denjenigen, die eine Qualitätsschwelle nicht erfüllen.
195. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind; und
2. b. Zusammenfassen der Sequenzauslesungen durch:
  1. i. Gruppieren von Sequenzauslesungen, die von amplifizierten Nachkommen-Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben markierten Elternpolynukleotid amplifiziert worden ist; und
  2. ii. gegebenenfalls Bestimmen eines quantitativen Maßes von Sequenzauslesungen in jeder Familie.
196. Computerlesbares Medium nach Gegenstand 195, bei dem der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durchführt:
- c. Bestimmen eines quantitativen Maßes von einzigartigen Familien;
- d. auf der Basis (1) des quantitativen Maßes von einzigartigen Familien und (2) des quantitativen Maßes von Sequenzauslesungen in jeder Gruppe, Ableiten eines Maßes von einzigartig markierten Elternpolynukleotiden in dem Satz.
197. Computerlesbares Medium nach Gegenstand 196, bei dem der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durchführt:
- e. Bestimmen eines quantitativen Maßes von polymorphen Formen unter den Familien; und
- f. auf der Basis des bestimmten quantitativen Maßes von polymorphen Formen, Ableiten eines quantitativen Maßes von polymorphen Formen in der Anzahl von abgeleiteten einzigartig markierten Elternpolynukleotiden.
198. Computerlesbares Medium nach Gegenstand 196, bei dem der ausführbare Kode beim Ausführen durch einen Computerprozessor ferner die Schritte durchführt:
- e. Ableiten der Kopienzahlvariation für die Mehrzahl von Sätzen auf der Basis eines Vergleichs der abgeleiteten Anzahl von markierten Elternpolynukleotiden in jedem Satz, der auf jede einer Mehrzahl von Bezugssequenzen kartiert ist.
199. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind;
2. b. Gruppieren von Sequenzauslesungen, die von amplifizierten Polynukleotiden sequenziert worden sind, zu Familien, wobei jede Familie von demselben ersten Polynukleotid in dem Satz amplifiziert worden ist;
3. c. Ableiten eines quantitativen Maßes von Familien in dem Satz; und
4. d. Bestimmen der Kopienzahlvariation durch Vergleichen des quantitativen Maßes von Familien in jedem Satz.
200. Computerlesbares Medium, das einen nicht-flüchtigen, maschinenausführbaren Kode umfasst, der beim Ausführen durch einen Computerprozessor ein Verfahren implementiert, wobei das Verfahren umfasst:
1. a. Zugreifen auf eine Datendatei, die eine Mehrzahl von Sequenzierungsauslesungen umfasst, wobei die Sequenzauslesungen von einem Satz von Nachkommen-Polynukleotiden abgeleitet sind, die von zumindest einem Satz von markierten Elternpolynukleotiden amplifiziert worden sind, Gruppieren der Sequenzauslesungen in Familien, wobei jede Familie Sequenzauslesungen von amplifizierten Polynukleotiden umfasst, die von demselben ersten Polynukleotid amplifiziert worden sind; und
2. b. Ableiten, für jeden Satz von ersten Polynukleotiden, einer Aufrufhäufigkeit für eine oder mehrere Base(n) in dem Satz von ersten Polynukleotiden, wobei das Ableiten umfasst:
  1. i. Zuordnen, für jede Familie, eines Konfidenzwerts für jeden einer Mehrzahl von Aufrufen, wobei der Konfidenzwert eine Häufigkeit des Aufrufs zwischen Mitgliedern der Familie berücksichtigt; und
  2. ii. Abschätzen einer Häufigkeit des einen Aufrufs oder der mehreren Aufrufe unter Berücksichtigung der Konfidenzwerte des einen Aufrufs oder der mehreren Aufrufe, die jeder Familie zugeordnet sind.
201. Zusammensetzung, die zwischen 100 und 100.000 menschliche haploide Genomäquivalente von cfDNA-Polynukleotiden umfasst, wobei die Polynukleotide mit zwischen 2 und 1.000.000 einzigartigen Bezeichnungen markiert sind.
202. Zusammensetzung nach Gegenstand 201, die zwischen 1000 und 50.000 haploide menschliche Genomäquivalente von cfDNA-Polynukleotiden umfasst, wobei die Polynukleotide mit zwischen 2 und 1.000 einzigartigen Bezeichnungen markiert sind.
203. Zusammensetzung nach Gegenstand 201, bei der die einzigartigen Bezeichnungen Nukleotid-Barcodes umfassen.
204. Verfahren, umfassend:
1. a. Bereitstellen einer Probe, die zwischen 100 und 100.000 haploide menschliche Genomäquivalente zellfreier DNA- (cfDNA-) Polynukleotide umfasst; und
2. b. Markieren der Polynukleotide mit zwischen 2 und 1.000.000 einzigartigen Bezeichnungen.
205. Verfahren, umfassend:
1. a. Bereitstellen einer Probe, die eine Vielzahl von menschlichen haploiden Genomäquivalenten fragmentierter Polynukleotide umfasst;
2. b. Bestimmen von z, wobei z ein Maß für die zentrale Tendenz (z.B. Mittel, Median oder Modalwert) der erwarteten Anzahl von Doppelpolynukleotiden beginnend an einer beliebigen Position im Genom ist, wobei Doppelpolynukleotide dieselben Start- und Stopp-Positionen aufweisen; und
3. c. Markieren von Polynukleotiden in der Probe mit n einzigartigen Bezeichnungen, wobei n zwischen 2 und 100.000*z, 2 und 10.000*z, 2 und 1.000*z oder 2 und 100*z liegt.
206. Verfahren, umfassend:
1. a. Bereitstellen zumindest eines Satzes von markierten Elternpolynukleotiden und für jeden Satz von markierten Elternpolynukleotiden;
2. b. Erzeugen einer Vielzahl von Sequenzauslesungen für jedes markierte Elternpolynukleotid in dem Satz, um einen Satz von Sequenzierungsauslesungen zu erzeugen; und
3. c. Zusammenfassen des Satzes von Sequenzierungsauslesungen, um einen Satz von Consensussequenzen zu erzeugen, wobei jede Consensussequenz einem einzigartigen Polynukleotid in dem Satz von markierten Elternpolynukleotiden entspricht.

Bezugszeichenliste

(1): Modem zur Verbindung mit dem Internet
(2): Software
(3): Chip, der eine Anordnung von Mikrowells für Sequenzierungsreaktionen aufweist
(4): Sequenzierungsvorrichtung
(5): Probe
(6): Anwender
(7): Computersystem
(8): Handheld-Gerät, um einem weit entfernten Anwender Sequenzierungsinformationen bereitzustellen

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 61696734 [0001]
US 61704400 [0001]
US 61793997 [0001]
US 61845987 [0001]
US 20010053519 [0217]
US 20030152490 [0217]
US 20110160078 [0217]
US 6582908 [0217]
US 7537897 [0227]

Claims

Zusammensetzung, die zwischen 100 und 100000 menschliche haploide Genomäquivalente von cfDNA-Polynukleotiden umfasst, wobei die cfDNA-Polynukleotide mit zwischen 5 und 1000 verschiedenen Oligonukleotid-Barcodes markiert sind.
Zusammensetzung nach Anspruch 1, die zwischen 1000 und 50000 haploide menschliche Genomäquivalente von cfDNA-Polynukleotiden umfasst.
Zusammensetzung nach Anspruch 1 oder Anspruch 2, bei der die Anzahl der verschiedenen Oligonukleotid-Barcodes beträgt: a. zumindest 10 und höchstens 1000; b. zumindest 15 und höchstens 1000; c. zumindest 25 und höchstens 1000; oder d. zumindest 5 und höchstens 100.
Zusammensetzung nach einem der vorhergehenden Ansprüche, wobei Adapter-Oligonukleotide die Oligonukleotid-Barcodes umfassen.
Zusammensetzung nach einem der vorhergehenden Ansprüche, wobei die cfDNA-Polynukleotide an beiden Enden mit den Oligonukleotid-Barcodes markiert sind.