Darstellung
von bevorzugten Ausführungsbeispielen gemäß der Erfindung
Der
Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur automatischen
und zuverlässigen Qualitätsbestimmung
von RNA anhand von Elektropherogrammen zu entwickeln. Dies wird
durch die Merkmale der unabhängigen
Ansprüche
gelöst.
Ausführungsformen
der erfindungsgemäßen Verfahren
sind unabhängig
von der Quelle und Art des RNA-Materials effektiv einsetzbar, das
heißt
unabhängig
von der biologischen Spezies, dem Zellzustand, dem Gewebe- bzw.
Organtyp, dem Organismus, der Konzentration und der Präparationsmethode
der RNA-Proben.
Das
erfindungsgemäße Verfahren
mit den Merkmalen der Ansprüche
1 oder 22 hat gegenüber dem
Stand der Technik den Vorteil, dass die RNA-Proben mit einem objektiven,
einheitlichen und reproduzierbaren Qualitätswert charakterisiert werden
können.
Dies eröffnet
neue Möglichkeiten
für die Qualitätskontrolle
und Qualitätssicherung,
wie beispielsweise objektive Qualitätsvergleiche von RNA-Proben
verschiedener Hersteller und Herkunft sowie eine einheitliche Festlegung
von Mindestanforderungen an die Qualität für verschiedene Genom-Experimente.
Das
Verfahren kann beispielsweise bei RNA-Proben durchgeführt werden,
die mit dem Agilent 2100 Bioanalyzer und dem Eukaryote Total RNA Nano-Assay
analysiert wurden. Dieses Assay schreibt die Verwendung von RNA
6000 Nano LabChip® Kit vor, mit dem RNA
von Eukaryonten-RNA im Nanogramm-Konzentrationsbereich, d.h. von
5–500 ng/μl, analysiert
werden können.
Bei der „total
RNA" handelt es
sich um eine Präparation
der zellulären Gesamt-RNA,
bestehend aus mRNA, rRNA sowie tRNA.
Es
besteht außerdem
die Möglichkeit,
das Verfahren mit anderen RNA-Assays des Agilent 2100 Bioanalyzer
Systems durchzuführen.
Bei dem „Eukaryote
Total RNA Pico-Assay werden beispielsweise RNA-Konzentrationen im
Picogramm-Bereich eingesetzt. Das Verfahren kann ebenfalls für die Qualitätsbestimmung
der RNA aus Prokaryonten eingesetzt werden. Prokaryonten-RNA unterscheidet
sich von der Eukaryonten-RNA hauptsächlich in den auftretenden
Polymerlängen
der ribosomalen Fragmente. Schließlich kann das Verfahren für mRNA-Assays (Eukaryote
mRNA Nano, Eukaryote mRNA Pico, Prokaryote mRNA Nano, Prokaryote
mRNA Pico) verwendet werden. mRNA-Präparationen enthalten idealerweise
ausschließlich
den mRNA-Anteil der zellulären
Gesamt-RNA.
Als
Elektropherogramme werden Diagramme einer Elektrophorese bezeichnet.
In den Diagrammen wird die Quantität der gemessenen RNA-Fragmente
gegen ihre Migrationsszeit aufgetragen. Diese können beispielsweise mit Agilent
2100 Bioanalyzer oder mit klassischen Verfahren der Gel-Elektrophorese
bestimmt werden. Umgangssprachlich wird auch die Gesamtheit der
dem Elektropherogramm zugrundeliegenden Datenpunkte als Elektropherogramm
bezeichnet.
Die
Datenpunkte eines Elektropherogramms bilden die Eingabe für das Verfahren.
Das Verfahren extrahiert im ersten Schritt wenige vorgegebene Merkmale
(f1, ..., fl) aus
den Elektropherogramm. Im zweiten Schritt wird aus diesen Merkmalen
der Qualitätswert
mit Hilfe eines Qualitätsalgorithmus
berechnet.
Nach
einer vorteilhaften Ausgestaltung der Erfindung wird der Qualitätsalgorithmus
durch folgende Verfahrensschritte bestimmt:
- A.
Anlegen einer statistisch signifikanten Versuchsmenge von RNA-Elektropherogrammen
zu einer vorgegebenen Menge von RNA-Proben,
- B. Vorgabe eines Qualitätskennzeichens
q zu jedem Elektropherogramm,
- C. Extraktion möglichst
vieler aussagekräftiger Merkmale
aus den Elektropherogrammen mittels Methoden der Datenanalyse,
- D. Bestimmung funktionaler Zusammenhänge zwischen Qualitätskennzeichen
und bestimmten Merkmalskombintionen, beispielsweise mit einem adaptiven
Verfahren,
- E. Zuordnung eines Gütewertes
zu jedem der funktionalen Zusammenhänge, bespielsweise die nach
der Bayes'schen
Methode ermittelte a posteriori Wahrscheinlichkeit,
- F. Bestimmung des funktionalen Zusammenhangs mit dem höchsten Gütewert als
Qualitätsalgorithmus.
Als
Versuchmenge werden möglichst
viele Elektropherogramme angelegt. Es ist besonders wichtig, dass
die Versuchsmenge die Daten realer Anwendungen wiederspiegelt.
Alle
Proben werden im Vorfeld sorgfältig
mit einem Qualitätskennzeichen
versehen. Dieses Qualitätskennzeichen
ist die Zielgröße, die
für die
spätere Auswahl
der besten Merkmalskombination und das Trainieren des neuronalen
Netzes verwendet wird.
Die
Qualität
einer RNA-Probe ist eine kontinuierliche Größe, so dass sich keine natürlichen Qualitätsklassen
ergeben. Daher werden nach einer weiteren vorteilhaften Ausgestaltung
der Erfindung diskrete Qualitätsklassen
festgelegt. Beispielsweise können
sieben Qualitätsklassen
eingeführt
werden. Die qualitativ schlechtesten RNA-Proben werden mit dem Qualitätskennzeichen „1" versehen und in
die erste Klasse eingeordnet. Die qualitativ etwas besseren RNA-Proben
werden mit „2" gekennzeichnet und in
die zweite Klasse eingeordnet usw. Die qualitativ besten RNA-Proben
enthalten schließlich
das Kennzeichen "7".
Der
adaptive Ansatz hat den Vorteil, dass die beste Merkmalskombination
für die
Qualitätsbestimmung
automatisch ausgewählt
wird und auf dieser Merkmalskombination die Qualität adaptiv
gelernt wird.
An
diesem Punkt stellt die Gesamtheit aller digitalen Elektropherogramme
mit zugehörigen
Qualitätskennzeichen
q ∊ {1, ..., 7}und die komplette Wissensbasis für die Weiterentwicklung
des Verfahrens dar.
Das
Ziel der Extraktion von Merkmalen aus den Elektropherogrammen ist
es, aus dem Elektropherogramm möglichst
viele aussagekräftige
Merkmale zu extrahieren. Erfindungsgemäß teilt man hierzu das Elektropherogramm
in folgende Bereiche auf: Pre-Region, Marker-Region, 5S-Region,
Fast-Region, 18S-Region, Inter-Region, 28S-Region und Post-Region.
Jeder
dieser Bereiche wird anschließend
getrennt betrachtet und liefert einige bereichsspezifische, sogenannte
lokale Merkmale, die gemeinsam die Form des Elektropherogramms in
dem betroffenen Bereich ausreichend genau beschreiben. Außerdem werden
einige globale, d.h. bereichsübergreifende,
Merkmale extrahiert. Das Ergebnis dieses Verfahrensschrittes ist
eine Liste von beispielsweise ca. 100 Merkmalen pro Elektropherogramm.
Die
Basis der Datenanalyse bildet eine Liste mit den im Elektropherogramm
erkannten Maxima, die als Peaks bezeichnet werden. Die Erkennung
der Peaks wird durch Integration der Datenkurve erreicht. Die Integration
liefert neben der Position der Peaks auch die Start- und Endpunkte
der Peaks sowie deren Höhe,
Breite und Fläche.
In
Anlehnung an die Agilent 2100 Bioanalyzer System Software werden
einige Peaks als „Ladder
Peak", „Marker", „18S-Peak"- und „28S-Peak" markiert. Das neue
Verfahren zur Integration und Markierung weist gegenüber dem
Stand der Technik eine deutliche Weiterentwicklung und Verbesserungen
der Genauigkeit und der Robustheit gegen Anomalien wie „Ghost
Peak" und „Spikes" auf. Gemäß der Erfindung
stellt man dafür
ein statistisches lineares Modell über Position, Höhe und Fläche der
ersten vier Ladder Peaks bereit. Die vier Peaks in der Ladder-,
die gemeinsam am besten zum Modell passen, werden als Ladder Peaks
bezeichnet und markiert.
Der
erste Ladder Peak in der Ladder- ist der Lower-Marker, dessen Position,
Höhe und
Fläche
bis auf den Drift-Effekt mit den Positionen, Höhen bzw. Flächen der Lower-Marker der restlichen
Proben eines Chips übereinstimmen.
Wieder wird ein statistisches Modell aufgestellt, das diesmal neben
der Position, Höhe
und Fläche
auch den Lower-Marker-Verlauf in den Proben eines Chips berücksichtigt.
Die 13 Peaks, ein Peak aus jeder Probe eines Chips, die am besten
zu diesem Modell passen, werden als Lower-Marker markiert.
Anschließend werden
der Zusammenhang zwischen den Positionen des Markers und der 18S- und
28S-Peaks in einem Modell zusammengefasst und die entsprechenden
Peaks als 18S- und 28S-Peaks markiert. Bei stark degradierten RNA-Proben
sind 18S und 28S-Peaks nicht mehr von dem Hintergrund unterscheidbar.
In diesen Fällen
wird die geschätzte
Position der 18S- und 28S-Peaks
berechnet, um die nachfolgende Aufteilung in Bereiche für alle Qualitätsklassen
zu ermöglichen.
Die
auf diese Weise erhaltene Markierung weicht lediglich in 0.8% der
Fälle von
der manuellen Markierung der „Lower
Marker" und in 1.2%
der Fälle von
der manuellen Markierung der 18S- und 28S-Peaks ab.
In
weiterer Ausbildung der Erfindung erfolgt auf Basis der Markierung
eine Aufteilung jedes Elektropherogramms in die oben erwähnten acht
aneinander angrenzenden Bereiche, die den gesamten Datenbereich
abdecken. Der Bereich vor dem Lower-Marker wird als Pre-Region bezeichnet.
Die Marker-Region deckt sich mit dem Bereich, den der Lower-Marker-Peak
einnimmt. Die 18S- und 28S-Regionen erstrecken sich jeweils über den
18S-Peak bzw. 28S-Peak. Zwischen Marker-Region und 18S-Region liegen
zwei Regionen, die 5S-Region und die Fast-Region. Die ungefähre Grenze
zwischen diesen beiden Bereichen wird aus der Position des Lower Markers
und der 5.8S/5S/tRNA Peaks in den Proben mit vorhandener 5.8S und
5S rRNA sowie tRNA bestimmt und anhand der jeweiligen Position des
Lower Markers auf alle Proben übertragen.
Die Inter-Region liegt zwischen den 18S- und 28S-Bereichen. 1 der
Zeichnung veranschaulicht die vorgenommene Aufteilung.
Die
Korrektur der Basislinie im Elektropherogramm, auch genannt Baseline,
wird ebenfalls in Anlehnung an Agilent 2100 Bioanalyzer System Software
mit wesentlichen Verbesserungen vorgenommen. In den Bereichen Pre-Region
und Post-Region verläuft
die Baseline bis auf das Rauschen idealerweise auf einem konstanten
Niveau. Das Niveau kann von Elektropherogramm zu Elektropherogramm
sehr unterschiedliche Werte annehmen. In einigen Fällen kann
die Baseline auch eine Steigung oder gar Wellen aufweisen. Letzteres
stellt ein deutliches Indiz für ein
aufgetretenes Problem während
der Datenakquisition dar.
Der
Grundgedanke der Baseline-Korrektur besteht darin, den konstanten,
oder den mit der Zeit proportionalen zu- bzw. abnehmenden Hintergrundanteil
aus dem Datensignal zu entfernen. Dazu wird erfindungsgemäß versucht,
eine Gerade zu finden, die in den Bereichen Pre-Region und Post-Region mit
dem Datensignal bis auf das Rauschen übereinstimmt, d.h. die im Mittel
um Noise Standard Deviation σnoise von dem Datensignal abweicht. Für die Berechnung
der Noise Standard Deviation σnoise wird die übliche aus der Literatur bekannte
Formel benutzt.
Vor
der eigentlichen Merkmalsextraktion wird das Datensignal auf das
globale Maximum in der 5S-Region, der Fast-Region, der 18S-Region,
der Inter-Region und der 28S-Region normiert. Die Marker-Region
wird hier außer
Acht gelassen, um auf diese Weise verschiedene Konzentrationen besser zu
handhaben.
Neben
der ursprünglichen
Datenkurve verwendet man weitere geglättete Datenkurven. Zur Glättung der
Datenkurve verwendet man vorzugsweise den Savitzky-Golay-Filter
und den Rollingball-Algorithmus nach
EP 0 969 283 A1 .
Für alle Regionen
bieten sich folgende lokale Merkmale zur Extraktion aus der ursprünglichen
und den geglätteten
Datenkurven an:
- • Minimaler/Maximaler Wert im
Bereich
- • Die
Steigung und y-Achsenabschnitt der interpolierenden Geraden durch
die Kurvenpunkte des Bereichs
- • Die
Geradenwerte am Anfang und dem Ende des Bereichs
- • Fläche unter
der Kurve
- • Fläche unter
der interpolierenden Geraden
- • Verhältnis der
Fläche
unter der Kurve zur Fläche der
gesamten Kurve
- • Abweichung
der interpolierenden Geraden von der Datenkurve
- • Abweichung
der geglätteten
Datenkurven von der ursprünglichen
Datenkurve
Ausserdem
extrahiert man einige globale Merkmale
- • TotalRNARatio
= Verhältnis
der Fläche
in den 18S- und 28S-Fragmenten zur Gesamtfläche im Nutzbereich
- • 28/18
Ratio = Verhältnis
der Fläche
des 28S-Fragments zur Fläche
des 18S-Fragments
- • Signal-Noise-Ratio
- • Noise-Standard-Deviation
- • Konzentration
der RNA-Probe, die sich aus der Fläche unter der Datenkurve der
Ladder mit vorgegebener Konzentration und der Fläche unter der Datenkurve der
Probe berechnen lässt.
Die
Gesamtheit der aus allen RNA-Elektropherogrammen extrahierten Merkmale
und die zugehörige
Qualitätskennzeichen
q bilden die komplette Wissensbasis für den nächsten Schritt, die Bestimmung
des funktionalen Zusammenhangs zwischen dem Qualitätskennzeichen
und einer geeigneten Merkmalskombination. Die zu verwendende Merkmalskombination
sowie der funktionale Zusammenhang kann beispielsweise mit einem
adaptiven Verfahren bestimmt werden.
Für die Performanz
eines adaptiven Verfahrens ist die Wahl eines passenden Modells
sehr wichtig. Je mehr einzustellende Parameter das Modell enthält, um so
mehr Trainingsdaten werden gebraucht, um einen performanten funktionalen
Zusammenhang zu bestimmen. Im Zusammenhang mit zweischichtigen,
vorwärtsgerichteten
neuronalen Netzen versteht man unter einem Modell die Anzahl der
Neuronen in der Eingabeschicht und der versteckten Schicht des neuronalen Netzes.
Die einzustellenden Parameter sind die Gewichte von den Eingabeneuronen
zu den versteckten Neuronen, sowie von versteckten Neuronen zum
Ausgabeneuron. Es ist daher besonders wichtig, möglichst wenige Merkmale als
Eingabe für
das neuronale Netz zu wählen. Diese
Merkmalskombination muss natürlich
ausreichend Information in Bezug auf das Qualitätskennzeichen tragen.
Nach
einer weiteren vorteilhaften Ausgestaltung der Erfindung wird eine
iterative Vorwärtssuche realisiert,
die zuerst nach dem Merkmal sucht, das in Hinblick auf das Qualitätskennzeichen
die meiste Information liefert. Im zweiten Schritt wird nach der besten
Ergänzung
zum ersten Merkmal hinsichtlich des Informationsgehalts zum Qualitätskennzeichen gesucht.
Weitere Schritte der iterativen Vorwärtssuche ordnen die Merkmale
in eine Liste dergestalt an, dass das neu hinzugefügte Merkmal
die bisherigen Merkmale hinsichtlich des Informationsgehalts zum Qualitätskennzeichen
maximal gut ergänzt.
In
jedem Schritt der iterativen Vorwärtssuche wird die Mutual Information,
d.h. der wechselseitige Informationsgehalt der Merkmalskombination
und des Qualitätskennzeichens
maximiert. Die Definition und Informationen zu Mutual Information
findet man in einschlägiger
Literatur. Für
die Berechnung der Mutual Information wird die Software quantumSEL aus
dem Software-Packet quantum der Firma quantiom bioinformatics GmbH
i.G. benutzt. Informationen über
die Software und die Firma sind unter www.guantiom.de erhältlich.
In
den nächsten
Schritten wird das eigentliche Modell, d.h. die zu verwendete Merkmalskombination
und die Anzahl der versteckten Neuronen bestimmt.
Man
versucht zuerst, den besten funktionalen Zusammenhang zwischen dem
ersten Merkmal f1 aus der Liste (f1, K, fn) und dem
Qualitätskennzeichen zu
bestimmen. Die Komplexität
des gesuchten einstelligen funktionalen Zusammenhangs kann durch schrittweise
Hinzunahme von versteckten Neuronen erhöht werden. Zu jedem solchen
funktionalen Zusammenhang lässt
sich ein Gütewert
berechnen. Mit der Erhöhung
der Anzahl von versteckten Neuronen beobachtet man zuerst eine Zunahme
und danach eine Abnahme des Gütewertes
des gefundenen Zusammenhangs. Zuerst ist das Modell nicht komplex genug.
Zu komplexe Modelle enthalten dagegen zu viele Parameter, die mit
der gegebenen Datenmenge nicht mehr sicher eingestellt werden können. Das Merkmal
f1 und die Anzahl der versteckten Neuronen, für die sich
das Maximum des Gütewertes
ergibt, bilden das beste einstellige Modell für den Qualitätsalgorithmus.
Nun
versucht man durch schrittweise Hinzunahme weiterer Merkmale aus
der Liste den Gütewert
zu erhöhen.
Man findet nacheinander die beste Anzahl versteckter Neuronen und
den entsprechenden Gütewert
für die
Merkmalskombinationen (f1, f2), (f1, f2, f3)
usw. Man beobachtet zuerst eine Zunahme und danach eine Abnahme
des Gütewertes.
Die Merkmalskombination (f1, f2,
K, fl) und die zugehörige Anzahl versteckter Neuronen,
für die
der Gütewert maximal
wird, ist das zu verwendende Modell für den Qualitätsalgorithmus.
Die Vorgehensweise wird in der 12 veranschaulicht.
Nach
einer vorteilhaften Ausgestaltung des erfindungsgemäßen Verfahrens
werden die Gütewerte
mit einer Bayes'schen
Methode bestimmt. Beispielsweise benutzt man den "Maximum a posteriori"-Ansatz, auch MAP-Ansatz
genannt. Im MAP-Ansatz wird die a-posteriori-Wahrscheinlichkeit
für ein gegebenes
Modell anhand der Trainingsdaten berechnet. Die a-posteriori-Wahrscheinlichkeit
ist der Gütewert
für das
Modell. Die Adaption der Gewichte des neuronalen Netzes mit dem
ausgewählten
Modell wird ebenfalls mit dem MAP-Ansatz vorgenommen. Weitere Informationen
zum MAP-Ansatz findet man in einschlägiger Literatur.
Der
MAP-Ansatz ist in der Software quantumLEAD aus dem Software-Packet
quantum der Firma quantiom bioinformatics GmbH i.G. realisiert, die
beim hier geschilderte Verfahren zum Einsatz kommt.
Man
erhält
einen Qualitätsalgorithmus,
der aus einer vorgegebenen Merkmalskombination eines Elektropherogramms
einen Qualitätswert
berechnet. Der berechnete Qualitätswert
ist eine Dezimalzahl und wird im Kontext der eingeführten Qualitätskennzeichen
interpretiert. So bedeutet beispielsweise eine Qualitätszahl 5.8,
dass das untersuchte Elektropherogramm von etwas schlechterer Qualität als der Durchschnitt
der Elektropherogramme der Versuchsmenge mit dem Qualitätskennzeichen
6 ist, jedoch von viel besseren Qualität als d er Durchschnitt der Elektropherogramme
der Versuchsmenge mit dem Qualitätskennzeichen
5.
Nach
einer vorteilhaften Ausgestaltung der Erfindung wird neben dem Qualitätswert der
Grad der Anomalie der RNA-Probe bestimmt. Hinsichtlich der großen Zahl
der in Elektropherogrammen beobachteten Anomaliefälle werden
diejenigen betrachtet, die besonders häufig vorkommen oder die Aussagekraft des
Qualitätswerts
gravierend stören
können.
Das Elektropherogramm wird auf das Vorhandensein dieser vorgegebenen
Anomaliefälle
untersucht, und damit wird der Qualitätswert um die Information von eventuellen
Anomalien bereichert. Erfindungsgemäß werden folgende Anomaliefälle vorgegeben:
Ghostpeaks, Spikes und andere Abweichungen in Pre-Region, 5S-Region,
Fast-Region, Inter-Region und Post-Region, sowie Probleme mit der
Basislinie.
Für jeden
Anomaliefall werden wenige dafür vorgegebene
Merkmale aus dem Elektropherogramm extrahiert und das Vorhandensein
des Anomaliefalles mittels eines zugehörigen Anomaliefallalgorithmus
berechnet. Es ergibt sich ein Binärvektor, dessen Elemente signalisieren,
ob das Elektropherogramm den entsprechenden Anomaliefall enthält.
Werden
keine Anomaliefälle
ermittelt, so wird das Elektropherogramm als Anomalifrei angesehen, anderenfalls
als Anomalie-behaftet. Das Auftreten von Anomalien verhindert eine
sichere Berechnung des Qualitätswertes.
Daher berechnet man zuerst die Anomaliefälle und bricht die Berechnung
des Qualitätswertes
eines anomaliebehafteten Elektropherogramms gegebenenfalls ab.
Es
besteht die Möglichkeit
Anomaliefälle
in kritische, wie 5S-Region, Fast-Region, Inter-Region und Probleme
mit der Basislinie, und unkritische, wie Pre-Region und Post-Region,
zu unterteilen. Tritt ein unkritischer Anomaliefall auf, so kann
der Qualitätswert
relativ sicher berechnet werden und dem Anwender mit einem Hinweis
auf den unkritischen Anomaliefall angezeigt werden. In diesem Zusammenhang
spricht man vom Grad der Anomalie eines Elektropherogramms, nämlich: Anomaliefrei,
unkritisch Anomalie-behaftet oder Anomalie-behaftet.
Für die Bestimmung
des einzelnen Anomaliefallalgorithmus werden die Schritte A bis
F analog wie für
den Qualitätsalgorithmus
durchgeführt,
mit der Ausnahme, dass anstelle des Qualitätskennzeichens das Anomaliefallkennzeichen
verwendet wird.
Gemäß der Erfindung
erhält
man nach der Ausführung
der oberen Schritte einen Verfahren zur Qualitätsbestimmung der RNA-Proben.
Das Verfahren zur Qualitätsbestimmung
zeichnet sich durch eine sehr gute Performanz und Robustheit aus.
Weitere
Vorteile und vorteilhafte Ausgestaltungen der Erfindung sind der
nachfolgenden Beschreibung, der Zeichnung und den Ansprüche zu entnehmen.
In
den Zeichnungen ist „Time
(seconds)" als „Zeit (Sekunden)" zu lesen. In 12 steht „Model Evidence" für „Modell-Evidenz" und „Hidden
Units" für „Versteckte
Einheiten", sowie "feature(s)" für „Merkmal(e)".
Zeichnung
In
der Zeichnung sind einige Details der erfindungsgemäßen Verfahrens
dargestellt. Es zeigen:
1 Aufteilung
der Bereiche eines Elektropherogramms,
2 Elektropherogramm
mit einer Ladder,
3a)–f)
Elektropherogramm von verschiedenen RNA-Proben unterschiedlicher
Qualität,
4a)–b)
Elektropherogramme von RNA-Proben mit unterschiedlicher Präparationsmethode,
5a)–f)
Elektropherogramm dreier RNA-Proben mit vergleichbarer Qualiät und unterschiedlicher
Skalierung,
6 Multipeak-Fragmente,
7 gelartige
Darstellung von RNA-Proben,
8 Ghostpeaks,
9a)–b)
Ghostpeaks,
10 Spikes,
11a)–c)
Elektropherogramme mit unterschiedlichen Baselines
12 Veranschaulichung
der Vorgehensweise bei der Modellauswahl,
13a)–b)
extrahierte Merkmale in der Fast-Region,
14 Flussdiagramm
zur Veranschaulichung der Bestimmung des Qualitätswerts,
15 Flussdiagramm
zur Veranschaulichung des Qualitätsalgorithmus.
1 zeigt
eine Aufteilung eines Elektropherogramms in die acht Bereiche: Pre-Region, Marker-Region,
5S-Region, Fast-Region, 18S-Region, Inter-Region, 28S-Region und Post-Region.
Die Grenzen der Bereiche sind nicht eingezeichnet.
2 zeigt
eine typische Ladder. Die Ladder enthält sieben vom Assay vorgeschriebene DNA-Fragmente
bekannter Länge
und Konzentration. Ihr Elektropherogramm wird analysiert und zur Quantifizierung
ausgewertet.
3a) bis f) zeigen Elektropherogramme von
totalRNA-Proben verschiedener Qualität in absteigender Reihenfolge
von a) bis f). RNA-Proben guter Qualität zeigen neben dem unteren
Marker, dem ersten Peak, deutliche Peaks in den 18S- und 28S-rRNA-Fragmenten.
Mit absteigender Qualität werden
die Peaks in den rRNA-Fragmenten
immer undeutlicher bis sie gar nicht mehr vom Hintergrund zu unterscheiden
sind. Gleichzeitig bildet sich in ein Hügel aus degradierter RNA, der
sich nach links zu kürzeren
Migrationszeiten und somit kleineren Massen verschiebt.
4 zeigt
totalRNA-Proben vergleichbarer Qualität und Konzentration. Die Unterschiede
im 5S-Bereich, der sowohl 5.8S und 5S rRNA als auch tRNA enthalten
kann, hängen
im großen
Maße von der
Präparationsmethode
ab. Das Elektropherogramm in der Teilabbilung a) enthält eine
große
Menge von RNA in der 5S-Region. Die 5.8S und 5S rRNA- und tRNA-Anteile
der Probe in der Teilabbildung b) wurde bei der Präparation
größtenteils
ausgefiltert.
5 zeigt
drei RNA-Proben mit Konzentrationen von 2mg/μl, 250ng/μl und 25ng/μl vergleichbarer Qualität. Die Teilabbildungen
a), c) und e) stellen die RNA-Proben mit einem gemeinsamen Skalierungsfaktor
dar. Die Konzentration des Markers ist durch das TotalRNA-Nano-Assay
vorgeschrieben. Daher haben die Marker bei einem gemeinsamen Skalierungsfaktor
dieselbe Höhe,
während
die Größe der Peaks
in den 18S und "28S" Bereichen variiert. Die
Teilabbildungen b), d) und f) zeigen dieselben Proben mit unterschiedlichen
Skalierungsfaktoren.
6 zeigt
neben dem 28S-Hauptpeak, einen klar ausgebildeten 28S-Copeak.
7 zeigt
eine gelartige Darstellung von RNA-Proben. Diese Darstellung simuliert
die Ansicht eines Gels wie es bei einer Gelelektrophorese entsteht
und kann aus dem Elektropherogramm gewonnen werden. Scharfe, dünne Striche
in der gelartigen Darstellungentsprechen im Elektropherogramm gut ausgebildeten,
scharten Peaks. Breitere Graubereiche entsprechen wellenartigen
Erhöhungen.
Diese gelartige Darstellung eignet sich besonders, um den Drift-Effekt
zu veranschaulichen. Die Abbildung zeigt die 13 Proben eines Chips.
Die erste Probe enthält die
Ladder. Die Ladder enthält
durch das verwendete Assay vordefinierte DNA-Fragmente und wird
zur optionalen Normierung und Konzentrationsbestimmung für jeden
Chip mitanalysiert. Die restlicheh 12 Proben enthalten. die eigentlichen
RNA-Proben. Die Abbildung zeigt den typischen Drift-Effekt auf,
Marker sowie 18S- und 28S-Peaks bilden Proben-übergreifende Wellen.
8 zeigt
ein durch mehrere Ghost Peaks gestörtes Elektropherogramm.
9a) zeigt einen Ghost Peak, der das eigentliche
Signal übertönt. Der
Marker und die 18S- und 28S-Fragmente sind kaum erkennbar. Die Teilabbildung
9b) zeigt dasselbe geeignet skalierte Elektropherogramm – der Marker
und die beiden ribosomalen Peaks sind nun gut erkennbar.
10 zeigt
einen Spike. Spikes sind selten auftretende hohe, wenige Datenpunkte
breite Peaks.
11a) zeigt eine ideale, horizontal verlaufende
Baseline. Die Baseline in der Teilabbildung b) ist deutlich geneigt,
wird jedoch immer noch akzeptiert. Die Teilabbildung c) zeigt eine
wellenförmige Baseline,
ein Indiz für
aufgetretene Probleme während
der Datenaquisition. Die Abbildung veranschaulicht ebenfalls die
deutliche Schwankung der absoluten Fluoreszenzwerte von Chip zu
Chip. Man vergleiche dazu das Baselineniveau und die Markerhöhe in den
Teilabbildungen a) und b). Daher werden in der Datenanalyse ausschließlich relative
bzw. normierte Fluoreszenzwerte berechnet.
12 veranschaulicht
die Vorgehensweise bei der Modellauswahl. Man trainiert mehrere
Modelle auf den Merkmalsvektoren f1, (f1, f2), ..., (f1, K, fl), ..., (f1, K, fn) mit unterschiedlich
vielen versteckten Neuronen 1K h. Für die Anomalie- und Qualitätsbestimmung
ist h = 7 vollkommen ausreichend. Mit wachsender Komplexität des Modells,
d.h. der Anzahl der verwendeten Merkmale und versteckter Neuronen beobachtet
man zuerst einen Anstieg der Evidenz bis das Modell für die Fragestellung
komplex genug ist. Anschließend
fällt die
Evidenz wieder ab, weil das Modell zu komplex ist. Das Modell mit
der größten a posteriori
Wahrscheinlichkeit, auch Evidenz genannt, wird ausgewählt.
13a) und b) zeigt beispielhaft die extrahierten
Merkmale in der Fast-Region aus der ursprünglichen Datenkurve. Man beachte,
dass das Maximum des Elektropherogramms auf den Wert 1,0 normiert
wurde. Der Maximalwert und der Minimalwert der Datenkurve in Fast-Region
sind als Punkte in der Teilabbildung a) dargestellt. Die Fläche unter der
Datenkurve ist schwarz markiert. In der Teilabbildung b) ist die
interpolierende Gerade als Linie und die Werte der interpolierenden
Geraden an den Endpunkten der Fast-Region als Punkte dargestellt.
Die Abweichung der interpolierenden Geraden von der Datenkurve ist
schwarz markiert.
Das
Flussdiagramm gemäß 14 veranschaulicht
die Vorgehensweise bei der Qualitätsbestimmung bzw. die Verwendung
des berechneten Qualitätswertes
in Abhängigkeit
vom berechneten Grad der Anomalie. Die Ausgabe des Qualitätswertes
zu einem anomaliebehafteten Elektropherogramm ist wenig sinnvoll.
Das
Flussdiagramm gemäß 15 veranschaulicht
die Vorgehensweise zur Bestimmung des Qualitätsalgorithmus. Dieselbe Vorgehensweise
wird für die
Bestimmung der einzelnen Anomaliefallalgorithmen benutzt.