GfM-Tagung 2019, Panel Materialität und Ästhetik der Wissenschaften
Werkzeuge biologischer Datenarbeit
Der Genomics Workshop der Data Carpentry
Dr. Birk Weiberg
Zürcher Hochschule der Künste
birk.weiberg@zhdk.ch
27. September 2019
Mit der Digitalisierung biologischer Forschung kam es zur Überschneidung zweier
Fachgebiete – der Biologie und der Informatik –, die über jeweils eigene Methoden,
Geschichten, Infrastrukturen und Personen verfügten. Wenn ich im Folgenden einen Blick auf diese fortdauernde Transdisziplinierung bzw. die längst eigenständige Disziplin computational biology oder Bioinformatik werfe, lege ich meinen Fokus darauf, wie Biologen Kenntnisse in Informatik erwerben, um ihr Repertoire an
Methoden zu erweitern.
Das Center for Computational Biology and Bioinformatics der University of Texas
at Austin, mit dem wir in unserem Forschungsprojekt1 zusammenarbeiten, bietet
hier eine «Summer School for Big Data in Biology» an. Zu den Kursangeboten gehört
u.a. «Creating A Reproducible Data Analysis Workflow», ein umbenannter Carpentry Workshop, der in ähnlicher Form nicht nur in Austin, sondern weltweit angeboten wird. Die Software Carpentry ist eine vor zwanzig Jahren von Greg Wilson
gestartete Initiative, die später um eine Data und eine Library Carpentry erweitert
wurde. The Carpentries, wie sich die Dachorganisation inzwischen nennt, entwickelt unter offenen Lizenzen stehende Kurse mit niederschwelligen, kompakten
Einführungen in die Informatik für Nicht-Informatiker und bildet Coaches aus, die
diese unentgeltlich anbieten.2 Mit dem Bild der Tischlerei setzt sich das Angebot dabei bewusst von Programmierung als eigenständiger Disziplin ab und propagiert
statt dessen praktische Lösungen für den Forschungsalltag.
Die in der Regel zweitägigen Kurse sind modular aufgebaut. Der «Genomics Workshop», um den es mir hier geht, besteht aus vier Modulen, die mal mehr mal weniger fachspezifisch sind:
• «Project organization and management» erklärt grundsätzliche Aspekte der
Datenarbeit anhand sowohl allgemeiner Konzepte wie data tidyness als auch
in Hinblick auf fachspezifische Fragen nach relevanten Datenrepositiorien.
• «Introduction to the command line» stellt das Arbeiten mit der Shell vor, das
so auch in anderen Workshop-Angeboten auftaucht.
1
2
https://computersignale.zhdk.ch
https://carpentries.org
1
• «Data wrangling and processing» erläutert dagegen einen für die Bioinformatik weitgehend standardisierten Arbeitsablauf, den ich gleich genauer vorstellen werde.
• «Introduction to cloud computing for genomics» schliesslich ähnelt in seiner
Allgemeingültigkeit dem Modul zum lokalen Arbeiten mit der Kommandozeile und ist nur insofern fachspezifisch, als in der Bioinformatik das Arbeiten auf gemeinsam genutzten aber sehr leistungsfähigen Infrastrukturen aufgrund der grossen Datenmengen fast unausweichlich geworden ist.3
Die Hauptursache für das Ansteigen der Datenmengen und damit wohl auch den
Siegeszug der Bioinformatik ist das Next Generation Sequencing (NGS) zum Auslesen genetischer Informationen. Im Gegensatz zum traditionellen, ebenso zuverlässigen wie langsamen Sanger-Verfahren, arbeitet NGS nicht mehr sequentiell, sondern massiv parallel. D.h. während das Auslesen eines menschlichen Genoms beim
Human Genome Project der 1990er Jahre nach dem klassischen Verfahren 100 Maschinenjahre gedauert hat, ist dies mit aktuellen NGS-Geräten in 48 Stunden und
für einen Bruchteil des Preises möglich. Es gibt verschiedene NGS-Techniken, wobei an der UT Austin vor allem sequencing by synthesis genutzt wird – ein Verfahren, das besonders viele Daten erzeugt. Die Zunahme der Datenmenge ist nicht nur
dadurch bedingt, dass jetzt mehr Genome digitalisiert werden, sondern auch dass
beim Auslesen eines Genoms (bei gleichbleibendem Informationsgehalt) wesentlich mehr Daten erzeugt werden. Dieser Zuwachs erklärt sich dadurch, dass mit
der Beschleunigung und Parallelisierung die Fehleranfälligkeit steigt und daher sowohl mehrere Messungen stattfinden als auch Metadaten zu den Messungen selbst
erfasst werden, um diese später besser interpretieren zu können. Fehlerhaft sind
die Messungen, weil die Polymerase als chemisches Kopierverfahren nicht vollständig kontrollierbar ist aber auch weil für den Sequencer, der die Vorgänge fotografisch erfasst, diese nicht immer eindeutig erkennbar sind. Was der Sequencer
dabei ausgibt sind Rohdaten in dem Sinne, dass es sich um die erste Version eines Datensatzes handelt und dass eine weitere Bearbeitung der Daten notwendig
ist.4
Im Workshop-Modul «Data wrangling and processing»5 wird davon ausgegangen,
dass NGS-Daten bereits vorliegen. Dabei spielt es keine Rolle, ob man die Sequenzierung einer Probe selbst in Auftrag gegeben hat oder man sich – wie das im Workshop aus praktischen Gründen auch geschieht – bei einem entsprechenden Datenrepositorium bedient, in dem in der Regel auch Rohdaten publiziert sind. In den
dann folgenden vier Arbeitsschritten kommen jeweils andere Werkzeuge zum Einsatz, deren Wirksamkeit sich auch in einem Wechsel der Dateiformate manifestiert.
Die Formate – allesamt Eigenentwicklungen der bioinformatischen Community –
erfüllen jeweils eigene Anforderungen, die den Repräsentationswert der jeweiligen Daten widerspiegeln.
Untersuchungsgegenstand ist das E. coli Bakterium, das sich einen festen Platz in
3
4
https://datacarpentry.org/genomics-workshop/
Ein ausführliche Darstellung dieser Entwicklung liefert Gabriele Gramelsberger, Big Data-Revolution
oder Datenhybris? Überlegungen zum Datenpositivismus der Molekularbiologie, in: NTM Zeitschrift
5
für Geschichte der Wissenschaften, Technik und Medizin, 25/4, 2017, 459–83.
https://datacarpentry.org/wrangling-genomics/
2
den wet und nun auch dry labs gesichert hat, einfach weil es bereits viele Untersuchungen dazu gibt, auf die sich neue Untersuchungen beziehen können. (Ein ähnlichen Status hat der Afrikanische Buntbarsch, der im Labor von Hans Hoffmann
eine entscheidende Rolle spielt.)
Der imaginäre Sequencer hat eine ganze Reihe gleichformatiger Dateien geliefert.
Die Metadaten dazu beschreiben nicht nur den Untersuchungsgegenstand, die Proben und Messvorgänge, sondern auch den institutionellen Ort der Messungen und
den jeweiligen Forschungskontext in Form von Literaturangaben.6 Sie beziehen
sich auf einzelne Dateien im FastQ-Format, wobei jede Datei einem SequencerDurchlauf entspricht. Wie fast alle verwendeten Dateiformate handelt es sich bei
FastQ um ein ASCII-basiertes Textformat, d.h. die Dateien können mit jedem Texteditor oder einem selbst geschriebenen Programm gelesen und verarbeitet werden.
So ist es möglich, dass alle in der ersten Phase der Akquise, Organisation und Qualitätskontrolle verwendeten Programme allgemeine Unix-Programme sind, die keine direkte Beziehung zur Bioinformatik haben: curl für den Download, gunzip
zum Dekomprimieren, cp bzw. mv zum Kopieren oder Bewegen innerhalb des lokalen Filesystems, less, head und tail zum Anzeigen und grep zum Durchsuchen
und Filtern.
Der Aufbau der FastQ-Dateien in 4er-Zeilen-Gruppen ist einfach nachzuvollziehen.
Die erste, mit einem @-Zeichen beginnende Zeile identifiziert die Sequenz und kann
um eine Beschreibung ergänzt werden. Die zweite Zeile enthält die genetische Information mit den bekannten Buchstaben A, C, G und T. Zeile 3 beginnt mit einem
+-Zeichen und kann die Information aus Zeile 1 wiederholen. Zeile 4 schliesslich hat
die gleiche Länge wie Zeile 2 und dokumentiert die Qualität des jeweiligen Messwerts auf einer ASCII-basierten aber im Umfang je nach Sequencer variierenden
Skala. Diese beginnt mit dem Ausrufezeichen (bzw. dem Dezimalwert 33, gelesen
als 0) und reicht in unserem Fall dann bis zum grossen I (Dezimalwert 73, normalisiert als 40).
Um die Qualität einer FastQ-Datei beurteilen zu können, gibt es die Software FastQC, die wahlweise über die Shell oder ein einfaches GUI neben verschiedenen Visualisierungen der Daten auch ein Ampel-System für unterschiedliche Indikatoren
anbietet.7 Das Ampel-System, dessen Kriterien fest in die Software integriert sind,
lässt auf einen Grundkonsens schliessen, wie sich gute von schlechten Daten unterscheiden. Die verschiedenen Visualisierungen bieten eine Hilfestellung, wie man
durch eine nachfolgende Filterung der Daten kritische Teile ausschliessen und zu
verwertbaren Restdaten kommen kann.
Die Filterung selbst erfolgt mit einer anderen Software, die den treffenden Namen
Trimmomatic trägt und das Beschneiden der Rohdaten weitestgehend automatisieren soll. Es müssen allerdings eine Reihe von Parametern gesetzt werden, die
bestimmen, wie genau die Daten getrimmt werden sollen.8
6
https://github.com/datacarpentry/wrangling-genomics/blob/gh-pages/files/Ecoli_metadata_
7
composite.csv
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
http://www.usadellab.org/cms/?page=trimmomatic
8
3
Die so bereinigten Daten werden im nächsten Schritt, dem alignment, mit einem Referenzdatensatz verglichen. Hierfür gibt es verschiedene Programme je nach Forschungsziel und der Workshop verwendet exemplarisch den Burrows-Wheeler Aligner (BWA).9 Die verwendete Referenzdatei, die ein vollständiges Genom in den bekannten ACGT-Variationen enthält, zeichnet sich vor allem durch das Fehlen jedweder Formatangaben oder Metadaten aus. Der Dateiname ecoli_rel606 verweist
ebenso schlicht wie positivistisch auf das Bakterium und sein abgebildetes Genom.
Allenfalls das Datei-Suffix könnte noch auf ein konkretes Format verweisen, wird
in der Workshop-Dokumentation aber beim Entpacken der komprimierten Dateien
kommentarlos von .fna auf .fasta geändert.
Die Indexierung des Referenzdatensatzes, die dem Abgleich mit den eigenen Daten
dient, erfolgt ohne Angabe von Parametern mit dem einfachen Befehl bwa index
ecoli_rel606.fasta. Wie der Index aussieht und in welchem Format er wo abgespeichert wird, bleibt unkommentiert und für die Forschenden somit irrelevant.
Das alignment erfolgt ebenfalls über das Programm bwa und einem dafür wählbaren Algorithmus. Das Ergebnis ist eine Datei im SAM-Format, was für «Sequence
Alignment Map» steht. Neben SAM gibt es noch die Alternative BAM, welche dieselben Informationen wesentlich kompakter binär abspeichert. Die Konvertierung
von SAM zu BAM wird mit einer kleinen Software namens SAMtools durchgeführt,
die auch das Sortieren der Fundstellen und das Erstellen statistischer Auswertungen erlaubt.10 Das SAM-Format selbst beginnt mit einem optionalen Header, der
Informationen zur Quelle der Proben, zum Referenzdatensatz und zur verwendeten alignment-Methode enthält. Die Angaben zu dem einzelnen Fundstellen sind
Tabulator-separiert, liessen sich also auch in einer Tabelle darstellen, und enthalten nun auch wieder ‹weiche› Angaben, wie wir sie bei FastQ gesehen haben, z.B.
zur Qualität der Übereinstimmung.
Der letzte Schritt und Ziel des gesamten Prozesses ist das variant calling, also die
Feststellung von Unterschieden zwischen den eigenen Proben und dem Referenzgenom. Dafür gibt es wiederum verschiedene Programme; der Workshop verwendet BCFtools.11 Das Programm leitet seinen Namen ebenso wie SAMtools generisch
vom bearbeiteten Dateiformat BCF, dem binären Pendant des Text-basierten VCFFormats ab, wobei VCF ähnlich generisch für «Variant Call Format» steht. Die Erstellung einer VCF/BCF aus BAM und FASTA ist dabei der erste Schritt, der nun konkret
verschiedene Variationen der gemappten Sequenzen einander gegenüberstellt. In
der Regel wir hier das kompakte Binärformat BCF verwendet, während für den
nächsten Schritt, den eigentlichen call nach einer single nucleotide polymorphism
(SNP), also der stattgefundenen Veränderung eines Nukleotids, das besser lesbare VCF-Format genutzt wird. (Diese Datei wird über ein Perl-Script weiter gefiltert.)
Die finale VCF-Datei enthält einen ausführlichen Header mit Angaben zum Dateiformat selbst, zu den verwendeten Quelldateien, sowie zu dem eingesetzten Methoden. Dem folgt eine halb-tabellarische, also in Teilen einheitlich strukturierte
9
10
11
http://bio-bwa.sourceforge.net
http://samtools.sourceforge.net
https://samtools.github.io/bcftools/bcftools.html
4
und in Teilen frei füllbare, Auflistung aller Variationen. Für die Begutachtung dieser Dateien gibt es dann auch wieder eine GUI-Software, den Integrative Genomics
Viewer (IGV), der Abweichungen farblich kennzeichnet.12
Auch wenn der im Rahmen des Data Carpentry Workshops vorgestellte Arbeitsprozess in der Praxis variieren dürfte, so kann man doch sagen, dass eine starke Standardisierung dadurch stattgefunden hat, dass für fast jeden Arbeitsschritt
ein eigenes Dateiformat und ein auf dieses Format zugeschnittenes Programm verwendet wird. Die verwendeten Formate und Programme sind innerhalb der Forschungsgemeinschaft in verschiedenen Institutionen quelloffen entwickelt worden. Der Quelloffenheit der Software entspricht dabei auch, dass es von allen Dateiformaten Text-basierte Versionen gibt, deren Verwendung durch die entsprechende Software zwar vereinfacht wird, die aber nicht von dieser abhängig ist. Entsprechend gibt es auch fliessende Übergänge zwischen Arbeitsprozessen, die spezielle Software aus dem Bereich der Bioinformatik verwenden, und solchen, die
allgemeine und gegenüber der Bedeutung der Daten agnostische Unix-Werkzeuge
nutzen. Das Wissen der Forschenden wird also an manchen Stellen direkt in Software übersetzt und lässt sich automatisiert anwenden. An anderen Stellen manifestiert es sich in der spezifischen Verwendung an sich unspezifischer Werkzeuge.
Aufgrund seiner geregelten und linearen Abfolge wird der hier beschriebene Prozess in der Forschung auch als data pipeline bezeichnet. Er ist aber weniger automatisiert als der Name vermuten lässt, weil er in einzelne Schritte unterteilt ist
und die Forschenden immer wieder eingreifen müssen. Zunächst kontrollieren sie
die Qualität der Daten, die sie vom Sequencer bekommen haben. Dabei erkennbare Probleme lassen sich auf konkrete Ursachen wie etwa eine Verunreinigung
der Proben mit Wirkstoffen des Sequencers zurückführen. Sie treffen Entscheidungen, welche Teile der Daten sie wegfiltern und mit welchen sie weiterarbeiten wollen. Am Ende des Prozesses verschwinden die Daten wieder hinter verschiedenen
Visualisierungen, welche die Ausgangsthese eines Versuches entweder bestätigen
oder widerlegen und die möglicherweise Ausgangspunkt für weitere Versuche sein
können.
Offen geblieben ist aber, inwiefern sich diese Prozesse im dry lab als materiell
verstehen lassen. Yuk Hui unterscheidet in Bezug auf das Digitale drei Arten von
Materialität.13 Das ist als erstes die forensische Materialität, die durch die Untersuchung zunächst unsichtbarer Spuren vergangener Aktionen freigelegt werden
kann. Dann gibt es eine formale Materialität, die auf Konventionen beruht, die sich
in Dateiformaten und operativer Software niederschlagen und einzelne Handlungen sowohl ermöglichen als auch verhindern können. Beide Formen von Materialität konnten wir beim «Data wrangling and processing» beobachten – in erster
Linie durch die Zurichtung der Daten auf bestimmte Angaben und etwas weniger
durch die Metadaten, die den Prozess dokumentieren. (Es sei an dieser Stelle ergänzt, dass der Kurs auch konkrete Ordnerstrukturen vorgibt, die ich jetzt ausgelassen haben, die sich aber auch als Ausdruck dieser beiden Arten von Materialität
12
13
http://software.broadinstitute.org/software/igv/
Yuk Hui, Towards A Relational Materialism, in: Digital Culture & Society, 1/1, 2015, 131–47.
5
lesen lassen.)
Für Hui entscheidender ist aber eine dritte, relationale Form der Materialität, die
für ihn als Einzige spezifisch für das Digitale ist. Sie manifestiert sich nicht in oder
an den Daten, sondern wird in Form von aufeinander bezogenen digitalen Objekten greifbar. Relational meint hier auch, von der Idee einer wie auch immer gearteten Substanz loszukommen, die über den Hylemorphismus eng mit unseren Vorstellungen von Materialität verbunden ist. Mit der Pipeline werden Prozesse teilautomatisiert und somit stabilisiert. Die Relationen zwischen den einzelnen Dateien,
wenn wir diese als digitale Objekte verstehen, werden so wichtiger als die Dateien
selbst.14
Software wäre hier nicht mehr als Werkzeug zu verstehen, dass ein Datenobjekt
informiert. Lev Manovich schreibt, dass Software aus der Interaktion mit Dokumenten eine Performance mache.15 Er lässt aber die Frage offen, wer da eigentlich
performt. Man muss annehmen, dass es bei Manovich immer noch der Mensch ist,
der als stabil verstanden wird, während sich die Dokumente in Handlungen auflösen. Man kann den Gedanken aber mit Karen Barad auch zuspitzen und eben
Interaktion durch Intraaktion ersetzen, eine Form der Handlung, die ohne vorgängig bestehende Entitäten auskommt.16 Und dass die Grenze zwischen Software und
Datei weniger relevant zu sein scheint als die Versionsgrenzen der Daten selbst hat
sich im Zusammenspiel der verschiedenen bioinformatischen Dateiformate und
gleichnamigen Programme gezeigt.
14
15
16
Yuk Hui, On the Existence of Digital Objects, Minneapolis (U of Minnesota Press) 2016.
Lev Manovich, Software Takes Command, New York (Bloomsbury) 2013, 33.
Karen Barad, Meeting the Universe Halfway: Quantum Physics and the Entanglement of Matter and
Meaning, Durham & London (Duke UP) 2007.
6