Nothing Special   »   [go: up one dir, main page]

Academia.eduAcademia.edu

Werkzeuge biologischer Datenarbeit. Der Genomics Workshop der Data Carpentry

2019

GfM-Tagung 2019, Panel Materialität und Ästhetik der Wissenschaften Werkzeuge biologischer Datenarbeit Der Genomics Workshop der Data Carpentry Dr. Birk Weiberg Zürcher Hochschule der Künste birk.weiberg@zhdk.ch 27. September 2019 Mit der Digitalisierung biologischer Forschung kam es zur Überschneidung zweier Fachgebiete – der Biologie und der Informatik –, die über jeweils eigene Methoden, Geschichten, Infrastrukturen und Personen verfügten. Wenn ich im Folgenden einen Blick auf diese fortdauernde Transdisziplinierung bzw. die längst eigenständige Disziplin computational biology oder Bioinformatik werfe, lege ich meinen Fokus darauf, wie Biologen Kenntnisse in Informatik erwerben, um ihr Repertoire an Methoden zu erweitern. Das Center for Computational Biology and Bioinformatics der University of Texas at Austin, mit dem wir in unserem Forschungsprojekt1 zusammenarbeiten, bietet hier eine «Summer School for Big Data in Biology» an. Zu den Kursangeboten gehört u.a. «Creating A Reproducible Data Analysis Workflow», ein umbenannter Carpentry Workshop, der in ähnlicher Form nicht nur in Austin, sondern weltweit angeboten wird. Die Software Carpentry ist eine vor zwanzig Jahren von Greg Wilson gestartete Initiative, die später um eine Data und eine Library Carpentry erweitert wurde. The Carpentries, wie sich die Dachorganisation inzwischen nennt, entwickelt unter offenen Lizenzen stehende Kurse mit niederschwelligen, kompakten Einführungen in die Informatik für Nicht-Informatiker und bildet Coaches aus, die diese unentgeltlich anbieten.2 Mit dem Bild der Tischlerei setzt sich das Angebot dabei bewusst von Programmierung als eigenständiger Disziplin ab und propagiert statt dessen praktische Lösungen für den Forschungsalltag. Die in der Regel zweitägigen Kurse sind modular aufgebaut. Der «Genomics Workshop», um den es mir hier geht, besteht aus vier Modulen, die mal mehr mal weniger fachspezifisch sind: • «Project organization and management» erklärt grundsätzliche Aspekte der Datenarbeit anhand sowohl allgemeiner Konzepte wie data tidyness als auch in Hinblick auf fachspezifische Fragen nach relevanten Datenrepositiorien. • «Introduction to the command line» stellt das Arbeiten mit der Shell vor, das so auch in anderen Workshop-Angeboten auftaucht. 1 2 https://computersignale.zhdk.ch https://carpentries.org 1 • «Data wrangling and processing» erläutert dagegen einen für die Bioinformatik weitgehend standardisierten Arbeitsablauf, den ich gleich genauer vorstellen werde. • «Introduction to cloud computing for genomics» schliesslich ähnelt in seiner Allgemeingültigkeit dem Modul zum lokalen Arbeiten mit der Kommandozeile und ist nur insofern fachspezifisch, als in der Bioinformatik das Arbeiten auf gemeinsam genutzten aber sehr leistungsfähigen Infrastrukturen aufgrund der grossen Datenmengen fast unausweichlich geworden ist.3 Die Hauptursache für das Ansteigen der Datenmengen und damit wohl auch den Siegeszug der Bioinformatik ist das Next Generation Sequencing (NGS) zum Auslesen genetischer Informationen. Im Gegensatz zum traditionellen, ebenso zuverlässigen wie langsamen Sanger-Verfahren, arbeitet NGS nicht mehr sequentiell, sondern massiv parallel. D.h. während das Auslesen eines menschlichen Genoms beim Human Genome Project der 1990er Jahre nach dem klassischen Verfahren 100 Maschinenjahre gedauert hat, ist dies mit aktuellen NGS-Geräten in 48 Stunden und für einen Bruchteil des Preises möglich. Es gibt verschiedene NGS-Techniken, wobei an der UT Austin vor allem sequencing by synthesis genutzt wird – ein Verfahren, das besonders viele Daten erzeugt. Die Zunahme der Datenmenge ist nicht nur dadurch bedingt, dass jetzt mehr Genome digitalisiert werden, sondern auch dass beim Auslesen eines Genoms (bei gleichbleibendem Informationsgehalt) wesentlich mehr Daten erzeugt werden. Dieser Zuwachs erklärt sich dadurch, dass mit der Beschleunigung und Parallelisierung die Fehleranfälligkeit steigt und daher sowohl mehrere Messungen stattfinden als auch Metadaten zu den Messungen selbst erfasst werden, um diese später besser interpretieren zu können. Fehlerhaft sind die Messungen, weil die Polymerase als chemisches Kopierverfahren nicht vollständig kontrollierbar ist aber auch weil für den Sequencer, der die Vorgänge fotografisch erfasst, diese nicht immer eindeutig erkennbar sind. Was der Sequencer dabei ausgibt sind Rohdaten in dem Sinne, dass es sich um die erste Version eines Datensatzes handelt und dass eine weitere Bearbeitung der Daten notwendig ist.4 Im Workshop-Modul «Data wrangling and processing»5 wird davon ausgegangen, dass NGS-Daten bereits vorliegen. Dabei spielt es keine Rolle, ob man die Sequenzierung einer Probe selbst in Auftrag gegeben hat oder man sich – wie das im Workshop aus praktischen Gründen auch geschieht – bei einem entsprechenden Datenrepositorium bedient, in dem in der Regel auch Rohdaten publiziert sind. In den dann folgenden vier Arbeitsschritten kommen jeweils andere Werkzeuge zum Einsatz, deren Wirksamkeit sich auch in einem Wechsel der Dateiformate manifestiert. Die Formate – allesamt Eigenentwicklungen der bioinformatischen Community – erfüllen jeweils eigene Anforderungen, die den Repräsentationswert der jeweiligen Daten widerspiegeln. Untersuchungsgegenstand ist das E. coli Bakterium, das sich einen festen Platz in 3 4 https://datacarpentry.org/genomics-workshop/ Ein ausführliche Darstellung dieser Entwicklung liefert Gabriele Gramelsberger, Big Data-Revolution oder Datenhybris? Überlegungen zum Datenpositivismus der Molekularbiologie, in: NTM Zeitschrift 5 für Geschichte der Wissenschaften, Technik und Medizin, 25/4, 2017, 459–83. https://datacarpentry.org/wrangling-genomics/ 2 den wet und nun auch dry labs gesichert hat, einfach weil es bereits viele Untersuchungen dazu gibt, auf die sich neue Untersuchungen beziehen können. (Ein ähnlichen Status hat der Afrikanische Buntbarsch, der im Labor von Hans Hoffmann eine entscheidende Rolle spielt.) Der imaginäre Sequencer hat eine ganze Reihe gleichformatiger Dateien geliefert. Die Metadaten dazu beschreiben nicht nur den Untersuchungsgegenstand, die Proben und Messvorgänge, sondern auch den institutionellen Ort der Messungen und den jeweiligen Forschungskontext in Form von Literaturangaben.6 Sie beziehen sich auf einzelne Dateien im FastQ-Format, wobei jede Datei einem SequencerDurchlauf entspricht. Wie fast alle verwendeten Dateiformate handelt es sich bei FastQ um ein ASCII-basiertes Textformat, d.h. die Dateien können mit jedem Texteditor oder einem selbst geschriebenen Programm gelesen und verarbeitet werden. So ist es möglich, dass alle in der ersten Phase der Akquise, Organisation und Qualitätskontrolle verwendeten Programme allgemeine Unix-Programme sind, die keine direkte Beziehung zur Bioinformatik haben: curl für den Download, gunzip zum Dekomprimieren, cp bzw. mv zum Kopieren oder Bewegen innerhalb des lokalen Filesystems, less, head und tail zum Anzeigen und grep zum Durchsuchen und Filtern. Der Aufbau der FastQ-Dateien in 4er-Zeilen-Gruppen ist einfach nachzuvollziehen. Die erste, mit einem @-Zeichen beginnende Zeile identifiziert die Sequenz und kann um eine Beschreibung ergänzt werden. Die zweite Zeile enthält die genetische Information mit den bekannten Buchstaben A, C, G und T. Zeile 3 beginnt mit einem +-Zeichen und kann die Information aus Zeile 1 wiederholen. Zeile 4 schliesslich hat die gleiche Länge wie Zeile 2 und dokumentiert die Qualität des jeweiligen Messwerts auf einer ASCII-basierten aber im Umfang je nach Sequencer variierenden Skala. Diese beginnt mit dem Ausrufezeichen (bzw. dem Dezimalwert 33, gelesen als 0) und reicht in unserem Fall dann bis zum grossen I (Dezimalwert 73, normalisiert als 40). Um die Qualität einer FastQ-Datei beurteilen zu können, gibt es die Software FastQC, die wahlweise über die Shell oder ein einfaches GUI neben verschiedenen Visualisierungen der Daten auch ein Ampel-System für unterschiedliche Indikatoren anbietet.7 Das Ampel-System, dessen Kriterien fest in die Software integriert sind, lässt auf einen Grundkonsens schliessen, wie sich gute von schlechten Daten unterscheiden. Die verschiedenen Visualisierungen bieten eine Hilfestellung, wie man durch eine nachfolgende Filterung der Daten kritische Teile ausschliessen und zu verwertbaren Restdaten kommen kann. Die Filterung selbst erfolgt mit einer anderen Software, die den treffenden Namen Trimmomatic trägt und das Beschneiden der Rohdaten weitestgehend automatisieren soll. Es müssen allerdings eine Reihe von Parametern gesetzt werden, die bestimmen, wie genau die Daten getrimmt werden sollen.8 6 https://github.com/datacarpentry/wrangling-genomics/blob/gh-pages/files/Ecoli_metadata_ 7 composite.csv https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ http://www.usadellab.org/cms/?page=trimmomatic 8 3 Die so bereinigten Daten werden im nächsten Schritt, dem alignment, mit einem Referenzdatensatz verglichen. Hierfür gibt es verschiedene Programme je nach Forschungsziel und der Workshop verwendet exemplarisch den Burrows-Wheeler Aligner (BWA).9 Die verwendete Referenzdatei, die ein vollständiges Genom in den bekannten ACGT-Variationen enthält, zeichnet sich vor allem durch das Fehlen jedweder Formatangaben oder Metadaten aus. Der Dateiname ecoli_rel606 verweist ebenso schlicht wie positivistisch auf das Bakterium und sein abgebildetes Genom. Allenfalls das Datei-Suffix könnte noch auf ein konkretes Format verweisen, wird in der Workshop-Dokumentation aber beim Entpacken der komprimierten Dateien kommentarlos von .fna auf .fasta geändert. Die Indexierung des Referenzdatensatzes, die dem Abgleich mit den eigenen Daten dient, erfolgt ohne Angabe von Parametern mit dem einfachen Befehl bwa index ecoli_rel606.fasta. Wie der Index aussieht und in welchem Format er wo abgespeichert wird, bleibt unkommentiert und für die Forschenden somit irrelevant. Das alignment erfolgt ebenfalls über das Programm bwa und einem dafür wählbaren Algorithmus. Das Ergebnis ist eine Datei im SAM-Format, was für «Sequence Alignment Map» steht. Neben SAM gibt es noch die Alternative BAM, welche dieselben Informationen wesentlich kompakter binär abspeichert. Die Konvertierung von SAM zu BAM wird mit einer kleinen Software namens SAMtools durchgeführt, die auch das Sortieren der Fundstellen und das Erstellen statistischer Auswertungen erlaubt.10 Das SAM-Format selbst beginnt mit einem optionalen Header, der Informationen zur Quelle der Proben, zum Referenzdatensatz und zur verwendeten alignment-Methode enthält. Die Angaben zu dem einzelnen Fundstellen sind Tabulator-separiert, liessen sich also auch in einer Tabelle darstellen, und enthalten nun auch wieder ‹weiche› Angaben, wie wir sie bei FastQ gesehen haben, z.B. zur Qualität der Übereinstimmung. Der letzte Schritt und Ziel des gesamten Prozesses ist das variant calling, also die Feststellung von Unterschieden zwischen den eigenen Proben und dem Referenzgenom. Dafür gibt es wiederum verschiedene Programme; der Workshop verwendet BCFtools.11 Das Programm leitet seinen Namen ebenso wie SAMtools generisch vom bearbeiteten Dateiformat BCF, dem binären Pendant des Text-basierten VCFFormats ab, wobei VCF ähnlich generisch für «Variant Call Format» steht. Die Erstellung einer VCF/BCF aus BAM und FASTA ist dabei der erste Schritt, der nun konkret verschiedene Variationen der gemappten Sequenzen einander gegenüberstellt. In der Regel wir hier das kompakte Binärformat BCF verwendet, während für den nächsten Schritt, den eigentlichen call nach einer single nucleotide polymorphism (SNP), also der stattgefundenen Veränderung eines Nukleotids, das besser lesbare VCF-Format genutzt wird. (Diese Datei wird über ein Perl-Script weiter gefiltert.) Die finale VCF-Datei enthält einen ausführlichen Header mit Angaben zum Dateiformat selbst, zu den verwendeten Quelldateien, sowie zu dem eingesetzten Methoden. Dem folgt eine halb-tabellarische, also in Teilen einheitlich strukturierte 9 10 11 http://bio-bwa.sourceforge.net http://samtools.sourceforge.net https://samtools.github.io/bcftools/bcftools.html 4 und in Teilen frei füllbare, Auflistung aller Variationen. Für die Begutachtung dieser Dateien gibt es dann auch wieder eine GUI-Software, den Integrative Genomics Viewer (IGV), der Abweichungen farblich kennzeichnet.12 Auch wenn der im Rahmen des Data Carpentry Workshops vorgestellte Arbeitsprozess in der Praxis variieren dürfte, so kann man doch sagen, dass eine starke Standardisierung dadurch stattgefunden hat, dass für fast jeden Arbeitsschritt ein eigenes Dateiformat und ein auf dieses Format zugeschnittenes Programm verwendet wird. Die verwendeten Formate und Programme sind innerhalb der Forschungsgemeinschaft in verschiedenen Institutionen quelloffen entwickelt worden. Der Quelloffenheit der Software entspricht dabei auch, dass es von allen Dateiformaten Text-basierte Versionen gibt, deren Verwendung durch die entsprechende Software zwar vereinfacht wird, die aber nicht von dieser abhängig ist. Entsprechend gibt es auch fliessende Übergänge zwischen Arbeitsprozessen, die spezielle Software aus dem Bereich der Bioinformatik verwenden, und solchen, die allgemeine und gegenüber der Bedeutung der Daten agnostische Unix-Werkzeuge nutzen. Das Wissen der Forschenden wird also an manchen Stellen direkt in Software übersetzt und lässt sich automatisiert anwenden. An anderen Stellen manifestiert es sich in der spezifischen Verwendung an sich unspezifischer Werkzeuge. Aufgrund seiner geregelten und linearen Abfolge wird der hier beschriebene Prozess in der Forschung auch als data pipeline bezeichnet. Er ist aber weniger automatisiert als der Name vermuten lässt, weil er in einzelne Schritte unterteilt ist und die Forschenden immer wieder eingreifen müssen. Zunächst kontrollieren sie die Qualität der Daten, die sie vom Sequencer bekommen haben. Dabei erkennbare Probleme lassen sich auf konkrete Ursachen wie etwa eine Verunreinigung der Proben mit Wirkstoffen des Sequencers zurückführen. Sie treffen Entscheidungen, welche Teile der Daten sie wegfiltern und mit welchen sie weiterarbeiten wollen. Am Ende des Prozesses verschwinden die Daten wieder hinter verschiedenen Visualisierungen, welche die Ausgangsthese eines Versuches entweder bestätigen oder widerlegen und die möglicherweise Ausgangspunkt für weitere Versuche sein können. Offen geblieben ist aber, inwiefern sich diese Prozesse im dry lab als materiell verstehen lassen. Yuk Hui unterscheidet in Bezug auf das Digitale drei Arten von Materialität.13 Das ist als erstes die forensische Materialität, die durch die Untersuchung zunächst unsichtbarer Spuren vergangener Aktionen freigelegt werden kann. Dann gibt es eine formale Materialität, die auf Konventionen beruht, die sich in Dateiformaten und operativer Software niederschlagen und einzelne Handlungen sowohl ermöglichen als auch verhindern können. Beide Formen von Materialität konnten wir beim «Data wrangling and processing» beobachten – in erster Linie durch die Zurichtung der Daten auf bestimmte Angaben und etwas weniger durch die Metadaten, die den Prozess dokumentieren. (Es sei an dieser Stelle ergänzt, dass der Kurs auch konkrete Ordnerstrukturen vorgibt, die ich jetzt ausgelassen haben, die sich aber auch als Ausdruck dieser beiden Arten von Materialität 12 13 http://software.broadinstitute.org/software/igv/ Yuk Hui, Towards A Relational Materialism, in: Digital Culture & Society, 1/1, 2015, 131–47. 5 lesen lassen.) Für Hui entscheidender ist aber eine dritte, relationale Form der Materialität, die für ihn als Einzige spezifisch für das Digitale ist. Sie manifestiert sich nicht in oder an den Daten, sondern wird in Form von aufeinander bezogenen digitalen Objekten greifbar. Relational meint hier auch, von der Idee einer wie auch immer gearteten Substanz loszukommen, die über den Hylemorphismus eng mit unseren Vorstellungen von Materialität verbunden ist. Mit der Pipeline werden Prozesse teilautomatisiert und somit stabilisiert. Die Relationen zwischen den einzelnen Dateien, wenn wir diese als digitale Objekte verstehen, werden so wichtiger als die Dateien selbst.14 Software wäre hier nicht mehr als Werkzeug zu verstehen, dass ein Datenobjekt informiert. Lev Manovich schreibt, dass Software aus der Interaktion mit Dokumenten eine Performance mache.15 Er lässt aber die Frage offen, wer da eigentlich performt. Man muss annehmen, dass es bei Manovich immer noch der Mensch ist, der als stabil verstanden wird, während sich die Dokumente in Handlungen auflösen. Man kann den Gedanken aber mit Karen Barad auch zuspitzen und eben Interaktion durch Intraaktion ersetzen, eine Form der Handlung, die ohne vorgängig bestehende Entitäten auskommt.16 Und dass die Grenze zwischen Software und Datei weniger relevant zu sein scheint als die Versionsgrenzen der Daten selbst hat sich im Zusammenspiel der verschiedenen bioinformatischen Dateiformate und gleichnamigen Programme gezeigt. 14 15 16 Yuk Hui, On the Existence of Digital Objects, Minneapolis (U of Minnesota Press) 2016. Lev Manovich, Software Takes Command, New York (Bloomsbury) 2013, 33. Karen Barad, Meeting the Universe Halfway: Quantum Physics and the Entanglement of Matter and Meaning, Durham & London (Duke UP) 2007. 6