Nothing Special   »   [go: up one dir, main page]

Gene Regulatory Networks: Methods and Protocols Guido Sanguinetti Download PDF

Download as pdf or txt
Download as pdf or txt
You are on page 1of 53

Full download test bank at ebook textbookfull.

com

Gene Regulatory Networks: Methods

CLICK LINK TO DOWLOAD

https://textbookfull.com/product/gene-
regulatory-networks-methods-and-protocols-
guido-sanguinetti/

textbookfull
More products digital (pdf, epub, mobi) instant
download maybe you interests ...

Gene Regulatory Networks 1st Edition Isabelle S. Peter

https://textbookfull.com/product/gene-regulatory-networks-1st-
edition-isabelle-s-peter/

Suicide Gene Therapy: Methods and Protocols Nejat


Düzgüne■

https://textbookfull.com/product/suicide-gene-therapy-methods-
and-protocols-nejat-duzgunes/

Mitochondrial Gene Expression: Methods and Protocols


Michal Minczuk

https://textbookfull.com/product/mitochondrial-gene-expression-
methods-and-protocols-michal-minczuk/

Zebrafish Methods and Protocols Koichi Kawakami

https://textbookfull.com/product/zebrafish-methods-and-protocols-
koichi-kawakami/
SNAREs: Methods and Protocols Rutilio Fratti

https://textbookfull.com/product/snares-methods-and-protocols-
rutilio-fratti/

Epitranscriptomics: Methods and Protocols Narendra


Wajapeyee

https://textbookfull.com/product/epitranscriptomics-methods-and-
protocols-narendra-wajapeyee/

Phytoplasmas: Methods and Protocols Rita Musetti

https://textbookfull.com/product/phytoplasmas-methods-and-
protocols-rita-musetti/

Metalloproteins: Methods and Protocols Yilin Hu

https://textbookfull.com/product/metalloproteins-methods-and-
protocols-yilin-hu/

Nanotoxicity: Methods and Protocols Qunwei Zhang

https://textbookfull.com/product/nanotoxicity-methods-and-
protocols-qunwei-zhang/
Methods in
Molecular Biology 1883

Guido Sanguinetti
Vân Anh Huynh-Thu Editors

Gene
Regulatory
Networks
Methods and Protocols
M E THODS IN M OLECULAR B IOLOGY

Series Editor
John M. Walker
School of Life and Medical Sciences
University of Hertfordshire
Hatfield, Hertfordshire, AL10 9AB, UK

For further volumes:


http://www.springer.com/series/7651
Gene Regulatory Networks

Methods and Protocols

Edited by

Guido Sanguinetti
School of Informatics, University of Edinburgh, Edinburgh, UK

Vân Anh Huynh-Thu


Department of Electrical Engineering and Computer Science, University of Liège, Liège, Belgium
Editors
Guido Sanguinetti Vân Anh Huynh-Thu
School of Informatics Department of Electrical Engineering
University of Edinburgh and Computer Science
Edinburgh, UK University of Liège
Liège, Belgium

ISSN 1064-3745 ISSN 1940-6029 (electronic)


Methods in Molecular Biology
ISBN 978-1-4939-8881-5 ISBN 978-1-4939-8882-2 (eBook)
https://doi.org/10.1007/978-1-4939-8882-2

Library of Congress Control Number: 2018962962

© Springer Science+Business Media, LLC, part of Springer Nature 2019


This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is
concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction
on microfilms or in any other physical way, and transmission or information storage and retrieval, electronic adaptation,
computer software, or by similar or dissimilar methodology now known or hereafter developed.
The use of general descriptive names, registered names, trademarks, service marks, etc. in this publication does not
imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and
regulations and therefore free for general use.
The publisher, the authors and the editors are safe to assume that the advice and information in this book are believed
to be true and accurate at the date of publication. Neither the publisher nor the authors or the editors give a warranty,
express or implied, with respect to the material contained herein or for any errors or omissions that may have been
made. The publisher remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

This Humana Press imprint is published by the registered company Springer Science+Business Media, LLC part of
Springer Nature.
The registered company address is: 233 Spring Street, New York, NY 10013, U.S.A.
Preface

High-throughput technologies have brought about a revolution in molecular biology.


Over the last two decades, the research paradigm has moved from a characterization of
individual genes and their function increasingly toward a systems-level appreciation of how
the complex interactions between multiple genes shape the dynamics and functions of
biological systems. At the same time, the computational and statistical challenges posed
by the interpretation of such data have motivated an exciting cross-fertilization between
the disciplines of biology and the mathematical and computational sciences, leading to the
birth of the interdisciplinary field of systems biology.
A crucial computational task in systems biology is the so-called reverse engineering task:
given observations of multiple biological features (e.g., protein levels) across different time
points/conditions, determine computationally the interaction structure (the network) that
best explains the data. Within the context of modeling gene expression, this is the task of
inferring gene regulatory networks (GRNs) from data.
GRN inference has been a major challenge in systems biology for nearly two decades,
and, while challenges still abound, it is rapidly reaching maturity both in terms of the
concepts involved, and in terms of the software tools available. In this book, we aim to
take stock of the situation, providing an overview of methods that cover the majority of
recent developments, as well as indicating the path forward for future developments.
The book opens with a tutorial overview of the main biological and mathematical
concepts and a survey of the current software landscape. This is meant to be an entry
level chapter, which the interested, graduate-level practitioner (either computational or
biological) can consult as a rough guide to the concepts described more in detail in
the more technical chapters in the book. The next two chapters then focus on Bayesian
methods to infer networks from time varying data, while Chapters 4 and 5 describe
how to attempt to extract causal information (as opposed to purely correlative) from
biological data. Chapters 6 and 7 describe network inference techniques in the presence
of multiple heterogeneous data sets, while Chapters 8 and 9 focus on nonparametric and
hybrid statistical methods for network inference. The following five Chapters 10–14 focus
on the idea of inference of different (but related) networks, arising either from intrinsic
heterogeneity (such as in single-cell data) or due to multiple conditions being assayed, and
further explore concepts of differential networks and network stability. Finally, the last two
chapters focus more on a mechanistic view of the biological process, covering methods for
exploring networks within large, mechanistic models of biological dynamics.
As most books, this volume presents an incomplete snapshot of an evolving field, and,
given the considerable research activity in this area, it is clear that we can look forward
to considerable progress within the next decades. Our hope is that this collection will
be instrumental in assessing the current state of the art and in focusing research on the
common challenges faced by the field.

Edinburgh, UK Guido Sanguinetti


Liège, Belgium Vân Anh Huynh-Thu

v
Contents

Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Contributors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix

1 Gene Regulatory Network Inference: An Introductory Survey. . . . . . . . . . . . . . . . . . . 1


Vân Anh Huynh-Thu and Guido Sanguinetti
2 Statistical Network Inference for Time-Varying Molecular Data
with Dynamic Bayesian Networks. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Frank Dondelinger and Sach Mukherjee
3 Overview and Evaluation of Recent Methods for Statistical Inference
of Gene Regulatory Networks from Time Series Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Marco Grzegorczyk, Andrej Aderhold and Dirk Husmeier
4 Whole-Transcriptome Causal Network Inference with Genomic
and Transcriptomic Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Lingfei Wang and Tom Michoel
5 Causal Queries from Observational Data in Biological Systems via Bayesian
Networks: An Empirical Study in Small Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Alex White and Matthieu Vignes
6 A Multiattribute Gaussian Graphical Model for Inferring Multiscale
Regulatory Networks: An Application in Breast Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Julien Chiquet, Guillem Rigaill, and Martina Sundqvist
7 Integrative Approaches for Inference of Genome-Scale Gene Regulatory
Networks. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
Alireza Fotuhi Siahpirani, Deborah Chasman, and Sushmita Roy
8 Unsupervised Gene Network Inference with Decision Trees and Random
Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Vân Anh Huynh-Thu and Pierre Geurts
9 Tree-Based Learning of Regulatory Network Topologies and Dynamics
with Jump3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Vân Anh Huynh-Thu and Guido Sanguinetti
10 Network Inference from Single-Cell Transcriptomic Data . . . . . . . . . . . . . . . . . . . . . . . . 235
Helena Todorov, Robrecht Cannoodt, Wouter Saelens, and Yvan Saeys
11 Inferring Gene Regulatory Networks from Multiple Datasets . . . . . . . . . . . . . . . . . . . . 251
Christopher A. Penfold, Iulia Gherman, Anastasiya Sybirna,
and David L. Wild
12 Unsupervised GRN Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Pau Bellot, Philippe Salembier, Ngoc C. Pham, and Patrick E. Meyer
13 Learning Differential Module Networks Across Multiple Experimental
Conditions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
Pau Erola, Eric Bonnet, and Tom Michoel

vii
viii Contents

14 Stability in GRN Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323


Giuseppe Jurman, Michele Filosi, Roberto Visintainer,
Samantha Riccadonna, and Cesare Furlanello
15 Gene Regulatory Networks: A Primer in Biological Processes and Statistical
Modelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
Olivia Angelin-Bonnet, Patrick J. Biggs and Matthieu Vignes
16 Scalable Inference of Ordinary Differential Equation Models
of Biochemical Processes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
Fabian Fröhlich, Carolin Loos, and Jan Hasenauer

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
Contributors

ANDREJ ADERHOLD • School of Mathematics and Statistics, University of Glasgow, Glasgow,


UK
OLIVIA ANGELIN-BONNET • Institute of Fundamental Sciences, Palmerston North, New
Zealand
PAU BELLOT • Centre for Research in Agricultural Genomics (CRAG), CSIC-IRTA-UAB-
UB Consortium, Bellaterra, Barcelona, Spain
PATRICK J. BIGGS • Institute of Fundamental Sciences, Palmerston North, New Zealand;
School of Veterinary Science, Massey University, Palmerston North, New Zealand
ERIC BONNET • Centre Nationale de Recherche en Genomique Humaine, Institut de
Biologie Francois Jacob, Direction de la Recherche Fondamentale, CEA, Evry, France
ROBRECHT CANNOODT • Data Mining and Modelling for Biomedicine, VIB Center for
Inflammation Research, Ghent, Belgium; Center for Medical Genetics, Ghent University
Hospital, Ghent, Belgium
DEBORAH CHASMAN • Wisconsin Institute for Discovery, University of Wisconsin-Madison,
Madison, WI, USA
JULIEN CHIQUET • UMR MIA-Paris, AgroParisTech, INRA, Université Paris-Saclay,
Paris, France
FRANK DONDELINGER • Lancaster Medical School, Lancaster University, Lancaster, UK
PAU EROLA • Division of Genetics and Genomics, The Roslin Institute, The University of
Edinburgh, Midlothian, Scotland, UK
MICHELE FILOSI • CIBIO, University of Trento, Trento, Italy
FABIAN FRÖHLICH • Institute of Computational Biology, Helmholtz Zentrum München,
Neuherberg, Germany; Center for Mathematics, Technische Universität München, Garch-
ing, Germany
CESARE FURLANELLO • Fondazione Bruno Kessler, Trento, Italy
PIERRE GEURTS • Department of Electrical Engineering and Computer Science, University
of Liège, Liège, Belgium
IULIA GHERMAN • Warwick Integrative Synthetic Biology Centre, School of Engineering,
University of Warwick, Coventry, UK
MARCO GRZEGORCZYK • Johann Bernoulli Institute, University of Groningen, Groningen,
The Netherlands
JAN HASENAUER • Institute of Computational Biology, Helmholtz Zentrum Muenchen,
Neuherberg, Germany; Center for Mathematics, Technische Universität München, Garch-
ing, Germany
DIRK HUSMEIER • School of Mathematics and Statistics, University of Glasgow, Glasgow,
UK
VÂN ANH HUYNH-THU • Department of Electrical Engineering and Computer Science,
University of Liège, Liège, Belgium
GIUSEPPE JURMAN • Fondazione Bruno Kessler, Trento, Italy
CAROLIN LOOS • Institute of Computational Biology, Helmholtz Zentrum München,
Neuherberg, Germany; Center for Mathematics, Technische Universität München,
Garching, Germany

ix
x Contributors

PATRICK E. MEYER • Bioinformatics and Systems Biology (BioSys) Unit, Université de Liège,
Liège, Belgium
TOM MICHOEL • Division of Genetics and Genomics, The Roslin Institute, The University
of Edinburgh, Midlothian, Scotland, UK; Computational Biology Unit, Department of
Informatics, University of Bergen, Bergen, Norway
SACH MUKHERJEE • German Center for Neurodegenerative Diseases (DZNE), Bonn,
Germany
CHRISTOPHER A. PENFOLD • Wellcome/CRUK Gurdon Institute, University of Cam-
bridge, Cambridge, UK
NGOC C. PHAM • Bioinformatics and Systems Biology (BioSys) Unit, Universite de Liège,
Liège, Belgium
SAMANTHA RICCADONNA • Fondazione Edmund Mach, San Michele all’Adige, Italy
GUILLEM RIGAILL • Institute of Plant Sciences Paris-Saclay, UMR 9213/UMR1403,
CNRS, INRA, Université Paris -Sud, Université d’Evry, Université Paris-Diderot,
Sorbonne Paris-Cité, Paris, France; Laboratoire de Mathématiques et Modélisation d’Evry
(LaMME), Université d’Evry, Val d’Essonne, UMR CNRS 8071, ENSIIE, USC INRA,
Paris, France
SUSHMITA ROY • Wisconsin Institute for Discovery, University of Wisconsin-Madison,
Madison, WI, USA; Department of Biostatistics and Medical Informatics, University
of Wisconsin-Madison, Madison, WI, USA
WOUTER SAELENS • Data Mining and Modelling for Biomedicine, VIB Center for Inflam-
mation Research, Ghent, Belgium; Department of Applied Mathematics, Computer Science
and Statistics, Ghent University, Ghent, Belgium
YVAN SAEYS • Data Mining and Modelling for Biomedicine, VIB Center for Inflammation
Research, Ghent, Belgium; Department of Applied Mathematics, Computer Science and
Statistics, Ghent University, Ghent, Belgium
PHILIPPE SALEMBIER • Universitat Politecnica de Catalunya, Barcelona, Spain
GUIDO SANGUINETTI • School of Informatics, University of Edinburgh, Edinburgh, UK
ALIREZA FOTUHI SIAHPIRANI • Wisconsin Institute for Discovery, University of Wisconsin-
Madison, Madison, WI, USA; Department of Computer Sciences, University of Wisconsin-
Madison, Madison, WI, USA
MARTINA SUNDQVIST • UMR MIA-Paris, AgroTechParis, INRA, Université Paris-
Saclay, Paris, France
ANASTASIYA SYBIRNA • Wellcome/CRUK Gurdon Institute, University of Cambridge,
Cambridge, UK; Wellcome/MRC Cambridge Stem Cell Institute, University of Cam-
bridge, Cambridge, UK; Physiology, Development and Neuroscience Department, Univer-
sity of Cambridge, Cambridge, UK
HELENA TODOROV • Data Mining and Modelling for Biomedicine, VIB Center for
Inflammation Research, Ghent, Belgium; Department of Applied Mathematics, Com-
puter Science and Statistics, Ghent University, Ghent, Belgium; Centre International de
Recherche en Infectiologie, Inserm, U1111, Université Claude Bernard Lyon 1, CNRS,
UMR5308, École Normale Supérieure de Lyon, Univ Lyon, Lyon, France
MATTHIEU VIGNES • Institute of Fundamental Sciences, Massey University, Palmerston
North, New Zealand
ROBERTO VISINTAINER • CIBIO, University of Trento, Trento, Italy
LINGFEI WANG • Division of Genetics and Genomics, The Roslin Institute, The University
of Edinburgh, Midlothian, Scotland, UK
Contributors xi

ALEX WHITE • Institute of Fundamental Sciences, Massey University, Palmerston North,


New Zealand
DAVID L. WILD • Department of Statistics and Systems Biology Centre, University of
Warwick, Coventry, UK
Chapter 1

Gene Regulatory Network Inference: An Introductory Survey


Vân Anh Huynh-Thu and Guido Sanguinetti

Abstract
Gene regulatory networks are powerful abstractions of biological systems. Since the advent of high-
throughput measurement technologies in biology in the late 1990s, reconstructing the structure of such
networks has been a central computational problem in systems biology. While the problem is certainly
not solved in its entirety, considerable progress has been made in the last two decades, with mature tools
now available. This chapter aims to provide an introduction to the basic concepts underpinning network
inference tools, attempting a categorization which highlights commonalities and relative strengths. While
the chapter is meant to be self-contained, the material presented should provide a useful background to
the later, more specialized chapters of this book.

Key words Gene regulatory networks, Network inference, Network reverse-engineering, Unsuper-
vised inference, Data-driven methods, Probabilistic models, Dynamical models

1 Introduction: The Biological Problem

The discovery of the biochemical basis of life is one of the


great scientific success stories of the past century. Remarkably, the
amazing diversity of life can be explained from a relatively small set
of biochemical actors and their interactions. Heritable information
is stored in chromosomes, very long polymers of double stranded
DNA, which encode information as a sequence of symbols from a
four letter alphabet, A, C, G, T, the nucleotides constituting the
building blocks of DNA. Just as DNA is the universal informa-
tion storage medium, information flow also follows a consistent
biochemical pathway across all organisms. Stored information can
be dynamically read through the process of gene expression, a
two-step process whereby DNA gets transcribed into RNA, an
intermediate, single stranded polymer of nucleic acids (with the
T nucleotide replaced by uracil, U), and RNA is subsequently
translated into proteins, macromolecules formed of amino-acids
which carry out most cellular functions. This process is of such

Guido Sanguinetti and Vân Anh Huynh-Thu (eds.), Gene Regulatory Networks: Methods and Protocols,
Methods in Molecular Biology, vol. 1883, https://doi.org/10.1007/978-1-4939-8882-2_1,
© Springer Science+Business Media, LLC, part of Springer Nature 2019

1
2 Vân Anh Huynh-Thu and Guido Sanguinetti

fundamental importance in biology to have earned the moniker of


central dogma of molecular biology [1]; it constitutes the universal
flow of information across all living creatures (the most notable
exception being reverse transcription of viral RNA).
Not all DNA within a cell codes for proteins, and not all
DNA is transcribed; indeed, genes, the stretches of DNA encoding
some functionality (either protein or other classes of functional
RNAs), constitute a small fraction of the overall genome. One of
the surprising outcomes of the major genome-sequencing projects
at the turn of the millennium was the realization of just how little
DNA codes for proteins (approximately 3% of the human genome,
with similar percentages in other higher eukaryotes). Moreover,
the number of genes in different organisms is relatively constant
across scales of organismal complexity: the humble baker’s yeast
Saccharomyces cerevisiae has approximately 6000 genes, more than
a quarter the number of genes in the human genome. Apart from
raising overdue questions on our anthropocentric worldview, the
natural corollary of this observation is that complexity in life does
not arise from a disparity in the number of available components
(genes), but from the nature and dynamics of the interactions
between such components.
Measuring interactions is difficult within live cells. On the
other hand, measuring components’ abundances (e.g., mRNA
levels) is considerably easier, and technological advances within
the last two decades have enabled increasingly large-scale mea-
surements of gene expression at steadily decreasing costs. This
trend has provided a powerful motivation to attempt to reconstruct
computationally the interaction structures underpinning patterns
of gene expression: these interactions collectively are denoted as
Gene Regulatory Networks (GRNs). Reconstructing such networks
has been a central effort of the interdisciplinary field of Systems
Biology.
In this chapter, we provide a tutorial overview of the field,
aimed at a novice computational scientist or biologist wishing
to approach the subject. We first provide a brief introduction
to the core biological concepts, as well as the main sources of
data currently available. We then introduce the core mathematical
concepts, and briefly attempt a categorization of the main method-
ological approaches available. This chapter is intended to be a
self-contained introduction which will provide some essential back-
ground to the book; later chapters will describe more advanced
concepts, and associated tools for GRN reconstruction across the
breadth of their biological application.

1.1 Mechanisms The molecular bases of the transcription process have been
of Gene Regulation intensely studied over the last 60 years. Many excellent
monographs are available on the subject; we refer the reader in
particular to the classic books by Ptashne and collaborators [2, 3]
Gene Regulatory Network Inference: An Introductory Survey 3

(see also this recent review [4] for a historical perspective). Here
we give a brief intuitive description of the process, taking, as an
illustrative example, the transcriptional response of the bacterium
Escherichia coli in response to changes in oxygen availability (see
ref. [5] for a modern review of this field). Transcription is carried
out by the enzyme RNA polymerase (RNAP), that slides along the
DNA, opening the double strand and producing a faithful RNA
copy of the gene. The rate of recruitment of RNAP at a gene can
be modulated by the presence or absence of specific transcription
factor (TF) proteins, which contain a DNA-binding module that
enables them to recognize specific DNA-sequence signals near
the start of genes (promoter regions). The classical view of gene
regulation holds that changes in cellular state are orchestrated by
changes in binding by TFs.
For example, in E. coli, oxygen withdrawal leads to dimeriza-
tion of the master regulator protein Fumarate Nitrate Reductase
(FNR); FNR dimers (but not monomers) can bind specifically to
DNA, and change the rate of recruitment of RNAP at the FNR
target genes, thereby changing their levels of expression to enable
the cell to adapt to the changed conditions. However, FNR is not
the only regulator responding to changes in oxygen availability:
another master regulator, the two component system ArcAB, also
senses oxygen changes, albeit through a different mechanism, and
changes its binding to hundreds of genes as a result. FNR and
ArcAB share many targets, and through their combined action they
can give rise to highly complex dynamics [6, 7].
Two important observations can be made from the previous
discussion. Firstly, the regulation of gene expression levels is
enacted through the action of gene products themselves: therefore,
in principle, one may hope to be able to describe the dynamics of
gene expression as an autonomous system. Secondly, even in the
simple case of the bacterium Escherichia coli, regulation of gene
expression is a complex process, likely to involve the interactions of
several molecular players.
In higher organisms, the basic components of the transcrip-
tional regulatory machinery are remarkably similar. However, many
more levels of regulatory control are present: in particular, chemi-
cal modifications of the DNA itself (in particular methylation of C
nucleotides) and of the structural histone proteins, around which
DNA is wound, can affect the structural properties of the DNA,
and hence the local accessibility to the transcriptional machinery.
Such effects, collectively known as epigenetic modifications, have
strong associations with transcription [8–11], and are generally
thought to encode processes of cellular memory associated with
long-term adaptation or cell-type differentiation.
Finally, while we have primarily focused on transcription,
subsequent steps of gene expression are also tightly regulated: RNA
processing, translation, and RNA and protein degradation all pro-
4 Vân Anh Huynh-Thu and Guido Sanguinetti

vide additional levels at which gene expression can be controlled.


Mechanisms of post-transcriptional control of gene expression are
less well explored, but it is widely believed that such processes,
mostly effected through proteins or RNAs binding to RNA targets,
may be as prevalent as transcriptional controls [12, 13] (see also
Chapter 15 for perspectives on incorporating post-transcriptional
regulation in GRN inference). Therefore, while a gene may have
no effect on the expression of another gene at the RNA level, it
may well be extremely important for the protein expression.

1.2 As we have seen in the previous subsection, the control of gene


High-Throughput expression is effected through the action of gene products them-
Measurements selves. Naturally, in order to discover and quantify such controls,
Techniques one must then be able to simultaneously measure the levels of
expression of multiple genes. Measurements of gene expression
have progressed dramatically in the last 20 years, with technological
advances driving a seemingly unstoppable expansion in the scope
of such experiments.
Proteins are the final product of the process of gene expression.
Methods based on quantitative mass spectrometry have been
highly effective in quantifying hundreds to thousands of proteins
within samples. Despite that, intrinsic limits to their sensitivity and
a relatively complex analysis pipeline mean that such methods do
not yet reach the comprehensiveness of transcriptomic measure-
ments [14].
Methods for assaying RNA levels have progressed immensely
in the last two decades. Microarray technology first provided
enormous impetus to the field in the late 1990s [15]. Microarrays
consist of thousands of short fragments of DNA (probes) arranged
on a substrate chip (usually glass or some other inert material);
by designing probes to complement thousands of genomic regions
from target organisms, one can obtain a readout of the (steady
state) concentration of thousands of transcripts within a population
of cells.
Microarrays represented a turning point in our ability to
comprehensively measure genetic materials; however, the design
of the probes implicitly defines what can be measured, biasing
the assay and limiting the scope for discovery of unexpected
biological facts, e.g., previously unobserved transcripts. Next gen-
eration sequencing (NGS) technologies proved revolutionary in
this context. NGS provides a massively parallel implementation
of DNA sequencing protocols, which enabled it to dramatically
reduce costs and expand throughput. RNA-seq is the main NGS
technology used to measure transcript abundances [16]: RNA
from a population of cells is reverse transcribed (usually after a
selective enrichment process to filter out highly abundant riboso-
mal RNAs), fragmented and the resulting complementary DNA
is sequenced and mapped to a reference genome. The number of
Gene Regulatory Network Inference: An Introductory Survey 5

fragments mapped to a particular gene, suitably normalized [17],


then gives a raw measurement of gene expression.
One of the major success stories of NGS technologies is
the ability of combining them with a variety of biochemical
assays, greatly expanding the scope of potential measurements. Of
particular relevance for GRNs is the ability to select fragments
of DNA bound to specific proteins by a process called immuno-
precipitation. Genomic material is fragmented, and an antibody
specific to a particular DNA-binding protein is added, allowing
separation by centrifugation of the protein. The bound DNA
fragments are then released, sequenced, and mapped to a reference
genome to identify where the protein was bound. This technique,
Chromatin Immuno-Precipitation followed by sequencing (ChIP-
seq), has been instrumental in obtaining in vivo mappings of
possible regulatory relationships [18].

2 Introduction: The Mathematical Formulation

In the previous section, we have given a condensed tour of the fun-


damental biological problem addressed in this book. We have seen
that interactions between gene products are the fundamental pro-
cesses underpinning the cell’s ability to modulate gene expression.
High-throughput measuring techniques paved the way to the use
of computational statistics techniques to reconstruct statistically
such interactions, a process sometimes called reverse engineering. In
this section we introduce some of the fundamental mathematical
concepts common to all methods for reverse engineering GRNs,
see, e.g., [19] for a more comprehensive review of these concepts.
Definition 1 (Network). A (directed) network or graph is a pair
(V , E) where V is a finite set of vertices (or nodes) and E is a set
of edges (or arcs) connecting the vertices. If I is a set indexing
the nodes, the set of edges is a subset of the Cartesian product
E ⊂ I × I , with element (ij) indicating the presence of an edge
between node i and node j. An undirected network is a network
where the edge set is symmetric under swapping the indices of the
nodes, i.e., whenever edge (ij) exists also edge (ji) exists.
Within the GRN context, network nodes universally represent the
expression level of genes. Edges are intuitively linked to associa-
tions between genes, but the precise meaning of an edge depends
on the mathematical model of the system. Networks are abstract
representations of systems, and per se do not have a semantic
interpretation that could link the network to node behaviors, e.g.,
their collective dynamics. Nevertheless, the structure of a network
(the topology) can provide an intuitively appealing visualization of
the system, and often be informative in itself. Informally, the aim
of a network abstraction is to condense in a simple representation
6 Vân Anh Huynh-Thu and Guido Sanguinetti

Fig. 1 A cartoon schematic of a gene regulatory network. A complex biophysical model describes the
interaction between three genes, involving both direct regulation (gene 2 by gene 1) and combinatorial
regulation via complex formation (gene 3 by genes 1 and 2). The abstracted structure of the system is given
in the (directed) network on the right

the complexity of interactions underpinning gene expression, see


Fig. 1 for a cartoon representation. One of the most important
quantities in this regard is the degree of a node, i.e., the number
of edges that are attached to the node, and the degree distribution
of the network, i.e., the empirical distribution of degrees across all
nodes in the network. Degree distributions often encode intuitively
interpretable properties of networks such as the presence of hubs
or the ability to reach rapidly any node from any starting node, and
in many cases they can be related to distinct stochastic mechanisms
by which the network may arise. In the case of directed networks,
one may further distinguish between in-degree (also called fan-in),
the number of edges terminating at a node, and out-degree (also
called fan-out), the number of edges starting at a node.
Finally, in many cases the bare topological description is
insufficient in capturing aspects of interest, such as the different
importance of different edges. To obviate this problem, one
can consider weighted networks, where each edge is associated
with a real number, its weight. We will see that in most cases
reconstructed networks, the topic of this book, arise naturally
as weighted networks, where the weight is intuitively associated
with the support that the data offers for the existence of an
edge. Weighted networks are often visualized as networks with
edges of different thickness, retaining the visual immediacy of the
network abstraction but effectively conveying more information.
A schematic example of a standard graphical representation for
directed, undirected, and weighted networks is given in Fig. 2.
Network science is a rich interdisciplinary field of research, and
this whistle-stop tour of the basic mathematical concepts cannot
do justice to such a field. Nevertheless, we now have the essential
tools to understand, at least at a high level, many of the common
strategies for reconstructing GRNs.
Gene Regulatory Network Inference: An Introductory Survey 7

Fig. 2 Examples of network types: directed (a), undirected (b), and weighted (c), where the weights are
represented by edge thickness. Note that a weighted network can be directed or undirected

3 Data-Driven Methods

The first class of GRN reconstruction methods considers a fully


connected network and associates a weight to each edge by estimat-
ing gene dependencies directly from the data. The output of such
methods is therefore a weighted network, which can be suitably
thresholded to yield the topology of the network. Such methods
are generally simple to implement, computationally efficient (they
scale with the number of possible edges, which is quadratic in the
number of nodes), and have proved often remarkably accurate and
effective. For these reasons, some of the most popular tools for
GRN inference pertain to this category.

3.1 Correlation The simplest score that one may associate to a pair of vector-
Networks valued measurements is their correlation. This is computed in
the following way: given two zero-mean vectors vi and vj , the
(Pearson) correlation between the vectors is given by
vi · vj
corr(vi , vj ) = ρij = (1)
vi vj 

where · indicates the scalar product and vi  is the Euclidean


norm of vector vi (square root of the sum of the squares of the
elements). Practically, given a set of N expression measurements
(e.g., different conditions) for G genes, one arranges them into
a data matrix D ∈ RN ×G . Computing correlations between the
columns of D yields a G × G matrix of pairwise gene correlations,
which can be taken as the weights of an undirected network and
suitably thresholded to obtain a network structure. Variations of
this approach involve taking a different measure of correlation
(e.g., Kendall’s or Spearman’s correlation), or raising each corre-
lation to a power to effectively filter out spurious low correlations
(weighted correlations).
8 Vân Anh Huynh-Thu and Guido Sanguinetti

Correlation networks are extremely simple to implement; their


complexity scales linearly with the number of experiments and
quadratically with the number of genes, so they can be easily
deployed on genome-wide studies with very high numbers of
experiments. The assumption that interacting genes should have
correlated expression is biologically plausible, and methods such as
WGCNA (weighted gene coexpression network analysis [20]) have
proved consistently reliable and are widely adopted.
Correlation networks however also have some limitations.
First, two genes might appear correlated not because they gen-
uinely interact, but because of the effect of a third gene (or
several other genes). For example, a high correlation might appear
between two genes that share a common regulator. Correlation
networks are also unable to distinguish between direct and indirect
interactions: if gene i regulates gene j which in turn regulates
gene k, it is likely that there will be a high correlation between
gene i and gene k. Correlation networks are therefore vulnerable
to false positives. In this respect, partial correlation networks (see
Subheading 4.1) offer a conceptually appealing solution to the
problem, at the cost of some additional assumptions. Another
drawback of correlation networks is that limited sample sizes
(which are common in small to medium scale studies) may produce
apparent high correlations which are not statistically significant.
Furthermore, Pearson correlation is a linear measure of correlation,
therefore nonlinear regulatory effects might easily be missed,
creating a vulnerability to false negatives as well.
Since the correlation is a symmetric metric, correlation net-
works are intrinsically undirected. Also, correlation is purely a
measure of statistical association; therefore, these models are not
predictive, in the sense that knowledge of some node values would
not allow us to make a quantitative prediction about the remaining
nodes.

3.2 Information As we have seen before, the linearity of Pearson correlation may
Theoretic Scores limit its suitability to capture complex regulatory relations. To
obviate this problem, several groups have considered alternative
scores based on information theory. The main mathematical con-
cept is the mutual information, defined as follows. Let X and Y
be two discrete random variables, and let P(X , Y ) be their joint
probability distribution. The mutual information between the two
random variables is then defined as
 P(xi , yj )
MI[X , Y ] = P(xi , yj ) log
xi ,yj
P(xi )P(yj )
 P(xi |yj )
= P(xi , yj ) log (2)
xi ,yj
P(xi )
Gene Regulatory Network Inference: An Introductory Survey 9

where xj and yj are the values the two random variables can take,
and P(X ) (resp. P(Y )) is the marginal distribution obtained by
summing out the values of Y (resp. X ) in the joint distribu-
tion. Intuitively, the mutual information quantifies the degree of
dependence of the two random variables: it is zero when the two
random variables are independent (as is clear from the second
formulation in Eq. (2)), and, when the two variables are determin-
istically linked, it returns the entropy of the marginal distribution.
The mutual information is still a symmetric score, so mutual
information networks are naturally undirected. Nevertheless, it can
accommodate more subtle dependencies than the linear correlation
score in (1), therefore potentially catering for a broader class of
regulatory interactions.
In the GRN context, the idea is to replace the probability
distributions in (2) with empirical distributions (estimated from the
samples) of gene expression levels for each pair of genes. This gives
a weight to each possible edge within a fully connected, weighted
undirected network; thresholding at a user-defined parameter
then returns a network topology called relevance network [21]. A
number of methods have been proposed to filter out indirect or
spurious links in relevance networks, the most popular methods
being ARACNE [22], CLR [23], and MRNET [24].
Mutual information networks are among the most widely used
GRN inference methods. They scale to genome-wide networks,
even if they are slightly more computationally intensive than
correlation-based methods, as their computational complexity is
quadratic in the number of genes and samples. However, they
also stop short of providing a predictive framework. Furthermore,
estimation of the joint probabilities in Eq. (2) might be highly
sensitive to noise when the sample size is medium-small.

3.3 An alternative approach to quantify the dependence of two vari-


Regression-Based ables is to predict one from the other. In the simplest case, one may
Methods try a linear regression approach, where the slope of the regression
line may be used to quantify the strength of the dependence. In a
GRN context this would amount to regressing each gene in turn
against all other genes in order to obtain network weights. Thus,
for every gene g, denoting by xgi its expression level in sample i,
we would solve the regression problem

xgi = wj xji + εi , (3)
j=g

with εi a noise term, and use the resulting weight wj as the weight
associated with the network edge between gene j and gene g.
Notice that in this case the regression formulation naturally gives
a direction to the network (even though bidirectional edges are
clearly possible).
10 Vân Anh Huynh-Thu and Guido Sanguinetti

This idea is at the core of several successful methods for GRN


reconstruction. TIGRESS [25] adopts directly the framework of
Eq. (3), introducing a L1 regularization penalty, which forces some
of the weights wj to be strictly zero, to ensure the identifiability
of the system (in general, unless the number of samples is higher
than the number of genes, these are overparametrized systems).
An alternative idea is to replace the linear regression model of (3)
with a more flexible, non-parametric regression model. GENIE3
[26], another widely used method, and subsequent developments
[27, 28] also follow this strategy, replacing linear regression with
an ensemble of regression trees. The score for the edge (jg) is
then the importance of gene j in the tree model predicting gene
g, which can be interpreted as the fraction of variance of the
expression of gene g that can be explained by gene j. Finally, the
regression approach is also extremely popular to handle time series
data, with the simple modification that the expression of gene g at
time t is regressed against the expression of the other genes at the
previous time point t − 1 (autoregressive model) [29].In this book,
regression-based methods are discussed in Chapters 8 and 9.
Methods based on a regression approach are among the most
popular and scalable approaches for reconstructing directed net-
works. Compared to other data-driven methods, they are generally
computationally more intensive, but they have predictive capability,
in the sense that, given the expression of a subset of genes, one
may in principle predict the expression levels of the remaining
genes. Moreover, regression-based methods are potentially able
to capture high-order conditional dependencies between gene
expression patterns, while correlation- and mutual information-
based methods only focus on pairwise dependencies. Practically,
the identifiability of regression models from limited data may
be problematic: different genes often have strongly correlated
expression patterns, and (regularized) regression with correlated
covariates is notoriously prone to spurious results.

4 Probabilistic Models

The data-driven-based methods described before all start from


some statistical or information theoretic measure of dependence,
but do not explicitly formulate a model of the data in terms of
probabilities. In this section, we briefly introduce two classes of
methods that start explicitly from a probabilistic model of the
data, using global measures of fit (joint likelihood) or Bayesian
approaches to identify the network structure.

4.1 Gaussian The simplest probabilistic model one may wish to consider is
Graphical Models a multivariate normal distribution. The probability density for a
multivariate normal vector x ∈ RG is given by
Gene Regulatory Network Inference: An Introductory Survey 11

 
1 1 −1
p(x|m, Σ) = √ exp − (x − m) Σ (x − m)
T
(4)
2π|Σ| 2

where the mean vector m and variance-covariance matrix Σ rep-


resent the parameters of the distribution. The off-diagonal entries
of the symmetric matrix Σ give the covariance between different
entries of the random vector x, which is related to the correlation
via multiplication by the marginal standard deviations.
An important result is that the inverse of the variance-
covariance matrix, the precision matrix C = Σ −1 , contains the
partial correlations between entries in the random vector x. The
partial correlation represents the residual correlation between
two variables once the effect of all the other variables has been
removed. As such, it provides a better measure of association than
simple correlation, as it is less vulnerable to spurious associations.
This insight has been effectively used in the context of GRNs
by a class of models known as Gaussian Graphical Models [30].
The idea is to treat gene expression measurements as a multivariate
normal random vector (each entry of the vector representing the
expression of one gene), and then estimate the precision matrix
from multiple conditions using maximum likelihood estimation.
Since this requires estimating a number of parameters which is
proportional to the square of the number of genes, regularization
techniques are needed; sparse regularization techniques such as L1
regularization (also known as graphical lasso [31]) have the added
advantage of returning a more interpretable result, with the non-
zero entries of the precision matrix representing the edges of the
(undirected) regulatory network. Several algorithmic approaches
have been proposed to carry out this estimation efficiently, and
Gaussian Graphical Models represent a popular network inference
approach.Within this book, Chapter 6 discusses the most recent
developments in Gaussian Graphical Models usage.
While Gaussian Graphical Models are certainly a success story,
as usual they come with limitations. Estimating a high-dimensional
precision matrix from limited data is difficult, and, while using
a consistent estimator such as penalized maximum likelihood
brings guarantees in the infinite sample limit, the accuracy of the
reconstruction for finite samples is more difficult to quantify a
priori. More problematically, Gaussian Graphical Models assume
normality of the data, which implies linearity in the relationship
between the various genes. While this can be a reasonable approx-
imation, and surprisingly effective inferentially, it certainly is a
strong modelling limitation.

4.2 Bayesian All methods described so far address the problem of network
Networks reconstruction from a top-down approach: start with a fully
connected network, compute pairwise scores (or estimate jointly
a precision matrix in the case of Gaussian Graphical Models), and
12 Vân Anh Huynh-Thu and Guido Sanguinetti

then threshold/regularize to obtain a sparse network structure.


In this subsection we will briefly introduce a very popular class
of methods that takes the opposite approach, constructing a
joint probabilistic model out of local conditional terms, Bayesian
networks.
The starting point is the product rule of probability, which
holds that for any two random variables X and Y , P(X , Y ) =
P(X |Y )P(Y ). Applying this rule recursively, one has that for G
variables


G
P(X1 , . . . , XG ) = P(X1 ) P(Xi |X1 , . . . , Xi−1 ) (5)
i=2

This factorization is general and clearly not unique, since the


ordering of the random variables is arbitrary. Bayesian networks
start from this general factorization, but create structure by impos-
ing that only a subset of all possible variables are relevant in the
conditioning set [32]. More formally, for each variable Xi , we
define the set of parents of Xi , πi ⊂ {X1 , . . . , Xi−1 , Xi+1 , . . . , XG }.
We then construct a directed network by connecting parents and
children (the direction of the arrow goes from parents to children);
the network structure corresponds to a special factorization of the
joint probability as


G
P(X1 , . . . , XG |G ) = P(Xi |Xπi ) (6)
i=1

where we introduce the variable G to denote the graph structure


of the Bayesian network. When the parent set πi is empty, the con-
ditional distribution P(Xi |Xπi ) is equal to the marginal distribution
P(Xi ). See Fig. 3 for an example. Two remarks are important: not
all parents–children assignments will lead to a valid factorization of
the joint probability distribution. A fundamental result is that only
networks without directed loops (directed acyclic graphs, DAGs)
specify valid probability distributions (i.e., you cannot return to
the same place walking on the network along the direction of
the arrows). This global constraint poses considerable difficulties
to reconstruction algorithms. Furthermore, even with the DAG
constraint, the correspondence between networks and probability
distributions is not one-to-one. As already highlighted in the case
of the factorization (5), there can be multiple valid factorizations
of a joint probability distribution, leading to different networks
encoding exactly the same probability distribution. This issue is
known as Markov equivalence in probability theory; see, e.g., [33]
Ch. 3 for more details about the mathematical aspects of graphical
statistics.
Gene Regulatory Network Inference: An Introductory Survey 13

Fig. 3 Example of a valid Bayesian Network with four nodes and four edges.
Given this structure G , the joint distribution P(A, B, C, D|G ) factorizes as
P(A)P(B|A)P(C|A)P(D|B, C)

Within a GRN context, Bayesian networks have been hugely


popular due to the simplicity with which prior information (e.g.,
in the form of known interactions) can be incorporated (see, for
example, Chapter 7 for applications of this paradigm to modern
problems). As usual, gene expression levels are taken to represent
the nodes of the network. For computational convenience, all
conditional distributions are generally assumed to be Gaussian or
discrete (multinomial), which enables the distributional parameters
to be efficiently marginalized. In this way, one can easily compute
the marginal likelihood function by evaluating the probability of
the data under the model. The outstanding problem then remains
the identification of the network structure. This is a very difficult
combinatorial optimization problem. Greedily searching the space
of networks structures for an optimum of the likelihood was an
early solution [34]: although this can be surprisingly effective,
in practice the cardinality of the space of network structures
increases super-exponentially with the number of nodes, creating a
formidable computational problem. This problem is compounded
by the existence of multiple optima (due to Markov equivalence)
and by the fact that the search must be constrained by the global
DAG condition. As an alternative, Bayesian statistical methods have
been extensively studied. This approach usually proceeds by con-
structing a biased random walk in the space of allowable network
structures such that structures with a higher posterior probability
are visited more often (a procedure called Markov Chain Monte
Carlo) [35]. The Bayesian approach has considerable advantages in
the ease with which prior information can be encoded, and in the
way the intrinsic uncertainty in the system is represented: typically,
such methods return an ensemble of plausible network structures,
weighted by their posterior probability. Nevertheless, Bayesian
methods suffer from considerable computational overheads and,
despite recent advances [36], the scalability of Bayesian network
methods to genome-wide data sets remains a challenge.
14 Vân Anh Huynh-Thu and Guido Sanguinetti

5 Dynamical Models

One of the central questions in biology is how organisms adapt


to changing conditions. Therefore, a substantial fraction of high-
throughput experiments have a time series design, e.g., they assay
the same system at different time points to follow the evolution
of the system in time. GRNs play a fundamental role in the
mathematical modelling of such processes; unsurprisingly, several
GRN reconstruction techniques are tailored towards the analysis
of time series data. In this section, we introduce two broadly used
classes of methods to infer network structures from dynamic data.

5.1 Dynamic As we have seen in the previous chapter, a fundamental require-


Bayesian Networks ment on the structure of a Bayesian network is the absence of
loops (DAG condition). Within the GRN context, this has long
been seen as one of their main limitations: biological systems often
exhibit feedback loops as a mechanism to engender robustness
and stability. An elegant solution is provided by Dynamic Bayesian
Networks (DBNs), a special class of Bayesian networks adapted for
time series data.
DBNs work around the DAG condition by expanding the set
of random variables under consideration, so that the nodes of
the network now represent expression of genes at a specific time
point. Network edges may now only connect nodes pertaining
to different time points, so that a gene can only influence the
expression of another gene (or, indeed, itself) at a later time point
(see Fig. 4 for an example). In this way, the DAG condition is
automatically satisfied, while at the same time biologically plausible
features such as feedback mechanisms can be easily incorporated.
In most cases, the dynamic structure of a DBN is chosen such that
edges are only present between nodes at consecutive time points,
with time-independent transition probabilities: this assumption of
a homogeneous, first order Markov process is a plausible approx-
imation in many cases, and, particularly when the conditional
distributions are chosen to be Gaussian, it allows the modeller
to leverage a rich literature on signal processing in autoregressive
models.
DBNs are extremely popular in the GRN context, and are
implemented in several software tools (see [37] for a recent review,
and also Chapters 2 and 3 in the present volume). Structure
learning within DBNs is easier than in standard Bayesian Networks,
since the DAG condition is automatically satisfied, however, it
still remains computationally demanding, particularly in a Bayesian
setting. From the modelling point of view, most implementations
assume a linear dynamic model, which is clearly a limitation.
Extensions exist which include nonlinear mappings between time
points [38, 39] or that relax the time-homogeneity assumption
[40], however, these incur generally higher computational costs
Gene Regulatory Network Inference: An Introductory Survey 15

Fig. 4 Example of a Dynamic Bayesian Network with four nodes: static repre-
sentation (with cycles) on the left, and unrolled dynamic representation on the
right

and/or place strong restrictions on the class of nonlinear functions


allowed. Most often, DBNs are implemented so that each time
point in the model corresponds to an observation time. While this
is somewhat natural, it constrains all biological processes to have
essentially the same time-scale, which can be a serious limit; this is
addressed by using a continuous-time semantic within the model,
as in the case of continuous-time Bayesian Networks [41] or, more
generally, of differential equation models.

5.2 Differential Differential equations represent perhaps the best studied and most
Equation Methods widely used class of dynamical models in science and engineering.
They provide an infinitesimal description of the system dynamics
by relating the rate of change (time derivative) of a variable to its
value,

dx
= f (x, Θ, u(t), t) . (7)
dt

Here f is a general, time dependent, vector-valued function of the


variable of interest x itself, taking as additional inputs a set of
parameters Θ and possibly also a set of external signals u(t). When
the function f does not depend explicitly on time, the system is said
to be time homogeneous, and when it does not depend on external
inputs it is said to be autonomous.
Within a GRN context, the variables x are the expression
levels of the set of genes we are interested in modelling, and the
interactions between genes are encoded in the parameters Θ. By
far the most widely used class of models are linear, autonomous
and time homogeneous models, where Eq. (7) simplifies to

dx
= Ax (8)
dt
16 Vân Anh Huynh-Thu and Guido Sanguinetti

where the parameters Θ form the interaction matrix A. A non-zero


entry Aij signifies an influence of gene j on the time evolution of
gene i, and hence a directed edge between j and i in the GRN.
Equation (8) or variants thereof are at the core of several
methods for inferring GRNs. The Inferelator [42] is one such
popular approach, where the derivative on the left-hand side
of (8) is approximated with the difference of observed values at
consecutive time points, and the network structure is recovered
via L1 regularized regression. Other approaches solve directly the
differential equation (8), positing the solution to be a linear com-
bination of basis functions [43] or a draw from a Gaussian process
[44], and then take a Bayesian approach to infer the parameters of
the differential equation under a suitable, sparsity inducing prior
distribution. Finally, the restriction to linear dynamics is not central
to methods based on differential equations, and indeed methods
using nonlinear dynamics (such as Hill kinetics [45]) have been
proposed. See Chapter 16 for a comprehensive description of state-
of-the-art methods for inferring GRNs using differential equations.
Differential equation models offer several potential advantages:
their continuous-time semantics is closer to the class of models
used in biophysical approaches to systems biology [46], so that
in principle such approaches can benefit from a more mechanistic
interpretation. Employing a continuous-time semantics also has the
added advantage of limiting the influence of experimental design
decisions (e.g., choice of time points/sampling frequencies) on
the final result. In other respects, differential equation models are
subject to the same computational hurdles as other methods, and
they suffer from similar identifiability issues.

6 Multi-Network Models

All of our previous discussion has assumed that all the data can
be explained by a single network structure. While this may be
reasonable when all data comes from similar conditions, it is a
very strong assumption when one is trying to jointly model data
from heterogeneous scenarios, as different biological conditions
may lead to different pathways being activated, so that effectively
different network structures may be more appropriate.
This idea has been fruitfully exploited in two main directions.
Several papers have considered the scenario where data (e.g., time
series) is available from different, but related conditions. Therefore,
one may reasonably assume some commonalities between the
underlying network structures, so that methods that can transfer
information across conditions are needed. This transfer can be
achieved via introducing a shared diversity penalty within different
optimization problems [47, 48]. Equivalently but more flexibly,
the joint reconstruction of the different networks can be achieved
by adopting a hierarchical Bayesian approach [49, 50].
Gene Regulatory Network Inference: An Introductory Survey 17

Another direction that has seen considerable interest is the


idea of time-varying networks. Here, the assumption is that the
network structure itself can rewire across time, for example, to
account for checkpoints during development or cancer evolution.
The solution is generally composed of two steps: the identification
of the change-points, and a joint learning of related networks
across the homogeneous stretches of the time series. This idea
has been explored both in the context of optimization approaches
[51, 52] and more extensively in a Bayesian scenario [53–55].
Some of these ideas are explored in Chapters 2, 10, 11, and 13
of this volume.

7 Evaluation

During our discussion of various methods for GRN inference, we


have often referred to several methods as successful or effective,
without specifying how the performance of a particular method
may be evaluated. This is a difficult issue: GRN inference methods
are motivated precisely by the difficulty of directly measuring reg-
ulatory relationships between genes, therefore almost by definition
gold standard scenarios where such interactions are known with
high confidence are rare. One possibility is the recourse to simu-
lated data. One may employ a biochemically plausible interaction
model to generate some simulated gene expression measurements,
and then evaluate the accuracy of the method against this gold
standard. This strategy has been advocated by major international
initiatives such as the Dialogue for Reverse Engineering of Models
(DREAM) [56], which has organized a long-running challenge
on GRN inference, providing both a stimulus and a benchmark
for methodological development. Another direction has been
the use of synthetic gene circuits as a benchmark for network
reconstruction algorithms. The most well-known example of this
is probably the IRMA network [57], a synthetic network of five
genes engineered within living yeast cells. While this synthetic
biology approach is appealingly close to biological reality, so far
technological limitations mean that such an approach has been
limited to small networks containing a handful of genes.
Having decided on a benchmark data generation procedure,
the next step in evaluating a GRN inference algorithm is the choice
of a suitable metric. Naively, one may consider thresholding the
algorithm’s outputs and reporting an average accuracy in detecting
the presence or absence of edges. This strategy is however flawed
since GRNs are typically very sparse, so that an algorithm con-
stantly predicting the absence of edges would potentially achieve
high accuracy. A better strategy is to consider the fraction of true
positive calls relative to all positives (sensitivity or recall) and the
fraction of true positive calls out of all positive calls (precision or
positive predictive value).
18 Vân Anh Huynh-Thu and Guido Sanguinetti

Naturally, precision and recall depend on the threshold chosen:


with a very lax cutoff, we will likely recall many true positives
(high recall), at the cost of many false positives (low precision).
To elucidate the effectiveness of an algorithm in handling the
precision/recall trade-off, a visually appealing strategy is the use
of precision-recall curves. These are constructed as follows: given
the output of a GRN inference algorithm as a weighted network,
one starts by thresholding at a very strict (high) threshold, where
precision is expected to be high and recall will be low. Decreasing
the threshold, one will progressively lower precision by introducing
some false positives, but also increase recall, until at zero threshold
(fully connected network) recall is 1 and precision is the fraction
of actual edges over possible edges (positives fraction). This pro-
cedure results in a curve in precision-recall space (see Fig. 5, right
panel, for an illustration) indicative of the overall performance of
the inference algorithm: a random predictor will always have an
expected precision equal to the positives fraction, while an ideal
algorithm will have precision 1 for any recall between 0 and 1.
These observations justify the use of the area under the curve as
a global metric of performance for an algorithm, a choice almost
universally adopted in evaluating GRN inference methods.
Alternatively, a receiver operating characteristic (ROC) curve
may be used to evaluate a weighted network against a gold
standard. A ROC curve plots the recall versus the false positive
rate (the fraction of false positive calls relative to all negatives) for
different thresholds on the weights, again progressively lowering
the threshold. Precision-recall curves are however more suited than
ROC curves for problems where the number of negatives is much
higher than the number of positives, which is typically the case of
GRNs [58].

ROC curve PR curve


1 1

0.9
0.9
0.8
0.8
True positive rate

0.7
Edge ranking

0.7
Precision

0.6

0.5 0.6

0.4
0.5
0.3
0.4
0.2
0.3
0.1

0 1 0 0.2
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Edge weight False positive rate Recall
Fig. 5 Evaluation of inferred networks: an algorithm typically outputs a ranked list of edges, with the weight
of each edge being given by either a score or a posterior probability (left panel, where true and false edges
are colored in yellow and red, respectively). By progressively lowering the threshold for acceptance, one can
construct either a ROC curve (central panel) or a precision-recall curve (right panel)
Gene Regulatory Network Inference: An Introductory Survey 19

8 Software Tools

Most of the methods described above have been implemented


in software tools which have been made freely available to the
community. As it is perhaps to be expected of such a diverse
and dynamic field, no single method has yet emerged as an
industry standard, and tools differ widely in their usability and
implementation. We provide here a summary list of some of the
main software tools, as a reference list for the practitioner. All
information is up-to-date at the time of writing (November 2017),
and may clearly change. Naturally, this list is incomplete, and we
would like to stress that any omissions do not reflect a judgement
on the methods, but rather a restriction in space.
• WGCNA, weighted correlation network analysis, an R package
available from the comprehensive R archive CRAN.
https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/
Rpackages/WGCNA/index.html
• ARACNe, mutual information-based network inference
approach. Source code in C++ available, as well as several
OS-compatible versions and plugins.
http://califano.c2b2.columbia.edu/aracne/
• CLR, context likelihood of relatedness, mutual information-
based network inference approach, originally implemented in
MATLAB.
http://m3d.mssm.edu/network_inference.html
• MRNET, mutual information-based network inference
approach. R implementation available in the Bioconductor
package minet (also contains R implementations of ARACNe
and CLR).
https://www.bioconductor.org/packages/release/bioc/
html/minet.html
• GENIE3 and other tree-based methods, available as MAT-
LAB, Python, and R packages.
http://www.montefiore.ulg.ac.be/~huynh-thu/software.
html
• GeneNet, R package implementing Gaussian Graphical Mod-
els network inference, available from CRAN.
https://cran.r-project.org/web/packages/GeneNet/index.
html
• CatNet, R package for (discrete) Bayesian Network structure
learning, available from CRAN.
https://cran.r-project.org/web/packages/catnet/index.html
Another random document with
no related content on Scribd:
pont.
Je me dirigeai vers Fleet street, dans l’intention de prendre un
fiacre et de rentrer chez moi. Quand mon premier sentiment
d’indignation se fut dissipé, tout le grotesque de l’aventure m’apparut
et je me mis à rire tout haut parmi les rues désertes, au scandale
d’un agent de police. Plus j’y réfléchissais, plus je riais de bon cœur,
mais une main, en se posant sur mon épaule, vint modérer ma
gaieté : je me retournai, et vis celui qui aurait dû être couché au
poste de la police fluviale. Il était trempé des pieds à la tête, son
chapeau de soie dégoulinant se tenait tout en arrière de son occiput,
et autour de son cou pendait une couverture rayée de jaune,
évidente propriété de l’État.
— Le crépitement d’un fagot sous une marmite, dit-il, solennel.
Petit gars, sais-tu bien que c’est un péché de rire sans motif ? Ma
conscience m’a fait craindre que tu n’arrives jamais chez toi, et je
suis venu pour te conduire un bout. Ils sont bien mal élevés, là-bas
près de l’eau. Ils n’ont pas voulu m’écouter lorsque je leur ai parlé de
tes œuvres, aussi je les ai lâchés. Jette sur toi cette couverture, petit
gars. Elle est belle et fraîche.
Je soupirai intérieurement. La Providence à coup sûr avait
décrété que je vadrouillerais pendant l’éternité avec l’infâme
connaissance de MacPhee.
— Allez-vous-en, lui dis-je, allez chez vous, ou sinon je vous fais
arrêter.
Il s’adossa contre un réverbère et se mit un doigt sur le nez… sur
son indécent pif sensuel.
— Maintenant je me rappelle que MacPhee m’avait prévenu que
tu étais plus orgueilleux qu’un paon, et le fait que tu m’as jeté à la
dérive dans un bateau prouve que tu étais saoul comme une grive.
Un nom illustre est comme un gâteau savoureux. Moi, je n’en ai pas.
Et il se lécha gaiement les babines.
— Je le sais, dis-je. Et alors ?
— Ouais, mais toi tu en as un. Je me rappelle maintenant que
MacPhee parlait de ta réputation dont tu étais si fier. Petit gars, si tu
me fais arrêter… je suis vieux assez pour être ton père… je bafoue
ta réputation jusqu’à extinction de voix : car je t’appellerai par ton
nom jusqu’à ce que les vaches rentrent à l’étable. Ce n’est pas de la
plaisanterie que d’être mon ami. Si tu repousses mon amitié, il te
faut du moins venir jusqu’à Vine street avec moi pour avoir volé le
youyou du Breslau.
Et il se mit à chanter à gorge déployée :

Au matin
Au matin avec le tombereau noir…
Nous remonterons à Vine street, au matin !

— C’est de ma composition, mais je n’ai pas de vanité, moi. Nous


allons rentrer chez nous tous les deux, petit gars, nous allons rentrer
chez nous.
Et il chanta : « Depuis si longtemps [17] », pour montrer qu’il
parlait sérieusement.
[17] Auld Lang Syne, air populaire d’Écosse.

Un agent de police nous avisa que nous ferions bien de circuler,


et nous circulâmes jusqu’au Palais de Justice voisin de St. Clément
Danes. Mon compagnon s’était calmé, et son élocution qui jusque-là
avait été distincte (c’était merveille de l’entendre dans son état parler
si bien le dialecte écossais) commença à bafouiller, à achopper et à
bégayer. Il me pria de remarquer l’architecture du Palais de Justice
et s’accrocha tendrement à mon bras. Il aperçut alors un agent, et
sans me laisser le loisir de me dégager de lui, m’entraîna vers
l’homme, en chantant :

Tous les représentants de l’autorité


Ont bien sûr une montre et sa chaîne.
et jeta sa couverture ruisselante sur le casque du gardien de l’ordre.
En tout autre pays du monde, nous aurions couru le plus grand
risque d’attraper une balle, ou un coup de sabre, ou de matraque…
et un coup de matraque est pire qu’une balle. Mais dans le pétrin où
nous mettait cette couverture humide, je songeai que nous étions en
Angleterre, où les agents de police sont habitués à être houspillés,
battus, malmenés, ce qui les prépare à mieux supporter une
réprimande au tribunal de police le lendemain matin. Nous
tombâmes tous trois comme des capucins de cartes, tandis que
l’autre (c’était la suprême horreur de la situation) m’adjurait par mon
nom de m’asseoir sur la tête de l’agent et de lui tailler des
croupières. Je me dégageai le premier et criai à l’agent de tuer
l’individu à la couverture.
Comme juste, l’agent répliqua : « Vous ne valez pas mieux que
lui », et me donna la chasse, car j’étais de plus petite taille, par le
contour de St. Clément Danes, jusque dans Holywell street, où je me
jetai dans les bras d’un autre agent. Cette poursuite ne dura
sûrement pas plus d’une minute et demie, mais elle me parut aussi
longue et pénible qu’une fuite de cauchemar où l’on a les pieds
entravés. Tout en courant j’eus le loisir de penser à mille choses,
mais je pensai surtout au grand homme pareil à un dieu qui avait sa
stalle dans la tribune nord de St. Clément Danes, il y a cent ans [18] .
Lui du moins aurait compati à mon sort. Ces considérations
m’absorbaient à un tel point que quand l’autre agent me pressa sur
son sein en disant : « Qu’est-ce que c’est que ces manières-là ? » je
lui répondis, avec la plus exquise politesse :
[18] Samuel Johnson.

— Monsieur, allons faire un tour dans Fleet street [19] .


[19] Phrase attribuée à Johnson.

— Bow street [20] vous conviendra mieux, ce me semble,


répondit-il.
[20] Poste de police connu.
Je le crus aussi durant un instant, puis il me sembla que je
pourrais m’en tirer par la force. Et il s’ensuivit une scène hideuse,
que vint compliquer l’arrivée précipitée de mon compagnon, porteur
de la couverture et me déclarant — toujours par mon nom — qu’il
voulait me sauver ou périr à la tâche.
— Abattez-le, suppliai-je. Fendez-lui d’abord le crâne, et je
m’expliquerai ensuite.
Le premier agent, celui qu’on avait assailli, tira son bâton et
l’asséna sur la tête de mon compagnon. Le haute-forme de soie
éclata et son propriétaire tomba comme une bûche.
— Ça y est ! fis-je. Voilà que vous l’avez tué.
Holywell street ne se couche jamais. Un petit rassemblement se
forma sur-le-champ, et quelqu’un de race germanique brailla :
— Fous l’afez dué !
Un autre lança :
— Prenez son numéro, crénom ! Je l’ai vu taper tant qu’il a pu.
Ouah !
Or, quand la bagarre avait commencé, la rue était déserte, et à
part les deux agents et moi, personne n’avait vu asséner le coup. Je
prononçai donc à voix haute et joviale :
— Cet homme est un ami à moi. Il est tombé du haut mal. Dites,
sergot, voulez-vous aller chercher l’ambulance.
Et tout bas j’ajoutai :
— Vous aurez chacun cinq shillings, et cet homme ne vous avait
rien fait.
— Non, mais vous et lui avez tenté de me nettoyer, répliqua
l’agent.
Il n’y avait pas à discuter la chose.
— Est-ce que Dempsey est de service à Charing Cross ?
demandai-je.
— D’où connaissez-vous Dempsey, espèce de n. d. D.
d’étrangleur ? repartit l’agent.
— Si Dempsey est là, il me reconnaîtra. Amenez vite
l’ambulance, et je transporterai cet homme à Charing Cross [21] .
[21] A l’hôpital de Charing Cross.

— C’est à Bow street que vous allez venir, vous, dit l’agent avec
aigreur.
— Cet homme est mourant. (Il geignait, étendu sur le pavé.)
Amenez l’ambulance, dis-je.
Il y a une ambulance derrière St. Clément Danes, ce en quoi je
suis mieux renseigné que beaucoup. L’agent, paraît-il, possédait les
clefs du kiosque où elle gîtait. Nous la sortîmes (c’était un engin à
trois roues, pourvu d’une capote) et nous jetâmes dessus le corps
de l’individu.
Placé dans une voiture d’ambulance, un corps a l’air aussi mort
que possible. A la vue des semelles de bottes roides, les agents se
radoucirent.
— Allons-y donc, firent-ils.
Je m’imaginai qu’ils parlaient toujours de Bow street.
— Laissez-moi voir Dempsey trois minutes, s’il est de service,
répliquai-je.
— Entendu. Il y est.
Je compris alors que tout irait bien, mais avant de nous mettre en
route, je passai la tête sous la capote de l’ambulance, pour voir si
l’individu était encore en vie. Mon oreille perçut un chuchotement
discret.
— Petit gars, tu devras me payer un nouveau chapeau. Ils m’ont
crevé le mien. Ne va pas me lâcher à cette heure, petit gars. Avec
mes cheveux gris je suis trop vieux pour aller en prison par ta faute.
Ne me lâche pas, petit gars.
— Vous aurez de la chance si vous vous en tirez à moins de sept
ans, dis-je à l’agent.
Mûs par une crainte très vive d’avoir outrepassé leur devoir, les
deux agents quittèrent leurs secteurs de surveillance, et le lugubre
convoi se déroula le long du Strand désert. Je savais qu’une fois
arrivé à l’ouest d’Adelphi je serais en pays ami. Les agents
également eurent sujet de le savoir, car tandis que je marchais
fièrement à quelques pas en avant du catafalque, un autre agent me
jeta au passage :
— Bonsoir, monsieur.
— Là, vous voyez, dis-je avec hauteur. Je ne voudrais pour rien
au monde être dans votre peau. Ma parole, j’ai bonne envie de vous
mener tous deux à la préfecture de police.
— Si ce monsieur est de vos amis, peut-être… dit l’agent qui
avait asséné le coup et songeait aux conséquences de son acte.
— Peut-être aimeriez-vous me voir partir sans rien dire de
l’aventure, complétai-je.
Alors apparut à nos yeux la silhouette du brigadier Dempsey, que
son imperméable rendait pour moi pareil à un ange de lumière. Je le
connaissais depuis des mois, il était de mes meilleurs amis, et il
nous arrivait de bavarder ensemble dans le petit matin. Les sots
cherchent à gagner les bonnes grâces des princes et des ministres,
et les cours et ministères les laissent périr misérablement. Le sage
se fait des alliés parmi la police et les cochers de fiacre, en sorte que
ses amis jaillissent du kiosque et de la file de voitures, et que ses
méfaits eux-mêmes se terminent en cortèges triomphaux.
— Dempsey, dis-je, y aurait-il eu une nouvelle grève dans la
police ? On a mis de faction à St. Clément Danes des êtres qui
veulent m’emmener à Bow street comme étrangleur.
— Mon Dieu, monsieur ! fit Dempsey, indigné.
— Dites-leur que je ne suis pas un étrangleur ni un voleur. Il est
tout bonnement honteux qu’un honnête homme ne puisse se
promener dans le Strand sans être malmené par ces rustres. L’un
d’eux a fait son possible pour tuer mon ami ici présent ; et j’emmène
le cadavre chez lui. Parlez en ma faveur, Dempsey.
Les agents dont je faisais ce triste portrait n’eurent pas le temps
de placer un mot. Dempsey les interpella en des termes bien faits
pour les effrayer. Ils voulurent se justifier, mais Dempsey entreprit
une énumération glorieuse de mes vertus, telles qu’elles lui étaient
apparues à la lumière du gaz dans les heures matinales.
— Et en outre, conclut-il avec véhémence, il écrit dans les
journaux. Hein, ça vous plairait, qu’il parle de vous dans les
journaux… et en vers, encore, selon son habitude. Laissez-le donc.
Voilà des mois que lui et moi nous sommes copains.
— Et le mort, qu’en fait-on ? dit l’agent qui n’avait pas asséné le
coup.
— Je vais vous le dire, répliquai-je, me radoucissant.
Et aux trois agents assemblés sous les lumières de Charing
Cross, je fis un récit fidèle et détaillé de mes aventures de la nuit, en
commençant par le Breslau et finissant à St. Clément Danes. Je leur
dépeignis le vieux gredin couché dans la voiture d’ambulance en des
termes qui firent se tortiller ce dernier, et depuis la création de la
police métropolitaine, jamais trois agents ne rirent comme ces trois-
là. Le Strand en retentit, et les louches oiseaux de nuit en restèrent
ébahis.
— Ah Dieu ! fit Dempsey en s’essuyant les yeux, j’aurais donné
gros pour voir ce vieux type galoper avec sa couverture mouillée et
le reste. Excusez-moi, monsieur, mais vous devriez vous faire
ramasser chaque nuit pour nous donner du bon temps.
Et il se répandit en nouveaux esclaffements.
Des pièces d’argent tintèrent, et les deux agents de St. Clément
Danes regagnèrent vivement leurs secteurs : ils riaient tout courants.
— Emmenez-le à Charing Cross, me dit Dempsey entre ses
éclats de rire. On renverra l’ambulance dans la matinée.
— Petit gars, tu m’as appelé de vilains noms, mais je suis trop
vieux pour aller à l’hôpital. Ne me lâche pas, petit gars. Emmène-moi
chez moi auprès de ma femme, dit la voix sortant de l’ambulance.
— Il n’est pas tellement malade. Sa femme lui flanquera un
fameux savon, dit Dempsey qui était marié.
— Où logez-vous ? demandai-je.
— A Brugglesmith, me fut-il répondu.
— Qu’est-ce que c’est que ça ? demandai-je à Dempsey, plus
versé que moi dans les mots composés de ce genre.
— Quartier de Brook Green, arrondissement d’Hammersmith,
traduisit aussitôt Dempsey.
— Évidemment, repris-je. Il ne pouvait pas loger ailleurs. Je
m’étonne seulement que ce ne soit pas à Kew [22] .
[22] Brook Green se trouve à l’extrême ouest de
Londres, à six kilomètres et demi de Charing Cross. Kew
est encore plus loin, dans la même direction.

— Allez-vous le véhiculer jusque chez lui, monsieur ? me


demanda Dempsey.
— Habiterait-il en… paradis, que je le véhiculerais jusque chez
lui. Il ne sortira pas de cette voiture tant que je serai vivant. Pour
quatre sous, il me ferait commettre un assassinat.
— Alors bouclez-le, pour plus de sûreté, me dit Dempsey.
Et il boucla dextrement par-dessus le corps de l’individu les deux
courroies qui pendaient aux côtés de la voiturette. Brugglesmith — je
ne connaissais pas son autre nom — dormait profondément. Il
souriait même dans son sommeil.
— C’est parfait, conclut Dempsey.
Et je m’éloignai, poussant devant moi la petite voiture de mon
diablotin. Trafalgar square était désert, à part quelques dormeurs à
la belle étoile. L’un de ces misérables s’approcha de moi et me
demanda l’aumône, en m’affirmant qu’il avait été jadis un homme
distingué.
— Moi aussi, répliquai-je. Il y a longtemps de cela. Je vous
donnerai un shilling si vous voulez m’aider à pousser cette machine.
— C’est un assassinat ? dit le vagabond, en se reculant. Je n’en
suis pas encore arrivé là.
— Non, mais cela finira par en être un, répondis-je. J’y suis
arrivé, moi.
L’homme se renfonça dans les ténèbres, et je poursuivis par
Cockspur street jusqu’au rond-point de Piccadilly, ne sachant que
faire de mon trésor. Tout Londres était endormi, et je n’avais pour me
tenir compagnie que ce sac à vin. Il était muet… muet comme le
chaste Piccadilly.
Comme je passais devant un club de brique rose, j’en vis sortir
un jeune homme de ma connaissance. Un œillet rouge fané pendait
à sa boutonnière : il avait joué aux cartes, et se disposait à retourner
chez lui à pied avant l’aube, quand il me rejoignit.
— Que faites-vous là ? me demanda-t-il.
J’avais perdu tout sentiment de honte.
— Il s’agit d’un pari, répliquai-je. Venez m’aider.
— Hé, petit gars, qui est-ce ? fit la voix de dessous la capote.
— Seigneur Dieu ! s’exclama le jeune homme, faisant un bond
par-dessus la chaussée.
Ses pertes au jeu lui avaient sans doute ébranlé les nerfs. Les
miens étaient d’acier cette nuit-là.
— Le Seigneur ? le Seigneur Dieu ? continua la voix morne et
impassible. Ne blasphème pas, petit gars. Il viendra à l’heure qu’il
aura choisie.
Le jeune homme me considéra avec effroi.
— Cela fait partie du pari, répliquai-je. Venez pousser !
— Où… où allez-vous ? interrogea-t-il.
— A Brugglesmith, répondit la voix de l’intérieur. Dis, petit gars, tu
connais ma femme ?
— Non, fis-je.
— Eh bien, c’est une femme redoutable. Petit gars, j’ai soif.
Frappe à l’une de ces belles maisons-là, et pour ta peine… tu
pourras embrasser la bourgeoise.
— Taisez-vous, ou je vous bâillonne, m’écriai-je férocement.
Le jeune homme à l’œillet rouge gagna l’autre côté de Piccadilly
et héla l’unique fiacre visible à plusieurs kilomètres. Quelles étaient
ses pensées, je ne saurais le dire.
Je me hâtai… véhiculant, sempiternellement véhiculant la
machine vers Brook Green, Hammersmith. Là, j’abandonnerais
Brugglesmith aux dieux de cette contrée désolée. Il m’en avait fait
trop voir pour qu’il me fût interdit de l’abandonner tout ficelé au
milieu de la rue. D’ailleurs, il crierait après moi, et, vrai ! c’est une
chose pitoyable que d’entendre à l’aube son propre nom résonner
dans le vide de Londres.
Je poursuivis donc, dépassant Apsley House, et atteignant le
débit de café, mais le café n’existait pas pour Brugglesmith. Et dans
Knightsbridge… le respectable Knightsbridge… je véhiculai mon
fardeau, le corps de Brugglesmith.
— Petit gars, qu’est-ce que tu vas faire de moi ? dit-il quand nous
fûmes arrivés en face des casernes.
— Vous tuer, dis-je laconiquement, ou vous livrer à votre femme.
Taisez-vous.
Il refusa d’obéir. Il ne cessait de parler, entremêlant dans la
même phrase l’écossais correct à un effroyable baragouin d’ivrogne.
A l’Albert Hall, il m’affirma que j’étais le « bigand d’Hattle Gadle », ce
qui signifiait, je suppose, le « brigand d’Hatton Garden ». A la rue
Haute de Kensington, il me chérissait comme un fils, et quand mes
jambes harassées abordèrent le pont d’Addison road, il m’adjura en
pleurant de détacher les courroies et de lutter contre le péché
d’orgueil. Personne ne nous dérangea. On eût dit qu’une cloison me
séparait de l’humanité entière, tant que je n’aurais pas réglé mon
compte avec Brugglesmith. La lueur de l’aube grandissait dans le
ciel ; le pavé de bois passa du brun foncé au rouge lilas : je ne
doutai plus qu’avant le soir j’aurais tiré vengeance de Brugglesmith.
A Hammersmith, les cieux étaient gris-de-fer, et le jour en pleurs
parut. Tous les flots de tristesse d’une aube malencontreuse se
déversèrent dans l’âme de Brugglesmith. L’aspect froid et désolé
des flaques d’eau le fit pleurer à chaudes larmes. Je pénétrai dans
une taverne à demi éveillée… en habit de soirée sous mon
pardessus, je m’avançai jusqu’au comptoir… et lui donnai un whisky,
à la condition qu’il cesserait de ruer dans la toile de l’ambulance.
Alors il pleura plus misérablement, d’avoir été un jour associé à moi,
et par là contraint de voler le youyou du Breslau.
Le jour était blême et pâle quand j’arrivai au terme de mon long
voyage. Rabattant la capote, j’enjoignis à Brugglesmith de me
révéler son adresse. Ses yeux explorèrent tristement les façades
rouges et grises, et s’arrêtèrent enfin sur une villa dans le jardin de
laquelle se dressait une pancarte branlante portant l’inscription : « A
louer. » C’en fut assez pour l’abattre entièrement, et cette
démoralisation emporta sa belle facilité à parler sa gutturale langue
septentrionale, car la boisson nivelle tout.
— Un tout petit moment…, sanglota-t-il. Il a suffi d’un tout petit
moment. Foyer… famille, la meilleure des familles… ma femme
aussi… tu ne connais pas ma femme. Je les ai quittés il n’y a qu’un
tout petit moment. Et voilà que tout est vendu… vendu. Femme…
enfants… tout vendu. Laisse-moi me lever !
Je débouclai prudemment les courroies. Brugglesmith déboula
hors de son lit de repos et se dirigea en titubant vers la maison.
— Que vais-je faire ? me demanda-t-il.
Je compris alors les profondeurs de l’âme de Méphisto.
— Sonnez, répondis-je ; ils sont peut-être à la cave ou au grenier.
— Tu ne connais pas ma femme. Elle couche dans le salon sur
un canapé en attendant mon retour. Non, tu ne connais pas ma
femme.
Il ôta ses bottes, les coiffa de son chapeau haute-forme, et avec
des ruses de peau-rouge, se faufila par l’allée du jardin. De son
poing fermé, il asséna un coup violent sur la sonnette marquée
« Visiteurs ».
— La sonnette est malade aussi. Malade, la sonnette électrique !
Qu’est-ce que c’est que cette sonnette-là ? Je ne sais pas la faire
aller, gémit-il avec désespoir.
— Tirez dessus… tirez fort, répétai-je, tout en surveillant la rue
attentivement.
La vengeance arrivait, et je ne voulais pas de témoins.
— Oui, je vais tirer fort.
Il se frappa le front d’un air inspiré :
— Je vais la tirer à fond.
Se cambrant en arrière, il empoigna le bouton à deux mains et
tira. De la cuisine, un carillon furieux lui répondit. Crachant dans ses
mains, il tira de plus belle et appela sa femme. Puis il appliqua
l’oreille au bouton, hocha la tête, prit dans sa poche un vaste
mouchoir jaune et rouge, le noua autour du bouton, et tournant le
dos à la porte, tira par-dessus son épaule.
Du mouchoir ou du fil de fer, l’un ou l’autre, pensais-je, devait
fatalement céder. Mais j’oubliais la sonnette. Quelque chose cassa
dans la cuisine, et Brugglesmith se mit à descendre lentement les
marches du perron, en tirant vaillamment. Il entraînait quatre-vingt-
dix centimètres de fil de fer.
— Tirez, mais tirez donc ! m’écriai-je. Voilà que ça vient.
— C’est juste, fit-il. Je vais la faire aller, cette sonnette.
Étreignant sur son sein le bouton de sonnette, il se courba en
avant. Le fil de fer grinça et s’étira derrière lui, et les bruits de
l’intérieur me révélèrent qu’il entraînait la sonnette, avec la moitié de
la boiserie de la cuisine et toute la rampe du sous-sol.
— Vous en viendrez à bout ! criai-je.
Et il se vira, enroulant autour de lui ce solide fil de laiton. Je lui
ouvris discrètement la porte du jardin, et il la franchit, filant son
propre cocon. Et la sonnette venait toujours, au trot, et le fil tenait
toujours bon. Notre homme, tournoyant comme un cancrelat empalé,
et appelant frénétiquement sa femme et ses enfants, était à présent
au milieu de la chaussée. Il s’y rencontra avec la voiture
d’ambulance : à l’intérieur de la maison, la sonnette lança un
suprême carillon et bondit de l’extrémité du vestibule jusqu’à la face
intérieure de la porte de rue, où elle resta coincée. Mon ami
Brugglesmith ne l’imita point. Il tomba sur le nez, embrassant dans
ce geste la voiture d’ambulance, et tous deux giroyèrent à la fois
dans les replis de ce fil de laiton pour lequel on ne fera jamais assez
de réclame.
— Petit gars, soupira-t-il, recouvrant la parole, est-ce que j’ai un
recours légal ?
— Je vais aller vous en chercher un, répondis-je.
Et m’éloignant, j’avisai deux agents. Je leur racontai que le jour
avait surpris un cambrioleur dans Brook Green, alors qu’il était en
train de voler du plomb dans une maison inhabitée. Ils feraient bien,
à mon avis, de s’occuper de ce voleur sans souliers, qui semblait
avoir des difficultés.
Je les menai sur les lieux, et, tableau ! dans la splendeur de
l’aurore, l’ambulance, les roues en l’air, arpentait le pavé boueux sur
deux pieds en chaussettes… traînassant çà et là dans un quart de
cercle dont le fil de laiton formait le rayon et dont le centre était
marqué par la plaque de sonnette de la maison déserte.
Après l’ingéniosité stupéfiante avec laquelle Brugglesmith avait
réussi à se ficeler sous l’ambulance, la chose qui parut
impressionner davantage les agents fut de constater que
l’ambulance de St. Clément Danes se trouvait à Brook Green,
Hammersmith.
Ils me demandèrent même si je pouvais les renseigner là-
dessus. Ils s’adressaient bien !
Non sans peine et sans se salir, ils dépêtrèrent Brugglesmith.
Celui-ci leur expliqua qu’il avait repoussé les attaques du « bigand
de Hattle Gadle », lequel avait vendu sa maison, sa femme et ses
enfants. Au sujet du fil de sonnette il s’abstint d’explications, et les
agents l’emportèrent tout debout entre eux deux. Ses pieds étaient à
plus de quinze centimètres du sol, et malgré cela ils ramaient avec
ardeur. Je compris que, dans son imagination superbe, il croyait
courir… courir frénétiquement.
Je me suis parfois demandé s’il tenait à me revoir.
« DU PAIN SUR LA FACE DES
EAUX [23] »

[23] Cf. la Bible : Ecclésiaste, XI, 1.

Si vous vous souvenez de mon scandaleux ami Brugglesmith,


vous vous rappelez sans doute aussi son ami MacPhee, mécanicien
principal du Breslau, dont Brugglesmith essaya de voler le youyou.
Les excuses qu’il me fit pour les exploits de Brugglesmith, je les
rapporterai peut-être un jour, en temps et lieu : la présente histoire
ne concerne que MacPhee. Ce ne fut jamais un mécanicien de
course, et par un point d’honneur singulier il s’en vantait même
devant les gens de Liverpool ; mais il connaissait depuis trente-deux
ans la mécanique et les humeurs diverses des bateaux. Il avait eu
un côté de la figure abîmé par l’explosion d’un générateur, à une
époque où l’on en savait moins que maintenant ; et son nez
proéminait majestueusement par-dessus les ruines, telle une
matraque dans une émeute populaire. Son crâne offrait des entailles
et des bosses, et il ne manquait pas de vous guider l’index parmi ses
courts cheveux poivre et sel, en vous racontant l’origine de ces
marques de fabrique. Il possédait toutes sortes de certificats
d’aptitudes supplémentaires, et dans le bas de la commode de sa
cabine, où il gardait la photographie de sa femme, il y avait deux ou
trois médailles de la Société royale de Sauvetage, reçues pour avoir
sauvé des hommes en mer. Professionnellement — il n’en allait pas
de même quand des passagers de troisième classe sautaient à l’eau
dans un accès de fièvre chaude — professionnellement, MacPhee
n’est pas partisan de sauver des gens en mer, et il m’a souvent
déclaré qu’un nouvel enfer attend les soutiers et chauffeurs qui
s’engagent moyennant la solde d’un homme robuste et tombent
malades le second jour de la traversée. Il croit nécessaire de jeter
ses bottes au nez des troisième et quatrième mécaniciens qui
viennent l’éveiller la nuit pour l’avertir qu’un coussinet est au rouge,
et cela parce que la lueur d’une lampe se reflète en rouge sur le
métal en rotation. Il croit qu’il n’y a que deux poètes au monde : l’un
étant Robert Burns, comme juste ; et l’autre Gérald Massey. Quand il
a du temps pour les romans, il lit Wilkie Collins et Charles Reade, —
surtout ce dernier, — et il sait par cœur des pages entières de Hard
Cash. Au salon, sa table avoisine celle du capitaine, et il ne boit que
de l’eau tant que ses machines fonctionnent.
Lors de notre première rencontre il me montra de la
bienveillance, parce que je ne lui posais pas de questions, et que je
voyais en Charles Reade un auteur déplorablement méconnu. Par la
suite il goûta la partie de mes écrits constituée par une brochure de
vingt-quatre pages que je rédigeai pour Holdock, Steiner et Chase,
armateurs de la ligne, à l’époque où ils acquirent le brevet d’un
système de ventilation qu’ils adaptèrent aux cabines du Breslau, du
Spandau et du Kolzan. Le commissaire du Breslau m’avait
recommandé pour ce travail au secrétaire de Holdock. Holdock, qui
est méthodiste wesleyen, m’invita chez lui et, m’ayant fait dîner
après les autres avec la gouvernante, me mit en mains les croquis
avec les explications, et j’écrivis la brochure dans l’après-midi
même. Cela s’intitulait : Le confort de la cabine, et me rapporta sept
livres dix, argent comptant… une vraie somme, à cette époque-là ; et
j’appris de la gouvernante, qui enseignait son rudiment au jeune
John Holdock, que Mme Holdock lui avait recommandé de me tenir à
l’œil au cas où je m’en irais avec les effets du portemanteau. Cette
brochure plut énormément à MacPhee, car elle était rédigée en style
byzantin-moderne, avec des fioritures en baroque et rococo ; et par
la suite il me présenta à Mme MacPhee, qui succéda dans mon cœur
à Dinah ; car Dinah se trouvait à l’autre bout du monde, et il est sain
et hygiénique d’aimer une femme comme Janet MacPhee. Ils
habitaient tout près des bassins, une petite maison d’un loyer de
douze livres. Quand MacPhee était absent, Mme MacPhee lisait dans
les journaux la chronique maritime, et rendait visite aux femmes des
mécaniciens les plus âgés, d’un rang social égal au leur. Une ou
deux fois, cependant, Mme Holdock alla faire visite à Mme MacPhee
dans un coupé aux garnitures de celluloïd, et j’ai lieu de croire
qu’après que l’une eut joué assez longtemps à la femme d’armateur,
toutes deux échangèrent des potins. Les Holdock habitaient à moins
d’un quart de lieue de chez les MacPhee, dans une maison
ancienne ayant vue sur un horizon de briques, car ils tenaient à leurs
sous comme leurs sous tenaient à eux ; et en été l’on rencontrait leur
coupé allant gravement en partie fine au bois de Theyden ou à
Houghton. Mais j’étais l’ami de Mme MacPhee, car elle me permettait
de la conduire parfois dans l’ouest, au théâtre, où elle sanglotait, riait
ou frissonnait d’un cœur ingénu. Elle me fit connaître un nouveau
monde de femmes de docteurs, femmes de capitaines et femmes de
mécaniciens, dont les propos et les idées n’avaient guère trait qu’à
la navigation et à des lignes de navigation dont on n’a jamais ouï
parler. C’étaient des bateaux à voiles, avec stewards et salons
d’acajou et d’érable, qui desservaient l’Australie, emmenant des
cargaisons de poitrinaires et d’ivrognes invétérés à qui l’on avait
ordonné un voyage en mer ; c’étaient des petits bateaux mal tenus
de l’Ouest Africain, pleins de rats et de cancrelats, où les hommes
mouraient partout sauf dans leurs couchettes ; c’étaient des bateaux
brésiliens dont les cabines étaient parfois occupées par de la
marchandise, et qui prenaient la mer chargés jusqu’au-dessus de la
flottaison ; c’étaient des steamers de Zanzibar et de Maurice, et
d’étonnants bateaux « reconstitués » qui allaient de l’autre côté de
Bornéo. Tous étaient aimés et connus de nous, car ils gagnaient
notre pain avec un peu de beurre dessus, et nous méprisions les
gros bateaux de l’Atlantique et faisions des gorges chaudes des
courriers de la P. & O. et de l’Orient Line, et ne jurions que par nos
vénérés armateurs… wesleyens, baptistes ou presbytériens, selon
l’occurrence.
Je venais tout juste de rentrer en Angleterre, quand je reçus de
Mme MacPhee une invitation à dîner pour trois heures de l’après-
midi, libellée sur un papier à lettre quasi nuptial, tant il était crémeux
et parfumé. En arrivant à la maison je vis à la fenêtre de nouveaux
rideaux qui avaient dû coûter quarante-cinq shillings la paire ; et
quand Mme MacPhee m’attira dans un petit vestibule au papier
marbré, elle me regarda avec malice et s’écria :
— Vous n’avez rien appris ? Que pensez-vous de ce porte-
chapeau ?
Or ce porte-chapeau était en chêne… vingt shillings pour le
moins. MacPhee descendit l’escalier d’un pas assuré — il marche
avec la légèreté d’un chat, malgré son poids, lorsqu’il est en mer —
et me serra les mains d’une façon nouvelle et redoutable… qui
contrefaisait la manière du vieux Holdock prenant congé de ses
capitaines. Je compris qu’il avait hérité, mais je me tins coi, bien que
Mme MacPhee m’exhortât toutes les trente secondes à bien manger
et ne rien dire. Ce fut un repas quelque peu fol, car MacPhee et sa
femme se prenaient les mains tels de petits enfants, — comme
toujours après un voyage, — se faisaient des mines et des clins
d’yeux, s’étranglaient et gloussaient, et mangeaient à peine une
bouchée.
Une bonne faisait le service ; et pourtant Mme MacPhee m’avait
maintes fois répété que tant qu’elle serait bien portante elle n’aurait
besoin de personne pour tenir son ménage. Mais cette servante-ci
portait un bonnet, et je vis Mme MacPhee se gonfler de plus en plus
dans sa robe couleur garance. Le franc-bord de Janet n’a rien de
minuscule, pas plus que la couleur garance n’est une teinte
discrète ; et sentant dans l’air toute cette fierté triomphale et
inexpliquée, je croyais assister à un feu d’artifice sans connaître la
fête. Au dessert, la bonne apporta un ananas qui aurait bien dû
coûter une demi-guinée en cette saison, — mais MacPhee a sa
manière à lui de se procurer ces primeurs, — des lichis secs dans
un fruitier en porcelaine de Canton, du gingembre confit sur une
assiette de cristal, et un petit pot de chow-chow sacré et impérial qui
embaumait la pièce. MacPhee le reçoit d’un Hollandais de Java, et
je pense qu’il l’additionne de liqueur. Mais le couronnement de la
fête était un madère d’une qualité qu’on ne peut se procurer que si
l’on s’y connaît en vin et en fournisseur. Avec le vin, un petit cabas
enveloppé de paille de maïs, et contenant des cigares de Manille en
étui, fit son apparition, et il n’y eut plus que silence et fumée bleu
pâle. Janet, resplendissante, nous souriait à tous deux et tapotait la
main de son époux.
— Nous allons boire, dit celui-ci posément et en se frottant les
mains, à l’éternelle damnation de Holdock, Steiner et Chase.
J’avais touché de la firme sept livres dix shillings, mais comme
juste je répondis : « Amen. » Les ennemis de MacPhee étaient les
miens, puisque je buvais son madère.
— Vous n’avez rien entendu dire ? me demanda Janet. Pas un
mot, pas un murmure ?
— Pas un mot, pas un murmure. Ma parole, je ne sais rien.
— Raconte-lui, Mac, dit-elle.
Et c’est là une autre preuve de la bonté de Janet et de son amour
conjugal. Une femme plus petite aurait bavardé tout d’abord, mais
Janet mesure cinq pieds neuf pouces sans ses souliers.
— Nous sommes riches, me dit MacPhee.
Je leur serrai les mains à tour de rôle.
— Je ne naviguerai plus… à moins que… il n’y a pas à dire… un
yacht particulier… avec un petit moteur auxiliaire…
— Nous n’avons pas assez pour cela, dit Janet. Nous sommes
d’une honnête richesse… dans l’aisance, mais pas plus. Une robe
neuve pour l’église et une pour le théâtre. Nous les ferons faire dans
l’ouest.
— A combien cela se monte-t-il ? demandai-je.
— Vingt-cinq mille livres. (J’aspirai l’air fortement.) Moi qui
gagnais de vingt à vingt-cinq livres par mois !
Il émit ces derniers mots dans un rugissement, comme si le
monde entier eût conspiré à le rabaisser.
— J’attends toujours, dis-je. Je ne sais rien depuis septembre
dernier. C’est un héritage ?
Ils rirent tous les deux.
— C’est un héritage, dit MacPhee en s’étranglant. Ouh, eh, c’est
un héritage. Elle est bien bonne. Bien sûr que c’est un héritage.
Janet, tu as entendu ? C’est un héritage. Eh bien, si vous aviez mis
ça dans votre brochure, ç’aurait été joliment rigolo. C’est un héritage.
Il se frappa sur la cuisse et éclata, au point de faire trembler le
vin dans la carafe.
Les Écossais sont une noble nation, mais il leur arrive de
s’attarder trop longtemps sur une plaisanterie, en particulier quand
ils sont seuls à en pouvoir goûter le sel.
— Quand je récrirai ma brochure, je mettrai ça dedans,
MacPhee. Mais il faut d’abord que j’en sache davantage.
MacPhee réfléchit durant la longueur d’un demi-cigare, tandis
que Janet s’emparait de mon regard et le dirigeait successivement
sur tous les nouveaux objets de la pièce… le nouveau tapis à
dessins lie de vin, la nouvelle horloge à poids entre des modèles de
pirogues à balancier de Colombo, le nouveau buffet incrusté portant
un vase de fleurs en cristal rouge, les chenets de cuivre doré, et
enfin le nouveau piano noir et or.
— En octobre de l’année dernière, le Conseil d’administration m’a
renvoyé, commença MacPhee. En octobre de l’année dernière le
Breslau est rentré pour recevoir son radoub d’hiver. Il avait marché
huit mois… deux cent-quarante jours… et quand on l’eut mis en cale
sèche il me fallut trois jours pour dresser mes devis. Au total,
remarquez, cela faisait moins de trois cents livres… pour être précis,
deux cent quatre-vingt-six livres quatre shillings. Personne d’autre
que moi n’aurait pu soigner le Breslau pour huit mois à ce prix-là.
Mais jamais plus… non, jamais. Ils peuvent envoyer leurs bateaux
au fond, je m’en fiche.
— Calme-toi, dit doucement Janet. Nous en avons fini avec
Holdock, Steiner et Chase.

You might also like