Nothing Special   »   [go: up one dir, main page]

1 DB 1 PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 53

Banques de données biologiques

I.  Introduction
II.  Les banques de séquences généralistes
III.  Les banques/bases spécialisées

IV.  Interrogation des banques de données

1
Rôle des banques/bases de données

•  Collecter/Traiter/Filtrer les informations

  séquences, cartographie physique, génétique…


  données génomiques, structurales, relationnelles…
  images, ….

⇒ Auprès de: biologistes, littérature, autres bases de données …

•  Stocker/Organiser de façon logique et cohérente

•  Diffusion libre/large de l’information

•  Faciliter l’exploitation des données

  interface web conviviale


  possibilité de comparaison de données
  définition de nombreux critères de recherche

2
Centre de ressources

•  PASTEUR: http://www.pasteur.fr/recherche/banques

•  NAR: http://www3.oup.co.uk/nar/database/c/

•  EBI: http://www.ebi.ac.uk/Databases

•  NCBI: http://www.ncbi.nlm.nih.gov/Database/index.html

•  NIH: http://nihlibrary.nih.gov/ResearchTools/Pages/molbioDatabases.aspx

•  ISB/Expasy: http://www.expasy.org/links.html

•  Genome Net: http://www.genome.jp/

3
Repères historiques

•  1956: 1ére séquence de protéine: insuline (F. Sanger)


•  1965: 1ère compilation de protéines: Atlas of protein Sequences
•  1971: PDB; Protein Data Bank (structure 3D)

•  1970: Création du Modèle de données relationnelles


•  1974: 1er pas d’internet (TCP: Transmission Control Protocol)
•  1975: Microsoft
•  1978: 1er SGBD (Oracle, …)
•  1980: Constitution des banques de données: EMBL et Genbank

•  1981: 1er PC par IBM


•  1983: 1er génome complet (bactériophage Lambda)
•  1984: 1er Mac par Apple

4
Repères historiques

•  1985: 1ere revue de bioinformatique: CABIOS


•  1986: Banque Swiss-Prot (A. Bairoch) au SIB
•  1987: Genbank, EMBL et DDBJ s’échangent leur contenu et adoptent
un système de conventions communes

•  1988: Processus de double publication: Dépôt des séquence dans


une banque avant soumission de l’article associé aux revues scientifiques.

•  1991: Début du WWW au CERN à Genève

•  1994: 1er navigateur web (Netscape)


•  1998: 1er génome eucaryote (levure)
•  2004: Uniprot
•  2006: EMBL: nouveaux nommage des IDentifiants.

5
Qu’est-ce qu’une banque de données?

•  Collection de données (séquence, format, structure) en « fichier texte »:


- organisation séquentielle
- information indépendante
- information souvent redondante

•  Format standard, simple et lisible par l’être humain.

•  Difficilement interrogeable/utilisable/maintenable:
- gros fichier
- lecture ligne par ligne
- indexation nécessaire

•  Données texte portables dans différents environnements informatiques.

•  Facilement utilisables par certains programmes de bioinformatique


(blast, clustalw, hmmer ...).

6
Qu’est-ce qu’une banque de données?

Mon_fichier3 Ma_banque3

Mon_fichier2 Ma_banque2

Mon_fichier1 Ma_banque1
Elem1

Elem2

Elem3

7
Qu’est-ce qu’une banque de données?

Index3 Ma_banque3

Index2 Ma_banque2

Index1 Ma_banque1
Elem1 M1
Elem1: Ligne1
E1M1: L1C30 M2
E1M2: L3C50 M3
E1M3: L4C15
Indexation
Elem2: Ligne34 Elem2 M2
E2M1: L36C14 M1
E2M2: L35C47 M3
E2M3: L37C38

Elem3 M1
Elem3: Ligne67 M2
E3M1: L67C17 M3
E3M2: L68C30
E3M3: L69C50

8
Banques de données biologiques

I.  Introduction
II.  Les banques de séquences généralistes
1. Les banques de séquences nucléiques
2. Les banques de séquences protéiques
III.  Les banques/bases spécialisées

IV.  Interrogation des banques de données

9
Les banques de séquences
généralistes

•  «Fiches» descriptives (portion d’un fichier) de séquences


nucléiques ou protéiques, quelque soit l'organisme dont elles sont
issues, et quelle que soit leur nature (ADN, ADNc, ARN, protéine).

•  Les «fiches» contiennent sous forme de commentaires


structurés des informations variées, issues d'expertises
biologiques ou d'analyses bioinformatiques (annotation).

•  Mission: Rendre publiques les données issues des fonds publics,


donc collectives.

10
Banques de données biologiques

I.  Introduction
II.  Les banques de séquences généralistes
1. Les banques de séquences nucléiques
2. Les banques de séquences protéiques
III.  Les banques/bases spécialisées

IV.  Interrogation des banques de données

11
Les banques de séquences
nucléiques

•  Les 3 banques nucléotidiques principales coexistent et coopèrent


depuis 1987:

•  Collection de séquences par soumission directe des auteurs (95% de


l'ensemble des données) et balayage systématique de la littérature scientifique
(brevets).

•  Chaque enregistrement ou « entrée » correspond à une séquence nucléique.

•  Echange quotidien entre les 3 banques.

•  EMBL: Banque européenne créée en 1980 (Heidelberg, DE) et financée par


l'EMBO (European Moleculary Biology Organisation), elle est aujourd'hui diffusée
par l'EBI (European Bioinformatics Institute, Cambridge, GB)

•  Genbank: Créée en 1982 par la société IntelliGenetics (Los Alamos, US) et


diffusée maintenant par le NCBI (National Center for Biotechnology Information,
Bethesda, US)

•  DDBJ (DNA Data Bank of Japan) : Créée en 1986 et diffusée par le NIG
(National Institute of Genetics, Japon).

12
Attention

EMBL = GENBANK = DDBJ

13
Croissance d’EMBL

14
Organisation d’une fiche de
banque (entrée) EMBL

•  Format général

  TOUTES les entrées d’une banque sont distribuées sous forme


d’UN ou plusieurs fichiers texte (fichier plat)

  Les données dans une entrée sont organisées séquentiellement.

•  2 parties:

  les informations relatives à la séquence (annotation)


  la séquence

•  5 champs:

  qui facilitent l’accès à l’information


  qui regroupe des informations de même type

15
Fiche EMBL: General information

Code à 2 lettres!

ID J04199; SV 1; linear; genomic DNA; STD; PRO; 2726 BP!


•  ID : Identificateur XX!
AC J04199;!
XX!
  Nom de l’entrée DT 22-APR-1989 (Rel. 19, Created)!
  Classe de la donnée DT 04-MAR-2000 (Rel. 63, Last updated, Version 3)!
  Molécule (DNA, RNA, RNAm, XXX)
XX!
DE E.coli purA gene encoding adenylosuccinate …!
  Division
XX!
  Longueur de la séquence en pb KW adenylosuccinate synthetase; purA gene.!
XX!
•  AC : Numéro d’accession OS
OC
Escherichia coli!
Bacteria; Proteobacteria; Gammaproteobacteria; !
OC Enterobacteriaceae; Escherichia.!
•  XX : Ligne vide XX!
RN [1]!
RP 1-2726!
•  SV : Version de la séquence RX PUBMED; 3058695.!
RA Wolfe S.A., Smith J.M.;!
RT "Nucleotide sequence and analysis of the purA gene!
•  DT : Date d’incorporation et date de RT encoding adenylosuccinate synthetase of Escherichia!
la dernière mise à jour RT coli K12";!
RL J. Biol. Chem. 263(35):19147-19153(1988).!

16
Fiche EMBL: Description

Code à 2 lettres!

ID J04199; SV 1; linear; genomic DNA; STD; PRO; 2726 BP!


•  DE : Description XX!
AC J04199;!
XX!
•  KW : Mots clés DT 22-APR-1989 (Rel. 19, Created)!
DT 04-MAR-2000 (Rel. 63, Last updated, Version 3)!
XX!
•  OS : Nom de l’organisme DE E.coli purA gene encoding adenylosuccinate …!
XX!
KW adenylosuccinate synthetase; purA gene.!
•  OC : Classification XX!
OS Escherichia coli!
OC Bacteria; Proteobacteria; Gammaproteobacteria; !
OC Enterobacteriaceae; Escherichia.!
XX!
RN [1]!
RP 1-2726!
RX PUBMED; 3058695.!
RA Wolfe S.A., Smith J.M.;!
RT "Nucleotide sequence and analysis of the purA gene!
RT encoding adenylosuccinate synthetase of Escherichia!
RT coli K12";!
RL J. Biol. Chem. 263(35):19147-19153(1988).!

17
Fiche EMBL: Reference

Code à 2 lettres!

. . . !
•  RN : Numéro de la référence XX!
RN [1]!
RP 1-2726!
•  RC : Commentaire (facultatif ) RX PUBMED; 3058695.!
RA Wolfe S.A., Smith J.M.;!
RT "Nucleotide sequence and analysis of the purA gene!
•  RP : Région RT encoding adenylosuccinate synthetase of Escherichia!
RT coli K12";!
RL J. Biol. Chem. 263(35):19147-19153(1988).!
•  RX : Référence bibliographique XX!
DR GOA; P0AF63.!
•  RA : Auteurs DR
DR
GOA; P21499.!
UniProtKB/Swiss-Prot; P0AF63; YJEB_ECOLI.!
DR UniProtKB/Swiss-Prot; P21499; RNR_ECOLI.!
•  RT : Titre XX!
CC Draft entry and computer readable copy of sequence in!
CC [1] kindly provided by J.Smith 22-AUG-1988.!
•  RL : Journal, volume, pages, année

•  DR : Références croisées

•  CC : Commentaires

18
Fiche EMBL: Additional information
(Features)
Code à 2 lettres!

FH Key Location/Qualifiers!
•  FH : Entête FH!
FT source 1..2726!
FT /organism="Escherichia coli"!
•  FT : Informations FT ! /mol_type="genomic DNA"!
FT ! /db_xref="taxon:562"!
FT CDS 502..1800!
FT /codon_start=1!
FT /transl_table=11!
FT /note="adenylosuccinate synthetase (EC 6.3.4.4)"!
FT /db_xref="GOA:P0A7D4"!
…!
FT /db_xref="UniProtKB/Swiss-Prot:P0A7D4"!
FT /protein_id="AAA24446.1"!
FT /translation="MGNNVVVLGTQWGDEGKGKIVDLLTER . . .!
FT INGEKTVLHLIPSGILRENVTSIIGNGVVLSPAALMKEMKE . . .!
FT PLILDYHVALDNAREKARGAKAIGTTGRGIGPAYEDKVARR . . .!
FT EVMEYHNFQLVNYYKAEAVDYQKVLDDTMAVADILTSMVVD . . .!
FT GAQGTLLDIDHGTYPYVTSSNTTAGGVATGSGLGPRYVDYV . . .!
FT ELFDETGEFLCKQGNEFGATTGRRRRTGWLDTVAVRRAVQL . . .!
FT EVKLCVAYRMPDGREVTTTPLAADDWKGVEPIYETMPGWSE . . .!
FT IKRIEELTGVPIDIISTDPDRTETMILRDPFDA"!

http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html

19
Fiche EMBL: Sequence

Code à 2 lettres!

SQ Sequence 2726 BP; 648 A; 642 C; 741 G; 695 T; 0 other;!


attcatccgt agcctgcgtg cttatgagaa cagcttctct ggcaatcagg acgtgatggt 60!
•  SQ : Séquence catgagcccg gatagatttc ttccgctaca tgaagacgcc gacttccgca acgcgttaat 120!
- nombre de paire de bases ataacgactg cggtacaggt caataaagcc accgcatcct cagggatgtc ggtggttttc 180!
tttttctata aggataatga atgaattcga caatctggct ggcgcttgcc ctggttttgg 240!
- répartition entre les tactggaagg tttagggccg atgctttacc cgaaggcatg gaagaagatg atctctgcga 300!
différents nucléotides tgaccaattt gcccgataat attttacgtc gttttggcgg tggacttgtg gttgcgggcg 360!
ttgtggtcta ctacatgttg aggaaaacga ttggctgaac aaaaaacaga ctgatcgagg 420!
•  // : Fin fiche tcatttttga gtgcaaaaag tgctgtaact ctgaaaaagc gatggtagaa tccattttta 480!
agcaaacggt gattttgaaa aatgggtaac aacgtcgtcg tactgggcac ccaatggggt 540!
…!
caaagttttc ttacggaact ggataactac acgcttgccg atttggttga agagaatcaa 2400!
ccgctttata aattattgct ggtggagtga cgaaaatctt catcagagat gacaacggag 2460!
gaaccgagat gtcacaagat cctttccagg aacgcgaagc tgaaaaatac gcgaatccca 2520!
tccctagtcg ggaatttatc ctcgaacatt taaccaaacg tgaaaaaccg gccagccgtg 2580!
atgagctggc ggtagaactg cacattgaag gcgaagagca gcttgaaggc ctgcgtcgcc 2640!
gcctgcgcgc gatggagcgc gatggtcaac tggtcttcac tcgtcgtcag tgctatgcgc 2700!
tgccggaacg cctcgacctg gtgaaa 2726!
//!

20
Fiche GENBANK

LOCUS ECOPURAA 2726 bp DNA linear BCT 26-APR-1993!


•  Identificateur DEFINITION E.coli purA gene encoding adenylosuccinate synthetase.!
•  Numéro d’accession ACCESSION J04199!
VERSION J04199.1 GI:147405!
KEYWORDS adenylosuccinate synthetase; purA gene.!
•  Mots clés SOURCE Escherichia coli!
ORGANISM Escherichia coli!
•  Organisme Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;!
•  Classification Enterobacteriaceae; Escherichia.!
REFERENCE 1 (bases 1 to 2726)!
AUTHORS Wolfe,S.A. and Smith,J.M.!
•  Références TITLE Nucleotide sequence and analysis of the purA gene encoding!
•  Commentaires adenylosuccinate synthetase of Escherichia coli K12!
JOURNAL J. Biol. Chem. 263 (35), 19147-19153 (1988)!
•  Annotations PUBMED 3058695!
COMMENT Original source text: E.coli (K12) DNA, cell line XPh43, clones!
PJS[76,87].!
Draft entry and computer readable copy of sequence in [1] kindly!
provided by J.Smith 22-AUG-1988.!
FEATURES Location/Qualifiers!
source 1..2726!
/organism="Escherichia coli"!
/mol_type="genomic DNA"!
/db_xref="taxon:562"!
CDS 502..1800!
/note="adenylosuccinate synthetase (EC 6.3.4.4)"!
/codon_start=1!
/transl_table=11!
/protein_id="AAA24446.1"!
/db_xref="GI:147406"!
….!

21
Fiche GENBANK

ORIGIN 95 Min on the K12 map.!


1 attcatccgt agcctgcgtg cttatgagaa cagcttctct ggcaatcagg acgtgatggt!
61 catgagcccg gatagatttc ttccgctaca tgaagacgcc gacttccgca acgcgttaat!
121 ataacgactg cggtacaggt caataaagcc accgcatcct cagggatgtc ggtggttttc!
•  Séquences 181 tttttctata aggataatga atgaattcga caatctggct ggcgcttgcc ctggttttgg!
241 tactggaagg tttagggccg atgctttacc cgaaggcatg gaagaagatg atctctgcga!
•  Fin fiche 301 tgaccaattt gcccgataat attttacgtc gttttggcgg tggacttgtg gttgcgggcg!
361 ttgtggtcta ctacatgttg aggaaaacga ttggctgaac aaaaaacaga ctgatcgagg!
421 tcatttttga gtgcaaaaag tgctgtaact ctgaaaaagc gatggtagaa tccattttta!
481 agcaaacggt gattttgaaa aatgggtaac aacgtcgtcg tactgggcac ccaatggggt!
541 gacgaaggta aaggtaagat cgtcgatctt ctgactgaac gggctaaata tgttgtacgc!
601 taccagggcg gtcacaacgc aggccatact ctcgtaatca acggtgaaaa aaccgttctc!
661 catcttattc catcaggtat tctccgcgag aatgtaacca gcatcatcgg taacggtgtt!
721 gtgctgtctc cggccgcgct gatgaaagag atgaaagaac tggaagaccg tggcatcccc!
781 gttcgtgagc gtctgctgct gtctgaagca tgtccgctga tccttgatta tcacgttgcg!
841 ctggataacg cgcgtgagaa agcgcgtggc gcgaaagcga tcggcaccac cggtcgtggt!
901 atcgggcctg cttatgaaga taaagtagca cgtcgcggtc tgcgtgttgg cgaccttttc!
….!
2281 agtgagtttt gccacattac acctgcctgt aggttgaaac aggcactttc taaggccgtg!
2341 caaagttttc ttacggaact ggataactac acgcttgccg atttggttga agagaatcaa!
2401 ccgctttata aattattgct ggtggagtga cgaaaatctt catcagagat gacaacggag!
2461 gaaccgagat gtcacaagat cctttccagg aacgcgaagc tgaaaaatac gcgaatccca!
2521 tccctagtcg ggaatttatc ctcgaacatt taaccaaacg tgaaaaaccg gccagccgtg!
2581 atgagctggc ggtagaactg cacattgaag gcgaagagca gcttgaaggc ctgcgtcgcc!
2641 gcctgcgcgc gatggagcgc gatggtcaac tggtcttcac tcgtcgtcag tgctatgcgc!
2701 tgccggaacg cctcgacctg gtgaaa!
//!

22
Défauts des banques de
séquences nucléiques

•  Aucun contrôle de la part des banques:

  les auteurs sont responsables de la qualité des séquences soumises.

•  Hétérogénéité du type de séquence:

  ADN nucléaire, mitochondrial, chloroplastique, ARNm, ARNt,


ARNs, ARNr, chromosomes entiers ...
  gènes, fragments, génome … (10 bp à 350000 bp)

•  Variabilité de l'état des connaissances sur les séquences:

  Annotation effectuée ou non


  Annotation hétérogène: automatique ou expérimentale

23
Défauts des banques de
séquences nucléiques

•  Erreurs dans les séquences (qualité inégale):

  Origine du fragment
  Cultures infectées
  Présence de vecteurs de clonage
  Erreurs de saisie

•  Redondance des données: plusieurs entrées pour une même


séquence

  Gènes séquencés sous forme d'ARNm et/ou de fragments génomiques.


  Certaines séquences sont saisies plusieurs fois dans la banque.

Et 9931 fiches avec neuraminidase


24
Banques de données biologiques

I.  Introduction
II.  Les banques de séquences généralistes
1.  Les banques de séquences nucléiques
2.  Les banques de séquences protéiques
III.  Les banques/bases spécialisées

IV.  Interrogation des banques de données

25
Les banques de séquences
protéiques

•  Collection de séquences:

  données expérimentales: isolation, séquençage


  données in silico: déduction à partir de la séquence nucléique
par traduction automatique

•  Chaque enregistrement/fiche/entrée correspond à une


séquence protéique.

26
Les banques de séquences
traduites

•  Séquences protéiques traduites automatiquement à partir


des séquences « dites » codantes dans EMBL et GenBank.

  TrEMBL (EBI): Traduction des parties codantes (CDS) des


séquences nucléotidiques stockées dans EMBL => intégrée dans
UNIPROT

  GenPept (Frederick Biomedical Supercomputing Center):


Contient la traduction de tous les CDS de GenBank. Ce n’est pas
une banque officielle du «NCBI-GenBank ».

  NR (NCBI): Réunion de plusieurs banques: SwissProt, Nrl-3D,


PIR, Genpept, en ne gardant qu'un exemplaire des séquences
strictement identiques.

27
Les banques de séquences
traduites

•  Il est important de noter que ces banques contiennent des


séquences non vérifiées, dont les annotations découlent de
celles des banques nucléotidiques.

•  De plus en plus de séquences codantes sont déterminées


par des programmes de prédiction, qui ne sont
malheureusement pas sans faille, conduisant à des erreurs
de prédiction des CDS, donc à des erreurs de séquences
protéiques.

28
Uniprot (Universal protein
resource)

•  UniProt (Universal Protein Resource) est un catalogue


mondial de connaissances sur les protéines. Elle regroupe les
séquences et les annotations (fonction) de Swiss-Prot,
TrEMBL et PIR.

•  UniProt est formée de trois composantes:

  UniProt Knowledgebase (UniProtKB): Elle référence la


fonction, la classification et les références croisées de chaque
protéine.

  UniProt Reference Clusters (UniRef): Elle référence des


séquences « assemblées » pour avoir, pour une séquence, la
couverture la plus large possible. Il n’y a pas les descriptions.

  UniProt Archive (UniParc): historique des séquences


protéiques.

•  http://www.uniprot.org/help/about

29
Uniprot (Universal protein
resource)

•  http://www.uniprot.org/help/about

30
UniprotKB

•  UniProt (Universal Protein Resource) est constituée de 2


sections:

  UniProtKB/SwissProt: annotation manuelle avec des


informations extraites de la littérature et d’une analyse
bioinformatique par des experts.

  UniProtKB/TrEMBL: annotation automatique attendant


l’annotation manuelle.

31
UniprotKB/trEMBL

17.651.715 séquences, 5.747.683.275 acides aminés

19 octobre 2011

32
UniprotKB/SwissProt

532.792 séquences, 188.961.396 acides aminés

19 octobre 2011

33
UniprotKB

•  Chaque fiche de banque se divise en trois parties:

  le noyau: composé de la séquence, des références bibliographiques et


des données taxonomiques.

  les annotations: complexes et variées (informations sur la fonction de


la protéine, sur les modifications post-transcriptionnelles, les sites et
les domaines structuraux ou fonctionnels, la structure secondaire et
quaternaire, des informations de similitude, etc).

  les références croisées: à partir de chaque fiche, un certains nombre


de liens existent sur des banques thématiques en fonction des
propriétés des séquences.

•  Le nombre d'entrées dans UniprotKB/SwissProt n'atteint pas le


nombre de protéines prédites.

Ex: Drosophila melanogaster => Nombre de gènes estimés: ≈ 13600


Nombre d’entrées Uniprot/trEMBL : 33019
Nombre d’entrées Uniprot/Swissprot : 3131

34
EMBL -> trEMBL -> SwissProt

Annotation Automatique Annotation Manuelle


EMBL (Prosite,PFAM,
flat file Rulebase, ENZYME,
MGD, Flybase…)

SP/TrEMBL

Elimination de la
redondance
Traduction des CDS
et format (Match identiques,
SWISS-PROT SWISS-PROT
fragment inclus dans
une autre séquence,
variantes,conflits…)

TrEMBL (Immunoglobulines, récepteurs T, CMH,


brevet, pseudogènes, séquences tronquées,
gènes artificiels, synthétiques ou chimériques,
pseudo-gènes)

35
Annotation dans SwissProt

http://www.expasy.org/sprot/hamap/

36
Annotation dans SwissProt

http://www.expasy.org/sprot/ppap/

37
Fiche trEMBL
ID Q9FPQ7_9SOLN Unreviewed; 567 AA.
AC Q9FPQ7;
•  Identificateur DT 01-MAR-2001, integrated into UniProtKB/TrEMBL.
•  Numéro d’accession DT 01-MAR-2001, sequence version 1.
DT 22-SEP-2009, entry version 43.
•  Dates DE RecName: Full=Acetolactate synthase; EC=2.2.1.6;
•  Descriptions DE Flags: Fragment;
OS Solanum ptychanthum (eastern black nightshade).
OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
•  Organisme :
•  Classification OC Solanum.
•  Ref. Taxonomique OX NCBI_TaxID=45838;
RN [1]
RP NUCLEOTIDE SEQUENCE.
•  Références RA Milliman L.D., Riechers D.E., Wax L.M., Simmons F.W.;
RT "Characterization of two biotypes of imidazolinone-resistant eastern
RT black nightshade (Solanum ptycanthum).";
•  Commentaires RL Weed Sci. 51:139-144(2003).
CC -!- CATALYTIC ACTIVITY: 2 pyruvate = 2-acetolactate + CO(2).
•  Références croisées CC -!- COFACTOR: Binds 1 magnesium ion per subunit (By similarity).
CC
•  Mots clés :
CC -!- SIMILARITY: Belongs to the TPP enzyme family.
•  Annotations :
DR EMBL; AF308648; AAG40279.1; -; Genomic_DNA.
:
•  Séquence DR PROSITE; PS00187; TPP_ENZYMES; 1.
KW Amino-acid biosynthesis; Branched-chain amino acid biosynthesis;
KW Flavoprotein; Lyase; Magnesium; Metal-binding; Thiamine pyrophosphate;
•  Fin fiche KW Transferase.
FT NON_TER 1 1
FT NON_TER 567 567
SQ SEQUENCE 567 AA; 61960 MW; A1829429AC10F8C2 CRC64;
PRKGCDVLVE ALEREGVTDV FAYPGGASME IHQALTRSNI IRNVLPRHEQ GGVFAAEGYA
RATGFPGVCI ATSGPGATNL VSGLADALLD SIPIVAITGQ VPRRMIGTDA FQETPIVEVT
:
GLPAAMGAAV GRPGEIVVDI DGDGSFMMNV QELATIKVEN LPVKIMLLNN QHLGMVVQWE
DRFYKANRAH TYLGDPANEE EIFPNMLKFA EACGVPAARV THRDELRAAI QKMLDTPGPY
LLDVIVPHQE HVLPMIPSGG AFKDVIT
//

38
Fiche SwissProt

ID PURA_ECOLI Reviewed; 431 AA.


•  Identificateur
AC P0A7D4; P12283; Q2M6C8;
•  Numéro d’accession DT 07-JUN-2005, integrated into UniProtKB/Swiss-Prot.
•  Dates DT 23-JAN-2007, sequence version 2.
•  Descriptions DT 13-OCT-2008, entry version 54.
DE RecName: Full=Adenylosuccinate synthetase
EC=6.3.4.4;
•  Nom du gène DE AltName: Full=IMP--aspartate ligase
DE AltName: Full=AdSS
DE AltName: Full=AMPSase.
•  Organisme GN Name=purA; Synonyms=adeK; OrderedLocusNames=b4177;
•  Classification OS Escherichia coli.
•  Ref. Taxonomique OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
OC Enterobacteriaceae; Escherichia.
OX NCBI_TaxID=562;
•  Références RN [1]
RP NUCLEOTIDE SEQUENCE [GENOMIC DNA], AND PROTEIN SEQUENCE OF 1-10.
RC STRAIN=K12;
•  Commentaires RX MEDLINE=89066719; PubMed=3058695;
RA Wolfe S.A., Smith J.M.;
RT "Nucleotide sequence and analysis of the purA gene encoding
RT adenylosuccinate synthetase of Escherichia coli K12.";
RL J. Biol. Chem. 263:19147-19153(1988).
RN [2]
RP NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA].
RC STRAIN=K12 / MG1655 / ATCC 47076;
..
CC -!- FUNCTION: Plays an important role in the de novo pathway of purine
CC nucleotide biosynthesis.
CC -!- CATALYTIC ACTIVITY: GTP + IMP + L-aspartate = GDP + phosphate + 6-
CC N-(1,2-dicarboxyethyl)-AMP.
CC -!- COFACTOR: Binds 1 magnesium ion per subunit.
CC -!- PATHWAY: AMP biosynthesis; first committed step.
CC -!- SUBUNIT: Homodimer.
CC -!- SUBCELLULAR LOCATION: Cytoplasm.
CC -!- SIMILARITY: Belongs to the adenylosuccinate synthetase family.
CC -----------------------------------------------------------------------
CC Copyrighted by the UniProt Consortium, see http://www.uniprot.org/terms
CC Distributed under the Creative Commons Attribution-NoDerivs License
CC -----------------------------------------------------------------------
39
Fiche SwissProt

DR EMBL; J04199; AAA24446.1; -.


DR EMBL; U14003; AAA97073.1; -.
DR EMBL; AE000490; AAC77134.1; -.
DR PIR; A31965; AJECDS.

:
DR PDB; 1NHT; 08-OCT-97.
DR PDB; 1SON; 04-SEP-97.
•  Références croisées DR PDB; 1SOO; 04-SEP-97.
•  Mots clés DR PDB; 1JUY; 24-JUN-97.
DR ECOGENE; EG10790; PURA.
DR PROSITE; PS00513; ADENYLOSUCCIN_SYN_2; 1.
•  Annotations DR PROSITE; PS01266; ADENYLOSUCCIN_SYN_1; 1.
DR PFAM; PF00709; Adenylsucc_synt; 1.
•  Séquence KW PURINE BIOSYNTHESIS; LIGASE; GTP-BINDING; 3D-STRUCTURE.
FT INIT_MET 0 0
FT NP_BIND 12 18 GTP (POTENTIAL).
•  Fin fiche FT ACT_SITE 140 140
FT ACT_SITE 147 147 PROBABLE.
FT MUTAGEN 12 12 G->V: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 15 15 G->V: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 17 17 G->V: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 18 18 K->R: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 19 19 I->T: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 140 140 K->I: TOTAL LOSS OF ACTIVITY.
FT MUTAGEN 147 147 R->L: REDUCED ACTIVITY.
FT CONFLICT 416 416 G -> D (IN REF. 1).
:
SQ SEQUENCE 432 AA; 47345 MW; AAA862CA0F80DA70 CRC64;
MGNNVVVLGTQ WGDEGKGKIV DLLTERAKYV VRYQGGHNAG HTLVINGEKT VLHLIPSGIL
RENVTSIIGN GVVLSPAALM KEMKELEDRG IPVRERLLLS EACPLILDYH VALDNAREKA
RGAKAIGTTG RGIGPAYEDK VARRGLRVGD LFDKETFAEK LKEVMEYHNF QLVNYYKAEA
VDYQKVLDDT MAVADILTSM VVDVSDLLDQ ARQRGDFVMF EGAQGTLLDI DHGTYPYVTS
SNTTAGGVAT GSGLGPRYVD YVLGILKAYS TRVGAGPFPT ELFDETGEFL CKQGNEFGAT
TGRRRRTGWL DTVAVRRAVQ LNSLSGFCLT KLDVLDGLKE VKLCVAYRMP DGREVTTTPL
AADDWKGVEP IYETMPGWSE STFGVKDRSG LPQAALNYIK RIEELTGVPI DIISTGPDRT
ETMILRDPFD A
//

40
Erreurs d’annotation

  Les erreurs d'annotation sont fréquentes dans les banques.

  Elles sont souvent dues à l'utilisation des méthodes informatiques


pour l'analyse systématique et automatiques des données de
séquençage.

  Les annotations fonctionnelles (même automatique) sont propagées


de manière répétitive de séquence en séquence, sans référence à la
première source, ceci menant à une propagation transitive et
catastrophique des erreurs d'annotation.

  Dans certaines banques généralistes (à l'exception de UniprotKB/


SwissProt), il est impossible de savoir si une séquence a été annotée
suite à une expérience ou suite à une analyse informatique.

41
A ne pas oublier!!!

•  Il est nécessaire de pouvoir répondre aux questions


suivantes lorsque vous vous intéressez à une séquence:

  La fonction a-t-elle été attribuée expérimentalement?


  Si non: Est-ce un programme ou une personne qui a
prédit cette fonction?
  Si c'est un programme: Lequel?
  Si c'est une personne: A l'aide de quel(s) algorithme(s)?

42
Banques de données biologiques

I.  Introduction
II.  Les banques de séquences généralistes
III.  Les banques/bases spécialisées

IV.  Interrogation des banques de données

43
Généralités

•  Les banques généralistes présentent des avantages (exhaustivité) et


des limites (imprécisions, redondance, …).

•  Les banques/bases thématiques peuvent réunir:

  des séquences nucléotidiques ou protéiques sélectionnées selon différents


critères :
  un même génome
  une structure moléculaire
  regroupement en famille
  présence d'un motif ou d'un domaine protéique, etc

  des aspects de la biologie moléculaire non directement liés aux séquences:


  métabolisme
  réseaux de régulations
  données d'expression, etc

44
Généralités

•  Ces banques (ou bases) correspondent à des améliorations ou à


des regroupements par rapport aux données issues de banques
généralistes:

  elles fournissent des informations détaillées spécifiques


d’un domaine biologique
  les données sont en général contrôlées (expert du
domaine)
  elles évoluent plus facilement en fonction des progrès
scientifiques dans le domaine

45
Nucleic Acids Research

46
NAR

47
NAR

06 septembre 2011

75694 structures

48
NAR

49
Banques de données biologiques

I.  Introduction
II.  Les banques de séquences généralistes
III.  Les banques/bases spécialisées

IV.  Interrogation des banques de données

50
Interrogation des banques de
donnés

•  Recherche d’informations

  Interroger plusieurs banques (> 1000)


  Relier entre elles les données extraites

•  Problème majeur: Hétérogénéité des données (nature, formats)

•  Comment intégrer ces données biologiques, hétérogènes et


distribuées, afin qu’elles soient accessibles et exploitables aussi
facilement que si elles figuraient dans une seule et même
banque ?

•  Ajouter, au-dessus des banques existantes, une


couche logicielle
  offre les interfaces nécessaires entre les banques
  fait apparaître l’ensemble comme une seule banque
virtuelle

•  Résoudre les problèmes d’incompatibilité syntaxique et


sémantique.

51
Interrogation des banques de
donnés

•  SRS (Sequence Retrieval System):

  Logiciel créé par Thure Etzold au Lions

  Racheté par Biowisdom et proposé par de nombreux


sites serveurs:
http://www.biowisdom.com/download/srs-parser-and-software-
downloads/public-srs-installations/?relname=publicsrs_table

  il permet une interrogation simple ou croisée sur un


éventail large de banques en biologie moléculaire. Chaque
serveur SRS propose un ensemble choisi de banques de
données et de logiciels pour la biologie.

•  ENTREZ (NCBI WWW Entrez Browser)

  Interrogation des séquences moléculaires de Medline,


GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB.

52
Merci

53

Vous aimerez peut-être aussi