1 DB 1 PDF
1 DB 1 PDF
1 DB 1 PDF
I. Introduction
II. Les banques de séquences généralistes
III. Les banques/bases spécialisées
1
Rôle des banques/bases de données
2
Centre de ressources
• PASTEUR: http://www.pasteur.fr/recherche/banques
• NAR: http://www3.oup.co.uk/nar/database/c/
• EBI: http://www.ebi.ac.uk/Databases
• NCBI: http://www.ncbi.nlm.nih.gov/Database/index.html
• NIH: http://nihlibrary.nih.gov/ResearchTools/Pages/molbioDatabases.aspx
• ISB/Expasy: http://www.expasy.org/links.html
3
Repères historiques
4
Repères historiques
5
Qu’est-ce qu’une banque de données?
• Difficilement interrogeable/utilisable/maintenable:
- gros fichier
- lecture ligne par ligne
- indexation nécessaire
6
Qu’est-ce qu’une banque de données?
Mon_fichier3 Ma_banque3
Mon_fichier2 Ma_banque2
Mon_fichier1 Ma_banque1
Elem1
Elem2
Elem3
7
Qu’est-ce qu’une banque de données?
Index3 Ma_banque3
Index2 Ma_banque2
Index1 Ma_banque1
Elem1 M1
Elem1: Ligne1
E1M1: L1C30 M2
E1M2: L3C50 M3
E1M3: L4C15
Indexation
Elem2: Ligne34 Elem2 M2
E2M1: L36C14 M1
E2M2: L35C47 M3
E2M3: L37C38
Elem3 M1
Elem3: Ligne67 M2
E3M1: L67C17 M3
E3M2: L68C30
E3M3: L69C50
8
Banques de données biologiques
I. Introduction
II. Les banques de séquences généralistes
1. Les banques de séquences nucléiques
2. Les banques de séquences protéiques
III. Les banques/bases spécialisées
9
Les banques de séquences
généralistes
10
Banques de données biologiques
I. Introduction
II. Les banques de séquences généralistes
1. Les banques de séquences nucléiques
2. Les banques de séquences protéiques
III. Les banques/bases spécialisées
11
Les banques de séquences
nucléiques
• DDBJ (DNA Data Bank of Japan) : Créée en 1986 et diffusée par le NIG
(National Institute of Genetics, Japon).
12
Attention
13
Croissance d’EMBL
14
Organisation d’une fiche de
banque (entrée) EMBL
• Format général
• 2 parties:
• 5 champs:
15
Fiche EMBL: General information
Code à 2 lettres!
16
Fiche EMBL: Description
Code à 2 lettres!
17
Fiche EMBL: Reference
Code à 2 lettres!
. . . !
• RN : Numéro de la référence XX!
RN [1]!
RP 1-2726!
• RC : Commentaire (facultatif ) RX PUBMED; 3058695.!
RA Wolfe S.A., Smith J.M.;!
RT "Nucleotide sequence and analysis of the purA gene!
• RP : Région RT encoding adenylosuccinate synthetase of Escherichia!
RT coli K12";!
RL J. Biol. Chem. 263(35):19147-19153(1988).!
• RX : Référence bibliographique XX!
DR GOA; P0AF63.!
• RA : Auteurs DR
DR
GOA; P21499.!
UniProtKB/Swiss-Prot; P0AF63; YJEB_ECOLI.!
DR UniProtKB/Swiss-Prot; P21499; RNR_ECOLI.!
• RT : Titre XX!
CC Draft entry and computer readable copy of sequence in!
CC [1] kindly provided by J.Smith 22-AUG-1988.!
• RL : Journal, volume, pages, année
• DR : Références croisées
• CC : Commentaires
18
Fiche EMBL: Additional information
(Features)
Code à 2 lettres!
FH Key Location/Qualifiers!
• FH : Entête FH!
FT source 1..2726!
FT /organism="Escherichia coli"!
• FT : Informations FT ! /mol_type="genomic DNA"!
FT ! /db_xref="taxon:562"!
FT CDS 502..1800!
FT /codon_start=1!
FT /transl_table=11!
FT /note="adenylosuccinate synthetase (EC 6.3.4.4)"!
FT /db_xref="GOA:P0A7D4"!
…!
FT /db_xref="UniProtKB/Swiss-Prot:P0A7D4"!
FT /protein_id="AAA24446.1"!
FT /translation="MGNNVVVLGTQWGDEGKGKIVDLLTER . . .!
FT INGEKTVLHLIPSGILRENVTSIIGNGVVLSPAALMKEMKE . . .!
FT PLILDYHVALDNAREKARGAKAIGTTGRGIGPAYEDKVARR . . .!
FT EVMEYHNFQLVNYYKAEAVDYQKVLDDTMAVADILTSMVVD . . .!
FT GAQGTLLDIDHGTYPYVTSSNTTAGGVATGSGLGPRYVDYV . . .!
FT ELFDETGEFLCKQGNEFGATTGRRRRTGWLDTVAVRRAVQL . . .!
FT EVKLCVAYRMPDGREVTTTPLAADDWKGVEPIYETMPGWSE . . .!
FT IKRIEELTGVPIDIISTDPDRTETMILRDPFDA"!
http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html
19
Fiche EMBL: Sequence
Code à 2 lettres!
20
Fiche GENBANK
21
Fiche GENBANK
22
Défauts des banques de
séquences nucléiques
23
Défauts des banques de
séquences nucléiques
Origine du fragment
Cultures infectées
Présence de vecteurs de clonage
Erreurs de saisie
I. Introduction
II. Les banques de séquences généralistes
1. Les banques de séquences nucléiques
2. Les banques de séquences protéiques
III. Les banques/bases spécialisées
25
Les banques de séquences
protéiques
• Collection de séquences:
26
Les banques de séquences
traduites
27
Les banques de séquences
traduites
28
Uniprot (Universal protein
resource)
• http://www.uniprot.org/help/about
29
Uniprot (Universal protein
resource)
• http://www.uniprot.org/help/about
30
UniprotKB
31
UniprotKB/trEMBL
19 octobre 2011
32
UniprotKB/SwissProt
19 octobre 2011
33
UniprotKB
34
EMBL -> trEMBL -> SwissProt
SP/TrEMBL
Elimination de la
redondance
Traduction des CDS
et format (Match identiques,
SWISS-PROT SWISS-PROT
fragment inclus dans
une autre séquence,
variantes,conflits…)
35
Annotation dans SwissProt
http://www.expasy.org/sprot/hamap/
36
Annotation dans SwissProt
http://www.expasy.org/sprot/ppap/
37
Fiche trEMBL
ID Q9FPQ7_9SOLN Unreviewed; 567 AA.
AC Q9FPQ7;
• Identificateur DT 01-MAR-2001, integrated into UniProtKB/TrEMBL.
• Numéro d’accession DT 01-MAR-2001, sequence version 1.
DT 22-SEP-2009, entry version 43.
• Dates DE RecName: Full=Acetolactate synthase; EC=2.2.1.6;
• Descriptions DE Flags: Fragment;
OS Solanum ptychanthum (eastern black nightshade).
OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
• Organisme :
• Classification OC Solanum.
• Ref. Taxonomique OX NCBI_TaxID=45838;
RN [1]
RP NUCLEOTIDE SEQUENCE.
• Références RA Milliman L.D., Riechers D.E., Wax L.M., Simmons F.W.;
RT "Characterization of two biotypes of imidazolinone-resistant eastern
RT black nightshade (Solanum ptycanthum).";
• Commentaires RL Weed Sci. 51:139-144(2003).
CC -!- CATALYTIC ACTIVITY: 2 pyruvate = 2-acetolactate + CO(2).
• Références croisées CC -!- COFACTOR: Binds 1 magnesium ion per subunit (By similarity).
CC
• Mots clés :
CC -!- SIMILARITY: Belongs to the TPP enzyme family.
• Annotations :
DR EMBL; AF308648; AAG40279.1; -; Genomic_DNA.
:
• Séquence DR PROSITE; PS00187; TPP_ENZYMES; 1.
KW Amino-acid biosynthesis; Branched-chain amino acid biosynthesis;
KW Flavoprotein; Lyase; Magnesium; Metal-binding; Thiamine pyrophosphate;
• Fin fiche KW Transferase.
FT NON_TER 1 1
FT NON_TER 567 567
SQ SEQUENCE 567 AA; 61960 MW; A1829429AC10F8C2 CRC64;
PRKGCDVLVE ALEREGVTDV FAYPGGASME IHQALTRSNI IRNVLPRHEQ GGVFAAEGYA
RATGFPGVCI ATSGPGATNL VSGLADALLD SIPIVAITGQ VPRRMIGTDA FQETPIVEVT
:
GLPAAMGAAV GRPGEIVVDI DGDGSFMMNV QELATIKVEN LPVKIMLLNN QHLGMVVQWE
DRFYKANRAH TYLGDPANEE EIFPNMLKFA EACGVPAARV THRDELRAAI QKMLDTPGPY
LLDVIVPHQE HVLPMIPSGG AFKDVIT
//
38
Fiche SwissProt
:
DR PDB; 1NHT; 08-OCT-97.
DR PDB; 1SON; 04-SEP-97.
• Références croisées DR PDB; 1SOO; 04-SEP-97.
• Mots clés DR PDB; 1JUY; 24-JUN-97.
DR ECOGENE; EG10790; PURA.
DR PROSITE; PS00513; ADENYLOSUCCIN_SYN_2; 1.
• Annotations DR PROSITE; PS01266; ADENYLOSUCCIN_SYN_1; 1.
DR PFAM; PF00709; Adenylsucc_synt; 1.
• Séquence KW PURINE BIOSYNTHESIS; LIGASE; GTP-BINDING; 3D-STRUCTURE.
FT INIT_MET 0 0
FT NP_BIND 12 18 GTP (POTENTIAL).
• Fin fiche FT ACT_SITE 140 140
FT ACT_SITE 147 147 PROBABLE.
FT MUTAGEN 12 12 G->V: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 15 15 G->V: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 17 17 G->V: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 18 18 K->R: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 19 19 I->T: SIGNIFICANT REDUCTION IN ACTIVITY.
FT MUTAGEN 140 140 K->I: TOTAL LOSS OF ACTIVITY.
FT MUTAGEN 147 147 R->L: REDUCED ACTIVITY.
FT CONFLICT 416 416 G -> D (IN REF. 1).
:
SQ SEQUENCE 432 AA; 47345 MW; AAA862CA0F80DA70 CRC64;
MGNNVVVLGTQ WGDEGKGKIV DLLTERAKYV VRYQGGHNAG HTLVINGEKT VLHLIPSGIL
RENVTSIIGN GVVLSPAALM KEMKELEDRG IPVRERLLLS EACPLILDYH VALDNAREKA
RGAKAIGTTG RGIGPAYEDK VARRGLRVGD LFDKETFAEK LKEVMEYHNF QLVNYYKAEA
VDYQKVLDDT MAVADILTSM VVDVSDLLDQ ARQRGDFVMF EGAQGTLLDI DHGTYPYVTS
SNTTAGGVAT GSGLGPRYVD YVLGILKAYS TRVGAGPFPT ELFDETGEFL CKQGNEFGAT
TGRRRRTGWL DTVAVRRAVQ LNSLSGFCLT KLDVLDGLKE VKLCVAYRMP DGREVTTTPL
AADDWKGVEP IYETMPGWSE STFGVKDRSG LPQAALNYIK RIEELTGVPI DIISTGPDRT
ETMILRDPFD A
//
40
Erreurs d’annotation
41
A ne pas oublier!!!
42
Banques de données biologiques
I. Introduction
II. Les banques de séquences généralistes
III. Les banques/bases spécialisées
43
Généralités
44
Généralités
45
Nucleic Acids Research
46
NAR
47
NAR
06 septembre 2011
75694 structures
48
NAR
49
Banques de données biologiques
I. Introduction
II. Les banques de séquences généralistes
III. Les banques/bases spécialisées
50
Interrogation des banques de
donnés
• Recherche d’informations
51
Interrogation des banques de
donnés
52
Merci
53