Libro Bioinformatica
Libro Bioinformatica
Libro Bioinformatica
1
Bioinformática
INTRODUCCIÓN
Este libro tiene por objetivo entregar una descripción básica de la recopilación de
información acerca de las temáticas tratadas en clase de Bioinformática, su
relación con la Informática Médica, sus principales herramientas, bases de datos y
funciones en la Medicina Molecular y Biotecnología.
2
Bioinformática
TABLA DE CONTENIDO
INTRODUCCIÓN ............................................................................................................... 2
1. Código Genético...................................................................................................... 31
1.1 Características Del Código Genético .................................................................. 31
1.2 Splicing ............................................................................................................... 34
2. Open Reading Frames (ORF) .................................................................................. 35
3
Bioinformática
1. Introducción.............................................................................................................. 74
2. Tipos de Base de Datos ........................................................................................... 75
2.1 Modelo jerárquico. .............................................................................................. 75
2.2 Modelo en red. .................................................................................................... 76
2.3 Modelos Avanzados............................................................................................ 77
2.4 Modelo orientado a objetos. ................................................................................ 77
4
Bioinformática
5
Bioinformática
1. Qué es la Bioinformática
Por ejemplo en la siguiente figura podemos ver lo que se puede lograr con la
bioinformática haciendo visible lo que es regular o irregular en el cuerpo del ser
humano u especie.
6
Bioinformática
Figura 2. Modelos
Atómicos.
-Molécula: Conjunto de átomos. Las moléculas se dibujan con ángulos porque con
ángulos disminuyo la energía potencial.
7
Bioinformática
-Bioquímica: Química relacionada con los seres vivos. Los seres vivos tienen
cuatro átomos:
1. Hidrógeno
2. Carbono
3. Nitrógeno
4. Oxígeno
2. Bases de Biología
8
Bioinformática
9
Bioinformática
|->Nutrición.
|->Crecimiento.
|->Multiplicación.
|->Diferenciación.
|->Señalización.
|->Evolución.
3. Bases de Genética
3.1 Genética
10
Bioinformática
Transcripción Traducción
|Genotipo|----------> |ADN|-------------------->|ARN|--------------->|Proteínas|
|_________________________________ |
\/
Expresión Técnica |Fenotipo|
|-La replicación consiste en la copia del ADN de una célula, antes de la división
celular, para que la célula hija tenga el mismo ADN que la madre.
|-La transcripción consiste en convertir la información contenida en el ADN en un
formato “legible” para la maquinaria celular de síntesis de proteínas, el ARN.
|-La traducción es el mecanismo por el que el mensaje que lleva el ARN se utiliza
para sintetizar proteínas.
11
Bioinformática
4 Símbolos
0 A Sirve para 00
1 T codificar en 01
2 C dos bits 10
3 G 11
Nuestro ADN codifica nuestra información en cuatro (4) bits. El ADN codifica la
información en ATCG.
12
Bioinformática
La ARN polimerasa abre la parte del ADN a ser transcripta. Solo una de las hebras
del ADN (la hebra codificante) se transcribe. Los nucleótidos de ARN se
encuentran disponibles en la región de la cromatina (este proceso solo ocurre en
la interface) y se unen en un proceso de síntesis similar al del ADN.
13
Bioinformática
Fue el astrónomo quien señaló que el código que representa a los aminoácidos
debía consistir en grupos de al menos tres de las cuatro bases del ADN.
14
Bioinformática
El código genético fue "roto" por Marshall Nirenberg y Heinrich Matthaei (del NIH),
10 años después que Watson y Crick "rompieran" el misterio de la estructura del
ADN.
3.5.1 Características
Universalidad
15
Bioinformática
Especificidad y continuidad
Degeneración
16
Bioinformática
Nótese que el codón AUG codifica la metionina pero además sirve de sitio de
iniciación; el primer AUG en un ARNm es la región que codifica el sitio donde la
traducción de proteínas se inicia.
3.6 Proteínas
17
Bioinformática
Las proteínas de todos los seres vivos están determinadas mayoritariamente por
su genética (con excepción de algunos péptidos antimicrobianos de síntesis no
ribosomal), es decir, la información genética determina en gran medida qué
proteínas tiene una célula, un tejido y un organismo.
Estructura
18
Bioinformática
la a(alfa)-hélice
la conformación beta
En esta disposición los AAS. no forman una hélice sino una cadena en
forma de zigzag, denominada disposición en lámina plegada.Presentan
esta estructura secundaria la queratina de la seda o fibroína.
Clasificación
19
Bioinformática
Según su composición
20
Bioinformática
4. NCBI Entrez
21
Bioinformática
22
Bioinformática
1. Formato FASTA
Símbolo Significado
A Adenina
C Citosina
G Guanina
T Timina
U Uracilo
R Purina
Y Pirimidina
K GoT
N A, C, G o T
- Hueco
23
Bioinformática
2. Alineamiento de Secuencias
24
Bioinformática
Figura 1.Un alineamiento de secuencias, generada por ClustalW entre dos proteínas dedos de zinc
identificadas por el número de acceso GenBank (Clave).
Sí tengo dos (2) secuencias y quiero saber cuánto se parecen lo hago a través del
Score el cual es el puntaje de nuestro alineamiento. Sí este score es más alto es
decir que hay más similitud y nuestra secuencia es más completa.
Este puntaje se da de acuerdo a la situación sí se encuentran parejas que
coinciden se le da un puntaje positivo, pero si no se le dará un puntaje negativo.
|-Pareado: (==2)
|-Múltiple: (>2) Es más complicado.
Para estos tipos de alineamiento encontramos dos (2) tipos de algoritmos, pero
antes debemos explicar algunas características que pueden tener como son:
25
Bioinformática
A = GAATTCAGTTA
B = GGATCGA
Parámetros:
Coincidencias = 1
No coincidencias = 0
Huecos = 0
Inicialización:(Tabla 1)
1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1 G 0
2 A 0
3 A 0
4 T 0
5 T 0
6 C 0
7 A 0
8 G 0
9 T 0
10 T 0
11 A 0
Tabla 1. Inicialización.
1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1 G 0 1 1 1 1 1 1 1
2 A 0 1 1 2 2 2 2 2
3 A 0 1 1 2 2 2 2 3
4 T 0 1 1 2 3 3 3 3
5 T 0 1 1 2 3 3 3 3
6 C 0 1 1 2 3 4 4 4
7 A 0 1 1 2 3 4 4 5
8 G 0 1 2 2 3 4 5 5
9 T 0 1 2 2 3 4 5 5
10 T 0 1 2 2 3 4 5 5
11 A 0 1 2 3 3 4 5 6
Tabla 2. Llenado de la matriz.
26
Bioinformática
Alineamiento:
[x=11,y=7], [x=10,y=6], [x=9,y=6], [x=8,y=6], [x=7,y=5], [x=6,y=5], [x=5,y=4],
[x=4,y=4], [x=3,y=3], [x=2,y=3], [x=1,y=2], [x=1,y=1], [x=0,y=0]
G¬AATTCAGTTA
GGA¬T¬C¬G¬¬A
3. BLAST
27
Bioinformática
Figura 1.BLAST.
3.1 ETAPAS
28
Bioinformática
* Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2 También
se lo conoce como BLAST 2.0. Se trata de un BLAST que contempla la existencia
de pequeñas inserciones o eliminaciones en las secuencias que se están
comparando, permitiendo así alinear uno o varios nucleótidos o aminoácidos con
huecos vacíos llamados gaps.
29
Bioinformática
30
Bioinformática
1. Código Genético
El código genético viene a ser como un diccionario que establece una equivalencia
entre las bases nitrogenadas del ARN y el leguaje de las proteínas, establecido
por los aminoácidos. Después de muchos estudios (1955 Severo Ochoa y
Grumberg; 1961 M.Nirenberg y H. Mattaei) se comprobó que a cada aminoácido la
corresponden tres bases nitrogenadas o tripletes (61 tripletes codifican
aminoácidos y tres tripletes carecen de sentido e indican terminación de mensaje).
SEGUNDA BASE
U C A G
P UUU Phe UCU Ser UAU Tyr UGU Cys U T
UUC Phe UCC Ser UAC Tyr UGC Cys C
R U E
UUA Leu UCA Ser UAA FIN UGA FIN A
Tabla 1. El código genético nos indica que aminoácido corresponde a cada triplete o codón del
ARN mensajero.
31
Bioinformática
32
Bioinformática
33
Bioinformática
1.2 Splicing
34
Bioinformática
Es una secuencia de información genética que contiene datos que pueden ser
utilizados para codificar aminoácidos; Los marcos de lectura se encuentran en el
ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucleótidos
conocida como tripletes o codones. Cada codón puede ser transcrito por el ARN
en otro triplete.
Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1, +2, +3, -
1, -2, -3.
35
Bioinformática
ORF Finder busca marcos abiertos de lectura (ORF) en la secuencia de ADN que
Ud. introduzca. El programa devuelve el rango de cada ORF, junto con la
traducción de la proteína correspondiente. ORF Finder soporta el alfabeto IUPAC
y varios códigos genéticos. Utilice ORF Finder para buscar posibles segmentos de
codificación de proteínas en nuevas secuencias de ADN.
36
Bioinformática
Interfaz:
Gráfico 4. Búsqueda con ORF Finder - Ingreso formato FASTA para empezar.
37
Bioinformática
Gráfico 5. Búsqueda con ORF Finder - Resultado encontrado del formato FASTA insertado.
38
Bioinformática
3. Modelos Estocásticos
39
Bioinformática
40
Bioinformática
* En el modelo de Markov normal los estados son visibles. (a son los únicos
parámetros)
* En el HMM el estado no es visible más sí las variables influidas por el estado.
* Cada estado tiene una distribución de probabilidad sobre los posibles
símbolos de salida.
* Se utiliza para analizar la composición de secuencias, para localizar genes
prediciendo ORF y para producir predicciones de estructuras secundarias de
proteínas.
Estados ocultos -> la supuesta secuencia ancestral desde la cual las secuencias
del conjunto problema se presume han descendido.
El HMM comienza con un alineamiento al azar -> construye un modelo -> mejora
las probabilidades en base a un entrenamiento iterativo -> se detiene cuando los
alineamientos no cambian.
41
Bioinformática
Ventajas:
Desventajas:
42
Bioinformática
Interfaz
Gráfico 1. GENSCAN.
Lo primero que hacemos es buscar en entrez una secuencia del ser humano para
que pueda ser analizada por Genscan.
43
Bioinformática
44
Bioinformática
1. Alineamiento de Secuencias
45
Bioinformática
1. Método Global: Confronta una secuencia con otra completa. Los primeros
programas que se desarrollaron para el alineamiento de secuencias fueron
diseñados para tratar de crear alineamientos globales, es decir para detectar
similaridades utilizando las proteínas enteras. Un alineamiento que se extiende a
lo largo de toda la longitud de las secuencias utilizadas se denomina alineamiento
GLOBAL, como en los ejemplos que acabamos de ver anteriormente. Este tipo de
alineamientos son buenos para proteínas globulares (que carecen de dominios
definidos) y en el caso de que las dos secuencias sean muy parecidas a lo largo
de toda su longitud (secuencias que han divergido poco a lo largo de la evolución).
Sin embargo, existen numerosas proteínas "modulares", entendiendo por tal el
hecho de que en su secuencia es posible identificar varios dominios diferentes. En
estas proteínas, los diferentes módulos pueden repetirse una o más veces, o
aparecer en distinto orden en cada una de las proteínas, por lo que si realizamos
un alineamiento global entre ambas, será imposible que el programa pueda
detectar la homología entre módulos que ocupan diferente posición en las dos
secuencias. Para obtener buenos alineamientos en estos casos es necesario
utilizar métodos de alineamiento local, que en esencia consisten en programas
que buscan regiones entre las dos proteínas que son parecidas, aunque estas
regiones se hallen rodeadas de zonas completamente diferentes.
46
Bioinformática
47
Bioinformática
48
Bioinformática
Todos los seres vivos comparten su origen: todos provienen del reino móneras.
Este reino abarca los seres unicelulares procariotas, que carecen de núcleo
celular. Son las arqueo bacterias y las eubacterias.
De los móneras surgieron los protoctistas. Este reino reúne seres eucariotas
unicelulares heterótrofos y con digestión interna (protozoos), y eucariotas
unicelulares o pluricelulares sin tejidos, autótrofos fotosintéticos (algas).
El reino de los hongos comprende seres eucariotas, unicelulares o pluricelulares,
sin tejidos, heterótrofos y con digestión externa. Las metáfitas o plantas son
eucariotas pluricelulares con tejidos y nutrición autótrofa.
49
Bioinformática
Los tres dominios propuestos por Carl Woese (1990) son: Archaea, que reúne a
las arqueo bacterias; Bacteria, que comprende a las eubacterias; y Eucarya, que
incluye a todos los seres eucariotas.
Las Hojas son diferentes y representan una secuencia que tendrá un puntaje.
2. ClustalWJalview
2.1 Clustal
50
Bioinformática
51
Bioinformática
52
Bioinformática
2.2 Jalview
* Ver
Lee y escribe en las alineaciones en una variedad de formatos (Fasta, PFAM,
MSF, Clustal, BLC, PIR).
Guarda las alineaciones y los árboles asociados en JalView formato XML.
* Editar
Las lagunas se pueden insertar / borrar con el ratón o el teclado.
Instrucciones simples.
Grupo de edición (supresión de inserción de las lagunas en los grupos de
secuencias).La eliminación de las columnas con huecos.
* Análisis
Alinear las secuencias utilizando Servicios Web ( Clustal , muscular ...)
Aminoácidos análisis de conservación similar a la de AMAS.
Las opciones de alineación de clasificación (por su nombre, para los árboles, el
porcentaje de identidad, grupo).
Árboles UPGMA y NJ calculado y elaborado a partir de distancias por ciento de
identidad.
Clústeres de secuencia mediante el análisis de componentes principales.
La eliminación de las secuencias redundantes.
Smith Waterman pares de alineación de las secuencias seleccionadas.
* Anotar
Uso de la Web basada en los programas de predicción de estructura secundaria
( JNET ).
Usuario predefinidos o personalizados esquemas de color a las alineaciones de
color o de grupos.
Secuencia de recuperación de función y se muestran en la alineación.
* Publicar
Imprimir su alineación con los colores y anotaciones.
Crear páginas HTML.
Salida de alineación de imagen Portable Network Graphics (PNG).
Salida de la alineación como un archivo PostScript encapsulado (EPS).
53
Bioinformática
Gráfico 5. Jalview.
54
Bioinformática
3. Proteínas y Proteómica
3.1 Proteínas
55
Bioinformática
3.2 Proteóma
56
Bioinformática
3.3 Proteómica
57
Bioinformática
Las estrategias más recientes extraen las proteínas de las células o tejidos y las
cortan en fragmentos más pequeños, o péptidos, que son analizados por
espectrometría de masas. Los espectros de masas obtenidos son procesados
mediante complejos algoritmos matemáticos que permiten la identificación y
58
Bioinformática
Significa tomar una proteína compararla con otras proteínas conocidas para ver
fundamentalmente su función.
59
Bioinformática
60
Bioinformática
manualmente construyendo árboles para tantos genes. Por eso (entre otras
razones) existen numerosas bases de datos y métodos para estudiar la
organización de las familias de proteínas.
Las distintas bases de datos y los distintos métodos afrontan el problema de forma
diferente, persiguiendo diversos objetivos. Unas aproximaciones tratan de
encontrar grupos de ortólogos. Otras aproximaciones, grupos de homólogos, etc.
5.1 PROSITE
Cogeremos una secuencia de una proteína prueba en este caso será de Miosina
de Arabidopsisthaliana. Entonces lo primero que haremos es seleccionarla si ya la
hemos buscado, en nuestro caso la tomaremos de la plataforma moodle:
61
Bioinformática
62
Bioinformática
5.2 PRINTS
63
Bioinformática
64
Bioinformática
65
Bioinformática
66
Bioinformática
5.3 Pfam
67
Bioinformática
Nótese que una única proteína puede pertenecer a varias familias Pfam.
68
Bioinformática
69
Bioinformática
70
Bioinformática
5.4 InterPro
71
Bioinformática
72
Bioinformática
73
Bioinformática
1. Introducción
El término base de datos fue acuñado por primera vez en 1963, en un simposio
celebrado en California.
De forma sencilla podemos indicar que una base de datos no es más que un
conjunto de información relacionada que se encuentra agrupada o estructurada.
El archivo por sí mismo, no constituye una base de datos, sino más bien la forma
en que está organizada la información es la que da origen a la base de datos. Las
bases de datos manuales, pueden ser difíciles de gestionar y modificar. Por
ejemplo, en una guía de teléfonos no es posible encontrar el número de un
individuo si no sabemos su apellido, aunque conozcamos su domicilio.
Desde el punto de vista informático, una base de datos es un sistema formado por
un conjunto de datos almacenados en discos que permiten el acceso directo a
ellos y un conjunto de programas que manipulan ese conjunto de datos.
Desde el punto de vista más formal, podríamos definir una base de datos como un
conjunto de datos estructurados, fiables y homogéneos, organizados
independientemente en máquina, accesibles a tiempo real , compartibles por
usuarios concurrentes que tienen necesidades de información diferente y no
predecibles en el tiempo .
La idea general es que estamos tratando con una colección de datos que cumplen
las siguientes propiedades:
74
Bioinformática
Al igual que cuando se habla, p.ej., de coches no existe un único modelo, ni una
sola marca, ni siquiera una sola tecnología sobre su funcionamiento, cuando se
trabaja con bases de datos ocurre una cosa parecida: no existe una sola marca,
sino varias, y además cada marca puede tener diferentes productos cada uno de
ellos apropiado a un tipo de necesidades.
Sin embargo, la división que vamos a hacer aquí de las bases de datos será en
función de la tecnología empleada en su funcionamiento. Hablando de coches
tenemos los tradicionales de motor a gasolina, los de gasóleo, los turbo diesel, los
que funcionaban con gasógeno, y mucho menos frecuentes los coches solares o
incluso los de propulsión a chorro; pues bien, hablando de bases de datos
tenemos que las más utilizadas son la bases de datos relacionales, las más
antiguas son las jerárquicas y en red, y las más avanzadas son las orientadas a
objetos, y las declarativas. Estas se diferencian como hemos dicho, en la forma de
trabajar con los datos y en la concepción o mentalidad que el usuario debe
adoptar para interactuar con el sistema.
75
Bioinformática
Una base de datos jerárquica está compuesta por una secuencia de bases de
datos físicas, de manera que cada base de datos física se compone de todas las
ocurrencias de un tipo de registro o ficha determinada.
P.ej., en la figura siguiente tenemos una ocurrencia del tipo de registro Curso, de
manera que como cabeza principal tenemos una instancia del segmento curso, de
la cual dependen una o varias instancias de los segmentos Requisito y Oferta; a
su vez, de Oferta dependen otros que son Profesor y Estudiante.
- Registro: Viene a ser como cada una de las fichas almacenadas en un fichero
convencional.
- Campos o elementos de datos. Son cada uno de los apartados de que se
compone una ficha.
- Conjunto: Es el concepto que permite relacionar entre sí tipos de registro
distintos.
76
Bioinformática
cuáles son los pasajeros que viajan en él. La forma de hacerlo es a través de un
conjunto. Un conjunto relaciona dos tipos de registro. Uno de ellos es el registro
propietario del conjunto, y el otro es el miembro.
Las bases de datos relacionales han sido y siguen siendo ampliamente utilizadas
para una extensa gama de aplicaciones. Sin embargo, el aumento de potencia de
los ordenadores personales, ha hecho aparecer nuevas aplicaciones potentes que
requieren la utilización de datos complejamente relacionados o con necesidades
de consultas muy particulares, como puedan ser p.ej., los sistemas de información
geográficos, el diseño de circuitos electrónicos por ordenador, etc.
77
Bioinformática
determinada posición de las manecillas, que son interpretadas por una persona
como la hora actual. Cada uno de estos objetos es un elemento. Cuando un
engranaje, por ejemplo, gira, no lo hace por capricho, sino para obtener como
resultado el movimiento de otro engranaje, de una cremallera, o de la propia
manecilla. De esta forma, cuando el usuario da cuerda a la maquinaria, lo que está
haciendo realmente es modificar el estado de un objeto del reloj, normalmente la
espiral de la cuerda cuya energía potencial mueve la corona haciendo que un
oscilador avance el segundero. A su vez el movimiento del segundero hace
avanzar el del minutero, que hace avanzar el de la hora. Si el reloj es de cuco,
cada hora se activará la portezuela del cuco que saldrá un número determinado de
veces según la hora. De esta manera, una modificación del estado de un objeto
por parte de un usuario, desencadena una serie de acciones cuyo objetivo final es
solucionar un problema al usuario: darle a conocer la hora exacta. Así, la
programación orientada a objetos pretende ser una simulación de los procesos de
la realidad.
- Clase. Cuando hay varios objetos semejantes, pueden agruparse en una clase.
De hecho, todo objeto debe pertenecer a una clase, que define sus características
generales.. P.ej., nuestro reloj posee varios engranajes. Serán diferentes, puesto
que cada uno de ellos posee un diámetro y un número de dientes distinto, además
de poder ser o no helicoidal. Pero al fin y al cabo todos son engranajes. De esta
manera cada engranaje pertenece a la misma clase, a pesar de tener unas
características particulares que lo diferencian de los demás.
- Estado. Son las características propias de cada objeto. Siguiendo con el caso de
los engranajes, su estado puede ser el número de dientes, el tamaño, etc. El
estado se utiliza especialmente para guardar la situación del objeto que varía con
el tiempo. En nuestro caso almacenaríamos la situación en un espacio
tridimensional, y la posición o postura en que se encuentra.
78
Bioinformática
P.ej., podemos declarar una clase Engranaje con las características básicas de
los engranajes. De ella podemos derivar otras tres: Eng. fijo, Cremallera, y Eng.
helicoidal. Cada una de estas clases especializa la clase general, con la ventaja
de que las características comunes a los tres tipos de engranajes sólo hay que
decirlas una vez.
Antes de comenzar, aclararemos que, cuando se vea el lenguaje SQL sobre las
bases de datos relacionales, diremos que este es un lenguaje no procedural, en el
sentido de que el usuario especifica qué es lo que quiere, pero no cómo. No se
debe confundir este aspecto del SQL con un lenguaje puramente declarativo, ya
que éstos, amplían la filosofía de la base de datos, de manera que el usuario no
es consciente de los métodos de búsqueda que se realizan internamente, y la
forma en que se manejan los datos también es muy distinta; además, en el caso
de las funcionales, es necesario complicar soberanamente los métodos utilizados
79
Bioinformática
3. Descomposición y Normalización
Siempre que un analista de sistemas de base de datos arma una base de datos,
queda a su cargo descomponer dicha base en grupos y segmentos de registros.
Este proceso es la descomposición; el mismo es necesario independientemente
de la arquitectura de la base de datos - relacional, red o jerárquica-. Sin embargo,
para la base de datos relacional, la acción correspondiente puede dividirse y
expresarse en términos formales y se denominanormalización a la misma.
3.1 Normalización
¿Qué es normalización?
80
Bioinformática
Gráfico 6. Normalización.
81
Bioinformática
Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u
otra manera hacen uso de datos almacenados en bases de datos “biológicas” o
“bioinformáticas”. Para aquellos de vosotros que tiene formación en ciencias de la
computación, cuando escucháis base de datos empezáis a pensar en SQL, el
modelo relacional, etc… Para la gente que las tiene que usar diariamente, les
vendrá a la mente los gestores de bases de datos y los distintos productos que
hay disponibles, tanto de pago como de código abierto, que permiten interrogar de
diversas maneras (usando el lenguaje de consultas SQL) la información
almacenada en una instancia del gestor. En bioinformática, el concepto de “base
de datos biológica” no alude tanto a la tecnología usada como al contenido
almacenado.
82
Bioinformática
Lo más importante de todo: casi todas estas bases de datos son de libre
disposición (cualquiera puede descargarlas). Ello es posible porque la información
almacenada en la mayor parte de estas bases de datos es de dominio público y
casi siempre estática, al venir de investigación científica ya terminada financiada
con fondos públicos. Estos ficheros están casi siempre en formato textual, y la
razón viene de los orígenes de la bioinformática: poder entender, ver y manipular
sus contenidos sin depender de herramientas especializadas. Los contenidos de
estos ficheros, al ser textuales, son muy comprimibles, y por eso suelen estar
comprimidos con gzip, bzip2, xz, etc…
83
Bioinformática
1. Estructura ADN
* Un azúcar: desoxirribosa en
este caso (en el caso de ARN
o ácido ribonucleico, el azúcar
que lo forma es una ribosa)
Gráfico 2.Estructura del ADN.
* Un grupo fosfato El ácido desoxirribonucleico es
un polímero de dos cadenas anti
* Una base nitrogenada: paralelas (orientación 5' 3' y 3'
adenina (A), guanina (G), 5'). Cada cadena está compuesta
citosina (C) y timina (T). Estas por unidades de un azúcar
(desoxirribosa), un fosfato y una
forman puentes de hidrógeno base nitrogenada unidas entre sí
entre ellas, respetando una por enlaces fosfodiéster. Las
estricta complementariedad: A sólo se aparea con T (y bases presentes en el ADN son:
viceversa) mediante dos puentes de hidrógeno, y G sólo con adenina (A), timina (T), citosina
C (y viceversa) mediante 3 puentes de hidrógeno. (C) y guanina (G). Para recordar
cómo aparean entre sí las bases
Si la molécula tiene sólo el azúcar unido a la base podemos pensar en las iniciales
de dos grandes personajes del
nitrogenada entonces se denomina nucleósido. tango: Aníbal Troilo (adenina es
la base complementaria de
timina) y Carlos Gardel (citosina
es la complementaria a guanina).
84
Bioinformática
85
Bioinformática
2. Estructura ARN
Veamos el siguiente cuadro comparativo que nos podrá aclarar las dudas en
cuanto a la diferencias con el ADN:
86
Bioinformática
87
Bioinformática
3. Estructura de Proteínas
Estructura Primaria
Una cadena polipeptídica consiste
en una cadena lineal de
aminoácidos unidos por enlaces
peptídicos. El primer puesto de la
cadena corresponde al grupo
amino terminal, y la estructura
primaria es la secuencia en la que
están situados todos los
constituyentes hasta llegar al
carboxilo terminal. Esta secuencia
88
Bioinformática
Estructura Secundaria
La estructura secundaria es la forma en la que la cadena poli peptídica se pliega
en el espacio. En una proteína, cada tramo de cadena polipeptídica tiene distinta
estructura secundaria. Existen varias formas definidas de estructura secundaria,
las más importantes de las cuales son las llamadas hélice a y hoja plegada b. Las
estructuras secundarias definidas están mantenidas por puentes de hidrógeno
formados exclusivamente entre los grupos amino y carboxilo que constituyen el
esqueleto de la cadena polipeptídica. Consecuentemente, los parámetros
estructurales (distancias, ángulos) serán iguales, independientemente de la
proteína y de los aminoácidos que formen la estructura.
Estructura Terciaria
La estructura terciaria de la proteína es
la forma en la que se organizan en el
espacio los diferentes tramos de la
cadena polipeptídica, que pueden tener
una estructura secundaria definida,
como las hélices u hojas o no tenerla.
La estructura terciaria está mantenida
por enlaces iónicos y de puentes de
89
Bioinformática
Estructura Cuaternaria
90
Bioinformática
Crecimiento
Cuando se fundó, el PDB contenía tan sólo 7 estructuras de proteínas. Desde
entonces ha experimentado un crecimiento aproximadamente exponencial en el
número de estructuras y nada parece indicar que el ritmo vaya a decaer.
El ritmo de crecimiento del PDB ha sido analizado en profundidad en diversos
estudios.
91
Bioinformática
92
Bioinformática
5. Folding de Proteínas
Por lo general, todas las moléculas de proteína de cualquier especie adoptan una
conformación única, llamada Cadena Nativa. Para la gran mayoría de las
proteínas, el estado natural es la forma más estable plegada de la molécula.
Las células requieren un mecanismo rápido y eficiente, para el plegamiento de
proteínas en su forma correcta, de lo contrario, las células perderían mucha
energía en la síntesis de proteínas funcionales y en la degradación de proteínas
mal plegadas o desplegadas.
93
Bioinformática
Cada día es más evidente que las funciones celulares, altamente complejas y
relacionadas entre sí, son llevadas a cabo por un gran número de proteínas
actuando en forma de complejos proteicos, bien transitorios o estables. Hasta
hace poco se pensaba que el poli péptido naciente adquiría espontáneamente su
configuración funcional al ser sintetizado en el ribosoma. Pero hoy se sabe que
tanto el correcto plegamiento de las proteínas como su adecuado ensamblaje en
complejos requieren el concurso de unas proteínas especializadas, conocidas
como chaperonas, debido a que su papel es vigilar y eventualmente corregir el
plegamiento. Estas proteínas están presentes en todos los seres vivos. Las
chaperonas tales como la trimetilamina N oxidasa (TMAO) tienen un papel activo
en el plegamiento de las proteínas, esta enzima de manera específica permite el
plegamiento correcto de la PrPc (Proteínaprionica celular), la carencia de dicha
chaperona propicia la formación de la PrPsc ( Proteína prionica scrapie ) al
94
Bioinformática
permitir la formación de bandas beta. El mecanismo por el cual las cadenas poli
peptídicas se pliegan en una específica estructura tridimensional han sido un
misterio hasta hace poco tiempo. La proteína nativa casi siempre corresponde a
una estructura que es termodinámicamente estable bajo condiciones fisiológicas.
Sin embargo el número total de posibles combinaciones de una cadena poli
peptídica es muy grande, una búsqueda sistemática para una estructura en
partícula seria larga y difícil. Es claro que el proceso de plegamiento no involucra
una serie de pasos predeterminados entre partes específicas, pero lleva a cabo
una búsqueda de muchas conformaciones accesibles a la cadena polipeptídica.
Si la energía superficial es la adecuada, únicamente un pequeño número de
todas las posibles combinaciones darán origen a la estructura nativa de una
proteína. Porque la forma final es codificada por la secuencia de aminoácidos y la
selección natural que permite evolucionar y ser capaces de plegarse rápida y
eficientemente.
5.1.2 Chaperoninas
95
Bioinformática
96
Bioinformática
6. Alineamiento de Estructuras
97
Bioinformática
La información mínima
producida por un alineamiento
estructural correcto es un
conjunto de coordenadas
tridimensionales superpuestas
para cada estructura inicial.
Nótese que uno de los
elementos de entrada puede
estar fijado como referencia y
que, por lo tanto, sus
coordenadas superpuestas no
cambiaran. Las estructuras
encajadas pueden usarse para
calcular valores RMSD mutuos, así como otras medidas de similitud estructural
más sofisticadas como el test de distancia global (GDT, de sus siglas en inglés, y
que es la métrica utilizada en CASP, CriticalAssessment of Techniques for Protein
Structure Prediction). Un alineamiento estructural también implica un alineamiento
de secuencias unidimensional desde el que una secuencia identidad, o el
porcentaje de residuos que son idénticos entre las estructuras de entrada, puede
calcularse como una medida de cuan cercanamente se encuentran ambas
secuencias.
98
Bioinformática
La comparación más
sencilla posible entre
estructuras de proteínas
no intenta alinear las
estructuras de entrada,
sino que necesita un
alineamiento pre
calculado como input
para determinar cuáles
de los residuos en la
secuencia deben
considerarse para el
cálculo de la RMSD. La
superposición estructural
se usa comúnmente para comparar conformaciones múltiples de la misma
proteína (en cuyo caso no es necesario el alineamiento ya que la secuencia es la
misma) y para evaluar la calidad de los alineamientos producidos usando solo
información de las secuencias entre dos o más secuencias cuyas estructuras son
conocidas. Este método utiliza tradicionalmente un sencillo algoritmo de ajuste por
mínimos cuadrados, en el que las rotaciones y translaciones óptimas se
encuentran minimizando la suma de los cuadrados de las distancias entre todas
las estructuras de la superposición. Más recientemente, los métodos bayesianos y
de máxima verosimilitud han incrementado enormemente la precisión de las
rotaciones, translaciones y matrices de covarianza estimadas para la
superposición.
99
Bioinformática
CONCLUSIONES
100
Bioinformática
BIBLIOGRAFÍA E INFOGRAFÍA
http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36
http://www.um.es/molecula/anucl03.htm
http://www.slideshare.net/munevarjuan/protein-folding-2105013
http://www.cienciasaplicadas.buap.mx/convocatoria/memorias_2005/065.pdf
http://folding.stanford.edu/Spanish/Science
http://es.scribd.com/doc/2529983/Plegamiento-de-Proteinas
http://www.sebbm.es/ES/divulgacion-ciencia-para-todos_10/chaperoninas-
plegamiento-mediante-aislamiento_522
http://es.wikipedia.org/wiki/Alineamiento_estructural
http://www.psicologia2000.com/es/enciclopedia-general-psicologia-on-line-wiki-
letra-a/21805-alineamiento-estructural.html
http://aportes.educ.ar/biologia/nucleo-teorico/estado-del-arte/el-libro-de-la-vida-el-
adn/estructura_del_adn.php
http://www.um.es/molecula/anucl02.htm
http://www.xuletas.es/ficha/estructura-del-adn-y-arn/
http://www.profesorenlinea.cl/Ciencias/ProteinasEstruct.htm
http://milksci.unizar.es/bioquimica/temas/aminoacids/estructurprot.html
http://www.aula21.net/Nutriweb/proteinas.htm#10
http://www.slideshare.net/carmen42/presentacin-proteinas
101