¡No me puedo creer que quiten mi base de datos!

Bases de datos en Proteómica hay muchas. Y para lo que estemos buscando o analizando. Por ejemplo, si estamos buscando propiedades generales de proteínas que hemos identificado, podemos ir a Uniprot. Si queremos estudiar un poco más sobre los dominios de las proteínas en cuestión podemos visitar PfamInterpro… Por el contrario, si lo que queremos es predecir “in-silico” alguna modificación postraduccional en la secuencia de nuestra proteína deberíamos visitar el CBS danés.

Ya lo veis, hay bases de datos para “casi” todo. En general existen bajo mi punto de vista dos gigantes de las bases de datos: EBI (con sus correspondientes bases de datos y montón de aplicaciones) y NCBI (también con sus correspondientes chorrecientas aplicaciones).

Pero menos conocido es el formato de anotación que utilizan estas bases de datos para describir las propiedades de las diferentes proteínas que los científicos nos vamos encontrando a lo largo de años y años de experimentación. Hay anotaciones/bases de datos que son muy populares por este lado del mundo (Europa), como la que yo llamo anotación suiza, la UniprotKB (http://www.uniprot.org/uniprot/P00493),  y otras igualmente populares en otros lugares (EEUU) como la anotación/base de datos tipo NCBI.(http://www.ncbi.nlm.nih.gov/protein/NP_038584.2).

Ambas bases de datos, y en general todas las bases de datos, utilizan diferentes “accession number”, es decir, diferentes codificaciones para identificar la misma proteína dependiendo de la base de datos, el formato que se le de a las anotaciones y la información que contiene esa anotación o descripción de la proteína.

Para muestra, un botón. ¿Os habéis fijado en los dos enlaces anteriores que os he dejado? Seguro que no… 😉 Pues miradlos bien. Es la misma proteína con diferente accesión number (P00493 vs NP_038584.2) dependiendo de si nos encontramos ante una anotación tipo Uniprot o NCBI respectivamente.

Fijaos como dependiendo del accession number podemos tener más o menos información sobre la misma cosa. Para mi gusto es bastante más completo y con mejor estructura el de Uniprot, pero vamos, que si hay que utilizar el del NCBI tampoco le vamos a hacer ascos…

Recientemente he podido leer un artículo (Griss et al, Proteomics October 2011) que se plantea la desaparición del formato de anotación IPI (International Protein Index), una cosa que me afecta directamente a día de hoy ya que la base de datos que descargué en el Servicio de Proteómica de la Universidad de Córdoba (mi segundo laboratorio en la práctica) tiene todas las anotaciones en formato IPI y es con ella y con un programa de espectrometría de masas llamado ProteomeDiscoverer con los que me dedico a identificar proteínas del ratón de campo M. spretus  y sus niveles de expresión mediante la técnica de iTRAQ que ya os explicaré en otro post.

Este formato de anotación tiene la estructura que podéis observar más abajo. Una serie de líneas en las que se nos muestra la identificación para la anotación IPI (ID), el accesion number que posee esa proteína en esta base de datos (AC), los cambios que ha sufrido esta entrada (DT), la descripción (DE), el organismo al que pertenece, en este caso el ratón M. musculus (OS), la clasifición taxonómica (OC), enlaces cruzados con otras bases de datos (DR), la secuencia al final, etc.

ID   IPI00284806.8         IPI;      PRT;   218 AA.
AC   IPI00284806; IPI00131306; IPI00281692; IPI00351673; IPI00381442;
AC   IPI00387495; IPI00626403;
DT   15-MAY-2003 (IPI Mouse rel. 1.12, Created)
DT   07-NOV-2007 (IPI Mouse rel. 3.36, Last sequence update)
DE   HYPOXANTHINE-GUANINE PHOSPHORIBOSYLTRANSFERASE.
OS   Mus musculus (Mouse).
OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
OC   Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus.
OX   NCBI_TaxID=10090;
CC   -!- GENE_LOCATION: Chr. X:50341314-50374836:1.
DR   UniProtKB/Swiss-Prot; P00493; HPRT_MOUSE; M.
DR   Vega; OTTMUSP00000018945; OTTMUSG00000017356; -.
DR   REFSEQ_VALIDATED; NP_038584; GI:96975138; -.
DR   UniProtKB/TrEMBL; B1B0W8; B1B0W8_MOUSE; -.
DR   UniProtKB/TrEMBL; Q6TDG6; Q6TDG6_MOUSE; -.
DR   UniProtKB/TrEMBL; Q99KF5; Q99KF5_MOUSE; -.
DR   ENSEMBL; ENSMUSP00000026723; ENSMUSG00000025630; -.
DR   UniParc; UPI0000003E3A; -; -.
DR   MGI; MGI:96217; Hprt; -.
DR   Entrez Gene; 15452; Hprt; -.
DR   UniGene; Mm.299381; -; -.
DR   CCDS; CCDS40972.1; -; -.
DR   trome; MTR002853; -; PRT.
DR   EPD; EP07058; MM_HPRT; Transferase.
DR   CleanEx; MM_HPRT1; -; -.
DR   InterPro; IPR005904; Hxn_phspho_trans.
DR   InterPro; IPR002375; Pr/py_Pribosyl_transf_CS.
DR   InterPro; IPR000836; PRibTrfase.
DR   Pfam; PF00156; Pribosyltran; 1.
DR   TIGRFAMs; TIGR01203; HGPRTase; 1.
DR   PROSITE; PS00103; PUR_PYR_PR_TRANSFER; 1.
SQ   SEQUENCE   218 AA;  24570 MW;  925CC0D4A6626E05 CRC64;
     MPTRSPSVVI SDDEPGYDLD LFCIPNHYAE DLEKVFIPHG LIMDRTERLA RDVMKEMGGH
     HIVALCVLKG GYKFFADLLD YIKALNRNSD RSIPMTVDFI RLKSYCNDQS TGDIKVIGGD
     DLSTLTGKNV LIVEDIIDTG KTMQTLLSLV KQYSPKMVKV ASLLVKRTSR SVGYRPDFVG
     FEIPDKFVVG YALDYNEYFR DLNHVCVISE TGKAKYKA

Lo que tenemos ante nosotros es un fichero de texto plano muy útil y con bastante información que puede utilizar rápidamente el programa en cuestión que estemos utilizando para realizar nuestras búsquedas, ya que este programa normalmente se va a fijar en la primera columna (ID, AC, DT, DE, OS, OX, etc) para realizar un índice de todas las proteínas de la base de datos que tenemos anotadas bajo este formato y después va a darnos los resultados en función de los parámetros de búsqueda que estemos fijando.

Como os digo, el artículo (publicado hoy mismo) analiza las consecuencias de no continuar con la base de datos IPI y para ello realiza distintos test en la esta base de datos y en la que va destinada a sustituirla (UniprotKB). Bueno, de hecho ya la ha sustituido ya que como veréis en el siguiente link del EBI, la base de datos IPI “se ha cerrado”.

Estos científicos del EMBL (European Molecular Biology Laboratory) han realizado dos tipos de test de “mapeo” o búsqueda de las mismas proteínas sobre ambas bases de datos completas para comparar la coincidencia entre ambas bases de datos utilizando para ello la herramienta PICR (Protein Identifier Cross-Reference Service) del EBI.

En el primer test han utilizado PICR para comprobar la cantidad de referencias cruzadas que tenían las proteínas de IPI con respecto a otras bases de datos. Este test lo hicieron para comprobar cuantas entradas de la base IPI estaban representadas en la base UniprotKB a nivel de ID de proteína.

En el segundo test también utilizan PICR pero en esta ocasión utilizan como base de comparación que las secuencias de cada proteína sean idénticas entre ambas bases de datos para que no exista error de identificación entre ambas bases de datos.

Bien, pues lo que han averiguado me ha dejado perplejo a la par que un poco preocupado.

Con el primer test y la base IPI para humanos (la llamaremos IPIh) han descubierto que sólo el 70% de las proteínas se hallaban como ID única en UniprotKB, un 8% aproximadamente de la IPIh estaba relacionada con varias ID (mapeaba con varias ID) y un 21% no se encontraba (no había mapeo) en la base UniprotKB.

Con el segundo test (el de comparar homología de secuencias entre ambas bases de datos), el resultado fue que el 67% de las proteínas de la base IPIh se encontraba en la base UniprotKB con ID única, un 8% mapeaba con varias ID y un 25% directamente no mapeaba.

En el caso de los ratones, la base de datos IPI para ratón M. musculus (llámemosla IPIm), que es la base de datos que utilizo los resultados fueron idénticos tanto para el primer test como para el segundo, 78% mapeados con ID única, 12% con varias ID y 10% sin mapear.

Además de estos resultados con estos dos tests, este grupo de científicos realizó una digestión “in silico” de ambas bases de datos, de las cuales no os pongo los resultados porque son un poco más difíciles de ver, pero que me tranquilizaron aun menos…

Y preguntaréis, si bueno, ¿ y que? Pues la parte preocupante es que en la base IPIh tenemos entre un 21-25% de proteínas que literalmente perdemos como consecuencia de la sustitución de una base de datos por otra. Y en la IPIm tenemos un 10% de la base de datos que me va a desaparecer.

¿Consecuencias de esto? Pues que las identificaciones basadas en estos sets de la base de datos IPI que no puedan “mapearse” en Uniprot se perderán para análisis futuros (literalmente según el artículo), o lo que es lo mismo, se perderán en el olvido…

Esto nos afecta por ejemplo, si como es mi caso, estamos utilizando una base de datos “obsoleta” (bueno, defínanme obsoleta si la discontinuaron el mes pasado…) para (a nivel de espectrometría de masas) identificar proteínas que intervienen en nuestro experimento y queremos publicar los resultados. Los colegas que quieran repetir estos resultados tendrán que tener en cuenta este “handicap” ya que se podrán encontrar con que nosotros hemos identificado proteínas que supuestamente no existen al no estar incluídas dentro de la base de datos UniprotKB que es la actual y pueden acusarnos de dar datos erróneos.

Por eso, siempre, y digo siempre, os recomiendo tener una base de datos actualizada a la última versión cuando se trate de investigar cualquier tipo de análisis en proteómica y en general en cualquier campo en el que nos dispongamos a utilizar una base de datos.

Este Post participa en la VI edición del Carnaval de Biología, albergado por Copépodo en su blog Diario de un Copépodo.

Anuncios

Acerca de Eduardo Chicano

www.proteomeplus.wordpress.com

Publicado el 17 octubre, 2011 en Artículos de interés, Técnicas. Añade a favoritos el enlace permanente. 4 comentarios.

  1. Caray, la proteómica me pilla un poco lejos de mi campo pero me sorprende muchísimo que se vaya a tomar una decisión como esta que puede implicar esa pérdida de información ¡y sobre todo de tiempo de los investigadores para adaptar sus datos a las definitivas!

    • Hola @copepodo! Yo tampoco lo entiendo, la verdad :S pero según lo que he leído parece que va a ser bastante mejor a partir de ahora porque también van a meter una serie de mejoras en la base de datos nueva…

  1. Pingback: VI Carnaval de Biología: presentación y bienvenida « Diario de un copépodo

  2. Pingback: VI Carnaval de Biología (Recapitulación) « Diario de un copépodo

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: