2

Pubmed2ensembl. Vinculando genes y publicaciones

Las primeras etapas de la genómica se iniciaron a partir de 1970 con la secuenciación de genomas pequeños de virus y bacterias, debido a que las técnicas empleadas antes eran costosas e ineficientes. En la actualidad, durante las últimas dos décadas, el desarrollo de técnicas de biología molecular más eficientes han permitido automatizar la secuenciación de genomas completos y reducir el costo del proceso, debido a esto ha aumentado considerablemente el ritmo al que se publicaban las secuencias completas de microorganismos de interés biomédico y, a la vez, se ha abierto la posibilidad de secuenciar genomas más grandes de organismos eucariontes. Esto representó un gran avance para la ciencia que pretende explicar la biología de los organismos a partir del nivel molecular.

La secuenciación es sólo el comienzo para comprender la estructura de los genomas y las funciones que codifica.

La anotación genómica es el siguiente paso y consiste en dotar de un significado biológico a las secuencias de nucleótidos de un genoma a tres niveles distintos:

  1. A nivel de secuencia: Se identifican y clasifican, a nivel de nucleótidos, regiones con características particulares, por ejemplo, secuencias codificantes y no codificantes.
  2. A nivel de proteínas: Se asignar funciones a las proteínas codificadas en los genes.
  3. A nivel de procesos: Se integran los elementos del genoma de los dos niveles inferiores a un nivel de procesos.

2

El proceso de anotación de un genoma requiere de grandes esfuerzos de investigación sobre los distintos elementos y niveles mencionados. Estos esfuerzos a su vez, han generado una gran cantidad de información adicional a la secuencia de un genoma, y superando por mucho la capacidad de obtener y procesar esta información de forma tradicional y manual, lo que ha llevado a la la necesidad de automatizar las anotaciones que permitan la integración de otro tipo de información relevante para la investigación en ciencias genómicas.

El proyecto Ensembl fue creado para cumplir con este propósito y actualmente es uno de los recursos más valiosos para genetistas, biólogos moleculares y otros investigadores dentro de las ciencias biomédicas porque concentra gran parte de la información relacionada con los genomas de vertebrados, incluido el humano y otros eucariontes. Su motor de búsqueda BioMart, permite hacer minería de datos en Ensembl y está diseñado para facilitar la búsqueda de información genómica.

Sin embargo, estas herramientas computacionales no atendían a la necesidad de obtener un compendio de la literatura científica relevante relacionada con una región o producto genómico específico, salvo algunas excepciones como The FlyBase Consortium y Entrez Gene cuyos esfuerzos se han enfocado en organismos modelo. Hacer extensiva esta tarea para los genomas de más especies sobrepasa por mucho las capacidades humanas debido a la gran cantidad de información disponible.

El buscador pubmed2ensembl es una herramienta que permite hacer búsquedas en las bases de datos Ensembl, Entrez Gene, MEDLINE y PMC vinculando las anotaciones genómicas con la literatura relacionada. Además de buscar en la información curada y mantenida en estas bases de datos, hace uso de text2genome que es una nueva herramienta para hacer minería de datos directamente sobre artículos científicos que reportan nombres de genes, secuencias de DNA o proteínas, vinculandolos automáticamente con la región genómica y especie correspondiente.

En total, se han vinculado cerca de 2,093,067 artículos con 148,019 genes de 12 especies seleccionadas, en Ensembl. MEDLINE es la base de datos con la que se ha vinculado la mayoría de la información genómica.

Tabla 1. Número de artículos y genes vinculados de cada base de datos en pubmed2ensembl.

1

 

Cabe mencionar que uno de los principales inconvenientes que obstaculizan el mapeo automático de genes y artículos para herramientas como text2genome es la falta de una nomenclatura estándar para genes, lo que causa que distintos autores se refieran a una misma secuencia de maneras distintas por lo que aún se requiere de la supervisión humana. Hoy en día, se están investigando nuevos métodos para eliminar la ambigüedad y resolver esta clase de problemas que surgen en áreas encargadas del manejo de metainformación.  

Referencias:

Stein, L. (2001). Genome annotation: from sequence to biology. Nature Reviews Genetics, 2, 493-503. doi:10.1038/35080529

Yandell, M. y Ence, D. (2012). A beginner’s guide to eukaryotic genome annotation. Nature Reviews Genetics, 13, 329-342. doi:10.1038/nrg3174

Haeussler, M., Gerner, M. y Bergman, C.M. (2011). Annotating genes and genomes with DNA sequences extracted from biomedical articles. Bioinformatics, 27(7), 980–986. doi:10.1093/bioinformatics/btr043

Baran, J., Gerner, M., Haeussler, M., Nenadic, G. y Bergman, C.M. (2010). pubmed2ensembl: Linking Publications and Genes. Recuperado el 09 de septiembre de 2013, de: http://bergmanlab.smith.man.ac.uk/wp-content/uploads/2010/02/BaranGenomeInformatics2010.pdf

About the Ensembl Project. Recuperado el 09 de septiembre de 2013, de: http://www.ensembl.org/info/about/index.html


Was This Post Helpful:

0 votes, 0 avg. rating

Compartir:

Eniak Hernández Alarcón

Estudió biología en la Facultad de Ciencias de la UNAM. Actualmente cursa una maestría en biología evolutiva en el Posgrado en Ciencias Biológicas de la UNAM. Sus áreas de interés son: Sistemas complejos, biología de sistemas, origen de la vida y evolución biológica, biología computacional, cienciometría, inteligencia artificial y data mining.

Deja un comentario