Sebastian Bassi (aka Bloguero Connor): Nuevas secuencias en Genbank

viernes, noviembre 14, 2008

Nuevas secuencias en Genbank

Hoy envié una tanda de secuencias a Genbank y me las aceptaron y publicaron en el día. Aca se puede ver una: FI277973

Quizas se estén preguntando que es una secuencia, porque la mandé a Genbank y que significa que la hayan aprobado y publicado. Y porque es relevante el hecho que todo pasó en el mismo día.

Vamos por partes. Con una secuencia me refiero a una secuencia nucleotídica, esto es, una secuencia de ADN. El ADN es una molécula que contiene información genética en los seres vivos (y los no vivos como los virus). Esta información es representada generalmente por estas 4 letras: ATCG. Hay excepciones, pero no vienen al caso ahora (por ejemplo el uso de la letra N para representar una letra que no sabemos su valor). Por ejemplo lo que sigue es un pedazo de secuencia del genoma de una planta llamada Arabidopsis Thaliana:

ATGGTGGGTGGCAAGAAGAAAACCAAGATATGTGA

Ese es un fragmento muy pequeño, calculen que el genoma completo son como 30 Mbases.
Para mas información sobre secuencias les recomiendo el artículo de la wikipedia sobre ADN.

Genbank es una base de datos donde se guardan y se ponen a disposición de cualquiera, todas las secuencias conocidas. Es como un repositorio de software (tipo Sourceforge, Google Code, etc), solo que en lugar de guardar código, se guardan secuencias genéticas. Esto se hace con muchos motivos. Tanto cientificos, como legales y hasta comerciales. Desde el punto de vista científico tener un repositorio de secuencias sirve para no reinventar la rueda en cada investigación científica que incluya el uso de secuencias de ADN. Si yo publico un artículo sobre una secuencia, es lógico pedir que la información de dicha secuencia esté disponible para que otro la pueda inspeccionar (y eventualmente darle algún uso). A veces algunas secuencias chicas (de menos de 1K) se ponen en el mismo paper. Pero por ejemplo un genoma de 30M no entra en ningún paper. Y si entrase tampoco tendria mucho sentido que una información de ese tipo no esté en formato electrónico. Ahi es donde entran las bases de datos genéticas. Hay varias, pero la mas integradora y base de referencia mundial es Genbank. Tan importante es que ninguna revista te acepta que hables de una secuencia sin que cites el # de Genbank de la misma.

El procedimiento para "submitir" una secuencia varia según el tipo de secuencia, pero por lo general involucra conversión de formatos de archivos de texto y verificar cumplir algunas caracteristicas relacionadas a la "calidad" de la secuencia (tampoco es cuestion de mandar cualquier verdura). En este caso tuve que seguir las instrucciones en esta página. Es el tipo de tareas que se puede hacer con Python en menos de 1 hora. Algunos que no saben programar lo hacen a mano, pero como tenia que submitir mas de 500 sequencias nucleotidicas, hice algunos scripts en Python. El script principal es este (aca una versión un poquito mas presentable), convierte 2 archivos llenos de secuencias en 2 archivos listos para ser submitidos, para leer las secuencias de entrada en formato FASTA, uso el parser SeqIO de Biopython. Es un script bastante pedorro, lo único destacable es una función (chunker) que mete un caracter cada X caracteres en un string. No es tan sencillo de hacer considerando que en Python los string son inmutables. Para hacerlo recurrí a la ayuda de la gente de la lista de PyAr. El hilo que se originó es de esos donde por una pregunta idiota (la mia) se termina aprendiendo mucho (y peleando un poco). Aca pueden ver la discusión en forma de árbol.

Las 527 secuencias de fragmentos genomicos de tomate silvestre fueron procesadas y publicadas durante el día. Lo mande a la 1 AM (hora del este) y antes de la 1 PM ya me confirmaron que estaba todo OK y me dieron los "numeros de acceso". En este caso, desde FI277973 hasta FI278499. Genbank procesa cientos de pedidos de estos todos los dias de laboratorios de todo el mundo, por eso me sorprende que la devolución esté en el día (había un cartel que decia que puede tardar hasta 2 semanas en responder).

La institución que administra Genbank es el NCBI (Instituto Nacional de Biotecnología), que depende de la Biblioteca Nacional de Medicina, que es parte del Instituto Nacional de Salud de USA (es equivalente al Ministerio de salud nuestro). Lo que me hace pensar, si aca nuestro Ministerio de Salud tuviera a su cargo una base asi, ¿que pasaría?. Hace como 2 años tengo abierto un trámite ante la CNC y los desgraciados tardan como 3 meses para darme cada respuesta. Son cosas distintas, pero igual me hace dudar sobre la capacidad de nuestro gobierno de intentar hacer algo parecido.

Etiquetas: ADN, genbank

1 Comentarios:

A la/s 10:59 a. m., Marianela´s dijo...: Hola Sebastian, por favor me podrias ayudar? necesito publicar unas secuencias parciales del mtDNA, especificamente el gen COI de Moscas de importancia forense, tu articulo me ha sido de ayuda, pero hay cosas que aun no entiendo. Me podrias ayudar indicandome como deberia hacer para publicar las secuencias, como preparo los archivos deberia usar: Sequin Stand-alone sequence submission tool o BankIt For quick and simple submissions.... Muchas gracias de antemano por la ayuda que me puedas prestar.

Marianela