Biología computacional: desafíos y oportunidades - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Biología computacional: desafíos y oportunidades

Hola de nuevo. Yo soy Simón Sánchez y en esta ocasión vamos a hablar sobre Biología computacional: desafíos y oportunidades

El número actual de la publicación trimestral, CTWatch, se centra en los problemas y desafíos que enfrenta el campo de la biología computacional hoy y en el futuro. Un tema recurrente a lo largo de los artículos es que el campo de la biología se basa cada vez más en datos y produce datos más rápido de lo que las computadoras pueden procesarlos. los

En su introducción, «Tendencias en la infraestructura cibernética para la bioinformática y la biología computacional», Rick Stevens, director de laboratorio asociado, Informática y ciencias biológicas del Laboratorio Nacional Argonne y profesor del Departamento de Ciencias de la Computación de la Universidad de Chicago, describe tres tendencias principales en la investigación biológica. : la creciente disponibilidad de datos de alto rendimiento, la aceleración del ritmo de las preguntas cuyas respuestas dependen del aumento de los recursos informáticos y las tecnologías de simulación y modelado que eventualmente conducirán a la teoría biológica predictiva.

Stevens aborda el papel del cálculo a petaescala con respecto a problemas biológicos fundamentales, como la historia evolutiva de genes y genomas. Esto es significativo, ya que el número de secuencias genómicas completadas llegará a 1.000 en los próximos años. Proporciona una lista de múltiples «áreas problemáticas» y el tiempo estimado para completar en tres niveles de potencia informática (360, 1000 y 5000 teraflops). Por ejemplo, en IBM Blue Gene / L, la detección de «todos los objetivos de fármacos microbianos conocidos en las bases de datos públicas y privadas de compuestos químicos para identificar nuevos inhibidores y fármacos potenciales» llevaría un año para que todos los objetivos microbianos 360 teraflops, uno de un mes para todos los objetivos microbianos a 1000 teraflops y un año máquina para todos los objetivos de fármacos humanos conocidos a 5000 teraflops.

Eric Jakobsson del Centro Nacional de Aplicaciones de Supercomputación de la Universidad de Illinois en Urbana-Champaign analiza las iniciativas que serán necesarias entre los científicos de aplicaciones y los arquitectos de sistemas para desarrollar una infraestructura de información adecuada para la biología en «Especificaciones para la próxima generación de Infraestructura de Biología Computacional Computacional «. Uno de los cinco modelos de integración descritos por Jakobsson es «Integración del desarrollo algorítmico con el diseño de la arquitectura informática». Él dice:

“Los diferentes tipos de computación biológica tienen patrones de uso de computadoras muy diferentes. Algunas aplicaciones requieren una gran cantidad de CPU, algunas requieren grandes cantidades de memoria, algunas necesitan acceder a grandes almacenes de datos, algunas son mucho más fáciles de paralelizar que otras, y existen requisitos muy variados para el ancho de banda entre el disco duro, la memoria y el procesador. «

Jakobsson sugiere que un ajuste mutuo más amplio de la arquitectura de la computadora con el software de aplicación haría que los recursos computacionales existentes y planificados fueran más productivos. Un caso de este ajuste fino es el código de simulación molecular Blue Matter, diseñado para aprovechar la arquitectura de supercomputadora IBM Blue Gene. Jakobsson elogia la combinación Blue Matter-Blue Gene, afirmando que ha permitido importantes nuevos descubrimientos.

Jakobsson también pide una mejor capacitación en el área de biología computacional a nivel de pregrado y posgrado. Señala a la Universidad de California en Merced como una institución que ha integrado completamente la informática en todos los niveles de su plan de estudios de biología, como se solicita en el informe BIO de 2010 de la Academia Nacional de Ciencias.

En «Secuenciación del genoma frente a la ley de Moore: desafíos cibernéticos para la próxima década», Folker Meyer, del Laboratorio Nacional Argonne, se enfrenta al desafío del número de genomas secuenciados que crecen más rápido que la ley de Moore. Afirma que el número de secuencias genómicas completas disponibles se duplica cada 12 meses, más rápido que los 18 meses de Moore. “El análisis de secuencias genómicas requiere un esfuerzo computacional serio: la mayoría de las técnicas de análisis requieren la comparación binaria de genomas o genes dentro de los genomas. A medida que el número de comparaciones binarias aumenta al cuadrado del número de secuencias involucradas, la sobrecarga computacional de las comparaciones de secuencias por sí solas se volverá asombrosa «.

A medida que aumenta el número de secuencias, aumenta el número de algoritmos para estudiarlas, lo que requiere más potencia informática. Por ejemplo, el uso de modelos ocultos de Markov para buscar similitudes de secuencias invisibles con el algoritmo BLAST utilizado tradicionalmente requiere más recursos de procesamiento. los

En «La informática y la» era de la biología «, Natalia Maltsev del Laboratorio Nacional de Argonne pide el» desarrollo de entornos computacionales de alto rendimiento que integren (i) grandes cantidades de datos genómicos y experimentales, (ii) herramientas y algoritmos integrales para descubrimiento de conocimiento y minería de datos y (iii) interfaces de usuario integrales que brindan herramientas para un fácil acceso, navegación, visualización y anotación de información biológica ”. Para lograr este entorno integrado, Maltev hace cuatro recomendaciones.

Primero, requiere recursos computacionales grandes, públicos y escalables para administrar el crecimiento exponencial de los datos biológicos. Por ejemplo, la base de datos genómica más grande, GenBank, contiene 56 mil millones de bases, de 52 millones de secuencias; y a medida que disminuye el costo de secuenciar nuevos genomas, se espera que la tasa de crecimiento de GenBank aumente drásticamente.

En segundo lugar, Maltev propone un nuevo modelo para gestionar la creciente complejidad de los datos biológicos. Afirma que la biología es cada vez más multidisciplinar, “utilizando información de diferentes ramas de las ciencias de la vida; genómica, fisiología, bioquímica, biofísica, proteómica y muchos otros «. El modelo debe incorporar varias clases de información biológica, así como clases similares de datos de diferentes recursos. Según Maltev, la dificultad con un modelo integrado se debe a» el gran volumen y complejidad de los datos, la naturaleza distribuida de esta información que reside en diferentes bases de datos, las deficiencias de las ontologías biológicas actuales y las convenciones de nomenclatura generalmente deficientes para los objetos biológicos «.

La tercera recomendación de Maltsev es el desarrollo de algoritmos. Las herramientas bioinformáticas actuales (por ejemplo, BLAST y FASTA) no son adecuadas para gestionar el crecimiento exponencial de los datos de secuencia. Maltev dice que «la bioinformática se beneficiará enormemente del desarrollo de una nueva generación de algoritmos que permitirán una extracción de datos eficiente y la identificación de modelos multidimensionales complejos que involucran varias clases de datos».

La cuarta y última recomendación de Maltev es desarrollar entornos colaborativos que permitan realizar búsquedas en diferentes ubicaciones para visualizar y analizar datos. Maltev dice que almacenar los datos y analizarlos en un solo lugar no satisfará las necesidades de la biología en el futuro. También solicita que se muestre información para reducir su complejidad.

El artículo de Maltev proporciona un marco accesible para comprender los desafíos de la biología computacional. En la era de la biología, la informática y la biología se unirán para resolver importantes problemas globales como la cura de enfermedades mortales y el fin del hambre en el mundo.

El mensaje de todos estos artículos es que la biología se ha convertido en una disciplina basada en datos y lo es cada vez más. Los recursos computacionales no pueden mantenerse al día con los datos y las preguntas se acumulan más rápido que las respuestas. Remediar esta situación es fundamental para el progreso.

—–

Para ver el número completo de CTWatch, visite el sitio web en http://www.ctwatch.org/.

Deberías compartir en una historia de tu Instagram para que tus amigos lo vean

??? ? ? ???

Comparte