Los patógenos no pueden esconderse del nuevo enfoque de HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Los patógenos no pueden esconderse del nuevo enfoque de HPC

Hola otra vez. En el teclado Simón Sánchez y en esta ocasión te voy a hablar sobre Los patógenos no pueden esconderse del nuevo enfoque de HPC

En el ámbito de las amenazas patógenas, existen los sospechosos habituales: ántrax, botulismo, tuberculosis, pero en realidad hay una gran cantidad de microbios patógenos bacterianos y virales que pueden ser problemáticos para la salud humana y animal. Proteger al público de estas amenazas cae dentro del dominio de la bioseguridad. Si bien mantenerse al día con la madre naturaleza es una tarea difícil, los científicos están comenzando a desentrañar los secretos del mundo microbiano con una poderosa tecnología de secuenciación y herramientas informáticas avanzadas.

La secuenciación metagenómica es una rama de la secuenciación genómica tradicional que está emergiendo como un factor clave en la bioseguridad. Esta área de aplicación incluye la detección y caracterización de patógenos potencialmente peligrosos y la evaluación de organismos potencialmente peligrosos para la salud humana. Sin embargo, para que esta herramienta de investigación se utilice más ampliamente, existen serios desafíos de datos que deben abordarse.

Los científicos del Laboratorio Nacional Lawrence Livermore (LLNL) se encuentran en el pináculo de un gran avance que reduciría este problema para facilitar los casos de uso en una amplia gama de escalas. Dirigido por el científico bioinformático Jonathan Allen, el equipo desarrolló un nuevo enfoque para la secuenciación metagenómica utilizando unidades flash como fuente de memoria suplementaria para buscar de manera más eficiente conjuntos de datos muy grandes.

El Dr. Allen explica que mientras que la secuenciación convencional se dirige a un aislado biológico conocido, la secuenciación metagenómica se aplica cuando la muestra contiene organismos o ADN de origen desconocido. En este escenario, los investigadores toman una masa biológica y realizan un paso de extracción de ADN para determinar qué fragmentos de ADN se pueden recuperar. «Es una herramienta diferente en la caja de herramientas», dice Allen. «Desde la perspectiva de los patógenos o la bioseguridad, es un último recurso cuando no se sabe a qué se enfrenta».

Debido al elemento de lo desconocido, la secuenciación metagenómica es más desafiante que la secuenciación convencional, dice Allen. Una razón es la enorme abundancia de vida microbiana. “Cada muestra tiene potencialmente cientos o más organismos. En muestras clínicas humanas, parte del ADN podría provenir del huésped, muchos de ellos podrían ser organismos benignos. Por lo tanto, seleccionar todo eso para comprender las partes clave de la muestra que son funcionalmente relevantes es un gran desafío «, agrega.

Es uno de los problemas emergentes de uso intensivo de datos en las ciencias de la vida. Una sola ejecución de secuenciación puede generar potencialmente miles de millones de fragmentos genéticos. Luego, cada uno de estos fragmentos no marcados debe compararse con cada genoma de referencia de forma independiente. El objetivo del equipo era tomar este gran conjunto de datos y proporcionar una forma rápida, eficiente y escalable de realizar una evaluación precisa de qué organismos y genes están presentes.

Al crear un índice de búsqueda de todo lo que fue previamente secuenciado y asignar alguna información organizacional a una secuencia genómica dada, los investigadores pueden proporcionar esta organización jerárquica para ilustrar que algunos fragmentos se conservan a nivel de especie, algunos se conservan a nivel de familia y otros pueden ser exclusivos de un bloque en particular. Luego, buscan en toda esa información para hacer una evaluación de dónde encaja un fragmento dado en ese panteón de datos visto anteriormente.

«Esto es lo que hace de este el clásico desafío cibernético intensivo en datos», dijo. «Tenemos estos grandes conjuntos de consultas, pero también tenemos esta base de datos de referencia creciente similar a medida que se secuencian más y más aislamientos, tenemos muchos cientos de diferentes aislamientos potenciales de una especie similar que se secuencian de forma continua, por lo que queremos ser capaces de explotar toda esa nueva diversidad genética que se captura, de modo que podamos ofrecer una valoración más precisa ”.

Los esfuerzos de Allen y sus compañeros científicos informáticos de Livermore Maya Gokhale y Sasha Ames y la bioinformática Shea Gardner llevaron al desarrollo del Kit de herramientas de análisis metagenómico de Livermore (LMAT), una base de datos de referencia personalizada con un índice de búsqueda rápida que aborda las limitaciones de escala de los métodos de clasificación metagenómica existentes.

Cuando el equipo recibe una nueva secuencia de consulta, la divide en sus bloques de construcción, llamados k-mers. Luego se asigna una clave de búsqueda para rastrear dónde se vio por primera vez este breve fragmento. Uno de los principales desafíos es que el tamaño de la tabla de búsqueda rápidamente se vuelve bastante grande. La base de datos de consulta original era de 620 gigabytes de DRAM, lo que limitaba su uso a los investigadores que tenían acceso a máquinas de gran memoria.

Aunque los investigadores de LLNL tienen acceso a más máquinas DRAM de terabytes, se ha obstaculizado una mayor accesibilidad. El equipo examinó cómo reducir el tamaño de la base de datos y cómo adaptarla a arquitecturas más escalables y rentables. La innovación clave del proyecto fue el desarrollo de una estructura de datos optimizada para almacenar el índice de búsqueda en unidades flash como si estuviera en la memoria. De modo que cuando hacen las búsquedas, han mapeado la memoria de la base de datos desde la unidad flash en un solo espacio de direcciones y la tratan como si estuviera en la memoria.

Al ajustar el software para aprovechar una combinación de DRAM y NVRAM y también reducir el tamaño completo de la base de datos a 458 gigabytes, el equipo avanzaba hacia una mayor accesibilidad, pero el tamaño de la base de datos aún estaba fuera del alcance de una máquina de bajo costo. El Dr. Allen explica que hay dos soluciones para esto. Una es construir bases de datos mucho más pequeñas llamadas bases de datos de marcadores, que contienen solo la información más esencial para identificar qué fragmentos están presentes. Este enfoque lleva la base de datos a 17 gigabytes, pero existe una compensación, ya que ya no es posible etiquetar cada lectura para separar todos los datos conocidos de los desconocidos.

El problema más difícil requiere una base de datos mucho más grande y completa. Aquí es donde entra en juego la máquina Catalyst. La supercomputadora de clúster Cray CS300 se diseñó con DRAM expandida y NVRAM rápida y persistente para hacer frente a los problemas de big data.

«El clúster Catalyst con 128 gigabytes de DRAM [per node] fue excepcional en términos de rendimiento ”, informa Allen. «Podemos poner una base de datos completa en la unidad flash, tratarla como memoria y almacenar en caché lo que se usa en la práctica en DRAM y funciona muy bien».

La adaptación a implementaciones a pequeña y gran escala crea nuevas vías para la secuenciación metagenómica. Convenientemente reducido a un nodo de clúster de Catalyst, el software se puede implementar en máquinas a un costo significativamente menor, lo que hace posible utilizar LMAT para el análisis posterior a la secuenciación en conjunto con el secuenciador.

«Todavía podemos tener estos índices de búsqueda muy grandes que se almacenan en nodos de cómputo únicos con la visión de computadoras de bajo costo que pueden distribuirse ampliamente», dice el Dr. Allen. «No tiene que ser un enorme clúster de computación en la nube; podría potencialmente permanecer en el campo más cercano a donde se lleva a cabo la secuenciación, pero aún tendría esta herramienta de análisis eficiente que podría estar disponible en una plataforma de computación a un costo relativamente menor».

En el otro extremo, el software también se puede escalar para análisis a gran escala. En un artículo futuro, el equipo informa sobre cómo utilizaron el enfoque a gran escala para analizar toda la recopilación de datos del microbioma humano (HMP) en aproximadamente 26 horas. Lo hicieron tomando el índice de búsqueda y replicándolo en el clúster de Catalyst con una copia en cada unidad flash.

Recuerda compartir en una historia de tu Instagram para que tus amigos lo sepan

??? ? ? ???

Comparte