El sistema de GPU NVIDIA K80 acelera la herramienta bioinformática 12 veces - Calendae | Informática, Electrónica, CMS, Ciberseguridad

El sistema de GPU NVIDIA K80 acelera la herramienta bioinformática 12 veces

Hola y mil gracias por leerme. Te escribe Simón Sánchez y en esta ocasión hablaremos sobre El sistema de GPU NVIDIA K80 acelera la herramienta bioinformática 12 veces

No hace mucho tiempo, el alto costo y la relativa lentitud de la secuenciación del ADN eran cuellos de botella que limitaban la velocidad en la investigación biomédica. Hoy en día, el análisis de datos posterior a la secuenciación es el mayor desafío. La razón, por supuesto, es la prodigiosa producción de modernas herramientas de secuenciación de próxima generación (NGS) (por ejemplo, Illumina y ThermoFisher / Life Technologies) abrumadoras líneas de análisis.

Examinar de manera eficiente el tesoro de datos es un gran dolor de cabeza para la comunidad bioinformática. Además, hay muchos tipos diferentes de análisis de datos posteriores a la secuenciación (por ejemplo, ensamblaje, alineación, identificación de variantes, RNAseq) que pueden estresar los sistemas HPC de diferentes maneras. Recientemente, el bloguero de HPC Richard Casey informó que logró una aceleración de análisis de 12 veces con el nuevo Tesla K80, NVIDIA la última GPU de la serie Tesla.

Casey detalló el trabajo en su Blog. Eligió abordar la alineación de datos NGS, un paso frecuente y que requiere mucho tiempo. Casey es bioinformático en Núcleo de secuenciación de próxima generación de Colorado Statue University. Su función principal es proporcionar apoyo bioinformático y análisis de datos a los principales investigadores e investigadores que utilizan los secuenciadores NextGen de Core.

Extracto del blog: “Por lo general, las lecturas de ADN de los secuenciadores se alinean con el llamado genoma de referencia. Este paso intenta mapear las lecturas de la muestra en el genoma de referencia, para lo cual se utilizan los resultados. Análisis SNP y otros tipos de relaciones. La corriente genoma humano de referencia contiene aproximadamente 3,1 mil millones de bases de nucleótidos. Este es un genoma bastante grande (aunque hay genomas considerablemente más grandes en otras especies).

“La alineación de secuencias de las lecturas de la muestra de NGS con el genoma humano de referencia puede tardar desde unas pocas horas hasta varias horas en ejecutarse en un servidor o clúster de alta gama. Si bien esto no es excesivo para una sola muestra, con el número de cortes de muestras manejadas por los secuenciadores actuales y con múltiples secuenciadores en un NGS Core o laboratorio, el tiempo acumulado empleado en la fase de alineación de secuencia puede ser problemático.

“Para ayudar a aliviar este problema de alineación, evaluamos algoritmos de alineación de secuencias paralelas y herramientas de alineación de software. Como se menciona en un entrada de blog anterior, estamos probando la suite NVBIO en GPU NVIDIA. nvBowtie es una herramienta de alineación de secuencias habilitada para GPU en este paquete de software. bowtie2 es una popular contraparte exclusiva de CPU de nvBowtie. Para comparar el rendimiento de estas dos aplicaciones, realizamos una prueba de referencia sobre la alineación de la secuencia de ADN con conjuntos de datos del genoma humano «.

Es mejor consultar el blog de Casey para obtener detalles completos (fuentes de muestra, secuenciadores utilizados, genoma de referencia utilizado, etc.). Las herramientas analizadas incluyeron nvBowtie v.0.9.9.3 desde Suite NVBIO es bowtie2 v.2.2.4 herramientas de alineación de secuencias. “NvBowtie está diseñado para alineaciones de secuencia solo de GPU altamente paralelas, mientras que bowtie2 está diseñado para alineaciones de CPU solo moderadamente paralelas. En cierto modo, esta es una comparación de paralelismo de grano fino vs grano grueso«Escribió Casey.

Se realizaron simulaciones numéricas Prueba de manejo de la GPU Microway Tesla Clúster de computación acelerada. Se realizaron comparaciones de rendimiento entre un sistema solo con CPU y un sistema solo con GPU.

La única prueba de CPU utilizada bowtie2 con las siguientes configuraciones de sistema y ejecución:

  • Cray XT6m
  • (2) CPU AMD Opteron 6100 de 12 núcleos por nodo de cálculo
  • 32 GB de RAM por nodo informático
  • 12 subprocesos de CPU
  • Ejecuté bowtie2 en un solo nodo de cálculo

Los resultados de las ejecuciones de alineación de secuencias de solo CPU fueron 206 min. o 3,4 horas.

La única prueba de GPU utilizada nvBowtie con las siguientes configuraciones de sistema y ejecución:

  • Clúster de Intel
  • (2) CPU Xeon E5-2680v3 con 12 núcleos por nodo de cálculo
  • RAM de CPU de host de 128 GB por nodo de cálculo
  • GPU NVIDIA Tesla K80 para nodo informático
  • Ejecutó nvBowtie en un solo nodo de cálculo

Los resultados de las ejecuciones de alineación de secuencias solo con GPU fueron de 16 min. o 0,25 horas.

Todo compensado, la ejecución bowtie2 solo con CPU frente a la ejecución nvBowtie solo con GPU produjo velocidades 12.8 veces más rápidas (206 min / 16 min).

Casey escribió: “El aumento de 12,8x de velocidad de nvBowtie en una GPU K80 es alentador. Para las alineaciones de la secuencia del genoma humano, esto redujo el tiempo de funcionamiento del reloj de pared de varias horas a minutos.

“Los procesadores de la serie AMD Opteron más antiguos utilizados en estas pruebas han sido reemplazados por los procesadores Intel de quinta generación y la serie AMD FX más nuevos, entre otros. Las aceleraciones que se ven aquí sin duda se verían algo reducidas en comparación con los nuevos modelos de procesadores de CPU. Sin embargo, nvBowtie se encuentra actualmente en la versión 0.9 (ni siquiera en la versión uno todavía). Esperaríamos que el desarrollo y la optimización continuos del algoritmo en nvBowtie produzcan mejoras en el rendimiento del código, manteniendo así las aceleraciones en algún lugar del rango 8X – 10X. En cualquier caso, es importante reducir las horas de ejecución de la alineación de secuencias. «

los Especificaciones K80 estamos:

  • 4992 núcleos de GPU
  • 24 GB de RAM GDDR5
  • 480 GB / seg. Banda de memoria
  • Consumo de energía 300 W (¡especificación importante!)

No te olvides compartir en una historia de tu Instagram para que tus colegas lo lean

??? ? ? ???

Comparte