Cycle inicia un clúster de 50.000 núcleos en Amazon Cloud - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Cycle inicia un clúster de 50.000 núcleos en Amazon Cloud

Hola otra vez. En el teclado Simón Sánchez y hoy te voy a contar sobre Cycle inicia un clúster de 50.000 núcleos en Amazon Cloud

El caso de la supercomputación de servicios públicos se ha hecho mucho más grande, literalmente. Cycle Computing ha creado una supercomputadora virtual de 50.000 núcleos para ayudar en el desarrollo de nuevos compuestos farmacológicos para la investigación del cáncer. El clúster, con nombre en código Naga, está ubicado en la infraestructura de Amazon y es la supercomputadora de servicios públicos más grande hasta la fecha. Usando este mega-clúster, la compañía de química computacional Schrödinger pudo analizar 21 millones de compuestos de fármacos en solo 3 horas por menos de $ 4,900.

Desarrollar un compuesto real, o ensayo, es muy costoso, por lo que debe probar todos los cables en una computadora antes de hacerlo. Schrödinger y el socio de investigación Nimbus Discovery están trabajando para identificar objetivos importantes que hasta ahora no han tenido éxito. Están buscando «éxitos», un proceso que ocurre muy temprano en el ciclo de descubrimiento de fármacos. Después de la fase de éxito, viene la fase de hit-to-lead y luego la optimización de lead. La optimización de clientes potenciales produce un candidato de desarrollo para ensayos en humanos. Pero el proceso tiene que comenzar en alguna parte, y aquí es donde entra en juego la detección virtual. Es la base de 2-5 años de descubrimientos.

Schrödinger utiliza su aplicación de acoplamiento patentada, Planeo, para seleccionar virtualmente varios compuestos contra un objetivo potencial de los medicamentos contra el cáncer. En una gran cantidad de compuestos, el modelo informático reducirá el grupo inicial a los candidatos más merecedores. Con Glide, como con la mayoría de los modelos de computadora, existe una compensación entre precisión y velocidad. Los atajos se utilizan comúnmente para cumplir con las limitaciones de tiempo y recursos.

Glide emplea una serie de refinamientos progresivos, cada orden de magnitud más desafiante computacionalmente que el anterior. El primer paso se realiza con el algoritmo Glide más rápido y menos preciso, HTVS, que significa High Throughput Virtual Screening. Aproximadamente el 10 por ciento de los candidatos iniciales pasan a la siguiente ronda, llamada SP, para una precisión estándar. La tercera y última etapa es XP para mayor precisión. Esta ronda toma el 10 por ciento de los compuestos de la corrida anterior y produce solo los fármacos candidatos más valiosos, los más capaces de afectar las proteínas de la enfermedad objetivo.

La misma compensación que permite a los investigadores analizar más compuestos a un ritmo más rápido también conduce a un número significativo de falsos negativos y positivos porque el algoritmo de menor calidad puede fallar en identificar buenos compuestos candidatos, dejando pasar los falsos positivos. Calle. El mayor riesgo aquí es que simplemente se ignoren los medicamentos que pueden tener éxito.

La naturaleza de utilidad de la supercomputadora de Amazon permite a los científicos omitir el primer paso y pasar directamente al segundo modo más preciso. También les permite aumentar su conjunto compuesto en un factor de tres. Entonces, aunque normalmente introducen de 6 a 7 millones de compuestos, ahora pueden comenzar con 21 millones. La aplicación del algoritmo de mayor calidad a un conjunto mayor de compuestos reduce el problema de los falsos negativos. Luego, los investigadores pueden identificar compuestos activos que, de otro modo, se perderían.

Aunque Schrödinger hace un uso intensivo de sus clústeres internos, requiere recursos adicionales para cargas de trabajo particularmente intensivas. Con el grupo Naga, los investigadores de Schrödinger pudieron realizar esta carga de trabajo excepcionalmente grande en un tiempo récord, 21 millones de compuestos y confirmaciones en solo 3 horas. En comparación, ejecutar el mismo trabajo en el clúster interno de 400 núcleos tomaría aproximadamente 275 horas. Los conjuntos de datos iniciales son del orden de decenas de gigabytes de datos de moléculas y, según el ancho de banda de Internet, la carga de los datos puede tardar de 5 a 6 horas. Dado que la biblioteca compuesta es en gran parte un conjunto de datos estáticos, solo necesita actualizarse una vez cada seis meses aproximadamente.

“Este proyecto refleja las principales tendencias que estamos viendo en la medicina hoy. Es la era de la analítica y la simulación, eso es big data y big computing «, comenta Jason Stowe, director ejecutivo de Cycle Computing.» También estamos viendo requisitos en términos de tiempo de comercialización y eficiencia de capital. construir una infraestructura central de 50.000 dólares es una empresa de entre 20 y 30 millones de dólares ”, añade.

Un mapa de los recursos informáticos de AWS aprovechados durante la ejecución de Naga

Un grupo de investigación científica pionero, Schrödinger aún tiene que abordar las realidades económicas que van de la mano con ser una pequeña empresa. El director ejecutivo, Ramy Farid, está de acuerdo en que comprar un sistema como este sería extremadamente caro. Más importante aún, la detección virtual se realiza de forma esporádica. Farid estima que en el transcurso de un año fabricarán quizás 25 pantallas virtuales de 3 horas cada una. Si bien tienen más trabajo computacional que hacer, no es suficiente para justificar recursos internos adicionales, y ciertamente no es una supercomputadora.

Farid señala que este aumento dramático en el número de procesadores le permite mejorar la ciencia. «Ha sido así desde el comienzo de las computadoras», señala. Por ejemplo, Farid recuerda los días en que los científicos tenían que omitir intencionalmente átomos de hidrógeno en las estructuras porque las computadoras no eran lo suficientemente rápidas.

Schrödinger también utiliza la nube de Amazon basada en Cycle para descargar parte de su trabajo de optimización de clientes potenciales, que implica ejecutar cálculos para predecir la afinidad de enlace. Si bien no está a la escala del proceso de selección virtual, la optimización de clientes potenciales sigue siendo bastante desafiante desde el punto de vista informático. Farid caracteriza este trabajo como el santo grial de la química computacional y, utilizando la configuración Cycle, pudieron llevar un trabajo que llevaría varios meses en un clúster a un fin de semana en la nube.

Esto habla del cambio de paradigma que tanto apasiona a Stowe. A pesar de los avances exponenciales en la potencia informática impulsados ​​por la Ley de Moore, el acceso a los recursos de HPC sigue siendo una de las mayores limitaciones en la investigación. La informática de servicios públicos está creando una nueva dinámica al proporcionar una potencia informática prácticamente ilimitada a pedido y el usuario solo tiene que pagar por lo que usa. Los investigadores están acostumbrados a formular sus preguntas en función de los recursos que tienen a su disposición, pero el nuevo modelo permite a los investigadores hacer las preguntas más importantes, las que realmente harán avanzar la ciencia.

Esta nube de 50.000 núcleos es el ciclo más grande creado para un cliente, pero la empresa de software HPC ha creado una serie de clústeres notables. El año pasado, realizaron una ejecución de 10,000 núcleos con Genentech y una ejecución de 30,000 núcleos con una de las 5 principales compañías farmacéuticas. Stowe señala que esas organizaciones, sin embargo, eran bastante grandes, por lo que, en teoría, podrían haber comprado un grupo de ese tamaño directamente. Lo que hace de Schrödinger un caso de uso tan ideal, según Stowe, es cómo Cycle y Amazon han podido ofrecer un activo que de otro modo habría estado fuera de su alcance.

«Cycle Cloud automatiza el proceso de transformación de la infraestructura bruta en entornos HPC normales», dice Stowe. «Es como usar una supercomputadora TOP500 durante unas horas y luego apagarla».

Naga: hechos y cifras
Métrico Para contar
Calcular horas de trabajo 109,927 horas
Calcular días de trabajo 4.580 días
Calcular años de trabajo 12,55 años
Conde Ligando ~ 21 millones de ligandos
Tiempo de ejecución ~ 3 horas
Costo total acumulado en el pico: $ 4,828 / hora ($ 0.09 / núcleo / hora)

Deberías compartir en tu Facebook para que tus colegas opinen

??? ? ? ???

Comparte