Lawrence Livermore se prepara para 20 Petaflop Blue Gene / Q - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Lawrence Livermore se prepara para 20 Petaflop Blue Gene / Q

Hola otra vez. En el teclado Simón Sánchez y hoy vamos a hablar sobre Lawrence Livermore se prepara para 20 Petaflop Blue Gene / Q

Roadrunner y Jaguar, las supercomputadoras del DOE que marcaron el comienzo de la era del petaflop el año pasado, pronto serán eclipsadas por nuevas máquinas diez veces más potentes. IBM y la Administración Nacional de Seguridad Nuclear (NNSA) de Estados Unidos anunciaron el martes que en 2011 el Laboratorio Nacional Lawrence Livermore instalará un sistema de 20 petaflops para brindar soporte computacional a las antiguas armas nucleares del país.

Basándose en su herencia Blue Gene, IBM suministrará «Dawn», un sistema Blue Gene / P de 500 teraflop en el primer trimestre de este año, seguido de «Sequoia», una máquina Blue Gene / Q de 20 petaflop de próxima generación para el 2011. Se espera que Sequoia esté oficialmente Online en 2012. Las nuevas máquinas tomarán el control de los códigos de simulación de armas de Lawrence Livermore, que se mantienen bajo el programa ASC (Advanced Simulation and Computing). Actualmente este trabajo se realiza con los superordenadores existentes en el laboratorio: el ASC Purple de 100 teraflop y el Blue Gene / L. de 600 teraflop.

Dawn servirá como plataforma provisional para portar y escalar códigos de armas. Una vez que el super Blue Gene / Q esté Online, esos códigos se moverán a la máquina más grande para su producción. La máquina Dawn está en construcción en este momento, con aproximadamente la mitad de la máquina ya conectada con Lawrence Livermore. El laboratorio planea obtener el resto del hardware en los próximos meses y la aceptación del sistema está programada para abril.

Usar Dawn como un trampolín hacia Sequoia es posible ya que, a diferencia de Blue Gene / L, tanto Blue Gene / P como Blue Gene / Q admiten coherencia de caché a nivel de nodo, lo que permite la programación estilo SMP. Especialmente para el código de armas, el mapeo de una tarea MPI por núcleo sería un verdadero desafío, pero cambiar a un modelo mixto de transmisión de mensajes SMP (paralelismo de memoria compartida dentro de los nodos y paralelismo distribuido entre nodos) es mucho más práctico. .

Sequoia no solo será diez veces más potente que la actual cosecha de supercomputadoras petaflop, sino que su eficiencia energética mejorará enormemente. Según Dave Turek, vicepresidente de IBM Deep Computing, Sequoia consumirá aproximadamente 6 megavatios, con una relación de eficiencia energética de más de 3.000 MFLOPS / vatio *. Esto representa una mejora 7 veces mayor que la generación Blue Gene / P (440 MFLOPS / vatio *) y es incluso mejor que el sistema Roadrunner basado en células de Los Alamos (587 MFLOPS / vatio *). Para una comparación más nítida, la supercomputadora Jaguar Opteron 1.6 basada en petaflop instalada en el Laboratorio Nacional Oak Ridge usa aproximadamente 8.5 megavatios (188 MFLOPS / vatio *).

Cuando Sequoia llegue en el primer semestre de 2011, el espacio será precioso en la instalación de simulación de Terascale del laboratorio (que ya alberga ASC Purple y el sistema Blue Gene / L), pero el problema real será el suministro de energía. Si bien los dos nuevos Blue Genes son mucho más eficientes energéticamente que sus predecesores, el laboratorio planea duplicar con creces la potencia de la instalación, de 12,5 a 30 megavatios.

IBM no está publicando detalles de bajo nivel de la arquitectura Blue Gene / Q. Sin embargo, dado que Sequoia constará de 98.304 nodos de cómputo y contendrá un total de 1.6 millones de núcleos, se puede suponer que un nodo Blue Gene / Q contendrá 16 núcleos. Queda por ver si esto se implementa como un chip de 16 núcleos o dos chips de 8 núcleos (o incluso cuatro chips de cuatro núcleos). Dado que Sequoia tendrá 1,6 petabytes de memoria, cada nodo tendrá 16 GB. La tecnología actual Blue Gene / P ofrece 4 núcleos y 4 GB de memoria principal por nodo.

Con 20 petaflops, Sequoia será 160 veces más potente que el ASC Purple de Lawrence Livermore y 17 veces más potente que su Blue Gene / L actual, lo que dará a los científicos muchos más ciclos de cálculo para simulaciones de armas e investigación científica básica. «Ha sido un viaje interesante», señala Turek. “Cuando recuerdas cuando el ASCI [now ASC] El programa se lanzó en los años 90 y cuáles eran las aspiraciones de FLOP entonces en comparación con donde estamos hoy, creo que hemos superado las expectativas de todos «.

En efecto. Mientras que las supercomputadoras del programa ASC original (es decir, ASCI Blue Pacific a 3.9 teraflop y ASCI White a 12.3 teraflop) ni siquiera aparecen en la lista TOP500 de hoy, los nuevos sistemas representan una clase de capacidad completamente diferente para el programa de gestión de inventarios. Mark Seager, que dirige el programa Platforms para el programa ASC en Lawrence Livermore y dirigió el equipo que redactó la RFP para las nuevas máquinas, dice que Sequoia permitirá un nuevo nivel de ciencia predictiva.

Con este fin, el laboratorio mejorará los códigos de armas existentes con métodos de «cuantificación de incertidumbre» (UQ). Seager dice que esta es una rama de la ciencia relativamente nueva que permite a los investigadores aplicar muchos parámetros físicos a las simulaciones. Con este modelo, los investigadores podrán cuantificar los errores asociados con los resultados de la simulación. Una vez que se conocen las principales fuentes de error, los modelos se pueden refinar sistemáticamente para mejorar las capacidades predictivas. Desafortunadamente, UQ es computacionalmente costoso, por lo que solo se puede intentar un número limitado de simulaciones en el hardware existente.

«En [ASC] Purple pudimos hacer un estudio de UQ de un sistema de armas en aproximadamente un mes con aproximadamente 4.400 cálculos, algunos de los cuales ocuparon el tamaño práctico máximo de la máquina, que es 8.192 tareas MPI «, explica Seager.» Con Sequoia, multiplica esta capacidad de 12 a 24 veces «.

Pero las aplicaciones MPI tienden a ser muy sensibles a fallas de hardware o software, por lo que completar una ejecución sin errores será un desafío a una escala de más de un millón de núcleos. Para resolver el problema de la resiliencia, Seager dice que aplicarán cálculos «establecidos» a sus códigos. En el método de conjunto, el mismo algoritmo se puede ejecutar miles de veces con diferentes conjuntos de parámetros. Con este enfoque, se pueden tolerar errores aislados en un número limitado de cálculos sin sacrificar la integridad de toda la aplicación. Es análogo a la forma en que funcionan hoy en día muchas aplicaciones web, como los motores de búsqueda.

La segunda misión de Sequoia será apoyar la ciencia básica a gran escala, donde los científicos están tratando de lograr de 20 a 50 veces la capacidad proporcionada por el sistema Blue Gene / L existente. Junto con la habilidad adicional que Sequoia proporcionará los códigos de armas que migran desde ASC Purple, Lawrence Livermore está a punto de saltar de manera bastante decisiva a la era de las petasescamas. Seager dice: «Es probablemente el mayor salto en potencia informática que jamás haya visto el laboratorio».

* La versión original de este artículo expresó incorrectamente las relaciones de eficiencia energética en FLOPS / vatio, en lugar de MFLOPS / vatio.

Puedes compartir en en tu Twitter y Facebook para que tus colegas lo consulten

??? ? ? ???

Comparte