Porque la innovación iterativa es la única forma de exaescala - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Porque la innovación iterativa es la única forma de exaescala

Hola, ¿qué tal colega?. En el teclado Simón Sánchez y en esta ocasión hablaremos sobre Porque la innovación iterativa es la única forma de exaescala

Si nos estamos quedando sin «balas mágicas» que pueden disparar a través del espacio de supercomputación, haciendo añicos las suposiciones sobre cómo la computación de alto rendimiento funciona de manera eficiente a escala masiva, nos queda una opción … para refinar y modificar lo que existe. , empujando tantos fondos como sea posible hacia el cielo azul con la esperanza de que surja otra tecnología disruptiva.

Pocos otros tienen la intuición de este paradigma que posee Buddy Bland. Como director del Centro de Computación de Liderazgo de Oak Ridge National Lab y ex líder en varios proyectos de sistemas a gran escala, Bland ha desarrollado un agudo sentido de lo que se requiere de las supercomputadoras del futuro, incluidas las que serán parte de la tríada CORAL de sistemas pre-exaescala. Ha visto explotar las llamadas balas mágicas en el pasado, lo que ha producido grandes ganancias en rendimiento y potencia (equipar a Jaguar con GPU para la actualización Titan, por ejemplo). Pero por lo que ve desde arriba en este punto, la visión a exaescala necesita una larga serie de ajustes constantes y acumulativos en ausencia de algún «gran destructor» inminente para HPC.

El programa CORAL es un esfuerzo de colaboración entre los laboratorios Oak Ridge, Argonne y Lawrence Livermore, que proporcionarán un procesamiento de clase previa a la exascala para las necesidades del Departamento de Energía y la Administración Nacional de Seguridad Nuclear en 2017-2018. Habrá más información sobre la capacidad planificada, el proveedor y la arquitectura durante el próximo mes cuando se publiquen oficialmente los detalles. Las decisiones sobre el tercer sitio, que estará en el Laboratorio Nacional de Oak Ridge, han mantenido a Bland ocupado. Su equipo de Oak Ridge está a punto de firmar un contrato y espera poder compartir más sobre el sistema planeado para fines de este año.

Además de explorar las capacidades de los proveedores para brindar la capacidad y los requisitos de energía de los distintos proveedores que presentaron sus ofertas, Bland tuvo que analizar varios sistemas exitosos para comprender por qué eran recursos sólidos y por qué ciertos enfoques de rendimiento. la informática no cumple. Desde Titan, Sequoia y Mira, y los muchos sistemas anteriores, Bland dice que ha visto lo suficiente como para comprender que hacer que la computación a exaescala sea práctica requiere una inversión seria en dos áreas clave: confiabilidad y potencia. Esto no es una sorpresa en sí mismo, pero vale la pena compartir cómo Bland lo conecta con algunos puntos más finos en torno a las necesidades de hardware y software más robustos que puedan adaptarse automáticamente a la complejidad adicional.

«A lo largo de los años, a medida que estas máquinas se hicieron más grandes, la complejidad de mantenerlas en funcionamiento y utilizables para su uso en una sola aplicación durante un período prolongado se ha convertido en un problema cada vez mayor», dijo Bland. . «Vemos que los nudos fallan cada dos días», nos dijo. «Esperamos que con las máquinas CORAL, ya que habrá aún más piezas, habrá aún más fallas, por lo que estamos trabajando con los proveedores para que nos ayuden con esto y también estamos buscando software que pueda ayudarnos a superar esas fallas. Necesitamos encontrar formas de hacerlo. ayudan a que las aplicaciones se mantengan en funcionamiento durante períodos de tiempo aún más largos sin fallar «.

En la actualidad, el proceso de recuperación de la falla de un nodo en un gran sitio de supercomputación no se ha desarrollado mucho a lo largo de los años. Una buena parte es un manual y todo contribuye a los gastos tanto del centro como de las personas que ayudan a volver a encarrilar la aplicación. Incluso para un clúster básico, la falla del nodo es un problema, pero cuando el trabajo promedio que se ejecuta en Titan ocupa al menos 60,000 núcleos, el valor de tener una forma de mitigar el tiempo de inactividad es esencial. Aparte de estos costos directos, los científicos simplemente quieren sus resultados, no la carga de atacar nuevos nodos y revivir desde un punto de control (si han tenido la suerte de tener uno).

«Lo que realmente se necesita es la automatización completa del proceso de recuperación», dice Bland. Explicó que estos problemas relacionados con la recuperación ya se han resuelto mediante varios paquetes de planificación, pero ninguno de ellos ha logrado combinar lo que se necesita en un paquete completo que permita la recuperación sin contacto.

Como nota al margen interesante, esta capacidad de auto-roll después de que una piedra golpea los trabajos es algo que los centros de datos más grandes del mundo han integrado en sus operaciones (piense más en términos de Google, Facebook y similares en lugar de grandes centros de procesamiento científico), pero para los sitios de HPC, esto sigue siendo un desafío importante para los proveedores de hardware e incluso para aquellos que hacen programadores. Ah, pero este es un mundo diferente, ¿verdad? Ciertamente, no podría haber relevancia para los centros de supercomputación de los laboratorios del gobierno de Estados Unidos…. Así que avanzando …

Si la recuperación y la nutrición son dos de los principales problemas a los que se enfrentan las HPC en esta era de sistemas anteriores a la exaescala, parece haber una respuesta próspera que aborda ambos problemas. Reduzca el movimiento de datos moviendo tanto como sea posible en el mismo chip. Esto no solo elimina el gran consumo de energía, que es precisamente ese movimiento, sino que también significa menos componentes, por lo tanto, una menor posibilidad de piezas dañadas. Bland dice que el modelo, que funcionó en los sistemas Blue Gene, se ha probado hasta cierto punto. Sin embargo, a pesar de su éxito, el futuro de esa línea de máquinas IBM para supercomputación está en discusión, pero ese es otro artículo.

Bland señala otras innovaciones que han mejorado el consumo de energía en particular, que es a través de la adición de GPU. Dijo que a pesar de una mejora de 10 veces en la potencia de cómputo, la actualización de Titan con nuevos procesadores y GPU de sus simples raíces Jaguar de solo CPU, el sistema consumía un poco menos de energía (pasando de aproximadamente 7 megavatios a 5 megavatios). ). Esta fue una mejora importante, dijo, pero fue solo una innovación única. “No es posible abordar todos estos problemas de confiabilidad y energía sin considerar cada cosa que consume energía o conduce a fallas. Teníamos GPU y eso ayudó, pero eso no es suficiente. Es necesario que haya más innovación para todos los niveles de la pila «.

Las innovaciones en áreas que no reciben tanta atención serán todos pequeños desarrollos que se suman a un cálculo de exaescala más eficiente. No hay solución, no hay varita mágica, dice Bland. Señaló el ejemplo de las fuentes de alimentación como representativo de las «pequeñas cosas» en las que se puede trabajar en el corto plazo. “En este momento tenemos fuentes de alimentación con aproximadamente un 92% de eficiencia en la conversión de CA a CC. Este es el 8% que estamos dejando en el suelo: tenemos que encontrar uno que sea 99% eficiente. Son estas piezas, estos pequeños detalles sobre cómo gastamos pequeñas cantidades de energía lo que realmente marcará la diferencia «.

Hay algunas otras consideraciones que han surgido de la experiencia en el proceso de RFP para nuevos sistemas CORAL, incluidas las opciones entre arquitecturas particulares. Lo más sorprendente, dice Bland, es lo poco que importan estas consideraciones arquitectónicas frente al puro proceso de exponer el paralelismo en códigos que se ejecutarán en futuros sistemas más rápidos. «No puedes simplemente arrojar código al compilador; tú, como humano, tienes que entrar y exponer ese paralelismo y luego dejar que los compiladores manejen los detalles arquitectónicos». Él dice que se trata de escribir aplicaciones de una manera que pueda descubrir enormes capacidades paralelas en lugar de esperar que las decisiones arquitectónicas se desarrollen de una manera que produzca automáticamente un rendimiento ultra alto.

Los problemas de computación, código y energía no son los únicos problemas en los que el equipo de Bland está pensando para la próxima generación de sistemas a gran escala. Por ejemplo, también existe una preocupación más amplia en torno a la E / S que será mucho más urgente en el futuro. Ya es bastante difícil pensar en la creación de archivos en la generación actual de supercomputadoras, y es igualmente difícil obtener suficiente ancho de banda ya que la mayor parte de lo que utilizan los centros está diseñado para la capacidad. Aquí es donde se encuentra otra «pequeña innovación» que puede producir mayores ganancias mediante el búfer de ráfagas. Hemos hablado de esto en el pasado: hay una capa de caché en frente del archivo que permite que los datos «estallen» en dispositivos más lentos, lo cual es excelente para este tipo de tráfico. Como dijo Bland, esta innovación más pequeña pero importante es tan buena como una «solución provisional» por ahora, pero se necesita más trabajo para administrar el tráfico de transmisión de gran ancho de banda, que será un problema aún mayor con el crecimiento. tamaño del sistema y los datos que genera.

Dejando de lado los códigos, dijo, al final del día, lo único que determinará la viabilidad del cálculo a exaescala será la potencia. Y aunque la investigación realizada en los programas FastForward y DesignForward es prometedora, se trata de refinamiento. Dijo que no espera que haya una gran tecnología disruptiva que le dé la vuelta a la supercomputación en el corto plazo: se trata de innovaciones generales que serán pequeñas individualmente pero que contribuirán a un conjunto de capacidades mucho más rico que los centros. realmente permitirse el lujo de alojar.

Recuerda compartir en una historia de tu Instagram para que tus colegas lo flipen

??? ? ? ???

Comparte