Abordar el muro del poder y la energía para los futuros sistemas HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Abordar el muro del poder y la energía para los futuros sistemas HPC

Hola y mil gracias por leerme. Yo soy Simón Sánchez y esta vez te voy a contar sobre Abordar el muro del poder y la energía para los futuros sistemas HPC

Una perspectiva del Laboratorio Nacional del Noroeste del Pacífico *

A medida que aumenta el costo de alimentar una supercomputadora o un centro de datos, los sistemas de exaescala de próxima generación deben ser significativamente más eficientes en energía y energía que las supercomputadoras actuales para que sean de uso práctico. El consumo de energía limitado (20-25 MW para todo el sistema es el objetivo que la Oficina de Ciencias del DOE ha asignado a la comunidad de HPC) es uno de los factores limitantes en el camino hacia el logro de un rendimiento sostenible a exaescala. De hecho, el desafío del poder es tan fundamental que otros desafíos pueden reducirse a limitaciones de poder. Por ejemplo, ejecutar a un voltaje cercano al umbral (NTV) para realizar el cálculo dentro de un presupuesto de energía dado puede aumentar significativamente la tasa de error leve (desafío de resiliencia). A diferencia de los sistemas de petaescala, donde el rendimiento era la principal preocupación, los sistemas de exaescala deben escalar los muros de potencia y energía para ofrecer un rendimiento exaflop sostenible. En el Pacific Northwest Laboratory (PNNL) estamos explorando aspectos holísticos de la energía y la eficiencia energética en todos los niveles de granularidad, desde la arquitectura del procesador hasta la integración del sistema. También estamos abordando cuestiones de energía y energía desde diferentes ángulos, desde el software del sistema y los modelos de programación hasta el modelado del rendimiento y la potencia de las aplicaciones científicas y los sistemas de escala extrema.

Las instalaciones de TI de PNNL, como su sistema HPC institucional (PIC) y un banco de pruebas anterior, el Energy Smart Data Center (ESDC), proporcionan plataformas de investigación para responder preguntas hipotéticas relacionadas con el uso de métricas. centros de datos adecuados que son importantes para la comunidad de HPC. El cableado de medición de ESDC incluyó más de mil sensores fuera de banda que comprenden potencia, flujo, presión y temperatura en la sala de máquinas y equipos de TI. PIC es otro ejemplo que confirma nuestra visión de un centro de datos integrado para liderar la investigación de eficiencia energética. Este sistema está alojado en un centro de datos enfriado geotérmicamente con intercambiadores de calor traseros. La instalación está equipada con instrumentación a nivel de la sala de máquinas y del sistema, que proporciona información sobre la eficiencia energética de la sala de máquinas a nivel macro y la eficiencia energética a nivel micro a nivel de servidor y componentes de la placa base.

A pesar de su importancia para los futuros sistemas de exaescala, la energía todavía no se considera un ciudadano de primera clase, lo que complica el desarrollo de algoritmos de software con conciencia de energía. En opinión de PNNL, la energía debe considerarse un recurso, al igual que los elementos de procesamiento o los módulos de memoria, y debe ser administrada como tal por el software del sistema. El software del sistema debe poder medir con precisión (en banda) el uso de recursos energéticos, es decir, cuánta energía consume cada componente del sistema en un momento dado. Más importante aún, el software del sistema debe adaptar la aplicación al entorno de ejecución contingente, por ejemplo, asignando energía sostenida a los subprocesos en la ruta crítica de la aplicación o moviendo rápidamente los núcleos inactivos a estados de bajo consumo. El diseño y desarrollo de este software de sistema autoconsciente / autoadaptativo es un área de investigación activa en PNNL. Recientemente, analizamos las características de energía de las aplicaciones científicas del Centro de Co-Diseño Exascale del DOE ASCR y la comunidad HPC en general para identificar oportunidades de ahorro de energía. Dada la falta de sensores de potencia de ancho de banda detallados (tanto en el espacio como en el tiempo), desarrollamos un modelo preciso de sensor de potencia proxy por núcleo que estima la potencia activa de cada núcleo mediante la inspección de la actividad de los núcleos. Usamos técnicas de regresión estadística para formular expresiones de forma cerrada para el consumo de energía estimado del núcleo y el sistema. Estas técnicas nos permiten desarrollar algoritmos sensibles a la energía y caracterizar aplicaciones que se ejecutan incluso en nodos informáticos no instrumentados. Nuestros experimentos muestran que los procesos en la misma aplicación pueden no tener el mismo perfil de potencia y / o pueden alternar fases de alta potencia con fases de baja potencia de forma independiente entre sí. Estos comportamientos alternos aumentan las oportunidades de transferir energía a los procesos que requieren computadoras, ahorrando energía sin disminuir el rendimiento.

Existe un fuerte acuerdo entre los investigadores sobre el aumento del costo de la transferencia de datos en comparación con la computación. Esta relación aumentará aún más en los sistemas futuros que se acerquen a los niveles operativos de NTV: se espera que el consumo de energía de una operación de punto flotante de registro a registro de doble precisión disminuya 10 veces para 2018. El costo de energía de mover datos de la memoria al procesador no se espera que siga la misma tendencia, por lo que el costo energético relativo de mover datos frente a realizar una operación de registro a registro aumentará (muro de energía – análogo al muro de memoria). En un estudio reciente, modelamos el costo energético de mover datos a través de la jerarquía de memoria de los sistemas actuales y analizamos el costo energético de mover datos para aplicaciones científicas. En este estudio, respondemos varias preguntas importantes, como cuál es la cantidad de energía gastada en mover datos en relación con el consumo total de energía de una aplicación o cuál es el componente energético dominante del movimiento de datos para aplicaciones paralelas actuales y futuras. . Nuestros resultados muestran que el costo de energía de mover datos tiene un impacto diferente en cada aplicación, que van del 18% al 40%. Este porcentaje puede aumentar en el futuro a medida que disminuya el costo de energía para realizar el cálculo. Para evitar este escenario, las nuevas tecnologías, como Processing-In-Memory, RAM no volátil y memoria de pila 3D, se vuelven esenciales para el desarrollo de la computación a exaescala sustentable. También notamos que la energía gastada en resolver la dependencia de datos, la especulación y la programación fuera de orden de las instrucciones representa una parte considerable de la energía dinámica total, entre el 22% y el 35%. Este costo se puede reducir con diseños de núcleos de procesador más simples que son más eficientes energéticamente.

Dada la creciente complejidad de las futuras aplicaciones y sistemas de exaescala, los diseñadores necesitan nuevas herramientas sofisticadas para navegar por el espacio del diseño. Estas herramientas deben capturar una serie de métricas de interés para los diseñadores de sistemas y aplicaciones, incluido el rendimiento y el consumo de energía. PNNL ha desarrollado históricamente herramientas de rendimiento específicas para aplicaciones que modelan la evolución de aplicaciones paralelas. Si bien estos modelos han demostrado ser herramientas poderosas para comprender el mapeo de aplicaciones en arquitecturas de sistemas complejos, las métricas de interés se están expandiendo para incluir también el consumo de energía. Con este fin, los investigadores de la PNNL desarrollaron una metodología para modelar el rendimiento y la potencia en concierto basada en su experiencia en el codiseño de sistemas y aplicaciones. Esta capacidad de modelado se desarrolló a lo largo de tres ejes. El primero es la implementación de una capacidad de modelado de potencia cuantitativa específica de la carga de trabajo. Dichos modelos de energía capturan con precisión las fases de la carga de trabajo, su impacto en el consumo de energía y cómo se ven afectadas por la configuración y la arquitectura del sistema (por ejemplo, la velocidad del reloj del procesador). El segundo eje es la integración de metodologías de modelado de potencia y rendimiento. Para ello, es fundamental que ambos métodos de modelado operen al mismo nivel conceptual. En otras palabras, las etapas o componentes de la aplicación capturados en un modelo también deben reflejarse en el otro para que las compensaciones entre potencia y rendimiento puedan capturarse y cuantificarse. El eje final de desarrollo pasa por la integración de estos modelos con nuestro sistema de software autoconsciente / autoadaptativo que proporcionará mecanismos para la optimización dinámica de la ejecución continua de la aplicación. Desarrollamos el concepto de Plantillas de energía, que son un mecanismo para pasar información de comportamiento específica de la aplicación a los niveles de tiempo de ejecución subyacentes. Los modelos de energía capturan los estados inactivo / ocupado por núcleo, así como la cantidad de tiempo que cada núcleo espera permanecer en cada estado, lo que permite que el software de tiempo de ejecución determine las oportunidades adecuadas para ejercer las capacidades de ahorro de energía proporcionadas por la plataforma. hardware / software (por ejemplo, escala de voltaje y frecuencia – DVFS) sin afectar negativamente al rendimiento. Mediante el uso proactivo de información específica de la aplicación, los modelos energéticos pueden aprovechar las oportunidades de ahorro de energía que no están disponibles para los mecanismos que desconocen la aplicación.

La investigación de PNNL también se aplica dentro del nuevo programa DARPA en la revolución de la eficiencia energética de las tecnologías integradas (PERFECT). Vemos que las tecnologías desarrolladas tanto para la informática de alto rendimiento como para los sistemas integrados son básicamente las mismas. Estos pueden converger en el futuro y por lo tanto es posible desarrollar herramientas y técnicas comunes que incluyan a ambos. Dentro de PERFECT PNNL, los investigadores están desarrollando un marco coherente capaz de analizar empíricamente los sistemas actuales y predecir tecnologías futuras.

Finalmente, la investigación de PNNL se extiende a los centros de datos: esta dirección de investigación se aborda de manera integrada donde el consumo de energía de TI para aplicaciones de interés para el DOE se correlaciona con el consumo de energía de la infraestructura de soporte. Un enfoque integrado permite al investigador formular preguntas hipotéticas en un entorno HPC, como la aplicabilidad y eficacia de nuevas soluciones de enfriamiento (por ejemplo, enfriamiento por aspersión) a la fuente de calor en comparación con una solución de enfriamiento global tradicional.

En general, PNNL participa activamente (y en muchos casos lidera) varios proyectos del DOE y DARPA, así como proyectos internos, que tienen como objetivo comprender el impacto de los muros de energía y energía en los sistemas de exaescala e implementar energía y soluciones conscientes para todos. niveles de diseño y optimización de sistemas y aplicaciones. El conocimiento adquirido durante estos esfuerzos y proyectos contribuirá al diseño de sistemas de exaescala energéticamente eficientes.

* Los siguientes investigadores de PNNL contribuyeron a este artículo: Adolfy Hoisie, Kevin Barker, Roberto Gioiosa, Darren J. Kerbyson, Gokcen Kestor, Joseph Manzano, Andres Marquez, Shuaiwen Song, Nathan Tallent, Antonino Tumeo, Abhinav Vishnu

Recuerda compartir en tu Facebook para que tus amigos lo lean

??? ? ? ???

Comparte