Fascinantes problemas de energía a exaescala - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Fascinantes problemas de energía a exaescala

Hola otra vez. En el teclado Simón Sánchez y esta vez te voy a hablar sobre Fascinantes problemas de energía a exaescala

La potencia, la energía y la confiabilidad presentan grandes desafíos para los investigadores de HPC en su búsqueda por construir máquinas más grandes. A medida que nos acercamos a la era de la exaescala, los diseñadores de hardware y software deben abordar estos desafíos optimizando el rendimiento. los Laboratorio de programación paralela (PPL) de la Universidad de Illinois en Urbana-Champaign (UIUC) ha estado trabajando activamente para abordar estos desafíos aprovechando el sistema de tiempo de ejecución adaptativo del Encanto ++ modelo de programación.

Las máquinas petascale actuales tienen MTBF (tiempo medio entre fallas) que puede variar desde unas pocas horas hasta días. Algunos informes predicen que las máquinas de exaescala tendrán un MTBF de entre 35 y 40 minutos. Curiosamente, investigaciones anteriores describen una relación entre la temperatura de un procesador y su confiabilidad: las tasas de falla se duplican cada 10 ° C de aumento de temperatura. Nuestro trabajo aplica esta relación entre la temperatura del procesador y la confiabilidad al limitar la temperatura del procesador, reduciendo así la frecuencia de fallas y mejorando así el rendimiento de la aplicación en entornos propensos a fallas.

Hay costos y beneficios para mejorar la confiabilidad a través del control de temperatura impulsado por voltaje dinámico y escala de frecuencia (DVFS). La confiabilidad mejorada ayuda no solo a reducir directamente las fallas; También permite que el código se controle con menos frecuencia, lo que reduce los gastos generales. Sin embargo, tiene un costo de procesadores más lentos y un mayor desequilibrio de carga.

Al limitar las temperaturas del procesador, podemos permitir que el sistema de tiempo de ejecución establezca la tasa de falla esperada del sistema, ajustándola dentro de un rango factible. Nuestra estrategia de control permite que cada procesador funcione a su frecuencia máxima siempre que su temperatura esté por debajo de un parámetro de umbral. Si la temperatura de un procesador excede el umbral máximo, se controla disminuyendo el voltaje y la frecuencia usando DVFS. Cuando se reducen el voltaje y la frecuencia, su consumo de energía disminuirá y, por lo tanto, la temperatura del procesador disminuirá.

Cuando DVFS ajusta las frecuencias de manera diferente entre los núcleos de un clúster, las cargas de trabajo en esos núcleos cambian entre sí. Esto puede reducir significativamente el rendimiento de una aplicación paralela estrechamente acoplada, donde los procesadores se sincronizan después de un paso de tiempo antes de pasar al siguiente paso. Reducimos la penalización de tiempo resultante con una estrategia de equilibrio de carga consciente de la diferencia de velocidad para los diferentes procesadores.

Nuestra estrategia de equilibrio de carga, basada en la descomposición excesiva y la migración de objetos, utiliza el sistema de tiempo de ejecución adaptativo Charm ++ para aumentar la utilización del procesador. Analiza la carga actual de cada procesador en función de su nueva frecuencia y determina si está sobrecargado o subcargado. Una vez que se toma esta decisión, nuestro esquema intercambia inteligentemente objetos de procesadores sobrecargados (calientes) a procesadores con poca carga (fríos) para equilibrar la carga. El control de temperatura y el correspondiente equilibrio de carga se pueden activar a intervalos definidos por el usuario.

Un giro en este trabajo es que las diferentes aplicaciones varían tanto en cómo renderizarán los procesadores a una frecuencia determinada, como en cómo su rendimiento se ve afectado por las diferentes frecuencias. Tenga en cuenta que esto implica que diferentes aplicaciones pueden experimentar diferentes MTBF en la misma máquina. Por lo tanto, utilizamos tres aplicaciones que tienen diferentes condiciones.

Para medir los efectos del control de temperatura en el MTBF y, por lo tanto, en el rendimiento de la aplicación, formulamos un modelo que relaciona el tiempo de ejecución total de una aplicación con la confiabilidad asociada y la desaceleración para la contención de temperatura. El modelo tiene en cuenta la diferente velocidad de ejecución a diferentes frecuencias, la sobrecarga del punto de control y el tiempo de recuperación en función del MTBF y la sobrecarga adicional de experimentar y adaptarse al desequilibrio de carga. Validamos la precisión de nuestro modelo para cada aplicación utilizando un pequeño banco de pruebas experimental.

Usamos nuestro modelo validado para proyectar los beneficios de nuestro esquema para máquinas más grandes. Nuestros resultados indican una compensación entre la confiabilidad mejorada y el costo asociado de aplicar el control de temperatura. Esta compensación determina el umbral de temperatura óptimo para una aplicación y un tamaño de máquina determinados.

La siguiente figura compara la eficiencia de la máquina (proporción de tiempo necesario para realizar un trabajo útil) para una aplicación de esténcil 2D entre una ejecución básica sin control de temperatura y una ejecución restringida con el umbral de temperatura establecido en 48 ° C Por debajo del zócalo de 32K, obtenemos una eficiencia menor que la línea de base. Sin embargo, por encima de los sockets de 32K, nuestro esquema comienza a superar al caso base. Como referencia, el Sistema de aguas azules en NCSA tiene casi 50.000 enchufes. Para los puntos de venta de 256K, nuestro esquema es hacer funcionar la máquina con una eficiencia de 0.29 versus 0.08 para la línea de base. Finalmente, para los enchufes de 340K, la eficiencia base cae a 0.01, lo que hace que la máquina esté casi inoperativa, mientras que nuestro esquema aún puede hacer funcionar la máquina con una eficiencia de 0.22.

Estos resultados prometedores nos animan a ampliar nuestro trabajo mediante el estudio de modelos más detallados, sistemas experimentales más grandes y protocolos de tolerancia a fallos más avanzados, como el registro de mensajes y la recuperación en paralelo.

Este trabajo es parte de un tema de investigación en nuestro grupo: el uso del control de tiempo de ejecución adaptativo para abordar los desafíos que presentan las aplicaciones sofisticadas y la complejidad del hardware. los Laboratorio de programación paralela Él desarrolló Encanto ++ durante los últimos 20 años como un lenguaje de programación paralelo de calidad de producción, utilizado en muchas aplicaciones de CSE, incluido el galardonado programa de simulación biomolecular de Gordon Bell NAMD.

Osman Sarood es estudiante de último año de doctorado en el departamento de informática de UIUC. Su investigación se centra en optimizar el rendimiento en condiciones térmicas y de potencia.

Esteban Meneses es profesor asistente de investigación que trabaja en el Centro de Simulación y Modelado de la Universidad de Pittsburgh. Su investigación se centra en técnicas de equilibrio de carga y tolerancia a fallos para aplicaciones paralelas a gran escala. Tiene un doctorado en Ciencias de la Computación de la UIUC.

Laxmikant Kale recibió su doctorado en ciencias de la computación de la Universidad Estatal de Nueva York, Stony Brook, en 1985. Se unió a la facultad de ciencias de la computación de la UIUC como profesor asistente en 1985, donde actualmente trabaja como profesor titular. Su investigación abarca computación paralela, incluidas abstracciones de programación paralela, escalabilidad, equilibrio automático de carga, optimizaciones de comunicaciones y tolerancia a fallas. Ha desarrollado en colaboración varias aplicaciones CSE escalables.

Deberías compartir en tu Facebook para que tus colegas lo vean

??? ? ? ???

Comparte