Aspectos destacados de la investigación de SC13: aquí está el distrito de entretenimiento ... - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Aspectos destacados de la investigación de SC13: aquí está el distrito de entretenimiento …

Hola y mil gracias por leerme. Soy Simón Sánchez y en el día de hoy vamos a hablar sobre Aspectos destacados de la investigación de SC13: aquí está el distrito de entretenimiento …

El paso de mensajes puede llevar una fracción significativa del tiempo de ejecución de los códigos de simulación científica masivamente paralelos. Para que estos códigos funcionen bien, se requieren velocidades de mensajes consistentemente altas. En Supercomputing 2013 (SC13), nuestro equipo de investigación de Lawrence Livermore (LLNL) presentará los resultados de nuestro estudio que muestran que la variabilidad de ejecución a ejecución en las tasas de transmisión de mensajes puede reducir el rendimiento en un 30% o más en Causa de contención con otras obras para conexiones de red.

El rendimiento variable puede hacer que los trabajos individuales se ralenticen, lo que a su vez puede provocar una espera más larga para obtener resultados científicos y aumentar el tiempo de espera en las colas para otros trabajos. Reducir esta variabilidad podría mejorar la productividad general en un centro de datos y ahorrar costos de energía. La variabilidad del rendimiento también afecta el ciclo de desarrollo de las aplicaciones informáticas de alto rendimiento (HPC). Puede complicar tareas como depurar problemas de rendimiento en un código de aplicación, cuantificar los efectos de los cambios de código en el rendimiento, medir los efectos de los cambios en el compilador o el software del sistema y determinar el tiempo necesario para un trabajo por lotes. Por lo tanto, nos propusimos investigar las posibles fuentes de dicha variabilidad del rendimiento en los sistemas de supercomputadoras.

En nuestro estudio, nos centramos en pF3D, un código que simula las interacciones láser-plasma en experimentos en la Instalación Nacional de Ignición del LLNL. En 2011, comenzamos a producir pF3D en Cielo, un sistema Cray XE6 de 1,37 Petaflop / s instalado en Los Alamos. Al mismo tiempo, ejecutamos pF3D en Dawn, un sistema IBM Blue Gene / P en LLNL. Los tiempos de ejecución para obras idénticas en Cielo variaron en un 20% mientras que en Dawn hubo muy poca variabilidad. Las diferencias en el tiempo de ejecución se debieron a las diferentes velocidades de transmisión de mensajes. Estos primeros resultados nos llevaron a realizar un estudio sistemático de la variabilidad de la velocidad de los mensajes en tres supercomputadoras del Departamento de Energía de los Estados Unidos (DOE): Intrepid, un IBM Blue Gene / P en Argonne (ANL), Mira, un IBM Blue Gene / Q en Argonne y Hopper, un Cray XE6 en Lawrence Berkeley (LBNL).

En el transcurso de cuarenta y cinco días, enviamos una breve ejecución de referencia de pF3D todos los días para registrar el comportamiento de rendimiento de la aplicación y cierta información del estado del sistema, incluida la forma de la partición de trabajo asignada al trabajo y otros trabajos que se ejecutan en el sistema y asignaciones de nodos relacionados. La «forma» de la partición de trabajo se refiere a las ubicaciones físicas de los nodos asignados en la topología de interconexión del sistema. Mira tiene una interconexión dimensional toroide, mientras que Hopper e Intrepid tienen una interconexión dimensional toroide. A continuación se muestra un gráfico de la velocidad de mensajería promedio para cada trabajo en función de cuándo se ejecutó en los tres sistemas. Calculamos la tasa de mensajería promedio dividiendo el volumen total de comunicación en bytes por el tiempo total que se tarda en enviar mensajes a través de la red.

Click para agrandar

Vemos que en los sistemas IBM, Intrepid y Mira, hay una variación insignificante en el rendimiento de la mensajería. Sin embargo, en el sistema Cray (Hopper), el trabajo más lento de un día determinado puede ejecutarse a la mitad de la velocidad del trabajo más rápido. Los usuarios de la aplicación eligen la cantidad de trabajo que se asignará a cada trabajo por lotes para asegurarse de que haya suficiente tiempo para guardar los resultados incluso en un día de bajo rendimiento. Esto se traduce en menos trabajo promedio completado por trabajo por lotes que un sistema con rendimiento repetible y la necesidad de múltiples espacios de trabajo por lotes (y varios días calendario) para completar una simulación.

En este documento SC13 (programa de presentación a continuación), intentamos delimitar las causas fundamentales de esta variabilidad de rendimiento en Hopper. Varios factores pueden hacer que el rendimiento de una aplicación sea variable dentro y entre trabajos por lotes. Estos factores incluyen el ruido de los demonios del sistema operativo (SO), la variabilidad de la comunicación resultante de la forma de la partición asignada y la interferencia de otros trabajos que comparten los mismos enlaces de red. A continuación, presentamos evidencia observacional que indica qué factor conduce a la mayor variabilidad del rendimiento. Mostramos la ubicación de pF3D (azul) y trabajos conflictivos (otros colores) en Hopper para dos tiradas cortas separadas en la siguiente figura. El trabajo del 11 de abril (izquierda) produjo una tasa de mensajería casi un 25% más baja que el trabajo del 16 de abril (derecha). Los dos trabajos tenían la misma ubicación de nodo, pero el trabajo más lento del 11 de abril estaba rodeado de muchos otros trabajos, incluido un trabajo grande con muchas comunicaciones (verde). Un análisis más detallado que proporciona una evidencia más clara del efecto de la interferencia de interfuncionamiento en el desempeño se puede encontrar en papel.

Reconocimiento: Este trabajo fue realizado bajo los auspicios del Departamento de Energía de los Estados Unidos por el Laboratorio Nacional Lawrence Livermore bajo el contrato DE-AC52-07NA27344. Este trabajo fue financiado por el Programa de Investigación y Desarrollo dirigido por Laboratorio en LLNL con los códigos de seguimiento de proyectos 13-ERD-055 y 13-FS-002 (LLNL-MI-645823).

Lea más sobre esta investigación en https://computation-rnd.llnl.gov/extreme-computing/interconnection-networks.php

Programa de presentación:

Día: Martes (19 de noviembre de 2013)

Hora: 16:00 – 16:30

Posición: 401/402/403

Acerca de

El Dr. Abhinav Bhatele es un científico informático del Centro de Computación Científica Aplicada del Laboratorio Nacional Lawrence Livermore. Sus intereses radican en optimizar el rendimiento a través del análisis, visualización y ajuste y desarrollo de algoritmos para sistemas paralelos de alta gama.

Kathryn Mohror es científica informática en el Laboratorio Nacional Lawrence Livermore (LLNL). Es miembro del equipo de escalabilidad de LLNL y su investigación sobre sistemas informáticos de alta gama se centra actualmente en la computación escalable tolerante a fallas y la medición y el análisis del rendimiento.

Steven Langer es actualmente físico computacional en el Laboratorio Nacional Lawrence Livermore. Sus intereses de investigación incluyen la fusión del confinamiento inercial, el análisis de rendimiento de las aplicaciones HPC, la escalabilidad del paso de mensajes y E / S en aplicaciones, y la comprensión de cómo modificar los códigos de simulación multifísica para que funcionen correctamente. eficiente en el futuro hardware de exaescala.

Katherine Isaacs es una estudiante de posgrado en la Universidad de California, Davis. Su investigación se centra en las técnicas de visualización de información para el análisis del desempeño.

No te olvides compartir en una historia de tu Instagram para que tus amigos lo vean

??? ? ? ???

Comparte