Priorizar los datos en la era de la exaescala - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Priorizar los datos en la era de la exaescala

Hola, ¿qué tal colega?. Te escribe Simón Sánchez y esta vez hablaremos sobre Priorizar los datos en la era de la exaescala

A estas alturas, la mayoría de los HPC y la comunidad circundante son conscientes de que el movimiento de datos representa uno de los desafíos más fundamentales para el procesamiento posterior a la petaescala. En todo el mundo, los proyectos de exaescala intentan maximizar la velocidad del sistema y minimizar los costos de energía. En los Estados Unidos, por ejemplo, los objetivos a exaescala tienen un rendimiento máximo que aumenta en tres órdenes de magnitud, mientras que el poder del sistema simplemente se duplica. Llevar a cabo esta hazaña de equilibrio significa abordar la tarea más cara: mover datos. Eso dice James Ahrens del Laboratorio Nacional de Los Alamos, quien publicó un archivo papel sobre esto.

El dos buscapersonas (aumento de la información de datos científicos en simulaciones de clase Exascale basadas en restricciones de energía y almacenamiento) señala que las restricciones de almacenamiento también se ven afectadas por los costos de energía. «Las proyecciones futuras de la tecnología de almacenamiento sugieren que la brecha entre capacidad / ancho de banda y FLOPS se ampliará a medida que avancemos hacia la exaescala», señala Ahrens. Si este es el caso, el sistema de almacenamiento de una supercomputadora a exaescala sería más pequeño y más lento que los sistemas actuales para una inversión similar.

Las limitaciones de energía y almacenamiento están llevando a la comunidad a reevaluar el flujo de trabajo científico para que el enfoque cambie del posprocesamiento al análisis in situ. El enfoque secuencial tradicional en el que la visualización y el análisis se realizan después del procesamiento y los puntos de control completos se guardan para reinicios posteriores ya no será viable en el futuro. Existe un consenso emergente, escribe Ahrens, de que una mayor visualización y análisis debe tener lugar in situ, mientras que la simulación se ejecuta mientras los datos se encuentran en la memoria.

Ahrens sugiere tres pautas para respaldar el paso a un mayor análisis in situ:

  • Se requiere el muestreo y la cuantificación de la incertidumbre de los datos de simulación.
  • Se necesitan elecciones analíticas deliberadas
  • Se requiere reducción y priorización de datos

Con respecto al primer punto, Ahrens señala que el análisis in situ es de hecho una forma de muestreo, en la que el científico de la simulación ya no puede darse el lujo de muestrear completamente «en los dominios espacial, multivariante y variable. el costo del muestreo completo en el dominio del tiempo «. Entonces la pregunta es cómo tomar muestras de cada dominio para que la cantidad total de análisis se mantenga o aumente.

Ahrens escribe: “La calidad de sus resultados puede medirse mediante técnicas combinadas de muestreo / cuantificación de la incertidumbre in situ. Por ejemplo, en nuestro trabajo, tomamos muestras estadísticamente utilizando un enfoque de muestreo aleatorio en capas en la simulación de partículas cosmológicas MC ^ 3. Almacenamos estas muestras en una organización de nivel de detalle para la visualización progresiva interactiva posterior y el análisis de características. Al tomar muestras durante la simulación, podemos analizar toda la población de partículas para registrar estadísticas de población completas y cuantificar el error de muestra. «

Ahrens también aborda cómo alejarse de la mentalidad de «salvar a todos» y comprender que esta es solo una opción entre muchas. Cuando la energía y el almacenamiento son limitados, es fundamental tomar decisiones de análisis deliberadas antes de que comience la simulación.

En el tercer punto, Ahrens señala que hay otras formas de reducir los datos además del muestreo estadístico. «Las operaciones de visualización y los algoritmos de extracción de características también pueden considerarse un tipo de estrategia de muestreo», señala. Un algoritmo codicioso guardará la información de mayor prioridad a medida que avanza la simulación, sobrescribiendo la salida de menor prioridad.

Puedes compartir en en tu Twitter y Facebook para que tus amigos lo disfruten

??? ? ? ???

Comparte