El otro desafío de la exaescala - Calendae | Informática, Electrónica, CMS, Ciberseguridad

El otro desafío de la exaescala

Hola, un placer verte por aquí. Te escribe Simón Sánchez y en el día de hoy te voy a contar sobre El otro desafío de la exaescala

Los sistemas de supercomputación pronto contendrán millones de CPU, petabytes de memoria, exabytes de disco y una red de comunicaciones de múltiples capas que une todo. Como todos estos componentes fallan con regularidad, los usuarios de HPC se enfrentarán a hardware poco confiable a una escala nunca antes imaginada. Esto significa que las aplicaciones tendrán que encontrar una forma de ejecutarse en sistemas que se rompen constantemente.

El problema de la resiliencia de las aplicaciones parece hervir a fuego lento cada vez que un usuario de HPC habla sobre el camino a la exaescala. Evidentemente no es el único problema del cálculo a exaescala, pero es el que todavía se encuentra principalmente en fase de investigación. Dado que la transición de la petaescala a la exaescala ya está en marcha, es un poco preocupante.

En mi reciente conversación con el director de tecnología de Cray, Steve Scott, expresó mucha confianza en desplegar una supercomputadora exaflop antes del final de esta década. Desde su punto de vista, el hardware necesario para construir un sistema de este tipo está prácticamente en proceso en la actualidad. Pero también admitió que el problema de la resiliencia de las aplicaciones aún no tiene una solución clara.

«Confiamos en que podemos hacer que el sistema sea resistente, es decir, mantenerlo en funcionamiento, frente a fallas de hardware: procesadores bajos, interconexiones rotas, etc.» «El problema es cómo manejarlo en la aplicación que se ejecuta en toda la máquina».

El estado actual de la técnica utiliza el modelo de reinicio del punto de control, donde la aplicación en ejecución guarda periódicamente su estado en el disco. Si un componente falla, la aplicación se reanuda desde el último punto de control, evitando un reinicio completo desde cero. Para las aplicaciones que se ejecutan durante semanas o meses, esta era la única forma práctica de completar una ejecución completa, incluso para muchas aplicaciones de teraescala.

Sin embargo, a medida que aumenta el tamaño de la aplicación, se vuelve cada vez menos práctico utilizar el modelo de punto de control. El problema se vuelve evidente cuando se da cuenta de que el tiempo hasta el punto de control se acerca al tiempo medio entre fallas. Entonces, para el código de tamaño exaescala, transferir una instantánea de la aplicación de la memoria al disco no es una opción.

En realidad, sin embargo, no hay nada mágico en los programas de exaescala. Según un documento técnico de 2009 (PDF) del Laboratorio Conjunto Illinois-INRIA sobre Computación PetaScale: «Algunas proyecciones estiman que, con la técnica actual, el tiempo para revisar y reiniciar podría exceder el tiempo promedio para apagar las mejores supercomputadoras antes de 2015».

El estudio INRIA hace un buen trabajo al delinear el problema con más detalle y discutir algunas posibles soluciones. Los enfoques incluyen puntos de control sin disco (usando dispositivos RAM o SSD), minimizando el tamaño del punto de control, manteniendo hardware redundante (memoria, CPU, etc.) y predicción proactiva de fallas de hardware y software. En general, sin embargo, la

Asumir la responsabilidad de la resiliencia en manos de los programadores de aplicaciones y sistemas será particularmente oneroso, dado el otro trabajo que debe realizarse para paralelizar el código para que se ejecute en máquinas de exaescala. Eventualmente, el hardware podría ponerse al día y las supercomputadoras con resiliencia transparente se pueden construir de manera económica. Hasta entonces, los desarrolladores de software que sigan el camino hacia la exaescala pueden encontrar el camino incluso más difícil de lo imaginado.

No te olvides compartir en tu Facebook para que tus amigos lo sepan

??? ? ? ???

Comparte