Una nueva generación de supercomputadoras más inteligentes, no más rápidas

Hola, ¿qué tal colega?. Yo soy Simón Sánchez y hoy te voy a hablar sobre Una nueva generación de supercomputadoras más inteligentes, no más rápidas

A medida que se acerca la era de la exaescala, numerosos grupos de investigación están identificando el conjunto de barreras que traerán la próxima generación de sistemas de élite.

Desde su perspectiva como Director Asociado de Tecnología de la Información, Medio Ambiente y Ciencias de la Vida en Argonne National Lab, Rick Stevens ha identificado los desafíos clave de pasar a sistemas de mil millones de núcleos. En un informe reciente del Departamento de Energía sobre los próximos desafíos y beneficios del procesamiento a exaescala, dijo que si bien la magnitud de los desafíos de planificación futura es abrumadora, la nutrición también es una preocupación importante.

Según Stevens, una computadora con mil millones de procesadores, si se basa en las tecnologías eficientes que tenemos ahora, devorará un gigavatio de electricidad. Para poner eso en contexto, incluso las plantas de energía con mejor desempeño en los Estados Unidos solo generan unos pocos gigavatios, y la mayoría produce menos de cuatro. Si bien sostiene que la computación GPU es una forma de frenar este increíble hambre de energía, en la actualidad, una sola máquina de exaescala puede requerir su propia planta de energía dedicada.

Fuera de la programación y el consumo de energía, el otro obstáculo para los sistemas de exaescala es la confiabilidad general. Él dice que con el gran aumento en la cantidad de núcleos viene una gran posibilidad de falla, y señala que «si escalas a partir de la tecnología actual, una computadora a exaescala no permanecería activa por más de unos pocos minutos a la vez», lo que significa que una tasa La falla de la máquina sería una vez a la semana o más, al menos si se considera que IBM BlueGene / L de Lawrence Livermore National Lab se vende aproximadamente una vez cada dos semanas.

Con el enorme aumento en los requisitos de energía y las preocupaciones de confiabilidad, el papel del software de administración de clústeres hiperinteligente se volverá más crítico. Este es un tema que le apasiona bastante a Bill Nitzberg, el autodenominado «ingeniero cínico» que se desempeña como director de tecnología de la división PBS Works de Altair Engineering, a pesar de que «lo escuchó todo antes» en los días previos a la petaescala.

Incluso en la informática de alto rendimiento, donde cada elemento se lleva al límite, puede ser un poco difícil entusiasmarse con la pieza de middleware de carrera HPC. Por supuesto, sin la planificación y la gestión de la carga de trabajo entre bastidores, toda la potencia de procesamiento en clúster sin procesar del mundo es esencialmente inútil. Y cuando se trata de esta escala informática en la que todos los desafíos a los que aludió Rick Stevens pueden mitigarse (en diversos grados) mediante una gestión eficaz, el middleware puede recibir más atención que antes.

Nitzberg reveló cómo la próxima generación de supercomputadoras deberá ser más inteligente, no más combativa. Puede estar sesgado, desde una perspectiva de gestión de clústeres, por lo que el hecho es que los dos elementos más problemáticos de los sistemas de exaescala fuera de la programación (potencia y fiabilidad) pueden tener soluciones de gestión importantes.

Él dice que en lugar de centrar nuestra atención en hacer que la próxima generación de supercomputadoras simplemente use menos energía, dice que también debe haber un enfoque en hacer un uso muy inteligente de lo que está disponible.

Como dijo Nitzberg, «cuando pienso en el futuro de la informática, ya sea GPU, nube, lo que sea, veo muchas tendencias: la cuestión del poder no es una tendencia, este es un problema continuo que tenemos que enfrentar. Cuando pienso en renderizar la próxima generación de computadoras más inteligentes, el científico informático que hay en mí piensa en la optimización y el lado medioambiental de mí piensa en la potencia «.

Nitzberg pone esta idea de una gestión inteligente de la energía en lugar de simplemente reducirla en contexto, señalando que debe haber una forma para que los operadores de máquinas a gran escala reconsideren qué cargas de trabajo eligen ejecutar y cuándo lo hacen. Esto puede parecer, en la superficie, muy simple, esta idea de elegir los trabajos sabiamente para maximizar la energía y la eficiencia de costos, pero argumenta que muchos sistemas deben ser probados a los prestamistas como funcionando a plena capacidad. Él lo ve como un concepto que podría encajar con poderes de financiamiento que serán a corto plazo, pero a largo plazo, los costos de operar tales sistemas se saldrán de control. Funcionar al 99% de su capacidad no siempre es necesario y definitivamente no es barato.

Muchos niveles de software de gestión de HPC proporcionan funciones sensibles a la energía. Por ejemplo, Nitzberg describió la función «Aprovisionamiento ecológico» en su producto PBS Professional. Esto, como Dynamic Power Optimizer de Platform Computing, utiliza sofisticadas herramientas de monitoreo que apagan, reinician y redireccionan en función de la temperatura y otros factores en entornos de grandes centros de datos. Según PBS Works, esta solución ha sido «validada por varios grandes clientes y redujo su consumo de energía hasta en un 20%».

Louis Westby de Platform Computing nos dijo: «Ya hay mucho disponible para ayudar a los usuarios a aumentar y disminuir, pero hay una falta de innovación en muchas de estas soluciones. Monitorear el nivel de temperatura en todo un centro de datos a esa escala para garantizar un flujo constante de energía y la gestión del calor son obviamente muy importantes cuando se trata de [exascale]. «

Platform Computing, Bright Computing y PBS Works ya tienen soluciones de administración de energía que apagan los sistemas en función de la detección de fallas y también administran las temperaturas del centro de datos para redirigir las cargas de trabajo en función de estas lecturas. Las soluciones de código abierto también están tratando de mantenerse al día pero, como nos dijo Nitzberg, no es posible que las soluciones de código abierto disponibles puedan mantenerse al día con las numerosas solicitudes que llegarán a exaescala.

Westby, de la plataforma, dijo que sus soluciones de administración de energía son muy similares a las de PBS y, de hecho, como señaló Nitzberg, todavía hay innovaciones por hacer antes de que cualquier paquete de cargas de trabajo esté listo para enfrentar los desafíos. de la exaescala. Westby señaló que tienen la mirada puesta en el futuro en términos de gestión inteligente de la energía. Él dice que un área que afecta el consumo de energía es asegurarse de que el sistema pueda manejar inteligentemente las fluctuaciones de temperatura y enfocarse en mecanismos infalibles de falla.

No te olvides compartir en tu Facebook para que tus colegas lo disfruten

??? ? ? ???

Comparte