Modernización de la monitorización de clústeres de HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Modernización de la monitorización de clústeres de HPC

Hola otra vez. Te escribe Simón Sánchez y hoy vamos a hablar sobre Modernización de la monitorización de clústeres de HPC

Si pensaba que las herramientas de administración de clústeres eran demasiado numerosas para contarlas, no tienen nada que ver con la supervisión del sistema. Desde el código abierto hasta los paquetes comerciales, la lista continúa. El problema, sin embargo, es que hay muy pocas herramientas que reúnan una visión unificada de lo que está sucediendo en grandes clústeres de una manera integral, desde la recopilación de datos del planificador, el procesamiento y las propias aplicaciones.

Si bien no hay cifras precisas sobre su uso, Ganglia parece ser el líder claro en términos de monitoreo de conglomerados. Según el presidente y director ejecutivo de X-ISS, alrededor del 90% de las tiendas de HPC de todos los tamaños utilizan el marco, y otro pequeño subconjunto utiliza otras herramientas de supervisión de HPC maduras como Supermon. Su empresa ha visto su cuota de clústeres de HPC grandes y medianos durante más de diez años en el negocio de los sistemas, pero lo que no han podido encontrar hasta hace poco son formas de obtener una visualización «. un solo panel de vidrio «en cómo los clústeres funcionan de manera integral. En otras palabras, no fue posible aprovechar las fortalezas de Ganglia y herramientas similares y combinar esa capacidad con una amplia gama de otros datos de monitoreo y administración de clústeres.

Para ser justos, la modernización y el refinamiento de herramientas como Ganglia sucedieron en un instante, especialmente porque el «mundo más amplio» se está apoderando del valor de estas herramientas. No para localizar Ganglia (ya que hay otros ejemplos apropiados), pero su uso está aumentando más allá de los pabellones de HPC. Los proveedores de servicios en la nube, los operadores de centros de datos de hiperescala y una nueva cosecha de tipos de big data lo están eligiendo entre la multitud. (En esta nota, por el amor de Dios, no escriba «Crecimiento de ganglios» en Google. Eso no es lo que está buscando. Ew.)

Si bien el marco existente de herramientas de monitoreo es perfecto para comprender los detalles de lo que está sucediendo con un clúster desde una perspectiva de hardware y rendimiento general, Khosla dice que no pueden proporcionar una vista más completa de otras métricas. prácticas, incluidas las más amplias. aplicación y desempeño del proyecto, costos laborales y tendencias históricas. Incluso cuando se combina con las herramientas de análisis que se encuentran en todos los programadores populares, incluidos LSF, Torque, PBS y otros, los usuarios se quedan con un campo disperso de resultados técnicos para masticar rápidamente y demasiado distribuidos para combinar sin un esfuerzo significativo.

Este problema se ve agravado por los centros que han implementado centros de datos de HPC. Por ejemplo, en la industria del petróleo y el gas, que impulsó a X-ISS a desarrollar una visión más amplia, los clústeres se distribuyen en diferentes geografías, a menudo con diferentes programadores y entornos de sistemas. Reunir una vista de un solo panel de estos sistemas y su eficiencia operativa, de aplicación, de costos y de rendimiento no es una tarea fácil e implica la complicada combinación de diferentes herramientas.

Para estos usuarios, juntar datos no es el único desafío práctico. «Los usuarios de HPC, naturalmente, desconfían de cualquier cosa que se les agregue», dice Khosla. «Esto significa que no querrán agregar más herramientas de monitoreo u otras herramientas cuando usen algo como Ganglia y sus herramientas de planificación normales». Entonces, si este es el caso, y la necesidad de un monitoreo reticular más completo es clara, ¿qué deben hacer los usuarios?

La solución es conectarse al monitoreo existente y otras herramientas y sus recolectores y poner todos los datos en un solo lugar. En el caso de X-ISS y su análisis de clústeres, los datos se ingresan a través de un túnel seguro en sus servidores, donde se procesan para obtener una vista histórica o de tendencias en tiempo real para su análisis a través de un portal web. De esta manera, los usuarios no necesitan agregar más peso a sus operaciones de monitoreo o crear un rendimiento lento en los sistemas agregando otra herramienta para administrar.

La herramienta de análisis y monitoreo diseñada por X-ISS, llamada DecisionHPC, se conecta a los programadores más comunes utilizados en entornos HPC (Torque, PBS Pro, LSF, CJM y Grid Engine) y puede conectarse con Ganglia y otras herramientas de monitoreo. personalizado.

Los usuarios pueden iniciar sesión en la interfaz web para ver diferentes aspectos de la operación general del clúster, luego refinar el análisis para ver las cosas desde nuevas perspectivas, incluido el análisis de costos, detalles de rendimiento para ayudar a evaluar y refinar lo que no funciona o funciona bien y obviamente el know-how necesario para adaptarse para superar o completar los resultados.

A continuación se muestra un ejemplo del tablero, pero lo que es digno de mención aquí, dice Kholsa, es cómo ofrece una vista en tiempo real de lo que está sucediendo con los clústeres en un momento dado. Puede monitorear clústeres en diferentes ubicaciones geográficas, incluso aquellos que ejecutan diferentes programadores, agentes de monitoreo, con diferentes configuraciones de hardware, otro elemento único, argumenta.

Esté de acuerdo en que de hecho es posible hacer todas estas cosas con las herramientas existentes, pero todas están separadas y solo pueden proporcionar una parte de la comprensión. Por ejemplo, dice: «Lo que está disponible en las herramientas de Linux son métricas a nivel de sistema, pero la mayoría de los usuarios de HPC no usan estas herramientas porque tienen que ir al nivel de nodo. Otras herramientas como Ganglia ofrecen una vista más manejable pero es técnica y debe realizarse pieza a pieza, dificultando la obtención de una visión global «. Agregó que si bien puede ver lo que está sucediendo con la CPU, la memoria, las E / S y otros elementos, «no puede responder preguntas como qué tan ocupado estaba un clúster desde la perspectiva de la aplicación por mes, por ejemplo». . ahora que es así, muchos simplemente están escribiendo sus propias herramientas de informes, que tampoco ofrecen el nivel de facilidad y conocimiento necesarios.

«Hoy tenemos nuestro cliente más grande con alrededor de 15,000 objetos que estamos monitoreando y alrededor de 20-30 métricas cada 5 minutos y en cualquier momento pueden obtener una vista Online de esos 7000. Las herramientas de análisis en los programadores no pueden generar informes en tiempo real. como éste. Parte del enfoque también es la creación de perfiles de aplicaciones y la evaluación comparativa, pero la CPU, la memoria y el rendimiento de la red también son valiosos «.

No te olvides compartir en tus redes sociales para que tus colegas lo lean

??? ? ? ???

Comparte