¿Qué impulsa las inversiones en medio de HPC? - Calendae | Informática, Electrónica, CMS, Ciberseguridad

¿Qué impulsa las inversiones en medio de HPC?

Hola, ¿qué tal colega?. Te escribe Simón Sánchez y esta vez te voy a contar sobre ¿Qué impulsa las inversiones en medio de HPC?

Cuando se trata de cubrir supercomputadoras, la atención se centra en los primeros clasificados en el Top 500. Sin embargo, una mirada más cercana a la parte inferior de las clasificaciones revela algunos casos de uso bastante interesantes, sin mencionar los cursos de desarrollo, diseño de sistemas y requisitos impulsados ​​por el usuario para desarrollos futuros.

La Universidad de Florida es el hogar de un sistema en expansión, que se encuentra justo en el borde de las clasificaciones superiores de supercomputación en el puesto 493. El director de investigación en ciencias de la computación de la universidad, Dr. Erik Deumens, nos dice que el verdadero propósito del sistema es respaldar tantas aplicaciones diferentes como sea posible con la menor cantidad posible de barreras de cola. Si bien esta es una afirmación familiar, independientemente del tamaño del sitio, el equipo ha hecho todo lo posible para garantizar que los desarrollos actuales para hacer su sistema insignia, llamado HiPerGator, se alimenten únicamente de la demanda de los usuarios.

Puede que no sea una sorpresa, al menos para el investigador, que la demanda de procesadores de última generación con un salto del 10 o 20% en el rendimiento sea mucho menos crítica que la simple capacidad de incorporar una aplicación sin largas colas y realizarlo en un período de tiempo razonable. Pero satisfacer esta necesidad requiere pensar seriamente en la capacidad, la planificación y el cumplimiento de los diferentes requisitos de la aplicación. En otras palabras, para aquellos que sintonizan la historia de la informática de ultra alto rendimiento, esta no es la historia más emocionante, pero hay algunas lecciones importantes que aprender de las experiencias de su equipo trabajando con una amplia gama de aplicaciones y más. 600 usuarios para descubrir lo que realmente crea un sistema completamente funcional, todo basado en lo que equivale a una toma de decisiones «barata» para sus inversiones en HPC.

Esencialmente, la economía de la demanda determina las decisiones de gasto en la Universidad de Florida y muchos otros centros similares. En teoría, no es tan diferente de los grandes sitios de informática científica, excepto que las solicitudes de los usuarios superan a todos ellos, incluido el poder u otras consideraciones. “Si los usuarios solicitan la última tecnología nueva pero no es la más eficiente, no les negaremos lo que necesitan para su investigación”, dice Deumens. En el caso de HiPerGator, la universidad financia el sistema y el personal para que los investigadores individuales puedan usar sus subvenciones para comprar la cantidad deseada de núcleos para su trabajo. La flexibilidad está incorporada en la «compra», ya que los usuarios pueden realizar 10 veces más según sea necesario para evitar complejidades adicionales en términos de planificación y gestión de sus trabajos. Deumens y el equipo usan Moab y Torque para manejar las muchas solicitudes, además de ofrecer la capacidad para que los usuarios más sofisticados ajusten sus solicitudes en función de la combinación de arquitecturas disponibles. El sistema siempre tiende a funcionar por debajo de su capacidad máxima, por lo que no hay largos tiempos de espera, ya que lo único que quieren los investigadores: acceso oportuno (si no inmediato) a los recursos computacionales que se ejecutan durante el período. de tiempo estimado. Y, en esencia, dice Deumens, todos están felices.

Para algunos detalles, el sistema HiPerGator en su encarnación original (anunciado el año pasado) ofrecía más de 16.000 núcleos AMD «Abu Dhabi» basados ​​en Dell, un sistema basado en Lustre de 2,88 petabytes construido en Terascala e Infiniband de Mellanox. Desde entonces, han agregado una ronda adicional de núcleos de sistemas heredados (tanto Intel como AMD), lo que eleva la cantidad de núcleos HPC a más de 21,000. Hay una serie de nodos que proporcionan un total de 80 GPU además y otros planeados para el futuro, así como la posibilidad de núcleos Xeon Phi y planean completar su construcción dentro de este período el próximo año. «Siempre hay excepciones, pero a la mayoría de nuestros usuarios no les importa qué generación de procesadores estén usando. Solo quieren hacer su trabajo». Mientras tanto, su equipo sigue de cerca lo que buscan los usuarios en términos de hardware nuevo o existente y utiliza esta información para calcular lo que preguntan a los proveedores durante los ciclos de compra de hardware y software de cada año.

Para poner eso en contexto, cuando surgió el HiPerGator original, había un total de 8 GPU disponibles para los investigadores, que compraron simplemente para respaldar una misión de lección de un semestre que los requería para proyectos especiales. Sin embargo, una vez que los investigadores de la universidad supieron que estaban disponibles, comenzaron a experimentar con códigos de transferencia, incluido AMBER en el frente de la dinámica molecular. Estos esfuerzos de desarrollo llevaron a los equipos de aplicaciones a querer ejecutar la producción completa, lo que requería varias GPU. Y así, su afluencia inesperada de nodos de GPU sucedió de forma orgánica. Este es exactamente el tipo de caso que impulsará el desarrollo de su sistema de la próxima generación: el interés real del usuario significa más «compras» por parte de los investigadores, pero para mantener su objetivo principal de proporcionar recursos sólidos sin el tiempo. espere, se asegurarán de proporcionar amplios nodos con todo lo que la comunidad de investigación parece querer.

Deumens y el equipo llevarán estos deseos a la carretera en los próximos meses. Actualmente se encuentran en medio de la búsqueda de proveedores que los ayuden a satisfacer las necesidades de HiPerGator 2, que nuevamente está programado para esta época el próximo año. Nos dio una idea de qué funciona, y qué no, cuando se trata de apoyar la investigación en una universidad que quiere convertirse en un centro de investigación de primer nivel basado en sus capacidades de HPC.

Primero, dice, hay algunos éxitos en términos del enfoque de planificación. Fue un proceso manual, pero fue facilitado por sus motores Moab y Torque. Además, destacó el creciente papel de Galaxy, el proyecto de portal científico de código abierto para crear, monitorear y compartir flujos de trabajo científicos que ha tenido éxito en la comunidad de biociencias. También dice que para un centro de investigación de su tamaño, cuantos más núcleos tenga, mejor. Si bien algunos de sus usuarios pueden aprovechar su estructura Infiniband y ejecutar trabajos MPI o SMP, al final, todo se trata de ponerse en marcha.

El otro elemento que ha funcionado para los equipos de investigación de la Universidad de Florida es tener un sistema de almacenamiento estable y fuerte como su solución Terascala, que es capaz de manejar grandes flujos de datos, un problema creciente para todos. sitios de procesamiento científico, ya que los datos requieren la capacidad informática disponible para ser satisfecha.

Lo que le falta a su sistema es algo que será difícil para cualquier proveedor que entregue la próxima versión de la máquina el próximo año. Y eso es algo que hemos escuchado de centros mucho más grandes. Existe una gran necesidad de crear una especie de «super aplicación» que convierta la máquina de escritorio de un investigador en un enlace directo al sitio de supercomputación, gestionando la programación, el movimiento de datos y la salida en una interfaz portátil sin problemas. continuidad. Si bien parece que podría ser fácil en esta era de interfaces web para todo, es lo que realmente faltan los centros diseñados para simplemente servir a los usuarios científicos, y algo que él y su equipo continuarán investigando durante los próximos años.

Fue interesante escuchar la diferencia en las preocupaciones sobre la potencia, el rendimiento y la facilidad de acceso desde la perspectiva de un sitio de HPC mucho más pequeño que los diez principales administradores de sistemas con los que hablamos con tanta frecuencia. La energía siempre es una preocupación, por supuesto, pero en una escala menor cuando la exaescala es algo de lo que preocuparse para el Departamento de Energía y otros laboratorios gubernamentales a nivel internacional, los problemas de las operaciones del mundo real del día a día se reducen a un factor simple: una supercomputadora que es fácil de usar, rápida de cargar y predecible a su debido tiempo para el resultado. Un recordatorio de humildad después de tantas conversaciones sobre cómo obtener el rendimiento de los procesadores más populares, los sistemas más grandes y las huellas de energía más grandes del planeta.

Deberías compartir en tus redes sociales para que tus colegas lo flipen

??? ? ? ???

Comparte