La herramienta de evaluación comparativa de GPCNeT para su red HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

La herramienta de evaluación comparativa de GPCNeT para su red HPC

Hola de nuevo. En el teclado Simón Sánchez y esta vez hablaremos sobre La herramienta de evaluación comparativa de GPCNeT para su red HPC

La identificación de áreas de degradación dentro de la red de Computación de alto rendimiento (HPC) ha sido un problema mal atendido desde el nacimiento de HPC. Como nos recuerda la Ley de Amdahl, un proceso es tan rápido como su cuello de botella más lento y, por lo tanto, esas latencias de cola controlan los tiempos de ejecución generales.

El principal factor que contribuye a este problema de redes de HPC es que tanto las cargas de trabajo de HPC como de inteligencia artificial (AI) realizan cálculos desde decenas de miles hasta cientos de miles y pronto millones de elementos informáticos. Esto es algo sutil porque la latencia de cualquier aplicación está relacionada, pero no exclusivamente, con los patrones de sincronización en la propia aplicación.

Estos problemas de latencia de la cola no son nuevos. Todos los sistemas informáticos distribuidos que dependen de las redes han sido víctimas de esta historia común de HPC, pero una cosa ha cambiado: los clientes esperan que sus proveedores de conmutadores y sistemas hagan algo para resolver el problema de la congestión.

Tanto los hiperescaladores como los centros HPC deben cumplir o superar la ley de Moore en el rendimiento de sus aplicaciones, no en el rendimiento máximo teórico o el recuento de transistores o cualquier otra métrica que desee utilizar. La reducción de los efectos de las latencias de cola proporcionaría una mejora significativa en la eficiencia de ejecución efectiva de las aplicaciones en supercomputadoras.

La latencia de la cola es un desafío continuo que requiere un punto de referencia como la Prueba de red de congestión y rendimiento global (GPCNet). Los estándares son críticos y deben implementarse para abordar los problemas críticos de latencia, para brindar información de alta calidad demostrable para la adquisición y operación de interconexiones. La adopción de estos puntos de referencia requerirá la ayuda de todos los actores de la industria para mejorarlos.

PARA EL DISCURSO SECTORIAL: ¿QUÉ SE NECESITA PARA SER UNA PRUEBA DE REFERENCIA INDUSTRIAL ÚTIL?

Para consideración inicial por la comunidad en general, este libro blanco propone los siguientes cinco requisitos:

  1. Debe ser sencillo de configurar y ejecutar.
  2. Debe poder escalar como lo hace el hardware y ejecutarse en interconexiones de diferentes estilos, generaciones y topologías.
  3. Debe funcionar para un espectro de tamaños y tipos de sistemas. En otras palabras, debe ejecutarse en un clúster con una cantidad relativamente pequeña de nodos y conmutadores de interconexión, hasta una gran cantidad de nodos con diferentes niveles de conmutación. Esto último es vital porque los sistemas HPC e IA generalmente operan a gran escala, pero eso significa cosas diferentes para diferentes cargas de trabajo.
  4. Debe ser difícil de jugar, pero fácil de usar y producir resultados claros y significativos.
  5. Por último, debe ser relativamente económico ejecutarlo de modo que se utilicen máquinas de todas las marcas y modelos para ejecutar la prueba y mostrar qué tan bien o mal se desempeñan las tecnologías de control de congestión y enrutamiento adaptativo con el tiempo y las arquitecturas.

Para satisfacer estas necesidades de la industria, se creó el punto de referencia GPCNeT para ver cómo las interconexiones y las pilas de software relacionadas manejan la congestión mientras mantienen un conjunto diverso de aplicaciones funcionando razonablemente bien y con una alta utilización de la red.

La herramienta de evaluación comparativa GPCNeT ayuda a construir mejores sistemas, mejora el ROI del cliente y proporciona a los ingenieros las herramientas que necesitan para innovar continuamente hardware y software de red aún mejores en productos de próxima generación. Lea nuestro libro blanco para obtener más información sobre los desafíos que enfrentan los problemas de latencia y cómo el uso efectivo de una solución de evaluación comparativa puede brindar un impacto y una visión óptimos a su centro de datos.

Recuerda compartir en tus redes sociales para que tus colegas lo sepan

??? ? ? ???

Comparte