El consorcio austriaco HPC se enfrenta a los desafiantes desafíos de comunicación entre nodos con Intel True Scale Fabric - Calendae | Informática, Electrónica, CMS, Ciberseguridad

El consorcio austriaco HPC se enfrenta a los desafiantes desafíos de comunicación entre nodos con Intel True Scale Fabric

Hola otra vez. Te escribe Simón Sánchez y esta vez hablaremos sobre El consorcio austriaco HPC se enfrenta a los desafiantes desafíos de comunicación entre nodos con Intel True Scale Fabric

El Clúster Científico de Viena (VSC) se refiere a una colaboración de recursos informáticos de alto rendimiento diseñados para respaldar un consorcio de múltiples instituciones en Austria que consiste en la Universidad de Viena (UNVIE), la Universidad Tecnológica de Viena (TUVIE), la Universidad de Recursos Naturales y Ciencias de la Vida Aplicadas de Viena (BOKU), la Universidad Tecnológica de Graz (TU Graz) y varias universidades de las provincias del sur de Austria (Universidad de Graz, Universidad de Minería Leoben, Universidad de Klagenfurt) y Universidad de Innsbruck.

VSC tiene tres clústeres de alto rendimiento que forman el centro computacional de este consorcio. VSC-1, construido en 2009, ocupó el puesto 156 en la lista Top500 de noviembre de 2009. VSC-2, completado en 2011, fue reconocido como el número 56 en la lista Top500 de junio de 2011. Y el último sistema, VSC-3 , se está implementando actualmente y tiene grandes expectativas en términos de rendimiento y eficiencia energética. La configuración del sistema VSC-3 incluye 2020 nodos basados ​​en la placa base verde de Supermicro X9DRD-iF, cada uno equipado con 2 procesadores Intel Xeon E5-2650 v2 de ocho núcleos que funcionan a 2,6 GHz. Los nodos están refrigerados por aceite utilizando Tecnología de enfriamiento por inmersión de Green Revolution Cooling.

El acceso al VSC se otorga sobre la base de proyectos revisados ​​por pares.

Los investigadores utilizarán el clúster VSC-3 para una amplia gama de aplicaciones, desde la genómica hasta la investigación climática, utilizando paquetes científicos comerciales y de código abierto, incluidos NAMD, MM5, HMMER y DMFT. Una cantidad sustancial de los recursos informáticos se utilizará para la ciencia de los materiales computacionales, que tiene una tradición muy sólida en Austria. Dos de los códigos más importantes y ampliamente utilizados en esta área se desarrollaron en Viena, el paquete WIEN2k y el Paquete de simulación Ab-initio de Viena (VASP), que se utilizan para realizar cálculos ab initio de estructura electrónica y dinámica molecular de la mecánica cuántica. El diseño del VSC-3 requería un cuidadoso equilibrio entre el rendimiento informático, el ancho de banda de la memoria, una red troncal de comunicación sólida y otros factores, incluida la capacidad de manejar cargas de trabajo altamente paralelas.

Debido a las muy altas demandas de comunicación entre nodos, el sistema de interconexión VSC-3 se basa en el diseño Intel Truescale QDR-80, que es una solución de estructura muy atractiva. El diseño de True Scale QDR-80 proporciona una arquitectura que satisface las necesidades del consorcio en cuanto a velocidad, latencia, resistencia y escalabilidad de los mensajes.

Antes de la selección de VSC-3, VSC comparó varias tecnologías de estructura de comunicación, incluidas las tecnologías Intel True Scale QDR e Intel True Scale QDR-80, Mellanox FDR y Connect IB. El comité de selección de VSC tenía experiencia con los HCA Qlogic DDR y los interruptores QDR de Qlogic en el VSC-1 y con los HCA Mellanox ConnectX2 QDR y los interruptores QDR en el VSC-2.

La escalabilidad fue una preocupación clave debido a la experiencia del consorcio con clústeres anteriores. En su primer año, algunos códigos mostraron problemas de escalabilidad en VSC-2. Desafortunadamente, estos desafíos se referían particularmente a los dos códigos VASP y WIEN2k más utilizados.

El equipo determinó que para un mayor número de procesos MPI (500-4000), la velocidad del mensaje era el factor limitante. Los datos mostraron que la tecnología Mellanox ConnectX2 en VSC-2 tenía una tasa de mensajes mucho más baja en los puntos de referencia de la Universidad Estatal de Ohio (OSU) a 4-5 millones de mensajes / seg con 16 núcleos por nodo, en comparación con 16 millones de mensajes / seg con 8 núcleos por nodo en VSC-1 y su estructura Qlogic. Si bien la escalabilidad podría mejorarse mediante la optimización del software, en particular utilizando la biblioteca Eigenvalue soLvers for Petaflop Applications (ELPA), la velocidad de los mensajes sigue siendo el cuello de botella que limita la cantidad de nodos que se pueden usar en un trabajo en VSC-2 y acelera.

Al ejecutar los puntos de referencia para VSC-3, utilizando códigos de núcleo VSC, ni Mellanox FDR ni Connect IB * mostraron ninguna ventaja sobre un Intel True Scale Fabric QDR80 de doble raíl. En algunos casos, el Intel True Scale Fabric QDR de una sola pista también mostró un mejor rendimiento que el FDR.

La experiencia obtenida de estos puntos de referencia y los datos de rendimiento de VSC-2 se utilizó para formular los criterios y requisitos en la licitación para VSC-3. Aunque los proveedores eran libres de elegir la topología y la tecnología de red, los estrictos requisitos de rendimiento, en particular en lo que respecta a la velocidad de los mensajes (2,5 millones de mensajes por segundo y núcleo del procesador) llevaron al postor ganador. , ClusterVision, para seleccionar Intel True Scale Fabric QDR80 para VSC -3.

No te olvides compartir en una historia de tu Instagram para que tus colegas lo vean

??? ? ? ???

Comparte