Un par de nuevas canciones de InfiniBand - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Un par de nuevas canciones de InfiniBand

Hola otra vez. Yo soy Simón Sánchez y en esta ocasión vamos a hablar sobre Un par de nuevas canciones de InfiniBand

Sin hablar de nada en particular, se me ocurrió que «InfiniBand» sería un buen nombre para una banda de rock. OK, para ser honesto, el tema es sobre algo. Últimamente he derramado mucha tinta digital sobre las nuevas novedades de CPU y GPU de gama alta esta primavera, así que dejé pasar algunas historias de InfiniBand. Con eso en mente, pensé que esta sería una buena oportunidad para recapitular algunos de los últimos acontecimientos en el universo del IB.

El martes, QLogic anunció un módulo de paso QDR InfiniBand para los sistemas blade Dell PowerEdge. El nuevo QLogic 12005-PT16 es un módulo de una sola ranura que encaja perfectamente en un chasis PowerEdge M1000e. El módulo admite hasta 16 puertos QDR que se enganchan directamente a una tarjeta intermedia InfiniBand. Convenientemente, QLogic también presenta una tarjeta intermedia M1000e, la QME7342, que cumple esta función. La placa intermedia conecta los blades del servidor a un conmutador InfiniBand externo estándar (QLogic u otro).

Entonces, ¿cuál es el gran alboroto? Si se perdió la lección del módulo de transferencia en su clase de Networking 101, aquí está la versión Cliff Notes: El hardware de transferencia es una alternativa a un interruptor interno tradicional que se encuentra en la mayoría de los sistemas blade. A diferencia de un conmutador, que enruta el tráfico de mensajes a direcciones de red específicas, un paso a través es una solución mucho más simple que solo proporciona una conexión punto a punto desde el host saliente al tejido externo. La idea general de un paso a través es hacer que los conmutadores sean independientes de la infraestructura informática, como en una configuración de servidor en rack.

La limitación es que las arquitecturas blade tienden a ser muy propietarias y no todos los sistemas son aptos para una solución de transferencia. Depende de cómo el OEM diseñó el gabinete, la capacidad de admitir el cableado adicional requerido por una solución de paso a través y si ese proveedor está interesado o no en integrar y vender hardware de conmutador como parte de su solución. En el caso del M1000e, Dell ofrece un conmutador Mellanox M3601Q para conectividad InfiniBand. Pero el diseño M-Blade también puede acomodar un paso a través y, según QLogic, tiene grandes ventajas.

Una de esas ventajas es que el módulo QLogic solo ocupa una única ranura en el chasis blade, en lugar de dos para el conmutador Mellanox. Como resultado, hay una ranura de E / S adicional en el chasis blade que se puede usar para un enlace de 10 GbE. Esto es especialmente importante si el blade necesita acceder al almacenamiento Ethernet o la salida de E / S en la red.

Además, debido a que no hay interruptor de silicio y hardware asociado en el paso a través, consume mucha menos energía. El QLogic 12005-PT16 consume solo 40 vatios en comparación con los 80 vatios del conmutador Mellanox. En general, QLogic afirma un ahorro de energía del 45% para un gabinete M1000e que utiliza su módulo de paso y la nueva placa intermedia. Esto es un gran problema, ya que uno de los golpes en los sistemas de cuchillas es que tienden a sobrecalentarse debido a los diseños densos.

Finalmente, debido a que el módulo de paso a través no realiza ninguna conmutación, elimina los saltos de conmutación internos, lo que reduce la latencia de la comunicación. Siempre que no tenga conmutadores de borde externos para administrar, puede salirse con la suya al eliminar una capa completa de interconexión y conectarse directamente al conmutador del centro de datos principal. QLogic informa una latencia punto a punto casi inexistente de 400 picosegundos para el módulo de paso a través en sí.

Hablando con Steve Zivanic, director de comunicaciones corporativas de QLogic, esta última serie de productos es parte de una estrategia más amplia para expandir su penetración InfiniBand a través de sus socios OEM. El equipo QLogic IB ahora es suministrado por algunos de los principales fabricantes de clústeres de HPC, incluidos IBM, HP, Dell y SGI. Según Zivanic, están aumentando el equipo de ventas y contratando especialistas en HPC para aumentar aún más su competitividad. «Verás que nos volvemos mucho más agresivos este año con InfiniBand», me dijo.

La otra historia de InfiniBand que se escapó hace un par de semanas fue el anuncio de Voltaire de su tecnología Fabric Collective Accelerator (FCA) para acelerar las operaciones MPI en conmutadores Voltaire. En pocas palabras, el software FCA utiliza las CPU dentro de los conmutadores para descargar las operaciones MPI colectivas. Voltaire dice que la versión inicial es capaz de acelerar «aplicaciones informáticas de alto rendimiento como modelado de yacimientos, dinámica de fluidos, análisis de accidentes y otros hasta en un factor de diez». Y desde el punto de vista de la aplicación, los cálculos descargados son transparentes.

Potencialmente, esto podría extender significativamente la longevidad de los códigos MPI. Una de las debilidades del estilo de procesamiento MPI distribuido es que las operaciones colectivas deben sincronizarse globalmente, lo que hace que estas aplicaciones sean más difíciles de escalar. Y las rutinas en sí mismas son recursivas, por lo que tienden a ser extremadamente intensivas en computación. El resultado es que, para algunos códigos, hasta el 90 por ciento del tiempo de CPU del host se gasta en estas rutinas colectivas.

La solución de fuerza bruta fue hacer que el conmutador y el hardware del adaptador de host fueran más rápidos para compensar las estructuras y tamaños de clúster más grandes, y hacer que los nodos del clúster fueran más densos en computación para acelerar el procesamiento del lado del host . Mellanox ha incorporado la tecnología de descarga MPI dentro de un adaptador de host, pero al agregar MPI inteligente al conmutador en sí, Voltaire dice que el procesamiento de mensajes se puede optimizar de manera mucho más eficiente.

Según Asaf Somekh, vicepresidente de marketing de Voltaire, la tecnología FCA no solo alivia al huésped de una carga computacional, sino que también es capaz de reducir el volumen de tráfico de mensajes enviado a través de la estructura, reduciendo así los cuellos de botella en las comunicaciones. La idea es amplificar el rendimiento informático de los servidores transformándolos en una especie de superclúster.

De hecho, eso sería una buena noticia para los clientes de HPC que quisieran poder usar clústeres para la computación a nivel de capacidad, en lugar de tener que recurrir a soluciones más personalizadas (y costosas) como IBM Blue Gene o Cray XT. De hecho, Somekh cree que FCA será una tecnología clave para impulsar los grupos de productos básicos al mercado de supercomputadoras de capacidad. «En mi opinión, este es uno de los santos griales de HPC», dice.

OKAY. Pero merece una marca un poco más fuerte que Fabric Collective Accelerator. ¿Qué tal «InfiniBand Overdrive»? Oye, ese sería un nombre genial para una banda de rock.

No te olvides compartir en una historia de tu Instagram para que tus amigos lo vean

??? ? ? ???

Comparte