Intel lanza un nuevo paquete de herramientas de clúster HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Intel lanza un nuevo paquete de herramientas de clúster HPC

Hola y mil gracias por leerme. Te habla Simón Sánchez y esta vez hablaremos sobre Intel lanza un nuevo paquete de herramientas de clúster HPC

Esta semana, Intel presentó su versión exclusiva de su oferta Cluster Studio para desarrolladores de aplicaciones MPI orientadas al rendimiento. Llamada Cluster Studio XE, la suite de desarrollo optimizada agrega herramientas de análisis de Intel para facilitar a los programadores la optimización y ajuste del código para obtener el máximo rendimiento. También incluye los últimos compiladores, tiempos de ejecución y biblioteca MPI para mantenerse al día con los nuevos desarrollos en programación paralela.

Intel Cluster Studio, que se vendió como Cluster Toolkit, incluye el mismo conjunto de compiladores C / C ++ y Fortran que el producto Intel Parallel Studio, pero también incluye soporte MPI para programadores de clúster HPC. Estos incluyen la biblioteca MPI de Intel y Trace Analyzer and Collector. Este último se utiliza para ver las comunicaciones MPI y el equilibrio de carga para ayudar a los desarrolladores a probar y ajustar sus aplicaciones agrupadas.

Además, Cluster Studio incluye el buffet habitual de Intel de sus marcos de lenguaje paralelo, incluidos Cilk Plus, Threading Building Blocks (TBB), OpenCL y OpenMP. La única herramienta importante que falta en la suite es un depurador. Pero debido a que las herramientas de Intel son compatibles con el depurador TotalView de Rogue Waves y el DDT de Alinea, los desarrolladores no tienen que prescindir de ellas.

Las grandes adiciones a la versión XE de Cluster Studio son un par de herramientas de rendimiento: VTune Amplifier XE e Inspector XE, que operan en el entorno de memoria compartida a nivel de nodo. Uno podría preguntarse por qué las herramientas a nivel de nodo se incluyeron en el conjunto de herramientas del clúster, pero según James Reinders, que dirige el grupo de software de Intel, cada vez más códigos de clúster se están moviendo hacia la programación híbrida MPI / OpenMP (memoria). distribuido / compartido), que hace que el comportamiento multiproceso a nivel de nodo sea crítico para el rendimiento. Reinders dice que a medida que los nodos de computación se han vuelto más gordos, es más importante saber qué sucede dentro de los nodos.

La tendencia a la que se refiere es el creciente número de núcleos que se pueden obtener en un solo nodo. Usando los últimos chips x86, incluso una caja estándar de doble socket puede acomodar 16 núcleos (32 hilos) con el nuevo chip Xeon E5, o 32 núcleos en el caso del AMD Opteron 6200. Y si Intel se sale con la suya, los nodos vendrán pronto. HPC equipado con sus próximos coprocesadores Many Integrated Core (MIC), que triplicarán o posiblemente cuadriplicarán el número de núcleos. Ya sea MIC, GPU o simplemente CPU, los recuentos de núcleos parecen estar en una trayectoria ascendente que expandirá la línea de cintura del nodo HPC en el futuro previsible. «Es como una epidemia de obesidad en las computadoras», dice Reinders.

En pocas palabras, esta es la razón fundamental para incluir herramientas de memoria compartida. Por ejemplo, VTune Amplifier XE, que ya es estándar en la suite Parallel Studio XE, permite a los desarrolladores examinar el comportamiento de los hilos en los nodos. La herramienta les ayuda a identificar cuellos de botella debido a núcleos inactivos o un uso de caché subóptimo. También encuentra puntos de acceso donde el código pasa mucho tiempo.

La segunda herramienta incluida en Cluster Studio XE es Inspector XE (antes conocido como Thread Checker), que, nuevamente, tiene como objetivo optimizar la ejecución de la aplicación en el nodo, en este caso, verificar la corrección del hilo y la memoria. Específicamente, el Inspector puede encontrar casos de pérdidas de memoria, condiciones de carrera y posibles puntos muertos. No se trata tanto de un problema de rendimiento como de la robustez de la aplicación, que permite a los desarrolladores detectar errores latentes en el código, incluso cuando la falla no es evidente en la mayoría de los escenarios de ejecución.

Si bien tanto el amplificador VTune como el Inspector XE operan a nivel de nodo, cada uno se ha ampliado para que funcione en un modelo MPI distribuido. Esencialmente, las herramientas recopilan datos a nivel de nodo, pero los resultados se agregan y organizan por rango MPI (ID de proceso), lo que permite a los desarrolladores ver el análisis en el contexto de la operación general del programa.

Por supuesto, si el programador hubiera querido hacer este tipo de análisis antes, podría haber comprado las herramientas independientes por separado y extraer los datos nodo por nodo. Pero este es un proceso bastante doloroso una vez que pasa por un puñado de servidores. Según Reinders, los usuarios querían ver el comportamiento de estos nodos como parte de la imagen completa del clúster.

Al mismo tiempo que los nudos van engordando, el número de nudos sigue aumentando. Esto se refleja en el rendimiento general de las computadoras TOP500, que crecen al doble de la tasa de la ley de Moore. Para seguir el ritmo del crecimiento de los clústeres de escalamiento horizontal, los ingenieros de Intel han estado ocupados modificando su biblioteca MPI.

Según Reinders, su última biblioteca MPI, la versión 4.0, ahora puede escalar más de 90.000 procesos, lo que es un poco mejor de lo que solo se admitía hace un año. La escala mejorada es el resultado de mejoras en MPICH2, que se utiliza como base para la oferta MPI de Intel, así como algunas optimizaciones personalizadas.

Intel también cuenta con un rendimiento líder en la industria para su última biblioteca. Según las pruebas de latencia para una aplicación de 96 procesos que se ejecuta en una máquina de 8 nodos, la implementación de Intel ofrece un mejor rendimiento que otras bibliotecas MPI líderes, como Microsoft MPI 3.2, Platform MPI 8.1.1, MVAPICH 1.6 y OpenMPI 1.5.4.

Las diferencias tendían a ser mayores que las del paquete OpenMPI de código abierto. En un caso, la implementación de Intel fue 2.6 veces más rápida. «OpenMPI es muy popular y creo que muchos usuarios no entienden cuánto rendimiento pierden al no acudir a una de las bibliotecas MPI comerciales», dice Reinders. La biblioteca MPI de Intel también es independiente de la estructura, lo que la convierte en una opción popular entre los ISV que desean minimizar la cantidad de rieles de envío correspondientes a cada estructura de interconexión que admiten.

Como todos los conjuntos de herramientas paralelas de Intel, Cluster Studio XE está diseñado para funcionar con sus propios productos de CPU x86 multinúcleo y los de AMD. La compañía ahora está ampliando estas herramientas para admitir muchos núcleos, y para Intel eso significa su próximo producto Many Integrated Core (MIC). Reinders afirma que casi todas estas herramientas tienen versiones que soportan el prototipo MIC (Knights Ferry) hoy, aunque algunas de las herramientas MPI no están tan desarrolladas como lo están para compiladores y tiempos de ejecución. Cuando lancen el producto de producción Knights Corner MIC en aproximadamente un año, todas estas herramientas paralelas soportarán la arquitectura de muchos núcleos de manera más o menos transparente.

Cluster Studio XE se vende desde la sede del desarrollador y su precio se basa en el soporte del sistema operativo: $ 2,849 para la versión de Windows; $ 2,499 por el de Linux. Estos precios son $ 1,000 más por asiento que el Vanilla Cluster Studio sin las herramientas de rendimiento. Por supuesto, Intel agradecería vender a todos sus clientes al nivel XE, pero Reinders admite que no todos los desarrolladores querrán o necesitarán esta funcionalidad adicional. En términos generales, solo los gurús del rendimiento que realizan la optimización del código en la aplicación estarán interesados ​​en el paquete central de XE. Reinders afirma: «Esas personas necesitan tener estas herramientas en sus manos y creo que encontrarán grandes resultados con ellas».

No te olvides compartir en en tu Twitter y Facebook para que tus colegas lo consulten

??? ? ? ???

Comparte