Las GPU se suman para chips ARM en HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Las GPU se suman para chips ARM en HPC

Hola, un placer verte por aquí. Te escribe Simón Sánchez y en esta ocasión te voy a contar sobre Las GPU se suman para chips ARM en HPC

La primera ola de procesadores ARM de 64 bits creíbles llegará al mercado a finales de este año o principios del próximo, y como suele ser el caso, la comunidad informática de alto rendimiento está teniendo la primera oportunidad de comprender cómo podrían funcionar estos chips. implementarse para ejecutar varios tipos de simulaciones de manera más eficiente o rentable.

Applied Micro, que tiene el estatus de pionero en la carrera de chips de servidor ARM de 64 bits con su X-Gene 1, se asocia con Nvidia, fabricante de aceleradores de GPU Tesla, en la conferencia internacional de supercomputación en Leipzig, Alemania. para promover a X-Gen y Tesla como el primero de varios dúos dinámicos. Tres proveedores, Cirrascale, E4 Computer Engineering y Eurotech, también están haciendo una vista previa de los sistemas híbridos ARM-Tesla en la conferencia, y sin duda vendrán más a medida que más chips ARM lleguen al mercado a finales de este año y principios de este año. el próximo año.

Dada la ubicuidad de los procesadores Xeon en el espacio de la supercomputación, Nvidia debe integrarse bien con los procesadores Xeon de Intel rivales y debe competir también con los coprocesadores Xeon Phi X86 paralelos. Pero Nvidia, como muchos compradores de sistemas, quiere una segunda o tercera opción cuando se trata de procesadores, razón por la cual Nvidia fue miembro fundador de OpenPower Foundation, que busca establecer múltiples fuentes de IBM Power8 y procesadores posteriores y conecte firmemente los aceleradores a ellos. Nvidia también agita la bandera ARM y quiere ser el acelerador elegido para las plataformas ARMv8.

“Las GPU hacen que ARM de 64 bits sea competitivo en HPC desde el primer día”, explica Ian Buck, gerente general de software de procesamiento de GPU en Nvidia. “Estamos viendo claramente que las plataformas ARM64 buenas y atractivas están Online. Es obvio que hay entusiasmo en torno a ARM y hay dos razones para ello. Una es que no hemos tenido CPU nuevas e innovadoras en un tiempo. Algunas de las arquitecturas ARM llegan a 24 núcleos y juegan con lo que está encendido y apagado, y Broadcom y Cavium son del mundo de las redes y hay muchos rincones de la red en los que pueden jugar. La segunda razón de la emoción es la elección. ARM representa una opción, y muy diversificada.

Si bien a los dispositivos de red les gusta tener muchos subprocesos, los chips utilizados en dichos equipos generalmente no tienen muchas capacidades de procesamiento matemático de punto flotante, dice Buck. Nvidia, puede adivinarlo fácilmente, quiere que su Tesla sea el coprocesador preferido para las plataformas ARM de 64 bits. Después de haber creado el entorno de programación CUDA, que admite chips ARM de 64 bits a partir de la versión 6.5, y una biblioteca de cientos de cargas de trabajo de análisis y simulación de terceros en GPU híbridas de procesador, Nvidia cree que está bien posicionada para ayudar a los clientes a llevar sus aplicaciones a los híbridos ARM-Tesla.

«Según nuestra experiencia con ARM hasta la fecha, la migración parece ir bastante rápido si tiene un código bien estructurado», dice Buck. “Muchos códigos HPC han existido lo suficiente como para que no contengan muchos elementos intrínsecos, X86ismos, y el código parece moverse con bastante facilidad. Si el código ya está acelerado por la GPU, el rendimiento se transfiere directamente. Estos chips ARM64 pueden admitir un rendimiento completo de la GPU «.

Applied Micro tendrá mucha competencia en el espacio del procesador ARMv8, con AMD, Cavium y Broadcom presentando contendientes muy fuertes para ir en contra de la hegemonía del procesador Xeon de Intel y su postura defensiva muy creíble con chips Atom para un cálculo. necesidades modestas y de baja potencia. Intel tiene una ventaja sustancial en sus procesos de fabricación de chips, algo entre uno y dos nodos, dependiendo de cómo quiera contarlo, y se comporta como si tuviera un montón de AMD pisándole los talones. Nunca antes en su historia Intel había estado tan dispuesto a modificar los diseños de sus procesadores para adaptarse mejor a las cargas de trabajo de los clientes de supercomputación e hiperescala, desde agregar instrucciones especiales a Xeons hasta preparar versiones especiales de Xeons que corren más calientes o tienen una frecuencia más alta. soldar una FPGA en un chip Xeon, como anunció Intel la semana pasada,.

Esta apertura recién descubierta es una de las formas en que Intel pretende contrarrestar el ataque de diferentes procesadores ARM de 64 bits y las diversas formas en que sus fabricantes acelerarán las cargas de trabajo utilizando GPU, DSP, FPGA y otros circuitos especializados. De hecho, Intel está adoptando el enfoque maleable de la comunidad ARM para defenderse de los procesadores ARM.

El procesador inicial X-Gene 1 de Applied Micro ha sido muestreado desde principios de 2013, y las obleas de producción para el chip comenzaron a fines de marzo, y se esperan chips de producción para esta época. El chip X-Gene 1 se implementa en un proceso de 40 nanómetros en Taiwan Semiconductor Manufacturing Corp; tiene ocho núcleos ARMv8 personalizados, diseñados por Applied Micro, en cada sistema en chip. Los núcleos del X-Gene 1 funcionan a 2,4 GHz, y Sanchayan Sinha, gerente senior de productos, le dice a Calendae que en términos de rendimiento de un solo subproceso, el X-Gene 1 tiene aproximadamente el mismo nivel de empuje que un cuatro núcleos «Haswell» Xeon E3 y aproximadamente el mismo ancho de banda de memoria que un «Sandy Bridge» Xeon E5.

Sinha señaló que estas son comparaciones muy aproximadas y que los puntos de referencia reales eventualmente resultarán en cifras más difíciles que estas aproximaciones. Ésta es, de hecho, la esencia de los sistemas de desarrollo mostrados en ISC’14. La empresa está trabajando con servidores asociados para ejecutar el Gradientes conjugados de alto rendimiento (HPCG), que se propone como un seguimiento de la prueba matemática de matriz paralela Fortran Linpack más ampliamente utilizada, en sistemas X-Gene 1. Sinha afirma que Applied Micro y Nvidia podrán demostrar que un X-Gene 1 más un coprocesador Tesla K20 será equivalente a un procesador X86 más el mismo motor de punto flotante Tesla K20.

El chip X-Gene 2 es una revisión de diseño inicial y también incluye ocho núcleos ARM, pero se implementa en un proceso de 28 nanómetros en TSMC. Este estrechamiento del proceso permitirá que Applied Micro aumente la velocidad del reloj y agregue más funciones a su SoC. Una característica interesante que la compañía ha revelado que agregará a X-Gene 2 es la compatibilidad con el acceso remoto directo a memoria (RDMA) en los puertos de red del chip. Específicamente, los puertos Ethernet en el chip podrán ejecutar RDMA sobre Ethernet convergente (RoCE), lo que brinda acceso InfiniBand de baja latencia al protocolo Ethernet. Esto hará que el chip X-Gene 2 no solo sea adecuado para cargas de trabajo HPC sensibles a la latencia, sino también para cargas de trabajo de procesamiento de transacciones, almacenamiento y bases de datos en centros de datos empresariales que también disfrutan de baja latencia.

Además de esto, Applied Micro se asoció con TSMC para usar su proceso de transistor FinFET 3D de 16 nanómetros para crear X-Gene 3. Se sabe poco sobre este procesador aparte de que tendrá al menos 16 núcleos en el SoC.

Estas primeras rondas del X-Gene 1 se colocaron en placas de desarrollo llamadas «Mustangs» internamente por Applied Micro y conocidas como X-Gene XC-1 fuera de la empresa. Los sistemas HPC basados ​​en ARM que han presentado Cirrascale y E4 Computer Engineering están basados ​​en chips X-Gene 1 y tarjetas Mustang de grado de producción.

La máquina de desarrollo Cirrascale se adapta a dos tarjetas Mustang y dos aceleradores GPU Tesla K20 o K20X en un chasis de servidor compacto de 1U:

Esta máquina se llama RM1905D en el catálogo de productos Cirrascale y, al igual que otras tarjetas Mustang, admite un máximo de 64 GB de memoria para cada chip X-Gene 1 en las dos ranuras de memoria del procesador. El sistema tiene cuatro puertos Ethernet: tres para datos y uno para administración del sistema. Dos de los puertos de intercambio de datos operan a 1 Gb / seg y el otro a 10 Gb / seg; el puerto de administración opera a 1 Gb / seg. La tarjeta Mustang tiene una ranura PCI-Express 3.0 x8, que se utiliza para conectar el procesador a la GPU Tesla, y el chasis tiene espacio para conectar una sola unidad SATA-2 (un enlace de 6 Gb / seg). Cada nodo del chasis tiene una fuente de alimentación de 400 vatios.

Las alimentaciones y velocidades EK003 de E4 Computer Engineering no estaban disponibles en el momento de la publicación, pero Nvidia le dice a Calendae que la máquina incluirá dos placas de sistema X-Gene 1 en un gabinete de 3U con dos coprocesadores de GPU Tesla K20 y que el La máquina de desarrollo estará dirigida al procesamiento sísmico, de señales e imágenes, análisis de video, análisis de trazas, aplicaciones web y cargas de trabajo MapReduce.

Cirrascale y E4 Computer Engineering planean enviar sus máquinas de desarrollo en julio, según Nvidia.

Eurotech tiene un diseño de placa base personalizado que utiliza el chip X-Gene 1 que tiene la memoria principal soldada a la placa para darle un perfil muy bajo y, por lo tanto, una alta densidad para su sistema Aurora basado en ARM. Los elementos de procesamiento de esta nueva máquina Aurora se basan en lo que la empresa llama su «tecnología de ladrillos» y utilizará refrigeración directa con agua caliente de los componentes del ladrillo. Incluirá una combinación de procesadores ARM y coprocesadores Tesla. Más detalles sobre este sistema Eurotech Aurora aún no estaban disponibles en el momento de la publicación, pero los buscaremos. La empresa prevé enviar las máquinas de producción a finales de año.

No te olvides compartir en tu Facebook para que tus amigos lo vean

??? ? ? ???

Comparte