Universidad japonesa lanza supercomputadora GPU de 800 teraflop - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Universidad japonesa lanza supercomputadora GPU de 800 teraflop

Hola y mil gracias por leerme. Te habla Simón Sánchez y en el día de hoy te voy a contar sobre Universidad japonesa lanza supercomputadora GPU de 800 teraflop

La supercomputadora más nueva de Japón, un clúster Appro acelerado por GPU de 802 teraflop, entró en producción la semana pasada en la Universidad de Tsukuba, al norte de Tokio. La máquina es la pieza central del proyecto HA-PACS de la universidad, un esfuerzo de tres años que intentará ampliar los límites de la supercomputación impulsada por GPU.

HA-PACS, siglas de Highly Accelerated Parallel Advanced System for Computational Sciences, es solo el último de una serie de sistemas «PACS» en Tsukuba. El sistema original, conocido como PACS-9, se instaló en 1978 y produjo 7 kiloflops (¡sí, kiloflops!). A partir de entonces, cada dos o cuatro años, el Centro de Ciencias Computacionales de la universidad cambiaba a un nuevo sistema. El último, PACS-CS, se implementó en 2006 y alcanzó un máximo de 14,3 teraflops.

El nuevo cluster Appro representa la octava generación de supercomputadoras de Tsukuba y es el primero en ser acelerado por GPU. Como puede sospechar, la gran mayoría de 802 teraflops son proporcionados por unidades gráficas, en este caso, basadas en la última parte de la GPU NVIDIA Tesla, la M2090. Cada nodo del clúster empareja cuatro de ellos con dos CPU Xeon E5 («Sandy Bridge») de 8 núcleos de Intel.

En total, la máquina HA-PACS de 268 nodos albergará 1072 GPU y 536 CPU, así como un total de 34 terabytes de memoria del lado de la CPU y 6.4 terabytes adicionales para GPU. La memoria externa asciende a poco más de medio petabyte, según el equipo SFA10000 de DataDirect Network. Como resultado de la alta densidad informática que ofrecen los chips gráficos, todo el clúster cabe en solo 26 racks y consume poco más de 400 kW de potencia.

El uso de CPU y GPU de alta gama crea un clúster denso y potente, y cada nodo ofrece un rendimiento de poco menos de 3 teraflops (máximo). Y aunque la mayoría de los flops son derivados de la GPU (665 gigaflops para el M2090), cada Xeon E5 se integra con unos respetables 166 gigaflops, gracias a la adición de las nuevas instrucciones de Advanced Vector Extensions (AVX).

Este es el segundo despliegue importante del sistema de Appro en Tsukuba, habiendo entregado la supercomputadora abierta T2K de 95 teraflop allí en 2009. Esa máquina usaba Opterons de cuatro núcleos de AMD y no GPU.

Appro, por cierto, es uno de los pocos proveedores de servidores que ofrece sistemas equipados con CPU Xeon E5 en estos días, y ya reclama cuatro de estos sistemas en la lista TOP500: «Zin» (961 teraflops) en Lawrence Livermore National Lab, «Luna» (293 teraflops) en Los Alamos National Lab, «Gordon» (262 teraflops) en San Diego Supercomputer Center y «Chama» en Sandia National Labs. Este es un buen logro, considerando que Intel aún no ha lanzado oficialmente los chips E5 en circulación.

Aparte de la CPU, el objetivo principal de HA-PACS es obtener el máximo rendimiento del hardware de la GPU. El proyecto tiene una doble misión en este sentido: llevar códigos científicos más grandes a la GPU y desarrollar un mecanismo de aceleración de cómputo paralelo estrechamente acoplado para «optimizar aún más la utilidad del hardware gráfico».

Por el lado de las aplicaciones, HA-PACS traerá códigos GPU a las áreas de partículas subatómicas, ciencias de la vida, astrofísica, física nuclear y ciencias ambientales. Por ejemplo, las aplicaciones astrofísicas que se ocupan de la transferencia de radiación pueden aprovechar los métodos de trazado de rayos, para los cuales las GPU modernas están hechas a medida. De manera similar, para la física de partículas elementales, las GPU se pueden usar con gran ventaja para acelerar los cálculos de matrices densas.

Desde una perspectiva de investigación computacional, el equipo HA-PACS está desarrollando hardware personalizado para admitir comunicaciones directas entre GPU. La idea es permitir que los procesadores gráficos mezclen datos rápidamente sin la sobrecarga que implica el paso a través de la CPU.

Este hardware personalizado, conocido como Tightly Coupled Accelerator (TCA), será distinto del clúster central HA-PACS de Appro, pero eventualmente se integrará con él, dice Taisuke Boku, subdirector del Centro de Ciencias Computacionales de la Universidad de Tsukuba. Según él, TCA utilizará PCIe como canal de comunicación entre las GPU y empleará la tecnología FPGA para facilitar esto.

La FPGA se basará en una implementación existente desarrollada en Tsukuba llamada PEACH, que significa PCI Express Adaptive Communication Hub. La idea es proporcionar un controlador que permita que los dispositivos PCIe se comuniquen directamente entre sí de igual a igual, en lugar de como dispositivos esclavos.

Para que esto funcione para TCA, se desarrollará una implementación actualizada de la FPGA, conocida como PEACH2. Incorporará los protocolos de comunicación GPU-Direct de NVIDIA para facilitar la transferencia de datos entre las partes de Tesla. El ancho de banda también se mejorará con respecto a la versión original de PEACH, que utilizó cuatro puertos PCIe Gen2 x4 como enlace de comunicación. Para PEACH2, se admitirán cuatro puertos PCIe Gen2 x8, duplicando el rendimiento.

Actualmente se está desarrollando el primer prototipo del TCA. El plan es incorporar la tecnología en un segundo clúster, que se pegará al clúster Appro base a principios de 2013. El clúster TCA agregará 200 teraflops adicionales en producción, llevando el sistema HA-PACS integrado a más de un petaflop.

El trabajo de HA-PACS será un precursor de los futuros sistemas de exaescala que ya están en la mente de Boku y su equipo en Tsukuba. Él cree que el futuro sistema de exaescala requerirá algún nivel de tecnología de procesamiento acelerado debido a sus beneficios inherentes en el rendimiento y la eficiencia energética.

«El mayor problema con la computación acelerada es cómo cerrar la brecha entre su poderoso desempeño de computación interna y un desempeño de comunicación externa relativamente pobre», dice Boku. «En algunas aplicaciones, es posible que necesitemos un cambio de paradigma hacia una nueva generación de algoritmos. HA-PACS será el banco de pruebas para el desarrollo de estos algoritmos».

Puedes compartir en tus redes sociales para que tus amigos lo consulten

??? ? ? ???

Comparte