Chip de supercomputación chino Dark Horse: FeiTeng

Hola, ¿qué tal colega?. En el teclado Simón Sánchez y esta vez te voy a contar sobre Chip de supercomputación chino Dark Horse: FeiTeng

El desarrollo chino de microprocesadores domésticos para computación de alto rendimiento parece estar en aumento. Las CPU Godson-3B y ShenWei SW1600 fueron las primeras en salir, con el segundo chip alimentando una supercomputadora de petaescala china. Esperando entre bastidores está el procesador FeiTeng, una arquitectura que podría ser la que lleve la supercomputación china al reino de la exaescala.

Si bien no hay mucha información disponible públicamente sobre el último chip FeiTeng, en un momento se promocionó como «el primer procesador de flujo de 64 bits del mundo dedicado a la informática científica de alto rendimiento». La arquitectura, conocida como FeiTeng, YinHe, YinHe FeiTeng y FT64, fue desarrollada en la Universidad Nacional de Tecnología de Defensa (NUDT) en la provincia de Hunan. El trabajo de diseño culminó con su primera implementación con el apodo FT64 en 2007.

Según un documento presentado en el Simposio Internacional sobre Arquitectura de Computadoras en 2007 (ISCA 2007) e publicado por ACM ese año, la arquitectura y el conjunto de instrucciones del FT64 se diseñaron específicamente teniendo en cuenta la informática de alto rendimiento. Las instrucciones son de persuasión VLIW y casi la mitad de ellas se aplican a operaciones FP de 64 bits. Como era de esperar, alrededor del 36 por ciento del dado se dedica a operaciones aritméticas.

Esta primera generación de FeiTeng se implementó en tecnología de proceso de 130 nm y, a 500 MHz, entregó un rendimiento máximo de 16 gigaflops. Si bien eso no es nada de lo que emocionarse hoy, tenga en cuenta que el FT64 tiene casi cinco años. Lo más impresionante es que el chip consumió solo 8,6 vatios de potencia, lo que produciría una eficiencia energética de alrededor de 1,8 gigaflops / vatio. La GPU NVIDIA M02090 de gama alta actual de Tesla, basada en la tecnología de 40 nm de la era 2011, ofrece alrededor de 2,9 gigaflops / vatio.

Al igual que su primo GPGPU, el FT64 tenía que funcionar como un coprocesador, impulsado por una CPU host. El documento de ACM describe una placa del sistema HPC que tenía un host que controlaba ocho FT64 y se comunicaba con cada coprocesador a través de una interfaz de host en chip. Al igual que los sistemas GPU-CPU actuales, la memoria FT64 y la memoria del host están separadas.

Los diseñadores de FT64 también inventaron un lenguaje de programación de flujo llamado SF95, que extendió FORTRAN95 con 10 directivas de compilación para aprovechar la arquitectura. El compilador se utilizó para comparar el FT64 con un Itanium 2 utilizando nueve núcleos de aplicaciones científicas (FFT, EP, MG, Swim, CG, Laplace, Jacobi, GEMM y NLAG-5). A excepción del kernel CG, donde FT64 solo tenía una décima parte del rendimiento de Itanium, el procesador de flujo era entre 1 y 2.5 veces más rápido que Itanium en otros kernels y 8 veces más rápido en FFT.

Sin embargo, surgió una imagen algo diferente de la arquitectura, basada en un seminario celebrado el mes pasado (diciembre de 2011) en la Universidad Nacional de Tecnología de Defensa. El resumen del seminario se proporciona aquí:

Las CPU genéricas de alto rendimiento de la serie YinHe FeiTeng (YHFT), destinadas a la informática de alto rendimiento, son desarrolladas por la escuela de informática de la Universidad Nacional de Tecnología de Defensa. La primera generación de la CPU YHFT adapta la arquitectura EPIC (Computación de instrucción explícitamente paralela). Su ISA (Arquitectura de conjunto de instrucciones) es totalmente compatible con Intel Itanium2. La segunda generación se basa en la arquitectura SoC (System-on-Chip). Consiste en una CPU genérica y un procesador de flujo, el primer procesador de flujo de 64 bits del mundo dedicado a la informática científica de alto rendimiento. El procesador se utilizó con éxito en el sistema de supercomputadora de alto rendimiento YinHe como acelerador. Los resultados de la investigación se publican en ISCA 2007 e IEEE TPDS. La tercera generación de la CPU YHFT es un procesador de múltiples núcleos. Su ISA es totalmente compatible con SPARC. Admite SIMD (datos múltiples de instrucción única) de punto flotante y la interconexión de varios chips para mejorar el procesamiento en paralelo y constituir directamente un sistema de multiprocesamiento simétrico (SMP). La primera versión de este procesador de múltiples núcleos se utilizó en los sistemas de supercomputadoras TH-1A PFLOPS y la versión actualizada actual se registrará el próximo año y se utilizará en la próxima generación del sistema de supercomputadoras TH.

Según esto, el FT64 era en realidad la segunda generación de la arquitectura y de alguna manera se implementó en una de las supercomputadoras YinHe (Galaxy) en China, presumiblemente esta, aunque teóricamente podría haber una máquina YinHe de perfil aún más bajo en otro lugar.

La tercera generación de la arquitectura FeiTeng suena más como una CPU independiente convencional, en lugar de un acelerador de flujo per se. Particularmente interesante es la referencia a este último chip utilizado en la supercomputadora TianHe-1A, con una versión actualizada que se implementará en la máquina TH de próxima generación. Con un pico de 4.7 petaflops, TianHe-1A de NUDT es actualmente la máquina más poderosa de China, pero está impulsada por componentes Intel Xeon y NVIDIA Tesla.

No está claro qué papel jugarán los chips FeiTeng mejorados en la máquina TH de próxima generación, pero el NUDT no ha sido más leal a los fabricantes de chips que sus contrapartes estadounidenses. En 2010, NUDT utilizó las GPU Intel Xeon y AMD Radeon para su máquina petascale de primera generación, la TianHe-1. Al año siguiente, cambiaron a las GPU NVIDIA para TianHe-1A.

Dado el deseo de China de desarrollar y utilizar microprocesadores autóctonos para su industria HPC, no sería demasiado sorprendente ver que los procesadores FeiTeng reemplazan las piezas de Intel y NVIDIA en una futura supercomputadora NUDT. Obviamente, los centros de supercomputación de todo el país están experimentando mucho con microprocesadores, incluso si están dispuestos a utilizar casi cualquier cosa que maximice el rendimiento en este momento. Pero es casi seguro que a China le gustaría que su primera máquina exaflop se construyera íntegramente con tecnología nacional, incluidos, por supuesto, microprocesadores.

Artículos relacionados

La estrategia de supercomputación autóctona de China está dando sus frutos

China distribuye la primera supercomputadora Petaflop con chips nativos

Las mejores supercomputadoras chinas apuntan a una estrategia agresiva de HPC

China produce sus propios núcleos de supercomputación

China prepara el chip Godson para el servicio de supercomputadora

Puedes compartir en tu Facebook para que tus colegas lo flipen

??? ? ? ???

Comparte