Los científicos de HP imaginan el chip Manycore de 10 teraflop

Hola otra vez. Te escribe Simón Sánchez y hoy vamos a hablar sobre Los científicos de HP imaginan el chip Manycore de 10 teraflop

En informática de alto rendimiento, Hewlett-Packard es más conocida por ofrecer sistemas HPC básicos, construidos con procesadores e interconexiones estándar. Pero la rama de investigación de la compañía ha creado un conjunto de chips de muchos núcleos, que superaría al grupo HPC de tamaño medio actual. El diseño representa un salto radical en el rendimiento y, si se implementa, cumpliría la promesa del procesamiento a exaescala.

La arquitectura, conocida como la Corona, concebido por primera vez en 2008, consta de una CPU de 256 núcleos, un módulo de memoria óptica, nanofotónica integrada y apilamiento de chips 3D mediante TSV (through-silicon-via). A plena potencia, la Corona debería ofrecer 10 teraflops de rendimiento. Esto supone una tecnología de proceso CMOS de 16 nm, que se espera que esté disponible en 2017.

El diseño de Corona está dirigido exactamente a tipos de aplicaciones con uso intensivo de datos, cuya velocidad está limitada por la creciente brecha entre el rendimiento de la CPU y el ancho de banda disponible para DRAM, el llamado muro de memoria. Básicamente, cualquier carga de trabajo cuyos datos no quepan en la memoria caché del procesador es un candidato. Esto incluye no solo las aplicaciones tradicionales de big data, sino también una gran cantidad de interesantes simulaciones de HPC y códigos de análisis que tienen que manipular conjuntos de datos grandes o irregulares y, por lo tanto, están limitados por la memoria.

A nivel de CPU, Corona contiene 256 núcleos, cada uno de los cuales admite hasta cuatro subprocesos simultáneamente. Los núcleos Corona en sí mismos no son nada exóticos. Los investigadores de HP originalmente especularon que las arquitecturas de núcleo de CPU de bajo consumo Intel x86 Penryn y Silverthorne para sus simulaciones de diseño, pero presumiblemente podrían ser reemplazadas por ARM u otros diseños de bajo consumo.

El procesador está dividido en 16 «grupos» de cuatro núcleos, con un controlador de memoria integrado en cada grupo. El fundamento de la jerarquía es garantizar que el ancho de banda de la memoria crezca junto con el número de núcleos y que el acceso a la memoria local mantenga una latencia baja.

El procesador está equipado con el controlador de memoria / caché L2, electrónica analógica y matriz óptica (que incluye láser en chip). Todo está vinculado por una barra transversal de multiplexación por división de longitud de onda densa (DWDM) de 20 TB / seg, que permite la coherencia de la caché entre los núcleos, así como un acceso súper rápido a esa caché.

El módulo de memoria, conocido como OCM (memoria conectada ópticamente), es una pila de chips separada que consta de chips DRAM, más la matriz óptica y la interfaz. Está conectado a la pila de CPU a 10 TB / seg todavía bastante impresionante.

Para poner eso en perspectiva, el grupo actual de procesadores comerciales tiene que arreglárselas con solo una fracción de ese ancho de banda. Los últimos Intel E5-2600 Xeons de 8 núcleos, por ejemplo, pueden manejar alrededor de 80 GB / s de ancho de banda de memoria, y la popular CPU SPARC64 VIIIfx para computadoras K admite 64 GB / s. Las GPU, que generalmente admiten tubos de memoria más grandes (pero deben alimentar cientos de núcleos), también están limitadas por el ancho de banda. La tarjeta Tesla más rápida de NVIDIA, la M2090, alcanza un máximo de 177 GB / seg.

La función principal de la interconexión óptica de Corona es corregir el empeoramiento de la relación byte / flop del que se han estado quejando los HPC durante más de una década. Para aplicaciones con limitaciones de memoria, es preferible tener una proporción de bytes a flop de al menos uno. En los buenos tiempos de finales del siglo XX, las computadoras daban 8 bytes o más por flop. Ahora, para las CPU y GPU actuales, es entre la mitad y un cuarto de byte por flop.

Las principales razones de la mala relación son las limitaciones de los pines en los procesadores multinúcleo, la incapacidad de extender los enlaces de comunicación a nivel de chip en todo un nodo o computadora y los costos de energía de la señalización eléctrica. La fotónica mejora estos problemas significativamente, ya que la luz es un medio de comunicación mucho más eficiente que los electrones, algo que los proveedores de redes de largo alcance descubrieron hace mucho tiempo.

La eficiencia energética, en particular, es un sello distintivo de la comunicación fotónica. Los investigadores de HP calculan que un sistema de memoria que utiliza una interconexión eléctrica para enviar 10 GB / seg de datos a DRAM requeriría 80 vatios. Al usar nanofotónica y DRAM optimizada para leer o escribir solo una fila de caché a la vez, esperan obtener el mismo ancho de banda con solo 8 vatios.

El truco consiste en colocar el hardware óptico sobre el silicio. Gracias a los recientes avances en fotónica integrada, la tecnología se está acercando. Por ejemplo, el diseño Corona especifica dióxido de silicio y cristalino para guías de ondas, que son dos materiales comúnmente utilizados en la fabricación de CMOS. Un poco más exótico es el uso de germanio para los receptores (para absorber la luz y volver a convertirla en señales eléctricas), un material menos utilizado, pero aún compatible con CMOS. Finalmente, para la fuente de luz, los diseñadores de Corona optaron por láseres de modo bloqueado, ya que creen que un solo dispositivo puede entregar hasta 64 longitudes de onda de luz para la interconexión DWDM.

Usando SPLASH-2, la segunda versión del paquete de pruebas de Stanford Parallel Applications for Shared Memory, los investigadores de HP demostraron una mejora de rendimiento de 2 a 6 veces en el Corona en comparación con un sistema similar equipado con una interconexión eléctrica, y estos aumentos de velocidades se lograron utilizando mucha menos energía. Ellos también mostró mejoras significativas en el rendimiento en cinco de los seis puntos de referencia del HPC Challenge: PTRANS (22X), STREAM (19X), GUPS (19X), MPI (19X), FFT (2X). DGEMM, que no se limita al ancho de banda, no mostró ninguna mejora.

Sin embargo, no todo es una maravilla. La producción de chips 3D y la tecnología TSV aún están en desarrollo. Y la integración de hardware fotónico mediante CMOS está en su infancia. Pero la fotónica integrada, el apilamiento de chips 3D y el uso de núcleos de bajo consumo para la informática son todas tecnologías de moda ahora, especialmente para aquellos en la comunidad de supercomputadoras que buscan la exaescala. El proyecto UHPC (ahora aparentemente atrapado en la Fase 1), cuyo objetivo era desarrollar computación de bajo consumo a una escala extrema, atrajo propuestas de Intel, MIT, NVIDIA y Sandia que incorporaron una o más de estas tecnologías.

Con Corona, sin embargo, obtienes el paquete completo, por así decirlo. Pero todo el trabajo hasta la fecha parece haberse realizado con hardware simulado y los planes para crear un prototipo funcional no se han mencionado en ninguno de los trabajos de investigación. Por lo tanto, queda por ver si se pretende que siga siendo un proyecto de investigación en HP o algo que se convierta en una oferta comercial.

No te olvides compartir en en tu Twitter y Facebook para que tus amigos lo disfruten

??? ? ? ???

Comparte