Texas Instruments produce sonido HPC con nuevos chips DSP multinúcleo

Hola, ¿qué tal colega?. Soy Simón Sánchez y en el día de hoy vamos a hablar sobre Texas Instruments produce sonido HPC con nuevos chips DSP multinúcleo

Algo curioso sucedió en el camino a las telecomunicaciones 4G. Cuando Texas Instruments (TI) agregó puntos inteligentes de punto flotante a su nuevo procesador de señal digital (DSP) para admitir el estándar inalámbrico de cuarta generación, se encontró con un chip comercial que tenía uno de los rendimientos flop / watt más impresionantes. del planeta. Y eso ha hecho que algunas personas de TI se pregunten si podrían explotarlo en el etéreo mundo de la informática de alto rendimiento.

Arnon Friedmann, gerente comercial de TI para DSP multinúcleo, y que ahora dirige un grupo de HPC en ciernes en la empresa, dice que el esfuerzo por crear una presencia informática de alto rendimiento con su última arquitectura DSP ya está en marcha y no. parece haber algo espectacular. “No hay duda de que el dispositivo es capaz de adaptarse a [HPC] productos «, dijo Friedmann a Calendae.» En realidad, es sólo una cuestión de qué tan bien se ejecutan las aplicaciones en el dispositivo «.

Según Friedmann, un «puñado» de universidades y clientes comerciales de HPC ya han expresado interés en la tecnología DSP y han colaborado con ingenieros de TI para llevar sus aplicaciones al nuevo DSP. «También estamos hablando con varias personas que fabrican sistemas HPC», dice. «No diría que verá nada de inmediato, pero estamos generando cierto interés».

La línea de productos DSP en el corazón de este esfuerzo es la nueva serie TMS320C66x (también conocida como C66x) de TI, un chip multinúcleo diseñado para estaciones base celulares 4G y controladores de redes de radio. Lanzado en noviembre de 2010, el C66x es un chip de 40 nm disponible en variantes de un solo núcleo, de doble núcleo, de cuatro núcleos y de ocho núcleos. Su característica más distintiva es la adición de instrucciones de punto flotante, que se han incorporado para admitir el procesamiento más complejo requerido para las comunicaciones inalámbricas 4G. Los DSP de la serie C64x de la generación anterior solo admitían matemáticas de punto fijo.

El C66x se implementa con la nueva arquitectura KeyStone de TI, que incorpora una arquitectura VLIW de ocho vías, una estructura de conmutación de alta velocidad llamada TeraNet, un navegador multinúcleo y un sistema DMA que gestiona el envío de paquetes a otros núcleos y periféricos. . Todos los productos C66x están equipados con 512 KB de caché L2 dedicada por núcleo, junto con 32 KB de caché L1 para instrucciones y datos.

En su implementación de 1,25 GHz de ocho núcleos, el C66x ofrece 160 gigaflops de precisión simple (SP), consumiendo solo 10 vatios de potencia. Funciona a unos impresionantes 16 SP gigaflops / vatio. La eficiencia energética es un sello distintivo de los DSP, en general, ya que generalmente ocupan sistemas (como las torres de estaciones base celulares y los controladores de redes de radio antes mencionados), donde la energía y la refrigeración son escasas.

El primer dispositivo basado en C66x compatible con HPC es una tarjeta PCIe, que cuenta con cuatro de los DSP de ocho núcleos que funcionan a 1.0 GHz. Construida por Advantech, un socio de TI, la tarjeta PCIe de longitud media ofrece 512 gigaflops SP a un modesto 50 vatio. La memoria integrada consta de 4 GB de RAM DDR3 a 1333 MHz, con compatibilidad total con ECC. También están trabajando en una tarjeta de longitud completa, con ocho DSP, el doble de memoria y el doble de rendimiento.

En comparación con las últimas tarjetas de la serie Tesla 20 de NVIDIA, que ofrecen 1331 gigaflop SP a 225 vatios, el hardware Advantech es el producto más impresionante, al menos desde el punto de vista del rendimiento máximo por vatio. La tarjeta equipada con DSP ofrece 10 gigaflops / vatio, mientras que el módulo NVIDIA Tesla genera 6 gigaflops / vatio. Son para fracasos de precisión simple. Para una precisión doble, el TI DSP ofrece 3/8 de rendimiento de precisión simple, mientras que la GPU Tesla ofrece 1/2. En ambos casos, sin embargo, TI DSP es la opción más eficiente energéticamente.

Cuando salgan las GPU Kepler en 2012 y aparezca el primer coprocesador Intel Many Integrated Core (MIC) en 2013, esos números de rendimiento por vatio deberían ser más competitivos, pero presumiblemente TI también puede cambiar su rendimiento DSP a una escala superior.

Al igual que NVIDIA e Intel, Texas Instruments puede aprovechar su posición de volumen en un mercado mucho más grande que HPC. En el caso de TI, esperan vender sus DSP C66x por millones cada año (como lo hicieron con la línea C64x de la generación anterior) para impulsar la creciente infraestructura inalámbrica 4G. La posición dominante de la empresa en ese segmento de mercado habla bien de los recursos que podrían emplear en esta arquitectura.

La pregunta abierta es cómo realizar el desarrollo de software de estilo HPC en DSP. La buena noticia es que los procesadores de señales digitales actúan más o menos como una CPU. A diferencia de las GPU o FPGA, TI DSP no requiere un lenguaje de programación especial y no necesita un procesador host para manejarlo. Así que toda la aplicación se puede ejecutar en el DSP, sin nada más elaborado que las herramientas tradicionales de lenguaje C, paralelizado con OpenMP y / o MPI. TI ofrece todo esto en su kit de desarrollo de software, que incluye un compilador de C, tiempo de ejecución, así como las matemáticas de punto flotante apropiadas y soporte para programación paralela. «Tenemos una buena experiencia en la ejecución de sistemas complejos en estos DSP», dice Friedmann.

HPC Group de TI se da cuenta de que necesitará mejorar sus herramientas de software para competir con los entornos de programación paralela más maduros que ofrecen Intel y NVIDIA. También están considerando portar OpenCL a su DSP, pero según Friedmann, les gustaría ver una mayor aceptación en la comunidad antes de embarcarse en este esfuerzo. Pero su tecnología de compilador DSP está madura, ya que se basa en una arquitectura VLIW de diez años que se ha perfeccionado durante ese período de tiempo. Agregar instrucciones de punto flotante resultó en una actualización relativamente simple del compilador base, dice Friedmann.

Los nuevos DSP C66x ya se están utilizando en cargas de trabajo similares a HPC en algunas aplicaciones especializadas como LCD y sistemas de inspección de panel plano semiconductor. En el pasado, estas configuraciones usaban cientos de DSP de punto fijo, pero con las piezas compatibles con FP ahora disponibles, pueden usar menos piezas y las aplicaciones se actualizan en consecuencia. También están siendo adoptados en sistemas de radar e imágenes médicas, que, una vez más, pueden aprovechar las nuevas capacidades de punto flotante del DSP. En todos estos casos, el rendimiento es un elemento clave, ya que estas aplicaciones se basan en un procesamiento intensivo de cómputo en tiempo real.

Actualmente, la compañía está evaluando su nuevo procesador de punto flotante para demostrar el alcance de su potencial de HPC. Puede haber algunos tipos de algoritmos en los que el DSP sea particularmente experto. Por ejemplo, ejecutar transformadas rápidas de Fourier (FFT) en el C66x es de 8 a 10 veces más eficiente que usar las últimas GPU, según Friedmann. En breve estarán disponibles los resultados de las pruebas comparativas específicas.

El esfuerzo informático de alto rendimiento de TI todavía está en su infancia, ya que aprenden a navegar en el mercado de HPC y maniobrar alrededor de jugadores de HPC establecidos de Intel, NVIDIA y AMD. Mientras tanto, un equipo de 8-10 ingenieros de TI se mantuvo ocupado recopilando aplicaciones de clientes interesados ​​y ayudando a traer y comparar códigos. En SC11 el próximo mes, Friedmann mostrará la placa DSP y hablará sobre el potencial de la tecnología. «Espero que se ponga interesante en 2012», dice Friedmann.

No te olvides compartir en una historia de tu Instagram para que tus colegas lo flipen

??? ? ? ???

Comparte