Startup lanza la tecnología de aceleración de punto flotante Manycore - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Startup lanza la tecnología de aceleración de punto flotante Manycore

Hola de nuevo. Soy Simón Sánchez y en el día de hoy vamos a hablar sobre Startup lanza la tecnología de aceleración de punto flotante Manycore

La puesta en marcha de semiconductores Adapteva demostró una arquitectura de procesador de punto flotante de muchos núcleos que promete diez veces más rendimiento por vatio que la mejor tecnología de chips del mercado actual. La arquitectura, llamada Epiphany, está inicialmente dirigida a aplicaciones integradas, pero tiene aplicabilidad general a todas las cargas de trabajo intensivas en matemáticas en informática móvil, telecomunicaciones e informática de alto rendimiento.

Epiphany nació de una idea del CEO y fundador de Adapteva, Andreas Olofsson, quien pasó casi 15 años como diseñador de chips, primero para Texas Instruments y luego para Analog Devices. Olofsson logró poner en marcha su empresa por menos de 2 millones de dólares, pagando inicialmente de su propio bolsillo para dirigir la empresa. Posteriormente, un inversor ángel recaudó $ 275,000, seguido de una inversión de $ 1.5 millones de BittWare, un fabricante de tarjetas DSP y FPGA.

Como diseñador de chips, Olofsson se ha centrado principalmente en los diseños de DSP, que según él es un modelo excelente para procesadores que necesitan optimizar el movimiento de datos y el rendimiento en un entorno de energía extremadamente limitada. Sin embargo, a diferencia de un DSP, Epiphany es un diseño genérico que puede ejecutar cualquier programa ANSI C.

La arquitectura es una malla 2D de núcleos RISC genéricos conectados a través de una red en chip de gran ancho de banda y baja latencia. La implementación actual tiene 16 núcleos, pero ya se está trabajando en una versión de 4000 núcleos. El diseño es similar a Tileramuchos chips de núcleo, pero con un enfoque particular en la ejecución de punto flotante. Como dice Olofsson: «Podemos ejecutar cualquier programa fuera de la caja, pero lo que realmente brilla es el procesamiento de punto flotante».

En concreto, la arquitectura está diseñada para ejecutar los ciclos internos de códigos matemáticos con la máxima eficiencia. Las cargas de trabajo como el procesamiento de imágenes, el reconocimiento de voz y cualquier otro tipo de código de coincidencia de patrones que se base en gran medida en las matemáticas vectoriales están en la timonera de Epiphany.

Imagina un futuro iPhone 9 con Epiphany a bordo. Es posible que pueda realizar una llamada de conferencia entre personas en el Reino Unido, China e India y las tres personas escucharían la conversación en su idioma nativo gracias a la traducción en tiempo real. O el propio teléfono podría tomar una foto de una multitud de personas, y el software de reconocimiento de imágenes incorporado identificará instantáneamente las caras y le dirá quiénes son. Hoy en día, este tipo de aplicaciones son posibles en un clúster de HPC (o quizás en una estación de trabajo acelerada por GPU realmente mejorada), pero hacer que estén disponibles en dispositivos móviles como teléfonos inteligentes y tabletas sigue siendo ciencia ficción.

Además del énfasis en la potencia de punto flotante, el diseño de Epiphany se desvía de las CPU tradicionales de muchas maneras. Para empezar, el procesador no tiene caché de hardware. Cada núcleo tiene 32 KB de memoria local, a la que pueden acceder todos los demás núcleos, pero el acceso a esta memoria debe realizarse explícitamente en el software. Este es un modelo de programación muy diferente al que se usa en las CPU tradicionales en la actualidad. «Una vez que se elimina la jerarquía de la caché, muchas de las ineficiencias de las arquitecturas genéricas desaparecen», dice Olofsson.

Sin la caché de hardware, mover datos se vuelve mucho más eficiente. Esencialmente, la aplicación puede copiar datos explícitamente sin gastos generales (sin pérdida de caché ni copia de datos no utilizados). Pero Olofsson admite que este modelo no funciona para la gran mayoría del código heredado que asume que hay un «motor de caché mágico» que introduce los datos automáticamente.

La otra gran característica de Epiphany es su interconexión en chip de alto rendimiento, que permite que los datos pasen entre núcleos prácticamente sin gastos generales. En arquitecturas tradicionales con jerarquías de memoria, los costos de comunicación tienden a ser extremadamente altos. Aquí son esencialmente gratis, dice Olofsson. Con los motores de procesamiento livianos y los tubos de grasa de Epiphany, incluso los paquetes de datos muy pequeños se pueden enviar entre núcleos sin afectar el rendimiento.

Olofsson dice que el software óptimo para tal arquitectura es el paso de mensajes, pero no necesariamente MPI, diseñado con la comunicación entre procesadores en mente. Al menos inicialmente, la intención es adoptar MCAPI (API de comunicaciones multinúcleo), un marco para el paso de mensajes optimizado para arquitecturas de muchos núcleos.

El diseño de referencia de Epiphany, demostrado esta semana en la Multicore Expo en San José, California, es un procesador de 16 núcleos que funciona a 1 GHz relativamente modesto, y cada núcleo proporciona 2 gigaflops. Presume de una eficiencia máxima de 35 gigaflops / vatio, aunque en esta implementación actual estamos hablando de FP de 32 bits (precisión simple). A pesar de esto, supera a las GPU de juego de gama alta actuales en el mercado, que en el modo de precisión simple pueden alcanzar alrededor de 10 gigaflops / vatio (la última porción orientada a computación de NVIDIA Tesla alcanza alrededor de la mitad). Una CPU convencional como la Power7 ofrece alrededor de 1,3 gigaflops / vatio, mientras que los últimos Xeon alcanzan los modestos 0,5 gigaflops / vatio.

Aunque el diseño de Adapteva ahorra toda la inteligencia, también reclama un rendimiento decente en este ámbito. Según Olofsson, un solo núcleo Epiphany es casi igual a un núcleo ARM11 MPCore en la puntuación de CoreMark. Pero el silicio Adapteva no está diseñado para reemplazar ARM o, para el caso, cualquier otra CPU genérica. Estas CPU ya realizan bastante bien la gran base de código de códigos secuenciales. Además, Epiphany carece de la jerarquía de memoria y el soporte de paginación necesarios para ejecutar software a nivel de sistema, como sistemas operativos o hipervisores.

Olofsson cree que la primera gran oportunidad para Epiphany son los dispositivos móviles de consumo y los sistemas integrados para el ejército, donde la eficiencia energética es la consideración principal. Pero la tecnología Adapteva no está destinada a utilizarse como un coprocesador independiente, como ClearSpeed ​​intentó sin éxito con su oferta CSX600. Más bien, Adapteva tiene la intención de otorgar licencias de propiedad intelectual (IP) a OEM y proveedores de chips.

Para los dispositivos móviles en particular, la idea sería que los diseñadores de sistemas integraran la IP de Epiphany en un diseño más genérico, muy probablemente una implementación ARM. (Los 16 núcleos de Epiphany ocuparían solo una fracción del espacio y la potencia de un chip ARM de gama alta). Al igual que el diseño CPU-GPU Fusion de AMD y los próximos chips ARM-GPU «Project Denver» de NVIDIA, la lógica de Epiphany requeriría el de un acelerador FP en chip en un procesador heterogéneo.

El BittWare mencionado anteriormente ya está fabricando la tecnología como OEM. En este caso, la empresa utiliza el chip Epiphany como acelerador de punto flotante en una placa de procesamiento de señales basada en FPGA para aplicaciones militares. Con una gran cantidad de matemáticas descargadas al coprocesador, la FPGA es libre de concentrarse en la parte de la aplicación que no es de procesamiento FP.

Actualmente, Adapteva ofrece un kit de desarrollo esencial para su hardware, que incluye un compilador ANSI C basado en GNU, un depurador de gdb, un simulador y Eclipse IDE para la gestión de proyectos. Lo que falta es el modelo en tiempo de ejecución y las bibliotecas de comunicación. Para ello, consiguieron un socio comercial anónimo que está ayudando a llenar la pila de software y que, según Olofsson, ha creado un entorno adecuado para programar millones de núcleos.

Aunque el diseño de referencia de 32 bits y 16 núcleos es el único disponible en la actualidad, Adapteva también está trabajando en una implementación de 64 bits de la arquitectura que planea implementar en la segunda mitad del año. En el nodo de 28 nm, Olofsson cree que puede obtener hasta 1000 núcleos de punto flotante de 64 bits en el dado.

Para los diseños de 32 bits, la compañía ya completó el diseño para una implementación de 4.096 núcleos en tecnología de 28nm. Se espera que esta versión utilice solo 64 vatios de potencia y proporcione más de 4 teraflops de cómputo máximo (por lo tanto, entre 50 y 80 gigaflops / vatio). Olofsson dice que este diseño de núcleo 4K estará listo para fines de 2011.

Para la multitud de supercomputadoras que buscan hardware a exaescala, estos números de rendimiento por vatio son bastante convincentes. Tanto es así que Olofsson fue invitado a presentar su arquitectura en simposios realizados por Los Alamos National Lab y la organización PRACE en Europa. Estos usuarios de primer nivel esperan construir máquinas a exaescala capaces de entregar 50 gigaflops / vatio con doble precisión durante el período de 2018. / vatio.

Si bien las arquitecturas tradicionales como las GPU y otras tecnologías de muchos núcleos, como el procesador MIC de Intel, pueden evolucionar lo suficientemente rápido para cumplir este propósito, la tecnología Epiphany podría ofrecer un camino más lineal hacia tales niveles de rendimiento. Si Adapteva es capaz de establecerse en un mercado de volumen como los teléfonos inteligentes y las tabletas, la tecnología podría terminar en nuestras futuras supercomputadoras.

No te olvides compartir en tus redes sociales para que tus amigos lo sepan

??? ? ? ???

Comparte