Intel: las CPU prevalecerán sobre los aceleradores en HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Intel: las CPU prevalecerán sobre los aceleradores en HPC

Hola, ¿qué tal colega?. En el teclado Simón Sánchez y en esta ocasión vamos a hablar sobre Intel: las CPU prevalecerán sobre los aceleradores en HPC

Los aceleradores de hardware HPC (GPU, FPGA, procesador Cell y ASIC personalizado, como el dispositivo de punto flotante ClearSpeed) han capturado la imaginación de los usuarios de HPC que buscan un mayor rendimiento y un menor consumo de energía. Si bien estos motores de descarga continúan mostrando resultados de rendimiento impresionantes para cargas de trabajo de supercomputación, Intel se apega a sus armas de CPU para ofrecer HPC a un mercado más amplio. Según Richard Dracott, gerente general de Intel de la unidad de negocios de Computación de alto rendimiento de la compañía, los procesadores de CPU multinúcleo y, en última instancia, los procesadores de muchos núcleos prevalecerán sobre las soluciones de aceleración en la industria de servicios financieros, así como para las aplicaciones HPC en general.

Dracott dice que ya ha visto el modelo en el que las personas se sienten atraídas por hardware especializado para aplicaciones particulares. Pero, en última instancia, dice, las CPU genéricas ofrecen el mejor ROI. Dracott dice que para aprovechar la aceleración en HPC, los desarrolladores aún necesitan modificar el software, por lo que también podrían modificarlo para multinúcleo. «Lo que estamos encontrando es que si alguien se compromete a optimizar una aplicación para aprovechar un motor de descarga, sea lo que sea, lo primero que tiene que hacer es paralelizar su código», me dijo.

Para Intel, la compañía ha desarrollado un conjunto completo de herramientas y bibliotecas para ayudar a los desarrolladores convencionales a paralelizar su código para hardware x86. Con Dunnington de seis núcleos en el campo hoy y los procesadores Nehalem de ocho núcleos a la vuelta de la esquina, los desarrolladores necesitarán toda la ayuda que puedan obtener para aprovechar al máximo la potencia de procesamiento adicional.

De hecho, sin embargo, agregar paralelismo multiproceso basado en CPU a su aplicación tiende a ser más difícil que agregar paralelismo de datos. Este último es el único tipo de aceleradores de paralelismo en los que son buenos. Y si su carga de trabajo puede aprovechar el paralelismo de datos, esto se puede hacer de manera muy simple. Con la llegada de CUDA de NVIDIA, Brook + de AMD, la plataforma de desarrollo RapidMind, los marcos basados ​​en FPGA y los SDK ClearSpeed, y otros proveedores, la programación de estos dispositivos se ha vuelto más fácil.

Y podría ser aún más fácil. El desarrollador del compilador PGI, Michael Wolfe, cree que no hay ninguna razón por la que los compiladores de lenguaje de alto nivel no puedan aprovechar estos motores de descarga. «Creemos que podemos producir compiladores que permitan la migración evolutiva de los procesadores actuales a los aceleradores y que los aceleradores proporcionan el camino más prometedor hacia el alto rendimiento en el futuro», escribió recientemente en su columna Calendae.

Por supuesto, las CPU todavía no se mantienen firmes desde el punto de vista del rendimiento. Según Dracott, cuando se les preguntó a los clientes financieros cuánto tiempo tendría que mantenerse una ventaja de rendimiento de 10 veces mayor que una solución basada en CPU para que valiera la pena, respondieron de 2 a 3 años como máximo. de 7 años. Para los entornos de producción, la inversión de software necesaria para incorporar aceleradores a la mezcla debe tener en cuenta la repetición de pruebas y la recertificación. En el caso de la industria de servicios financieros (debido a requisitos reglamentarios y otros requisitos legales), esto puede ser una parte importante del esfuerzo. «Y cuando realmente invierten en el software, el genérico [CPU] el hardware se ha recuperado ”, dice Dracott.

Podría ser. Muchas aplicaciones ya están obteniendo un rendimiento mucho mejor que 10 veces mayor con la aceleración de hardware. SciComp, una empresa que ofrece software de precios derivados, anunció recientemente un «aumento de 20 a 100 veces en la velocidad de ejecución» para sus modelos de precios. A otras cargas de trabajo de HPC les fue aún mejor. Y aunque el hardware de la CPU eventualmente se pondrá al día con los aceleradores actuales, todo el silicio está subiendo en la escala de rendimiento, más o menos según la ley de Moore. Entonces, con toda probabilidad, se mantendrá la brecha de rendimiento del acelerador de la CPU.

Sin embargo, los aceleradores tienen una pendiente más empinada para subir en algunas áreas. Con la excepción del procesador Cell, en el que se integra un núcleo PowerPC, todos los aceleradores requieren una conexión a un host de CPU. Dependiendo de la naturaleza de la conexión (PCI, HyperTransport, QuickPath, etc.), el motor de descarga puede estar hambriento de datos debido a limitaciones de ancho de banda. De hecho, el tiempo dedicado a hablar con el host puede consumir cualquier mejora de rendimiento lograda mediante una ejecución más rápida. Más almacenamiento local en el acelerador y una programación cuidadosa a menudo pueden mitigar este problema, pero la CPU de propósito general tiene una ventaja incorporada aquí.

Dracott señala que la falta de capacidad de punto flotante de doble precisión y de memoria de código de corrección de errores (ECC) limita la implementación del acelerador en muchos entornos de producción de HPC. Esto es especialmente cierto en el espacio financiero, donde la previsibilidad y la fiabilidad de los resultados son fundamentales. Pero la última generación de motores de descarga son compatibles con DP hasta cierto punto y solo las GPU tienen un problema de ECC. Los ASIC ClearSpeed, en particular, tienen soporte de 64 bits a máxima velocidad además de protección ECC de nivel empresarial. Las GPU, por otro lado, tendrán que lidiar con alguna protección sistemática contra errores suaves para convertirse en una solución más popular para la informática técnica. Tengo que creer que NVIDIA y AMD eventualmente agregarán esta capacidad a sus ofertas de computación GPU.

Según Dracott, las deficiencias en las soluciones de aceleración impidieron gran parte de la implementación en el mundo real en situaciones de producción. Él piensa que los usuarios continuarán experimentando con motores de descarga durante muchos años más, pero con la excepción de algunos nichos de aplicaciones, la mayoría terminará regresando a la CPU. Pero el interés en estas soluciones más exóticas sigue siendo alto en la comunidad de HPC. Dennis Barker de Calendae, en la conferencia High Performance on Wall Street de esta semana, informa que las empresas de aceleradores de hardware estaban atrayendo a una multitud decente y que numerosos productos FPGA acelerados ya están en el mercado. «Los vendedores de estos productos estaban por todas partes, sus puestos estaban ocupados y varias sesiones sobre el tema estaban de pie», escribe.

Y a pesar del compromiso de Intel con la CPU x86 y la visión de Dracott del futuro de los aceleradores, la compañía ha evolucionado su postura sobre la aceleración del coprocesador. La iniciativa Geneseo de Intel (e IBM) para extender PCI Express para motores de descarga y sus planes de licenciar la nueva tecnología de interconexión QuickPath parecerían indicar que la compañía no ha descontado completamente la aceleración. AMD, por supuesto, tiene Torenzza, su tecnología de integración de coprocesadores. Queda por ver si Intel solo está cubriendo sus apuestas para frustrar a su rival o si está realmente comprometido a compartir el mundo de la informática con otras arquitecturas.

Deberías compartir en tus redes sociales para que tus colegas lo sepan

??? ? ? ???

Comparte