Aumente el rendimiento con las últimas computadoras aceleradas por FPGA

Hola, ¿qué tal colega?. Yo soy Simón Sánchez y en esta ocasión te voy a contar sobre Aumente el rendimiento con las últimas computadoras aceleradas por FPGA

Convey Computer ha lanzado su nuevo servidor de «núcleo híbrido» x86-FPGA. Apodado HC-2, representa la primera actualización importante del sistema desde que la compañía presentó el producto HC-1 en 2008. La nueva oferta promete un rendimiento mucho mejor, pero con un rango de precios similar al del sistema original.

El nuevo HC-2 mantiene la arquitectura básica establecida por Convey con el HC-1 de un host x86 pegado a una placa FPGA personalizada que actúa como coprocesador. Como su predecesora, la HC-2 no es una máquina de fracasos. El coprocesador basado en FPGA está diseñado para acelerar cargas de trabajo intensivas en datos, como la alineación de secuencias del genoma y otros tipos de cargas de trabajo de minería de datos. El subsistema de memoria del coprocesador está construido como el de una supercomputadora vectorial, capaz de proporcionar lecturas y escrituras en un ancho de banda mucho mayor que el de un servidor estándar.

Si bien hay algunos cambios importantes de hardware con el HC-2, se ha mantenido la compatibilidad binaria para que el software desarrollado para la plataforma HC-1 original pueda ejecutarse tal cual en la nueva plataforma. Como antes, el subsistema del coprocesador se aprovecha a través de las bibliotecas y herramientas proporcionadas por Convey, que permiten al usuario crear (o reutilizar) instrucciones específicas de la aplicación personalizadas para acelerar los códigos. Y debido a que la plataforma es esencialmente un servidor Linux x86, el software HPC estándar, como MPI o un administrador de carga de trabajo, se ejecuta en la plataforma de forma transparente.

En cuanto al hardware, la mayoría de las actualizaciones de HC-2 están en el lado del host, donde Convey ha reemplazado el antiguo Intel Xeon X5400 («Harpertown) usado en el HC-1 con una CPU más reciente, el Xeon X5600. («Westmere») y Xeon E5-2600 («Sandy Bridge»). El hardware basado en Westmere utilizará la CPU X5690 de 6 núcleos a 2,93 GHz, mientras que los servidores basados ​​en Sandy Bridge estarán disponibles en dos versiones base, 4 núcleos y 8 núcleos, pero se ofrece a velocidades de reloj entre 2.4 y 3.3 GHz. El coprocesador usará los mismos FPGA Xilinx que se encuentran en el HC-1: Virtex-5 para el servidor base y Virtex -6 para la variante «ex» de mayor rendimiento.

La capacidad de memoria es ligeramente superior incluso en servidores nuevos. El sistema basado en Westmere puede alcanzar hasta 192 GB, lo que supone un gran salto desde el límite de 128 GB del equipo HC-1. Sin embargo, gracias al nuevo diseño de Sandy Bridge, los servidores equipados con estas CPU pueden equiparse con la friolera de 768 GB de memoria. La capacidad de memoria de la placa del coprocesador FPGA alcanzará los 64 GB, la misma que tenía en el HC-1.

La E / S también ha comenzado. En lugar de un solo puerto PCIe Gen 2, una interfaz SATA, 1 a 3 unidades SATA intercambiables en caliente y una unidad óptica IDE, los servidores más nuevos tienen hasta 8 unidades SATA, 2 ranuras para módulos de E / S Intel y 5 puertos PCIe Gen 3 (aunque no todas estas opciones están disponibles en todas las configuraciones). Dado que se trata esencialmente de máquinas que procesan datos, se debe agradecer enormemente el soporte de E / S adicional.

El mayor cambio de diseño fue el resultado de la actualización de la CPU de Westmere / Sandy Bridge. Esto obligó a los ingenieros de Convey a tomar una decisión sobre la interconexión entre el coprocesador y el host, que en el HC-1 equipado con Harpertown se basaba en el bus frontal (FSB) de Intel. Dado que Harpertown era el último chip Xeon basado en FSB, con todo el diseño posterior utilizando la nueva interconexión QuickPath (QPI), Convey tuvo que permanecer nativo y construir un sistema basado en QPI o usar PCIe. Optaron por este último, que, dado que PCIe es un estándar de la industria, les ha dado la máxima flexibilidad en el futuro.

El cambio a PCIe también liberó un socket de CPU que estaba ocupado por la interfaz del coprocesador en el esquema FSB. Por lo tanto, los servidores HC-2 pueden ser todos servidores de dos sockets en lugar de los sistemas de un solo socket del HC-1. Este es un desarrollo fortuito ya que, según el CEO de Convey, Bruce Toal, había un poco de desequilibrio en el diseño original.

En particular, con solo un Xeon dual o quad-core en el HC-1, en algunos casos no hubo suficiente rendimiento x86 para mantenerse al día con un coprocesador FPGA cuádruple totalmente equipado mientras manejaba E / S al mismo tiempo. con la CPU extra en el zócalo liberada (sin mencionar los núcleos más grandes de Westmere y Sandy Bridge), el host tiene muchos más ciclos disponibles para alimentar el coprocesador y los dispositivos de E / S.

La compañía afirma una mejora de 2 a 3 veces en el rendimiento de la aplicación para el HC-2 con respecto al HC-1 original y un aumento de rendimiento de 10 a 50 veces en comparación con un servidor x86 estándar. Por ejemplo, un servidor x86 de 12 núcleos que ejecuta una aplicación de secuenciación del genoma utilizando el algoritmo Burrows-Wheeler Aligner (BWA) puede alinear poco más de 7.000 secuencias por segundo. La generación anterior HC-1ex también logró 27.000 alineaciones por segundo, pero con el nuevo equipo HC-2ex, se alcanzan más de 66.000 alineaciones. Se ha demostrado un aumento similar en el rendimiento con BLAST, la herramienta básica de búsqueda de alineación local.

Tan impresionante como es, la eficiencia energética del nuevo sistema es igualmente notable. Aunque los servidores basados ​​en CPU Sandy Bridge de mayor rendimiento requieren una fuente de alimentación de 1800 vatios, la mayoría de las configuraciones de HC-2 caben en una caja de 1570 vatios. Es solo un poco más alta que la fuente de alimentación de 1520 vatios del HC-1ex original de gama alta, pero como la nueva versión promete ser al menos dos veces más rápida, el rendimiento por vatio ha mejorado sustancialmente.

Esto juega en uno de los puntos principales de Convey para su solución híbrida: reducir el costo total de propiedad (TCO). Y si estos números de potencia y rendimiento de HC-2 se mantienen, esa historia solo ha mejorado. La compañía dice que solo se requiere aproximadamente 1/15 de la cantidad de nodos HC-2ex para una aplicación bioinformática típica en comparación con ejecutar el mismo trabajo en un clúster x86 estándar (Westmere de doble socket). Si bien cada nodo de Convey consumirá más energía que un servidor básico, aún opera hasta un 83% menos de energía total para una cantidad determinada de rendimiento de la aplicación. Asimismo, el espacio disponible para el centro de datos es solo una fracción de lo que se necesitaría para una configuración totalmente x86. En general, Convey estima un ahorro de TCO de tres años del 75%.

Toal dice que es un poco más fácil convencer a los usuarios comerciales de los beneficios del TCO, ya que son más sensibles al costo de las operaciones del centro de datos que sus contrapartes académicas. En entornos de investigación, la factura de la luz la suele pagar la institución, por lo que estos usuarios suelen preocuparse menos por la eficiencia energética. «Tienes que encontrar al tipo que tiene el presupuesto de energía», dice Toal.

Sin embargo, una gran parte del negocio de Convey se realiza con clientes no comerciales en sus cuatro principales dominios de aplicación: bioinformática, gobierno, telecomunicaciones e investigación. Como era de esperar, para una solución basada en FPGA, la bioinformática es la vertical más grande, que, según Toal, representa el 36% de sus envíos. El gobierno, que incluye muchas aplicaciones clasificadas (piense en la minería de datos de seguridad nacional) y el trabajo de defensa, ocupa el segundo lugar con un 21%. El espacio de investigación real, centrado en las implementaciones en los laboratorios nacionales del DOE, como Oak Ridge y Lawrence Berkeley National Labs, representa el 18% del negocio. Por último, está el mercado de las telecomunicaciones, que representa el 17% de los envíos de Convey.

Los precios del sistema en las nuevas ofertas de HC-2 están Online con los productos HC-1. Un servidor HC-2 basado en Westmere con una configuración mínima comienza en $ 40,000; caja a juego de Sandy Bridge comienza en $ 41K. Agregar procesadores más rápidos y más memoria aumentará el precio en consecuencia. Los servidores basados ​​en Westmere están disponibles ahora y se han estado enviando durante algún tiempo, incluida una distribución a Jackson Laboratory (JAX), Maine. El equipo de Sandy Bridge no estará disponible hasta julio.

Artículos relacionados

Transmitir las curvas al punto de inflexión

Convey lanza una plataforma de núcleo híbrido de segunda generación

Startup ofrece un nuevo giro a la supercomputación reconfigurable

Puedes compartir en tu Facebook para que tus colegas lo flipen

??? ? ? ???

Comparte