NVIDIA ejecuta la GPU Tesla

Hola, ¿qué tal colega?. Yo soy Simón Sánchez y esta vez hablaremos sobre NVIDIA ejecuta la GPU Tesla

El fabricante de GPU NVIDIA ha aumentado la cantidad de núcleos y la velocidad de reloj de su procesador Tesla GPU. El nuevo módulo de servidor M2090 ofrece 665 gigaflops de doble precisión, lo que representa un aumento de casi un 30% con respecto a la pieza Tesla de la generación anterior. El ancho de banda de la memoria en el dispositivo también se ha aumentado, de 150 GB / segundo a 178 GB / segundo. La nueva GPU aumenta el rendimiento de manera significativa a través de una serie de códigos HPC.

El gran cambio para la nueva GPU son los núcleos CUDA adicionales: de 448 en la generación anterior M2070 a 512 en la M2090. El diseño de la GPU Fermi (serie 20) se diseñó desde el principio para llegar a 512 núcleos, pero en la versión original solo logró llegar a 448.

Según Sumit Gupta, gerente senior de productos de NVIDIA para el Grupo Tesla, esto se debió al hecho de que el diseño original de Fermi y la tecnología de proceso de 40 nm del fabricante de chips TSMC (Taiwan Semiconductor Manufacturing Company) solo podían contener la cantidad de núcleos menos que la envolvente de potencia con la que se sentían cómodos, que en este caso era de 225 vatios. Con un diseño de procesador optimizado y un proceso optimizado de 40 nm, NVIDIA y TSMC pudieron obtener los 512 núcleos completos en el nuevo chip. Además, había suficiente margen térmico para aumentar el reloj de la GPU de 1,15 GHz a 1,30 GHz.

Asimismo, un reloj más rápido en el lado de la memoria representó el salto de ancho de banda allí. En este caso, aumentaron la velocidad de 1,56 GHz a 1,85 GHz, aumentando el ancho de banda hacia y desde la memoria GDDR5 local en casi un 19% (de 150 GB / segundo a 178 GB / segundo). Esto es todo un éxito, especialmente para los códigos sensibles a los cuellos de botella de la memoria.

El M2090 más rápido logró ofrecer entre un 20 y un 30 por ciento más de rendimiento en un número clave de códigos de procesamiento de ingeniería, en comparación con la ejecución de software en el hardware M2070 anterior. Estos incluyen una ejecución un 25% más rápida para Linpack, 20% para la migración en el tiempo de Kirchoff (petróleo y gas), 30% para Wang-Landau / LSMS (ciencia de materiales), 20% para Abaqus FEA de SIMULIA (producción) y más del 22% AMBER (dinámica molecular / ciencias de la vida).

AMBER, un código ampliamente utilizado para simulaciones biomoleculares, logró un aumento adicional en el rendimiento de la GPU con una mayor optimización en el lado del software. Según NVIDIA, la combinación de hardware y software más rápidos permite a los investigadores usar solo cuatro GPU para ejecutar simulaciones que hasta hace poco requerían una supercomputadora o un clúster de CPU de buen tamaño.

Un sistema quad-M2090, encapsulado en uno o dos servidores, puede entregar 69 nanosegundos de simulaciones biomoleculares por día. (En septiembre pasado, en la Conferencia de Tecnología de GPU, NVIDIA informó que un clúster IBM iDataPlex con ocho GPU logró 52 ns / día con AMBER). Si bien puede no parecer la ejecución más rápida para el giro molecular, representa el punto más alto para las simulaciones AMBER. en cualquier máquina, supercomputadora u otra. Como resultado, los científicos con un presupuesto solo departamental pueden comprar su propio sistema que ejecuta AMBER a niveles que antes solo eran posibles en los laboratorios nacionales.

De hecho, conseguir cuatro dispositivos gráficos en un servidor es relativamente fácil en estos días. Los fabricantes de equipos originales como Appro, ASUS y HP ofrecen tal densidad de GPU, con el HP ProLiant SL390 G7 (de la fama TSUBAME) disponible con hasta ocho GPU y dos CPU en una bandeja de 4U de ancho medio. Con el último hardware M2090 ahora disponible en el SL390 G7, las organizaciones con medios relativamente modestos pueden construir un sistema de 100 teraflop que quepa en un solo rack.

Esa relación GPU: CPU más pronunciada, ejemplificada por los equipos HP, se está volviendo cada vez más común, dice Gupta de NVIDIA. «A medida que más y más aplicaciones comiencen a aprovechar las GPU y esas aplicaciones se vuelvan más optimizadas para GPU, creo que la densidad de GPU para las CPU seguirá aumentando», dijo a Calendae.

Además, a medida que aumenta el número de núcleos de CPU, hay menos necesidad de más CPU en un servidor si el uso final es exclusivamente para aplicaciones altamente aceleradas por GPU. Dado que un núcleo de CPU puede controlar un dispositivo GPU, un solo procesador x86 de seis, ocho o 12 núcleos puede ser todo lo que se necesita para dichos códigos.

Todos los OEM con una oferta de GPU que utilicen dispositivos M20xx de NVIDIA deberían actualizarse al nuevo M2090. Además de HP, esto incluye IBM, SGI, Bull, Appro, ASUS, Supermicro, NextIO y Tyan. El M2090 también podría ser el hardware de la próxima variante equipada con GPU de la supercomputadora Cray XE6, programada para su lanzamiento a finales de este año. Aunque especulé la semana pasada que esta máquina podría obtener la GPU Kepler de próxima generación de NVIDIA, el hecho de que NVIDIA acaba de lanzar su pateador Tesla probablemente indica una espera de al menos seis meses para el próximo producto. De cualquier manera, dado que Kepler aterriza en el nodo de proceso de 28 nm de TSMC, NVIDIA tendrá que esperar hasta que esa fabulosa tecnología esté lo suficientemente madura para manejar proyectos complejos de transistores de miles de millones de dólares.

Todo esto significa que es muy probable que Kepler se lance en el primer semestre de 2012. Hasta entonces, el nuevo M2090 de clase Fermi llevará la carga de HPC para el fabricante de GPU. Aunque en teoría, NVIDIA podría modificar la GPU Tesla una vez más; con la arquitectura de próxima generación en el horizonte, probablemente haya pocas razones para hacerlo. «Ahora estamos mirando a Kepler», dice Gupta.

Puedes compartir en una historia de tu Instagram para que tus amigos lo disfruten

??? ? ? ???

Comparte