Cuenca hidrográfica multinúcleo - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Cuenca hidrográfica multinúcleo

Hola, un placer verte por aquí. Yo soy Simón Sánchez y hoy hablaremos sobre Cuenca hidrográfica multinúcleo

Como muchos observadores de la industria, incluido yo mismo, veremos la introducción de una serie de nuevos chips de servidor x86 que ofrecen entre 6 y 12 núcleos durante los próximos meses. Si bien Intel y AMD ya han presentado procesadores de 6 núcleos («Dunnington» para Intel y «Istanbul» para AMD), los nuevos Xeon y Opterons establecerán algunas nuevas expectativas en el campo de los chips de servidor x86.

Por un lado, el «multi» en multinúcleo está a punto de volverse mucho más significativo. En lugar de simplemente duplicar la cantidad de núcleos, que era el modelo en el pasado, cuando la industria pasó en masa de uni-core a dual-core y a quad-core, ahora veremos procesadores con 2, 4, 6, 8 y 12 núcleos que llenan diferentes nichos en el espacio del servidor.

Este mes, se espera que Intel lance su procesador Westmere EP de 6 núcleos para plataformas de doble socket. Para sistemas de 4 zócalos y más, se espera el Nehalem EX de 8 núcleos para mediados de año. Intel también está planeando una variante Nehalem EX de 6 núcleos de velocidad más rápida, dirigida principalmente al mercado de HPC. Mientras tanto, AMD está a punto de lanzar sus Magny Cours Opterons de 8 y 12 núcleos casi al mismo tiempo que el lanzamiento del primer chip Westmere. Magny-Cours, sin embargo, admitirá servidores de 2 y 4 sockets.

Dada esta diversidad, los fabricantes de servidores tendrán muchas más opciones para equilibrar FLOP con capacidad de memoria, ancho de banda de memoria y E / S en diferentes nichos de productos. Esto es especialmente cierto para HPC, donde el problema de la pared de memoria es particularmente notable. De hecho, en esta era post-quad-core 2009 vale la pena recordar Estudio Sandia que el rendimiento sugerido disminuiría para algunas aplicaciones con uso intensivo de datos a medida que la plataforma subyacente se moviera más allá de los ocho núcleos:

Un equipo de Sandia simuló algoritmos clave para derivar conocimiento de grandes conjuntos de datos. Las simulaciones muestran un aumento significativo en la velocidad de dos a cuatro multinúcleo, pero un aumento insignificante de cuatro a ocho multinúcleo. Exceder ocho multinúcleos provoca una disminución de la velocidad. Dieciséis núcleos múltiples apenas se comportan como dos, después de lo cual hay una fuerte caída a medida que se agregan más núcleos.

Esto sugiere que la consecuencia más probable de la proliferación de núcleos será un mayor énfasis en la capacidad de memoria y el ancho de banda por nodo. A medida que los procesadores aumentaron el rendimiento, disminuyeron las proporciones de bytes de memoria por flop y bytes / seg por flop, dejando una gran cantidad de rendimiento sin usar en el chip. Para contrarrestar esto, estamos comenzando a ver una tendencia hacia los sistemas de memoria compartida de nodos grandes. Francamente, la mayoría de las soluciones comerciales para sistemas basados ​​en x86 están más enfocadas en aumentar la capacidad de memoria que en el ancho de banda, ya que el ancho de banda es mucho más difícil de lograr sin la ayuda de ingeniería de niveles. de CPU. Sin embargo, aumentar la memoria puede ayudar indirectamente al problema del ancho de banda, ya que el acceso agregado aumenta a medida que se agrega más RAM.

La transición a máquinas de memoria más grandes ya ha comenzado. NCSA está leyendo para instalar Ember, un super SGI UV Altix con memoria compartida a gran escala. Esa máquina se utilizará para la química computacional y para la investigación de la dinámica de sólidos y fluidos. ScaleMP, que utiliza su tecnología vSMP para inventar SMP virtuales, logró recientemente una serie de victorias, incluida la Grupo Gordon en el Centro de Supercomputación de San Diego. Aunque esa máquina es más conocida por su uso de memoria flash, la tecnología vSMP se utiliza para construir «supernodos» que pueden acceder hasta 2 TB de RAM. El relativamente nuevo 3Leaf Systems anunció recientemente que la Florida State University implementará la tecnología de «fabric computing» de la compañía para agregar múltiples nodos basados ​​en Opteron en servidores virtuales de memoria compartida. Finalmente, aunque no está dirigido a HPC, IBM acaba de presentar sus servidores eX5, que permite a los usuarios ampliar la RAM a 1,5 TB por máquina de dos sockets.

El creciente número de núcleos también plantea una especie de pregunta existencial para muchos usuarios de HPC. en un Artículo de la revista Linux, Douglas Eadline señaló que debido a que más de la mitad de las aplicaciones de HPC usan 32 núcleos o menos (según la investigación de IDC y una encuesta de Cluster Monkey), es posible que el trabajo de HPC de gama baja migre de clústeres a nodos únicos. En ese caso, las estaciones de trabajo de varios sockets podrían terminar reemplazando a los clústeres tradicionales.

Bueno, el punto óptimo para tales estaciones de trabajo siguen siendo los sistemas de doble socket (como lo es para los servidores), por lo que realmente tendremos que esperar hasta que los chips de 16 núcleos salgan a la calle el próximo año para responder esa pregunta. Por otro lado, considerando que las últimas GPU de AMD y NVIDIA (especialmente los próximos procesadores Fermi) pueden reemplazar a más CPU de gama alta para una variedad de cargas de trabajo HPC, es posible que no necesitemos docenas de núcleos x86. para llevar una gran cantidad de supercomputación de gama baja al escritorio. De hecho, la presencia de GPU genéricas hace que el uso de recuentos de núcleos de dos dígitos sea superfluo en estos casos, a menos que alguien pueda encontrar una manera de hacer coincidir los procesadores gráficos con los núcleos de la CPU.

Un último pensamiento. Al considerar cómo las CPU multinúcleo están distorsionando el equilibrio del sistema, es tentador quedarse atascado en las métricas de eficiencia y maximizar los recursos de hardware. Pero como nos recordó John Gustafson: “El equilibrio del sistema no se trata de bytes por flop / s, memoria masiva / RAM o cualquier otra proporción similar. Nunca lo fue. Equilibrar el sistema significa agregar algo al diseño de manera que el porcentaje de mejora en el valor (rendimiento, confiabilidad o de otro tipo) sea mayor que el porcentaje de mejora en el costo total de propiedad. Un sistema está perfectamente equilibrado cuando no son posibles más mejoras de este tipo. «

Puedes compartir en tu Facebook para que tus amigos lo sepan

??? ? ? ???

Comparte