El nuevo HPC de Amazon en la nube: ¿buen marketing o progreso real? - Calendae | Informática, Electrónica, CMS, Ciberseguridad

El nuevo HPC de Amazon en la nube: ¿buen marketing o progreso real?

Hola de nuevo. Te habla Simón Sánchez y en el día de hoy te voy a contar sobre El nuevo HPC de Amazon en la nube: ¿buen marketing o progreso real?

Hace unos días Amazon Anunciado que agregó la funcionalidad HPC a EC2. Esta es una gran noticia para la comunidad HPC, ya que allana aún más el camino para que HPC se generalice, lo que indica que se puede ganar dinero en la nube con HPC. Por supuesto, Amazon ha realizado un análisis de mercado cuidadoso y ciertamente ha recibido algunas solicitudes de usuarios importantes, y quizás sintió algo de presión después de que surgieron rumores de que las granjas de servidores de Google están jugando con Infiniband.

Más específicamente, Amazon ha agregado las llamadas instancias de cómputo en clúster (CCI) a EC2, cada una de las cuales consta de un par de procesadores Intel X5570 (Nehalem) de cuatro núcleos con un total de 33,5 ECU (unidades de cómputo EC2), 23 GB de RAM y 1690 GB de almacenamiento de instancia local. Las CCI están interconectadas mediante una red Ethernet de 10 Gbps. Dentro de esta red es posible crear uno o más grupos de posicionamiento de tipo «clúster» y luego iniciar las CCI dentro de cada grupo. Las instancias dentro de cada grupo de ubicación de este tipo se benefician del ancho de banda sin bloqueo y de la comunicación de nodo a nodo de baja latencia. Los primeros resultados comparativos de LBNL muestran que sus aplicaciones HPC en CCI se ejecutaron 8,5 veces más rápido que los tipos de instancias EC2 (vainilla) anteriores.

Hasta ahora tan bueno. Para mí, en este contexto, hay dos aspectos que me parecen interesantes: rendimiento y precio. Primero echemos un vistazo al rendimiento:

Para lograr un alto rendimiento, muchos programas de aplicación de HPC se han optimizado en el pasado para una alta velocidad de ejecución, por ejemplo, mediante la paralelización de algoritmos numéricos, la aceleración de la comunicación, la superposición de la comunicación con la computación y otros trucos sofisticados. Por lo tanto, los límites de un programador de aplicaciones se establecen principalmente por límites físicos: por ejemplo, si los procesadores o las interconexiones son lentos. Ahora que Amazon ha agregado procesadores rápidos y Ethernet a su granja de servidores, no es sorprendente ver algunas aceleraciones interesantes sobre los servidores EC2 estándar y la interconexión. Pero Ethernet no es Infiniband y aún debe abordar la capa de virtualización en la nube, lo que puede causar varios procesos paralelos (virtuales) que residen en diferentes instancias de cómputo del clúster que aún pueden causar retrasos en la comunicación. Amazon admite que la única forma de saber si tiene una configuración HPC genuina para su aplicación específica es compararla, lo cual es sabiduría general en HPC de todos modos (deberíamos pedirle a Ed Walker que repita sus pruebas NAS Parallel Benchmark del 2008 ahora sobre el nuevo ICC).

Echando un vistazo más de cerca a la lista TOP500, Linpack de Amazon en 880 CCI (7040 núcleos) y 41,82 TeraFLOPS les da la posición 146. Otras supercomputadoras basadas en Ethernet con una ubicación similar tienen una cantidad similar de núcleos, no es de extrañar. PERO, aquellos con una ubicación similar e interconexión Infiniband solo necesitan alrededor de 4800 núcleos para lograr el mismo rendimiento.

Por lo tanto, supongo que la mayoría de las aplicaciones de cálculo de capacidades de HPC promedio reales (por ejemplo, en la automatización del diseño electrónico, aplicaciones automotrices o análisis de materiales basados ​​en elementos finitos) no mostrarán una gran mejora de rendimiento. en comparación con las instancias vanilla EC2, especialmente aquellas que realmente requieren baja latencia y alto ancho de banda. Afortunadamente, no todas las aplicaciones de HPC tienen esta demanda; especialmente los muchos bajo el paraguas de una paralelización de Computación de Capacidad más débilmente acoplada (y por lo tanto de comunicación moderada a nula) podrían beneficiarse de esta mejora. Y el hecho de que el equipo de expertos de Berkeley LBNL estuvo involucrado en la versión beta inicial, y ciertamente en la consultoría de AWS y en la realización de muchas evaluaciones comparativas de HPC, le da a todo el proyecto una credibilidad real. Estoy seguro de que pronto veremos buenos resultados, lecciones aprendidas y recomendaciones de LBNL; a más tardar cuando Kathy Yellick de LBNL pronunciará su discurso en el Conferencia ISC Cloud en Frankfurt el 29 de octubre.

Otro hecho de que Amazon parece estar tomando HPC en serio ahora es el anuncio de Cycle Computing de programar trabajos de HPC en AWS Compute Clusters con el administrador de recursos de Oracle Grid Engine que (como el antiguo Sun Grid Engine) se usa ampliamente hoy en día en clústeres de HPC. y nubes privadas en la investigación y la industria.

Sin embargo, la mejor solución para el usuario de HPC sería si pudiera elegir entre Ethernet e Infiniband, activar y desactivar la virtualización y elegir entre CPU más lentas y más rápidas y software de optimización multinúcleo como el MCOpt de eXludus. Pero construir y mantener una infraestructura de nube tan variable para la pequeña comunidad de HPC puede no ser barato o puede resultar mucho más costoso para el usuario que mantener su propio clúster interno de HPC.

El segundo factor importante en este escenario es el precio. Echemos un vistazo al punto de referencia Linpack de Amazon en sus CCI. Cada CCI como se describe arriba cuesta $ 1.60 por hora. Amazon ejecutó Linpack en 880 CCI (7040 núcleos) y midió el rendimiento general en 41,82 TeraFLOPS, ocupando el puesto 146 en la lista TOP500. El costo de un clúster de CCI de este tipo es 1.6 * 24 * 30 * 880 = $ 1 millón por mes y $ 12 millones por año (y si selecciona Clústeres reservados, el precio será de 4.3 millones por año). No es barato.

En la industria, muchas infraestructuras de HPC están tan bien administradas que tienen un uso máximo casi todo el tiempo, y su capacidad también está optimizada para ser suficiente para cargas de trabajo normales. Si las necesidades de capacidad tienden a aumentar, se adaptan.

Pero hay un caso de uso para el cual la CCI de Amazon puede ser muy útil: ¿Qué pasa si un departamento tiene un proyecto de simulacro de incendio que necesita recursos adicionales de inmediato y aunque solo sea por un tiempo limitado? Hoy nadie tiene una solución sencilla para abordar este problema. Se necesitan un promedio de seis meses para adquirir, implementar y activar nuevos recursos. Por tanto, no pueden hacerlo ni retrasar otros trabajos para liberar capacidad para la ejecución urgente de proyectos. Puede funcionar para un proyecto que tarda unas horas o días en acceder a los recursos, pero no para algo que lleva meses. Y aparentemente muchas empresas tienen estos problemas con los simulacros de incendio de forma regular.

Y ahí es exactamente donde les gustaría usar las nubes. Tendrían la oportunidad de volver y decirle al usuario: «la opción que podemos ofrecerle es más cara y tiene un peor rendimiento, también debe estar al tanto de algunos problemas de seguridad y privacidad de los datos, pero si está dispuesto a aguantar esto, entonces podemos ofrecerle una solución «. Y en virtud del software Cloud Adapter existente (para el estallido de la nube como lo ejemplifica y simplifica Service Domain Manager para OGE), el usuario final tendrá la ilusión de trabajar dentro del entorno HPC normal de su empresa.

Por lo tanto, se espera que el uso de nubes agregue más opciones y flexibilidad a su infraestructura de TI actual, que por todos los medios se mantendrá e incluso crecerá. Si usted es una gran empresa y tiene un centro de datos establecido y bien administrado (!), Ejecutar el suyo es más efectivo. La imagen se ve diferente si usted es una pequeña o mediana empresa que comienza a mojarse con estas infraestructuras. O incluso si es una empresa más grande y tiene problemas con su centro de datos tal como está. En lugar de abordar la curva de aprendizaje para obtener la infraestructura «correcta», puede optar por confiar en un servicio como AWS.

El Dr. Wolfgang Gentzsch es el presidente general de ISC Cloud’10, que tendrá lugar del 28 al 29 de octubre en Frankfurt, Alemania. ISC Cloud’10 se centrará en soluciones prácticas que reduzcan la brecha entre la investigación y la industria en la computación en nube. La información sobre el evento está disponible en el Sitio web del evento ISC Cloud. HPC in the Cloud es un orgulloso socio de medios de ISC Cloud’10.

Puedes compartir en tus redes sociales para que tus amigos lo flipen

??? ? ? ???

Comparte