Aprendiendo de las nubes del pasado: una mirada retrospectiva a Magellan - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Aprendiendo de las nubes del pasado: una mirada retrospectiva a Magellan

Hola y mil gracias por leerme. Soy Simón Sánchez y en el día de hoy te voy a hablar sobre Aprendiendo de las nubes del pasado: una mirada retrospectiva a Magellan

En 2009, el Departamento de Energía de los Estados Unidos (DOE) lanzó un experimento audaz, un programa de $ 32 millones para evaluar los beneficios de la computación en la nube para la comunidad científica. Se estableció una infraestructura de banco de pruebas distribuida, llamada Magellan, en Argonne Leadership Computing Facility (ALCF) y el Centro Nacional de Computación Científica de Investigación Energética (NERSC) para proporcionar una herramienta para la ciencia computacional en un entorno de nube. Se suponía que Magellan, con fondos de la Ley de Reinversión y Recuperación Estadounidense, ayudaría a las principales organizaciones de investigación a responder la clásica pregunta sobre la nube: ¿es mejor alquilar o comprar?

«Lo que estamos explorando es la cuestión de si el DOE u otras agencias gubernamentales deberían comprar sus propios clústeres … o si este tipo de compras deberían hacerse de una manera más consolidada», dijo la directora de NERSC, Kathy Yelick, en un precedente. artículo.

A pesar de grandes esperanzas y apoyo de la comunidad, a finales de 2011, nos enteramos de que el proyecto Magellan había sido descontinuado, dejando a muchos preguntándose qué había sucedido. Ahora tenemos algunas respuestas en forma de Informe de 169 páginas, patrocinado por la Oficina de Investigación en Computación Científica Avanzada (ASCR) del Departamento de Energía, que financió el estudio para evaluar lo que Magellan nos dice sobre el papel de la computación en la nube para aplicaciones científicas.

Como la industria ya se estaba beneficiando del modelo de nube, de las economías de escala generadas por un grupo compartido de recursos en red, los miembros del equipo de Magellan inicialmente se propusieron determinar si la nube mantendría el mismo potencial para la ciencia. Como se indica en el resumen:

El objetivo de Magellan, un proyecto financiado por la Oficina de Investigación en Computación Científica Avanzada (ASCR) del Departamento de Energía de los Estados Unidos (DOE), era investigar el papel potencial de la computación en la nube para abordar las necesidades de TI de la Oficina del DOE of Science (SC), específicamente para satisfacer las necesidades de computación de rango medio y futuras cargas de trabajo de computación con uso intensivo de datos. Se creó una serie de preguntas de investigación para sondear varios aspectos de la computación en la nube, desde el rendimiento, la usabilidad y el costo.

Específicamente, a Magellan se le asignó la tarea de responder las siguientes preguntas:

  • ¿Están las pilas de software en la nube de código abierto listas para la ciencia DOE HPC?
  • ¿Se pueden cumplir los requisitos de ciberseguridad del DOE dentro de una nube?
  • ¿Son útiles los nuevos modelos de programación en la nube para la informática científica?
  • ¿Pueden las aplicaciones DOE HPC ejecutarse de manera eficiente en la nube? ¿Qué aplicaciones son adecuadas para las nubes?
  • ¿Qué tan utilizables son los entornos de nube para aplicaciones científicas?
  • ¿Cuándo es conveniente ejecutar la ciencia DOE HPC en una nube?

Cabe señalar que Magellan no era una nube comercial típica, más bien esta «nube científica» lo era. construido especialmente para los requisitos especiales de la informática científica. Magellan se basó en el chasis IBM iDataplex utilizando núcleos de procesador Intel para un rendimiento máximo teórico de más de 100 teraflops / s. Otros componentes incluyen:

  • Interconexiones de nodo de gran ancho de banda y baja latencia (InfiniBand).
  • Procesadores de alto nivel de rendimiento optimizado.
  • Aplicaciones científicas, compiladores, depuradores, bibliotecas matemáticas y otras herramientas preinstaladas.
  • Sistema de archivos paralelo de gran ancho de banda.
  • Almacenamiento de datos de alta capacidad.

Durante la operación de dos años de Magellan, el personal de NERSC y del Laboratorio Nacional Argonne examinó cómo diferentes aspectos de la infraestructura y tecnologías de computación en la nube podrían ser explotados por diversas aplicaciones científicas. Evaluaron modelos en la nube como Infraestructura como servicio (IaaS) y Plataforma como servicio (Paas), pilas de software virtual, MapReduce e implementación de código abierto (Hadoop), así como proveedores de recursos y perspectivas de usuarios.

Usando una amplia gama de aplicaciones como puntos de referencia, los investigadores compararon la nube Magellan con varias otras arquitecturas, incluida una supercomputadora Cray XT4, un sistema de clúster Dell y la oferta de nube comercial EC2 de Amazon. A pesar del apodo de banco de pruebas, se han llevado a cabo muchas ciencias de fabricación importantes, que han contribuido a los avances en la física de partículas, la investigación climática, la química cuántica, la física del plasma y la astrofísica.

Las cargas de trabajo científico, por su propia naturaleza, tienden a ser desafiadas por la nube, aunque en diversos grados. El informe describe las tres clasificaciones principales de modelos computacionales, comenzando con códigos científicos a gran escala estrechamente acoplados, que requieren el poder de las supercomputadoras tradicionales y sufren una gran penalización cuando se trabaja en un entorno de nube virtualizado. Luego, están las aplicaciones de rango medio estrechamente acopladas, que se ejecutan en una escala más pequeña y tienden a ser buenas candidatas para la nube, aunque hay cierta pérdida de rendimiento. La última categoría, cargas de trabajo de alto rendimiento, generalmente involucra computación asincrónica e independiente y en el pasado se basaba en computadoras de escritorio y pequeños clústeres para el procesamiento. Sin embargo, debido a la explosión de datos de sensores, la nube es una buena solución, especialmente si se tiene en cuenta el hecho de que estas cargas de trabajo de alto rendimiento y con un uso intensivo de datos no se ajustan a las políticas actuales de planificación y asignación. .

El proyecto Magellan de dos años condujo a estos resultados clave:

  • Las aplicaciones científicas tienen requisitos especiales que requieren soluciones en la nube adaptadas a estas necesidades.
  • Las aplicaciones científicas con comunicaciones y E / S mínimas son las más adecuadas para las nubes.
  • Las nubes requieren un soporte significativo para la programación y administración del sistema.
  • Existen brechas y desafíos importantes en las pilas de software en la nube virtualizadas de código abierto para uso en producción científica.
  • Las nubes exponen un modelo de riesgo diferente que requiere diferentes políticas y prácticas de seguridad.
  • MapReduce es prometedor para abordar las necesidades científicas, pero las implementaciones actuales presentan brechas y desafíos.
  • Las nubes públicas pueden ser más caras que los grandes sistemas internos. Muchos de los beneficios de costos de las nubes provienen de la consolidación y el uso promedio más alto.
  • Los centros de supercomputación del DOE ya alcanzan niveles de eficiencia energética comparables a los de los centros comerciales en la nube.
  • La nube es un modelo comercial y se puede aplicar a los centros de supercomputación del DOE.

De esta lista, es evidente que la nube no ha podido competir con un sistema de supercomputadora centralizada de muchas maneras, pero el modelo de entrega tiene su lugar. Según el informe, «los usuarios con aplicaciones que tienen necesidades más dinámicas o interactivas podrían beneficiarse de entornos de autoservicio bajo demanda y una rápida resiliencia mediante el uso de tecnología de virtualización y el modelo de programación MapReduce para gestionar ejecuciones de aplicaciones poco acopladas «.

En otras palabras, la nube sobresale en cuanto a flexibilidad y capacidad de respuesta. De hecho, el informe encontró que “para los usuarios que necesitan la mayor flexibilidad que ofrece el modelo de computación en la nube, los costos adicionales podrían ser más que compensados ​​por la mayor flexibilidad. Además, en algunos casos, la posibilidad de un acceso más inmediato a los recursos informáticos podría traducirse directamente en ahorros de costos «.

Sin embargo, cuando se trata de los posibles ahorros de costos de usar una nube pública en comparación con los costos de adquisición de hardware, el informe señala que los costos de adquisición del DOE a menudo tienen grandes descuentos, lo que compensa algunos de los ahorros potenciales:

Los centros DOE existentes ya cosechan muchos de los beneficios de la computación en la nube, ya que estos centros consolidan el procesamiento en múltiples oficinas de programas, implementan a escala y refinan y mejoran continuamente la eficiencia operativa. El análisis de costos muestra que los centros DOE son competitivos en costos, generalmente entre 3 y 7 veces más baratos, que los proveedores comerciales de la nube. Dado que el sector comercial está innovando constantemente, los laboratorios y centros del DOE deben continuar comparando los costos de procesamiento con las nubes públicas para asegurarse de que brindan un servicio competitivo.

«La computación en la nube es, en última instancia, un modelo de negocio», dice el

los

En resumen: los servicios en la nube son un buen complemento de los recursos informáticos centralizados, pero no un reemplazo. Esto no debería sorprender a nuestra comunidad. Esto es HPC, informática de alto rendimiento, y cada vez que agrega capas adicionales, es decir, virtualización, su aplicación sufre un impacto en el rendimiento. Sin embargo, como deja en claro el informe, existen buenos casos de uso para los servicios en la nube, como «grupos científicos que necesitan soporte para el acceso a los recursos bajo demanda, picos repentinos en las necesidades de recursos, entornos personalizados, necesidades periódicas de recursos». predecibles (por ejemplo, procesamiento mensual de datos del genoma, procesamiento nocturno de datos del telescopio) o eventos impredecibles como el cálculo de recuperación de desastres «. El informe continúa señalando que «los servicios en la nube esencialmente proporcionan un modelo de servicio diferenciado que satisface estas diferentes necesidades, permitiendo a los usuarios lograr un clúster privado virtual con un cierto nivel de servicio garantizado».

Magellan fue anunciado como un proyecto exploratorio, destinado a durar dos años. De hecho, el proyecto recibió el nombre de Magallanes en honor al explorador portugués Fernão de Magalhães, la primera persona en liderar una expedición por el Pacífico. Las «nubes de Magallanes» originales se refieren a dos pequeñas galaxias en el cielo del sur. El actual Magellan, el primer gran banco de pruebas científicas para las nubes, también ha navegado por aguas desconocidas y ha documentado el viaje en beneficio de las generaciones futuras.

No te olvides compartir en tus redes sociales para que tus amigos opinen

??? ? ? ???

Comparte