¿Nube para la academia? - Calendae | Informática, Electrónica, CMS, Ciberseguridad

¿Nube para la academia?

Hola y mil gracias por leerme. Te habla Simón Sánchez y esta vez vamos a hablar sobre ¿Nube para la academia?

La computación en cuadrícula se originó en la academia y fue diseñada originalmente para apoyar la computación científica y de investigación. Por el contrario, la computación en nube tiene antecedentes corporativos y está diseñada para permitir la entrega de aplicaciones web escalables.

los BEinGRID analizó cómo Grid es apropiado para el uso empresarial (y ejecutó varios experimentos comerciales exitosos que demuestran esta propuesta), pero ¿y si la nube es útil para el mundo académico? ¿Se puede utilizar de manera eficaz para ejecutar códigos científicos, como los que se encuentran en el modelado climático, la dinámica de fluidos o las simulaciones de física molecular, que tradicionalmente han requerido el uso de supercomputadoras?

A primera vista, los servicios en la nube ofrecen una propuesta HPC atractiva, simple y relativamente asequible: solo pague tantas CPU como desee, cuando las desee. Por supuesto, la verdad no es tan simple.

Eche un vistazo a la oferta de Google Cloud, App Engine. Los usuarios acceden a App Engine a través de una API, lo que impone muchas limitaciones al código que se puede ejecutar, que incluyen:

  • Debe estar escrito en Python o Java (o usar un intérprete o compilador basado en JVM), lo que significa que cualquier código C o Fortran debe ser portado.
  • No se puede iniciar ningún hilo (en su lugar, se utiliza la API para iniciar una nueva tarea).
  • Cada solicitud / actividad debe completarse en 30 segundos.
  • Debe permanecer dentro de las cuotas de CPU, ancho de banda y uso de almacenamiento.

Para obtener detalles completos, consulte Documentación de App Engine. Tenga en cuenta que existen diferentes probabilidades para el servicio gratuito y facturado, y que se pueden negociar aumentos de probabilidades.

Esto no imposibilita la computación científica, pero plantea muchas barreras. Sería interesante ver qué podría lograrse computacionalmente, dadas las limitaciones anteriores, por un grupo de investigación académica que eligió utilizar App Engine. Sin embargo, la conclusión es que Google App Engine es más adecuado para crear aplicaciones web dinámicas, como herramientas de edición de fotografías y documentos, que para realizar cálculos científicos duraderos.

Oferta de Amazon, EC2, es mucho más prometedor. EC2 brinda a los usuarios mucho más acceso y control sobre el sistema mediante el uso de la virtualización. Los usuarios son libres de instalar cualquier software y aplicaciones que necesiten en EC2.

Los usuarios proporcionan «imágenes virtuales», cuyas instancias se pueden lanzar en cualquier momento y normalmente se ejecutarán en menos de 10 minutos. De forma predeterminada, normalmente solo se pueden lanzar 20 instancias (por región), pero los usuarios pueden solicitar aumentar este límite, lo que podría permitir el lanzamiento de miles de instancias. Amazon también admite Hadoop, Cóndor es OpenMPI para procesamiento por lotes / paralelo. los Blog de gestión de datos tiene información detallada sobre el uso Amazon para configurar un clúster MPI.

Para el almacenamiento de datos, Amazon S3 El servicio se puede utilizar para almacenar grandes cantidades de datos producidos por algunas aplicaciones científicas. El acceso a los datos se controla mediante listas de control de acceso (ACL) y los datos se cifran durante la transmisión mediante SSL. Se anima a los usuarios a cifrar todos los datos confidenciales almacenados en S3. Es importante tener en cuenta que Amazon no garantiza que los datos no se perderán ni se verán comprometidos (consulte 7.2 Acuerdo de cliente de AWS).

Por lo tanto, debería ser bastante fácil conseguir que la mayoría de los códigos informáticos científicos funcionen en paralelo en EC2. ¿Pero cómo es la actuación? Se han realizado algunas investigaciones y los resultados son mixtos. Al comparar una cantidad aproximadamente equivalente de recursos de CPU, los clústeres de supercomputadoras suelen ser mucho más rápidos en el procesamiento del código científico, en gran parte gracias a una mejor interconexión (consulte este artículo de Edward Walker). Sin embargo, si incluimos la cantidad de tiempo que lleva ejecutar el código (es decir, solicitar y lanzar imágenes en EC2 y esperar en cola en un clúster de supercomputadoras), es probable que EC2 sea más rápido en muchos casos, un dependiendo del tamaño del trabajo y los criterios de planificación (como se muestra en Ian Foster en su blog). En el futuro, EC2 podría ofrecer un servicio aún más competitivo si actualiza sus sistemas.

No lo tomé en cuenta Microsoft Azure, que todavía se encuentra en la «Vista previa de tecnología comunitaria» al momento de escribir este artículo, pero podría ser interesante para cualquier código científico basado en .NET. La oferta es similar a EC2, con la principal diferencia de que los usuarios deben utilizar una máquina virtual Windows 2008 Server proporcionada.

Con todo el dinero y el tiempo invertidos en la computación en la nube, será interesante ver el efecto que tendrá en los proveedores de recursos de HPC durante la próxima década. ¿La aparición de la nube generará una mayor confianza en la subcontratación de recursos informáticos y un impulso directo a los proveedores de recursos de HPC? ¿Habrá un nivel de simbiosis en el que los recursos de la nube se puedan construir sobre o junto con los recursos informáticos de HPC? ¿O simplemente serán competencia directa? Una cosa es cierta; se desafían las reglas del juego HPC.

Para obtener más información sobre el uso de plataformas en la nube para la informática científica, consulte el Grupo de usuarios de HPCcloud.

—–

Reimpreso con permiso de Elementos de la cuadrícula, alojado por IT-tude.com

Deberías compartir en tu Facebook para que tus colegas lo vean

??? ? ? ???

Comparte