Indexación de demostración de LANL a una escala extrema - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Indexación de demostración de LANL a una escala extrema

Hola, ¿qué tal colega?. En el teclado Simón Sánchez y hoy te voy a hablar sobre Indexación de demostración de LANL a una escala extrema

Un proyecto de middleware de HPC actualmente en curso en el Laboratorio Nacional de Los Alamos ha alcanzado un hito importante. La nueva herramienta de supercomputación, desarrollada como parte del proyecto MDHIM (Multidimensional Hashed Indexed Middleware), realizó 1.782.105.749 entradas clave / valor por segundo en un espacio clave ordenado globalmente en la supercomputadora Moonlight en el Laboratorio Nacional de Los Alamos. La demostración muestra el potencial de MDHIM para permitir la exploración de datos a gran escala.

Fundamental para el avance de la ciencia en el siglo XXI es la necesidad de que las simulaciones por computadora exploten cada vez más núcleos de computación al unísono. A medida que nos acercamos a la exaescala, la potencia de cálculo adicional se traduce en simulaciones más complejas y se bombean más datos al flujo de trabajo de análisis.

Con los tamaños de los conjuntos de datos actuales, ya no es posible mover / buscar / analizar todos los datos a la vez. En cambio, se necesitan herramientas para identificar, recuperar y analizar subconjuntos de datos más pequeños con el fin de realizar análisis. El marco MDHIM ha evolucionado para abordar estos desafíos de gestión de datos, al tiempo que aprovecha las capacidades de los sistemas informáticos a una escala extrema.

El marco fue pensado como un punto intermedio entre las bases de datos completamente relacionales y las construcciones distribuidas pero completamente locales, como «map / reduce». Con MDHIM, las aplicaciones pueden aprovechar los mecanismos proporcionados por un almacén de clave-valor paralelo: almacenar datos en un orden multidimensional global y sub-establecer grandes datos en múltiples dimensiones. También tiene las funciones de una tabla hash distribuida con búsquedas simples pero masivamente paralelas.

«En el mundo actual de computación altamente paralela, la necesidad de escalabilidad ha obligado al mundo a alejarse de las bases de datos totalmente transaccionales y regresar a la semántica flexible de las tiendas de valor clave», explica Gary Grider, líder de la división de Computación de Alto Rendimiento de Los Alamos.

MDHIM está diseñado para representar petabytes de datos científicos con megabytes de datos de representación. Para ello, utiliza las ventajas naturales de las interconexiones HPC (baja latencia, alto ancho de banda y compatibilidad colectiva) para escalar el servicio de clave / valor a millones de núcleos. Para que el sistema sea escalable y productivo, debe poder realizar miles de millones de inserciones por segundo.

En una ejecución de prueba reciente, MDHIM se ejecutó como una biblioteca MPI en 3360 procesadores dentro de 280 nodos del sistema Moonlight en 308 nodos, logrando casi 1.800 millones de inserciones por segundo.

“Este hito se logró gracias a la combinación de un buen diseño de software y algoritmos refinados. Nuestro código está disponible en GitHub y animamos a otros a desarrollarlo ”, dice Hugh Greenberg, líder del proyecto y desarrollador líder del proyecto MDHIM.

MDHIM es una parte importante de la parte de almacenamiento y E / S del proyecto DOE FastForward, un esfuerzo colaborativo para acelerar la investigación y el desarrollo necesarios para la informática de escala extrema.

Recuerda compartir en en tu Twitter y Facebook para que tus colegas lo consulten

??? ? ? ???

Comparte