Cómo la NASA está abordando el desafío de Big Data - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Cómo la NASA está abordando el desafío de Big Data

Hola otra vez. Yo soy Simón Sánchez y en el día de hoy te voy a contar sobre Cómo la NASA está abordando el desafío de Big Data

A medida que la comunidad científica avanza más allá del petaflop hacia un territorio de exaescala, es imperativo que las herramientas para soportar cargas de trabajo cada vez más intensivas en datos sigan el ritmo. En ninguna parte esto es más cierto que en el complejo de investigación de la NASA. Con 100 misiones activas que respaldan la ciencia de vanguardia, la NASA sabe más que la mayoría de los desafíos basados ​​en datos y basados ​​en computadoras.

Un reciente papel por Piyush Mehrotra y L.Harper Pryor, de la división de Supercomputación Avanzada (NAS) de la NASA, arroja luz sobre cómo NAS ha ayudado al flujo de trabajo diverso de sus usuarios, incluido el descubrimiento, el acceso, el transporte, la gestión y la difusión de big data, además de proporcionar las herramientas para transformar los datos en conocimientos y conocimientos.

«Como el sitio insignia de la NASA para la ciencia y la ingeniería computacionales a gran escala, NAS admite una base de usuarios que está a la vanguardia de la ciencia intensiva y basada en datos», escriben Mehrotra y Harper. «Los códigos de nuestros usuarios utilizan y generan conjuntos de datos muy grandes, y analizar estos conjuntos de datos para extraer conocimiento es una parte fundamental de sus flujos de trabajo».

Para comprender mejor los tipos de desafíos que enfrenta la población de usuarios, los funcionarios de NAS se dirigieron directamente a su base de usuarios. Luego, agruparon los desafíos de acuerdo con los elementos principales de los flujos de trabajo, a saber, «descubrimiento de datos y herramientas, acceso y movimiento de datos, almacenamiento y gestión de datos, algoritmos / herramientas para realizar análisis / análisis y finalmente difusión de resultados».

El descubrimiento depende de los datos, lo que plantea un desafío para la NASA en función del volumen y la naturaleza distribuida de los archivos de almacenamiento. Los usuarios necesitan herramientas que admitan el movimiento de datos a gran escala. También existe una necesidad inminente de desarrollar plataformas que cumplan con los requisitos analíticos y computacionales de la próxima era de exaescala.

Con entrevistas a los usuarios y varios estudios para guiarlos, los funcionarios de NAS han agregado varias iniciativas a su hoja de ruta de arquitectura. Periódicos

1) soporte de alto nivel para los flujos de trabajo científicos para hacer que los desafíos de trabajar con big data y big compute sean más transparentes para el usuario y

2) integración más estrecha de motores de cálculo con motores analíticos.

El primero de ellos se relaciona directamente con la implementación del Earth Exchange de la NASA el año pasado. NASA Earth Exchange (NEX) es una plataforma de investigación colaborativa que reúne supercomputación avanzada, modelado del sistema terrestre, gestión del flujo de trabajo y datos de teledetección de la NASA. Permite a los usuarios explorar y analizar grandes conjuntos de datos de ciencias de la tierra, ejecutar y compartir algoritmos de modelado, colaborar en proyectos nuevos o existentes y compartir resultados. Para admitir flujos de trabajo basados ​​en datos, NEX utiliza VisTrails en Pleiades, la supercomputadora insignia de la NASA. ParaView también está disponible como herramienta complementaria para VisTrails. El sistema admitirá flujos de trabajo a gran escala que incluyen a la NASA y otras agencias, incluidos USGS, NOAA y DOE.

«Nuestra visión es proporcionar un entorno capaz de capturar el flujo de trabajo para que pueda compartirse con colegas que luego puedan repetir el experimento y / o modificar los datos / algoritmos de entrada para generar nuevos conocimientos», escribe el

La segunda iniciativa apunta a integrar la capacidad analítica, más específicamente la visualización, con la capacidad computacional. Esto acelera lo que tradicionalmente era un proceso secuencial. En el pasado, la visualización era una actividad de posprocesamiento que solo podía realizarse después de la fase de cálculo. Ahora, el motor de visualización de la NASA (hipermuro) se ha integrado a través de la misma estructura InfiniBand que la supercomputadora Pleiades, por lo que comparten recursos de almacenamiento en su sistema de archivos Lustre. Los flujos de datos se pueden dirigir desde los nodos de cómputo para mostrar los nodos a través de la estructura de E / S InfiniBand mientras se ejecuta el código. Los datos intermedios pueden revisarse al mismo tiempo que la ejecución (para guiar el cálculo) o archivarse para un análisis posterior. Este beneficio es la fidelidad temporal a un costo de almacenamiento mucho menor.

En el futuro, el NAS apunta a continuar optimizando el flujo de trabajo de datos y utiliza datos conocidos para guiar este proceso. «No queremos tocar todos los datos si no es necesario», el

Un ejemplo de esta complejidad es la teledetección de la atmósfera y la temperatura de la Tierra desde el espacio. Un satélite en realidad no mide la temperatura, mide la radiación y obtener esta lectura requiere mucho conocimiento sobre el sensor en sí. O tome un satélite que está nominalmente en una órbita solar sincrónica, y si la órbita se ha desplazado, preguntan. Con toda esta información y metadatos cruciales para el desafío del descubrimiento, la tarea que tenemos por delante es hacer que todo sea más accesible para el usuario. Un buen punto de partida, según el

Puedes compartir en en tu Twitter y Facebook para que tus amigos lo consulten

??? ? ? ???

Comparte