La hoja de ruta a exaescala del DOE destaca el Big Data - Calendae | Informática, Electrónica, CMS, Ciberseguridad

La hoja de ruta a exaescala del DOE destaca el Big Data

Hola otra vez. Yo soy Simón Sánchez y esta vez vamos a hablar sobre La hoja de ruta a exaescala del DOE destaca el Big Data

Si ha estado siguiendo la hoja de ruta de los EE. UU. A exaescala, es probable que esté siguiendo el trabajo de William («Bill») J. Harrod, Director de División de Investigación en Computación Científica Avanzada (ASCR), Oficina de Ciencias de los Estados Departamento de Energía de Estados Unidos (DOE). En enero, Harrod dijo que la misión del DOE de empujar las fronteras de la ciencia y la tecnología requeriría computación a una escala extrema con máquinas de 500 a 1,000 veces más capaces que las computadoras actuales, aunque con un tamaño e impacto de energía similares.

De acuerdo con la evaluación de Harrod, los funcionarios del DOE establecieron una hoja de ruta de 10 años para lograr el cálculo a exaescala. Un estudio asociado describió los 10 principales desafíos técnicos, incluido el número uno: la eficiencia energética 40 veces mejor que la actual y el segundo, la tecnología de interconexión que fomenta un movimiento de datos más eficiente.

Una versión revisada de este informe, Big Data y descubrimiento científico, apunta a cero sobre los desafíos de la era post-petaescala en relación con la siempre presente explosión de datos. Como señaló Alok Choudhary, «Muy pocas aplicaciones a gran escala de importancia práctica NO requieren muchos datos». Este nuevo paradigma requiere importantes avances en la tecnología de la información y la gestión de datos.

En este informe actualizado, Harrod argumenta que los desafíos de procesamiento y datos ya no se pueden manejar simplemente aumentando o modificando las soluciones existentes. El problema se ve agravado por la necesidad de compartir datos e investigaciones a través de fronteras nacionales e internacionales. «La colaboración es inherentemente una cuestión de ‘big data'», señala Harrod.

La Oficina de Ciencias del DOE describe los cuatro desafíos principales relacionados con los datos científicos de la siguiente manera:

  • Los flujos de trabajo de la ciencia computacional deben impulsar cambios fundamentales en la arquitectura de la computadora para sistemas de exaescala.
  • Rompiendo con el pasado: flujo de trabajo científico tradicional: simule o experimente, guarde los datos en el disco para su posterior análisis.
  • El empeoramiento del cuello de botella de E / S y el coste energético de mover datos se combinan para hacer imposible guardar todos los datos en el disco.
  • análisis de datos in situ, que se produce en la supercomputadora mientras se ejecuta la simulación.

Para abordar estos desafíos en relación con la gestión, el análisis y la visualización de datos, la científica informática del DOE, Lucy Nowell, compiló un enfoque de doce pasos, que se reproduce a continuación:

1. Estructuras de datos y algoritmos transversales que minimizan el movimiento de datos.
2. Métodos para la reducción / clasificación de datos que apoyan la validación de resultados y la reutilización de datos.
3. Mantener la capacidad de realizar análisis exploratorios para descubrir lo inesperado a pesar de la severa reducción de datos.
4. Representación del conocimiento y razonamiento de la máquina para adquirir y utilizar el origen de los datos.
5. Coordinación del acceso a los recursos entre la ejecución de simulaciones y tecnologías de gestión, análisis y visualización de datos realizadas in situ.
6. Métodos de análisis de datos in situ que minimizan la dependencia del conocimiento a priori
7. Algoritmos de análisis de datos para datos multisensores de alta velocidad, alto volumen y resolución múltiple.
8. Métodos para el análisis comparativo y / o integrado de simulación y datos experimentales / de observación.
9. Diseño de flujos de trabajo científicos que se pueden compartir in situ para apoyar la gestión, el procesamiento,
análisis y visualización.
10. Mantener la integridad de los datos frente a sistemas propensos a errores.
11. Métodos de análisis visual para conjuntos de datos y métricas a gran escala para validarlos.
12. Abstracciones mejoradas para el almacenamiento de datos que van más allá del concepto de archivos para representar de manera más rica la semántica científica de experimentos, simulaciones y puntos de datos.

La línea de tiempo de procesamiento de exacale inicial propuesta también se ha mejorado para incluir resultados más precisos con un prototipo de nodo (P0) planeado para principios de 2018, un prototipo de petaescala programado para principios de 2019 y un prototipo de exaescala en seguimiento para 2022.

No te olvides compartir en en tu Twitter y Facebook para que tus amigos lo flipen

??? ? ? ???

Comparte