Prepárese para la ciencia a exaescala el día 1 - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Prepárese para la ciencia a exaescala el día 1

Hola otra vez. Te habla Simón Sánchez y hoy hablaremos sobre Prepárate para la ciencia a exaescala el día 1

Los proyectos de investigación de ESP cubren las áreas de química, física (física de altas energías, energía de fusión, cosmología), biociencias (informática para el tratamiento del cáncer, modelado de metástasis, conectómica cerebral, dinámica molecular de proteínas de transporte). membrana celular), ingeniería (aerodinámica, refrigerante de reactores nucleares, combustión en calderas de carbón), ciencia de materiales (materiales funcionales, semiconductores).

William Tang, profesor de ciencias astrofísicas en la Universidad de Princeton y físico investigador principal en el Laboratorio de Física del Plasma de Princeton (PPPL) del DOE, está liderando un proyecto ESP que es uno de los esfuerzos más exitosos en inteligencia artificial (IA) para la ciencia que utiliza sistemas de pre-exaescala. Su trabajo se centra en el uso del aprendizaje profundo y la potencia informática a exaescala para mejorar el comportamiento de los reactores de fusión que tienen como objetivo producir energía limpia sostenible. Estudios de investigación Tang AI interrupciones en los llamados dispositivos de confinamiento tokamaks, que utilizan un poderoso campo magnético para confinar el plasma caliente y producir energía de fusión termonuclear controlada.

Los ingenieros que trabajan con la fuente de energía potencial han estimado una ventana de solo 30 milisegundos para controlar las inestabilidades que pueden interrumpir el proceso de producción de energía y dañar el dispositivo de confinamiento de plasma. Como parte de la investigación de ESP, Tang y sus colegas utilizan el código Fusion Recurrent Neural Network (FRNN) de Princeton que contiene componentes de redes neuronales convolucionales y recurrentes para integrar información espacial y temporal para predecir interrupciones en plasmas tokamak. La esperanza es aumentar los tiempos de alerta y trabajar para evitar interrupciones antes de que ocurran, manteniendo activas las reacciones de fusión y produciendo energía limpia sostenible.

El código Fusion Recurrent Neural Network (FRNN) de Princeton utiliza componentes de redes neuronales convolucionales y recurrentes para integrar información espacial y temporal para predecir interrupciones en plasmas tokamak con una precisión y velocidad sin precedentes en las mejores supercomputadoras. (Imagen: Eliot Feibush, Laboratorio de Física del Plasma de Princeton). Cortesía de Eliot Feibush, Laboratorio de Física del Plasma de Princeton

Otro de los proyectos ESP notables de ALCF está dirigido por Katrin Heitmann, subdirectora de la división en la división de física de alta energía de la ANL. Heitmann y el equipo llevan a cabo investigaciones utilizando cosmología computacional para comprender el comportamiento a gran escala del universo. La investigación busca comprender aspectos fundamentales del cosmos como la materia oscura, la energía oscura y ayudar a comprender por qué se acelera la tasa de expansión del universo.

Las simulaciones cosmológicas se realizan utilizando el Código de Cosmología Acelerada Híbrido / Hardware (HACC) desarrollado en Argonne, basado en un esfuerzo inicial en Los Alamos. HACC es el único conjunto de códigos de cosmología diseñado para simulaciones de escala extrema independientemente de la arquitectura de un sistema de supercomputación. El equipo también utiliza técnicas avanzadas de ciencia de datos junto con datos de observación. Estas técnicas se desarrollaron en colaboración con estadísticos durante un período de muchos años. Más recientemente, se han entrenado métodos de inteligencia artificial utilizando un gran conjunto de imágenes generadas por simulaciones cosmológicas realizadas con HACC.

Cambiar a exaescala no solo requiere mover aplicaciones a la nueva arquitectura de computadora, también requiere:

  • Desarrollo de código y flujo de trabajo
  • Estudios preliminares
  • Escalabilidad y optimización

ESP proporciona recursos y soporte a través de estos requisitos para ayudar a los equipos de investigación a preparar sus aplicaciones para la nueva arquitectura de supercomputadoras.

Los científicos computacionales de ALCF trabajan con investigadores de ESP para ayudar con la resolución de problemas, codificación, optimización para paralelización y aceleración de GPU, asegurándose de que las aplicaciones de investigación de ESP se ejecuten en el entorno anterior a Aurora. . Los miembros del equipo de ALCF también brindan soporte para proyectos con requisitos de big data, aprendizaje profundo (DL) o aprendizaje automático (ML). “Cada uno de los científicos computacionales que trabajan con los investigadores habla el lenguaje de las ciencias de dominio relevantes y la computación de alto rendimiento. En la mayoría de los proyectos, es necesario realizar estudios preliminares con anticipación para verificar que las campañas de investigación a exaescala planificadas tengan éxito ”, dice Williams.

El ALCF ofrece una variedad de oportunidades de capacitación relacionadas con Aurora, que incluyen hackatones, talleres, sesiones de mazmorras y seminarios web. Algunos se centran en desarrollar, portar y optimizar código con Aurora SDK y el hardware de la primera GPU Intel alojada en el Laboratorio Conjunto para la Evaluación de Sistemas (JLSE) en Argonne.

Williams dice: «El equipo de ciencia de datos de ALCF (dirigido por Venkat Vishwanath, codirector de ALCF para el programa ESP) está creando un entorno de software de supercomputación para ciencia de datos en Theta, que es el entorno más cercano a eso que planeamos tener en Aurora: incluye el administrador de flujo de trabajo Balsam, soporte para la funcionalidad optimizada de Python, marcos ML / DL, partes de la pila de Big Data, todo optimizado para HPC y aplicaciones científicas «.

El Exascale Computing Project (ECP) está desarrollando un archivo pila de software de exaescala, incluido el software que necesitan los desarrolladores de aplicaciones que escriben aplicaciones paralelas dirigidas a diferentes arquitecturas de exaescala. ALCF colabora y participa en el ECP para distribuir esta pila para Aurora. También se encuentra en desarrollo de software para proyectos de visualización y análisis in situ a gran escala.

La futura supercomputadora Aurora también incluirá la tecnología de E / S de almacenamiento de objetos asíncronos distribuidos (DAOS) de Intel, que alivia los cuellos de botella asociados con las cargas de trabajo intensivas en datos. DAOS, compatible con la memoria persistente Intel Optane, habilita un almacén de objetos definido por software creado para la memoria no volátil distribuida (NVM) a gran escala. La combinación de la memoria persistente Intel Optane y DAOS estableció recientemente un nuevo récord mundial, subiendo a la cima del Instituto Virtual de E / S Lista IO-500. DAOS será la principal plataforma de almacenamiento de datos para ESP y proyectos de ciencia de fabricación en Aurora, un paso importante más allá de los sistemas de archivos paralelos tradicionales.

Argonne es un participante clave en el desarrollo de oneAPI, un modelo de programación unificado y escalable para aprovechar el poder de diferentes arquitecturas informáticas en la era de la convergencia HPC / AI. La iniciativa oneAPI, respaldada por más de 30 empresas y organizaciones de investigación grandes y en crecimiento, definirá la programación para un mundo de arquitectura múltiple cada vez más infundido de IA. El modelo de programación unificado oneAPI está diseñado para simplificar el desarrollo en diferentes arquitecturas de CPU, GPU, FPGA e IA

“A través de la profunda inversión de Argonne en proyectos científicos que utilizan métodos de aprendizaje automático e intensivos en datos, Aurora mejorará el estado del arte para los flujos de trabajo científicos complejos a gran escala, en particular aquellos que incluyen datos experimentales / de observación. Aurora jugará un papel importante aquí ”, dice Williams.

Referencias

Recuerda compartir en en tu Twitter y Facebook para que tus colegas lo lean

??? ? ? ???

Comparte