Los keynoters de la conferencia IEEE describen el camino hacia el cálculo a exaescala - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Los keynoters de la conferencia IEEE describen el camino hacia el cálculo a exaescala

Hola, ¿qué tal colega?. Yo soy Simón Sánchez y en el día de hoy vamos a hablar sobre Los keynoters de la conferencia IEEE describen el camino hacia el cálculo a exaescala

Los desafíos de la computación a exaescala estuvieron en el centro de las tres charlas principales en la Conferencia de Clúster IEEE 2011 que se llevó a cabo en Austin, Texas, del 26 al 30 de septiembre. Los ponentes, reconocidos líderes en computación en clúster, describieron los obstáculos y oportunidades involucrados en la construcción de sistemas mil veces más potentes que las supercomputadoras de petaescala actuales. Hablando desde la perspectiva del desarrollador de software (Thomas Sterling), el diseñador de clústeres (Liu GuangMing) y el arquitecto de chips (Charles Moore), cada uno presentó sus propios pensamientos sobre lo que se necesita para alcanzar la exaescala.

Thomas Sterling, Universidad de Indiana, Centro de Investigación en Tecnologías de Escala Extrema (CREST)

Con una confianza nacida de una larga experiencia, Thomas Sterling, padre de Beowulf, veterano de la industria y director asociado del Centro de Investigación en Tecnologías de Escala Extrema (CREST) ​​en la Universidad de Indiana, inició la conferencia el martes con un hablar sobre la necesidad de un nuevo paradigma de programación que sea adaptativo, inteligente, asincrónico y capaz de un rendimiento significativamente mejor que el modelo de ejecución actual.

Antes de embarcarse en una explicación del nuevo modelo de programación, Sterling presentó una historia excéntrica de la computación en clúster desde el proyecto MIT Whirlwind en la década de 1950 hasta los sistemas cibernéticos de Norbert Weiner hasta la era Beowulf, donde las PC comerciales se ensamblaron para la primera vez en construir un clúster poderoso, a las megamáquinas petaflop actuales, un millón de veces más rápido que el primer clúster de Beowulf.

Durante las diversas etapas de la innovación en supercomputación, surgieron diferentes paradigmas de programación, explicó Sterling, desde la ejecución en serie hasta el procesamiento vectorial y SIMD, hasta el modelo dominante de hoy, que utiliza MPI (Interfaz de paso de mensajes) para comunicarse entre muchos núcleo.

«Los conglomerados sufrirán otra metamorfosis», predijo Sterling, y agregó que «los conglomerados de productos básicos sobrevivirán a los cambios de paradigma».

Las tendencias actuales sugieren que la trayectoria de la velocidad de procesamiento se está nivelando. Sterling ha identificado una serie de problemas que podrían impedir que los tecnólogos desarrollen grandes sistemas. La potencia y la confiabilidad serán un desafío, pero Sterling ve el modelo de programación como el mayor obstáculo.

En el modelo sincrónico representado por MPI, los cálculos deben realizarse en un orden específico y con precisión, para minimizar la latencia, un baile que es difícil de seguir. Solo un puñado de código puede ejecutarse en los cientos de miles de núcleos disponibles en las grandes supercomputadoras actuales. Las computadoras de exaescala, que Sterling dijo que espera ver para fines de la década, probablemente tendrán millones de núcleos. En este nivel de recuento de núcleos, la confiabilidad de los componentes y los costos de sincronización no pueden soportar el enfoque habitual de procesamiento de datos en paralelo.

«Tenemos que gestionar la asincronía para permitir que la computadora se adapte automáticamente», dijo.

Como analogía, señaló la diferencia entre un misil guiado y un cañón. MPI representa un método de fuerza bruta balística incontrolada para resolver problemas. El nuevo paradigma, o «modelo de ejecución experimental» presentado por Sterling, está ejemplificado por su proyecto, el Grupo de Investigación ParalleX.

«ParalleX es un banco de pruebas abstracto para explorar la síntesis de ideas para aplicaciones actuales y extremas», dijo Sterling. «Queremos traer aplicaciones a gran escala al mundo de los clústeres».

Su software utiliza micro-checkpoint: detección efímera y corrección sobre la marcha e introspección (una especie de aprendizaje automático) que cierra el ciclo, como en la cibernética, para adaptarse constantemente como el misil guiado. También maneja la asincronía a través de «sincronización basada en restricciones».

«No quiere decirle al programa cuándo realizar las tareas», dijo Sterling. “Quieres indicarle al programa las condiciones en las que se puede realizar la actividad. Esto permite que el programa decida por sí mismo cuándo emprender una determinada tarea. «

Indicó mejoras de rendimiento iniciales para portar el algoritmo de refinamiento de malla adaptativa para que la astrofísica funcione en la ejecución de ParalleX. Los resultados mostraron una mejora de dos a tres veces en el rendimiento al cambiar el contexto subyacente de MPI a ParalleX.

Algunos de estos mismos objetivos se están persiguiendo en algunos experimentos de programación importantes, pero no particularmente conocidos, según Sterling. Además de ParalleX, discutió ejemplos del proyecto StarsS en el Barcelona Supercomputing Center, que utiliza un nuevo modelo para ejecuciones de flujo de datos, y SWift Adaptive Runtime Machine (SWARM) de ET International.

Es posible que estos modelos de ejecución aún no proporcionen un cálculo óptimo, admite Sterling, pero las soluciones en desarrollo son necesarias para hacer avanzar a la comunidad.

«La computación en clúster está pasando por una fase de transición», dijo. “Tendrá liderazgo en este nuevo cambio de paradigma y será el medio en el que se manifestará un nuevo paradigma. «

Las herramientas son de código abierto y XPI, la API para el entorno de ejecución, está en pruebas alfa y está disponible para usuarios amigables. Pronto se dará a conocer al público en general.

Liu GuangMing, Director, Centro Nacional de Supercomputación, Tianjin, China

Liu GuangMing, el diseñador de Tianhe-1A, la supercomputadora más poderosa de China y la segunda más poderosa del mundo, comenzó su discurso el miércoles con una descripción general del sistema implementado en el Centro Nacional de Supercomputadoras en Tianjin, China. Luego analizó las barreras que enfrentan los diseñadores al construir un sistema de exaescala.

Construido a partir de 143,336 procesadores de CPU Intel, 7168 GPU NVIDIA y 2048 procesadores Galaxy FT-1000 de ocho núcleos diseñados por el propio Liu, el Tianhe-1A tiene un rendimiento máximo de 2.56 petaflops. El grupo híbrido se compone principalmente de partes de materias primas; sin embargo, algunos de los componentes, incluidas las interconexiones y los chips FT, son propietarios.

«Para llegar a la petaescala, puede elegir un diseño tradicional o un diseño nuevo», dijo Liu. «Estábamos buscando una nueva forma de diseñar e implementar una supercomputadora petaflop».

Cuando se lanzó en 2010, muchos en el mundo de HPC cuestionaron la capacidad de Tianhe-1A para ejecutar aplicaciones científicas de manera eficiente. Liu describió una amplia gama de problemas que han utilizado miles a cientos de miles de procesadores con gran eficiencia, desde imágenes sísmicas para la exploración de petróleo hasta la decodificación del genoma de la bacteria E. coli que ha enfermado a miles de personas en Alemania. Estos resultados se proporcionaron y silenciaron algunas de las preguntas sobre la usabilidad de Tianhe-1A.

Después de describir los logros tecnológicos y científicos de Tianhe-1A, Liu pasó a discutir los problemas asociados con los futuros sistemas de exaescala. Dividió los problemas en cinco categorías: potencia, memoria, comunicación, confiabilidad y escalabilidad de la aplicación, y cuantificó cada problema con modelos matemáticos.

Literalmente.

Al convertir cada uno de los principales desafíos en ecuaciones, describió cómo los modelos representan los obstáculos que enfrentan los continuos aumentos de velocidad. El objetivo de este esfuerzo era «construir un modelo de aceleración sintetizado y definir cuantitativamente los ‘muros'», dijo Liu.

Continuó sugiriendo posibles formas de superar cualquier muro, a veces mediante un esfuerzo concertado de la comunidad HPC, a veces mediante innovaciones emergentes.

Liu también ha mostrado entusiasmo por las tecnologías emergentes no probadas, como las interconexiones ópticas o inalámbricas, la nanoelectrónica y la computación cuántica y de ADN, que espera desempeñar un papel en la evolución de nuevos sistemas. Señaló las interconexiones 3D de alta velocidad asociadas con los sistemas informáticos Cray XT5 y Fujitsu K como ejemplos de tecnologías actuales que cree que están en camino de alcanzar la exaescala.

Liu también proporcionó ejemplos de casos en los que la comunidad necesita hacer un mejor trabajo optimizando las aplicaciones para sistemas más grandes. Hablando de la memoria de la computadora, clasificó seis tipos de acceso a datos que deben tenerse en cuenta al acelerar y escalar aplicaciones a decenas de miles de núcleos.

«Las técnicas de optimización tradicionales generalmente solo consideran algunas de estas características», dijo Liu. «Necesitamos considerar las seis características y crear un algoritmo de optimización armonioso».

Este pensamiento holístico y profundo sobre la interrelación de los distintos niveles de computación fue el mensaje principal de la presentación de Liu. Volvió varias veces a los gráficos que mostraban el impacto de varios procesos, desde el acceso a la memoria y la comunicación, hasta el consumo de energía y los costos, en el tiempo y la eficiencia general del cálculo.

«Para llegar a la exaescala, debemos buscar soluciones en todos los niveles del sistema», concluyó Liu.

Charles Moore, miembro corporativo y director de tecnología del grupo de tecnología Advanced Micro Devices

Alcanzar la exaescala fue el subtexto del discurso de apertura de Charles Moore el jueves en el IEEE Cluster 2011, pero la línea emergente de unidades de procesamiento acelerado (APU) de AMD fue el tema real de su discurso.

Las APU son una clase de chips que Moore cree que impulsará los futuros sistemas de exaescala. Según Moore, los sistemas de exaescala alcanzarán su enorme velocidad utilizando tanto CPU como GPU u otros aceleradores.

«Nos acercamos a lo que en AMD llamamos la era de los sistemas heterogéneos», dijo Moore. Esto por sí solo no es revolucionario; lo importante es el hecho, pero para AMD, estos núcleos estarán todos en el mismo chip.

Entre los chips que discutió Moore se encuentran la APU Fusion de la serie E «Brazos», que contiene dos núcleos, dos GPU y un acelerador de video en un solo chip. Alcanza 90 gigaflops de rendimiento de precisión simple utilizando solo 18W TDP. «Desna», el primo pequeño de Brazos, funciona con solo 6 W y es adecuado para proyectos enfriados pasivamente como tabletas. «Llano», el chip de gama más alta de AMD, tendrá cuatro núcleos de CPU, GPU avanzadas y ofrecerá 500 gigaflops de potencia informática por nodo.

Una ventaja de la nueva línea AMD es que puede «usar este chip para gráficos o como una descarga de cómputo o ambos al mismo tiempo», dijo Moore.

Los poderosos chips que Moore profetizó no nos llevarán exactamente a la exaescala, pero nos llevarán casi hasta el final, dijo. Para exaescala, se necesita una revisión de la arquitectura de memoria y los modelos de programación.

Moore insinuó que la memoria apilada 3D desarrollada por AMD es una posible solución tecnológica a los problemas de acceso a la memoria. También describió la nueva arquitectura del sistema AMD Fusion, donde el objetivo es «hacer de la GPU un ciudadano de primera clase en la arquitectura del sistema».

La arquitectura del propio sistema Fusion es «independiente de la CPU y la GPU». «Agregaremos más aceleradores a este chasis en el futuro», dijo Moore. «No se trata solo de GPU, se trata de procesamiento heterogéneo en general».

La apertura fue un tema común en la última parte del discurso de Moore en el que describió la dedicación de AMD desde hace mucho tiempo al software y los estándares de código abierto. Habló de los estándares emergentes, incluidos HyperShare, Open Compute Project y Common Communication Interface, que cree que desempeñarán un papel clave para llegar a la exaescala.

«Los estándares abiertos son la base de los grandes ecosistemas», dijo. «Si miras el tiempo, los estándares abiertos siempre ganan».

Mirando más allá de la próxima generación de chips, Moore describió el potencial de un nodo de procesamiento de APU x86 de 10 teraflop de clase exascale, alcanzable en el período de 2018.

«Tenemos la intención de hacer que la potencia de procesamiento sin precedentes de la APU sea tan accesible para los programadores como lo es hoy la CPU».

Deberías compartir en en tu Twitter y Facebook para que tus amigos opinen

??? ? ? ???

Comparte