Supercomputadora: no siempre es lo mejor para Big Data

Hola otra vez. Te escribe Simón Sánchez y en esta ocasión hablaremos sobre Supercomputadora: no siempre es lo mejor para Big Data

Las supercomputadoras más grandes del mundo, como Tianhe-2, son excelentes para cargas de trabajo HPC tradicionales con uso intensivo de computación, como la simulación de desintegración atómica o el modelado de tornados. Pero las aplicaciones con uso intensivo de datos, como la extracción de grandes conjuntos de datos para conexiones, son un tipo diferente de carga de trabajo y funcionan mejor en un tipo diferente de computadora.

TH-2 ocupó el primer lugar en la última iteración de la lista Top 500 publicada esta semana en Alemania en el ISC 2013. Con 33,8 petaflops de potencia informática, tiene casi la misma capacidad que las dos siguientes supercomputadoras más grandes del planeta. Sequoia y Titán, juntos.

Sin embargo, TH-2 ni siquiera llegó al top 5 en una lista de grandes computadoras competidoras, llamada Graph 500. De hecho, debutó en el número seis en la última iteración de la lista, que también se publicó esta semana en ‘ISC 2013.

Las dos listas comparten similitudes obvias. Ambos salen dos veces al año y ambos tienen «500» en su nombre, pero hay diferencias importantes. Mientras que el Top 500 mide la capacidad de un sistema para manejar grandes operaciones de punto flotante por segundo (FLOPS), Graph 500 mide la capacidad de una computadora para realizar funciones gráficas, medidas en bordes recorridos por segundo (TEPS).

Las supercomputadoras como TH-2 se esfuerzan por incluir el mayor número de núcleos de procesamiento en una sola imagen de sistema. Pero las aplicaciones de gráficos y datos intensivos, como Facebook Graph Search, funcionan mejor en sistemas que se han optimizado para acceder a la memoria, según Richard Murphy, arquitecto senior de sistemas de memoria avanzados en Micron Technology y fundador de Graph 500.

«Graph 500 es más desafiante cuando se trata de las partes móviles de datos de la máquina, la memoria y la interconexión, y existen fuertes fuerzas impulsoras comerciales para abordar algunos de estos problemas», dijo el veterano de Sandia National Laboratories dice IEEE Spectrum.

Obviamente, las matemáticas son importantes tanto para los sistemas HPC tradicionales como para la generación emergente de sistemas de big data. El problema de la «aguja en un pajar» que las aplicaciones de minería de datos grandes tratan de resolver depende en gran medida de la manipulación rápida de números enteros, como se realiza en TEPS, como la capacidad de construir bordes entre nodos en un gráfico.

La capacidad de obtener rápidamente una gran cantidad de datos dentro y fuera de la memoria y el disco es importante para el tipo de cargas de trabajo de minería de datos que utilizan empresas como Amazon, Facebook y Netflix para generar recomendaciones. También es importante para los tipos de cargas de trabajo que la NSA debe realizar con PRISM y programas relacionados.

El grupo Sequoia del DOE en el Laboratorio Nacional Lawrence Livermore, por cierto, mantuvo el primer lugar en la última lista Graph 500, con 15,363 GTAP. Los sistemas construidos en la plataforma BlueGene / Q de IBM poseen cuatro de los cinco primeros lugares de Graph 500 y ocho de los diez primeros.

Artículos relacionados

Las mejores supercomputadoras señalan el crecimiento de la industria HPC de China

Titan no rehizo LINPACK para la lista Top 500 de junio

TACC Longhorn se ocupa del procesamiento del lenguaje natural

Recuerda compartir en tu Facebook para que tus colegas lo flipen

??? ? ? ???

Comparte