La supercomputación se encuentra con las redes sociales - Calendae | Informática, Electrónica, CMS, Ciberseguridad

La supercomputación se encuentra con las redes sociales

Hola de nuevo. Yo soy Simón Sánchez y hoy te voy a contar sobre La supercomputación se encuentra con las redes sociales

En la supercomputación en estos días, son generalmente las grandes aplicaciones científicas (astrofísica, simulaciones climáticas, predicciones de terremotos, etc.) las que parecen atraer la mayor atención. Pero una nueva área está emergiendo rápidamente en la escena de HPC bajo la categoría general de computación o procesamiento intensivo de datos. Sin duda, la informática no es en absoluto nueva, pero su importancia para el ámbito de la HPC está creciendo, principalmente debido a las áreas de aplicación emergentes como la ciberseguridad, la bioinformática y las redes sociales.

El auge de las redes sociales, en particular, está inyectando enormes cantidades de datos en el flujo de información global. Entender esto con computadoras y software convencionales es casi imposible. Con esto en mente, un historia en MIT Technology Review sobre el uso de una supercomputadora para analizar datos de Twitter me llamó la atención. En este caso, la supercomputadora era una máquina Cray XMT operada por el DOE en el Pacific Northwest National Lab (PNNL) como parte de su CASS-MT infraestructura.

El software de aplicación utilizado para guiar este análisis fue GraphCT, desarrollado por investigadores de Georgia Tech en colaboración con los chicos de PNNL. GraphCT es la abreviatura de Graph Characterization Toolkit y está diseñado para analizar estructuras de gráficos realmente enormes, como el tipo de datos que componen las redes sociales como Twitter.

Para aquellos de ustedes que se han estado escondiendo debajo de una roca en los últimos años, Twitter es un sitio de redes sociales para intercambiar microblogs de 140 caracteres, también conocidos como tweets. En abril de 2010, había más de 105 millones de usuarios registrados, generando un promedio de 55 millones de tweets por día. El propósito de Twitter es, por supuesto … bueno, nadie lo sabe con certeza. Pero representa una instantánea impresionante de lo que está llamando la atención de los humanos conectados a la web en un día determinado. Si tan solo uno pudiera encontrarle sentido.

Contar tweets o incluso buscarlos es una tarea bastante sencilla para una computadora, pero examinar los líderes de Twitter de los seguidores y averiguar los patrones de acceso es mucho más complicado. Aquí es donde entra en juego la supercomputación GraphCT y Cray.

GraphCT puede mapear los datos de la red de Twitter en un gráfico y usar ciertas métricas para dar importancia a las interacciones del usuario. Mide algo llamado «centralidad entre los dos», para clasificar el significado de los tweeters.

Debido al tamaño de los datos de Twitter y la naturaleza altamente multiproceso del software GraphCT, los investigadores no podían confiar en los servidores web vanilla que componen la propia Internet, o incluso en los dispositivos informáticos tradicionales de HPC. El fino paralelismo y los esquemas de acceso a memoria dispersa requerían una máquina de espacio de direcciones global a gran escala construida para tolerar una alta latencia de memoria.

El Cray XMT, un superordenador de tipo SMP patentado, es una de esas máquinas y, de hecho, está diseñado específicamente para este perfil de aplicación. Sospecho que la razón por la que ya no escuchamos sobre XMT es porque la mayoría de ellos probablemente se distribuyen en esas agencias gubernamentales de alto secreto de tres letras, donde la minería de datos y el análisis son el primer trabajo.

El XMT sobre PNNL es un sistema de 128 procesadores con 1 terabyte de memoria. La característica distintiva de esta arquitectura es que cada procesador «Threadstorm» personalizado es capaz de manejar hasta 128 subprocesos simultáneamente. La tolerancia para altas latencias de memoria está respaldada por una gestión eficiente del contexto de subprocesos a nivel de hardware.

1 TB de RAM del sistema global es suficiente para contener más de 4 mil millones de vértices y 34 mil millones de bordes de un gráfico. Para poner eso en perspectiva, uno de los conjuntos de datos de Twitter de septiembre de 2009 se encapsuló en 735.000 vértices y 1 millón de bordes, requiriendo solo unos 30 MB de memoria. Al aplicar el análisis GraphCT, el procesamiento de datos tarda menos de 10 segundos. Los investigadores estimaron que un conjunto de datos de Twitter mucho más grande de 61,6 millones de vértices y 1,47 mil millones de fronteras tomaría solo 105 minutos.

Cuando los investigadores de Georgia Tech y PNNL observaron los números, encontraron que relativamente pocas cuentas de Twitter eran responsables de una cantidad desproporcionada de tráfico, al menos para los conjuntos de datos particulares que analizaron. El conjunto de datos más grande consistió en todos los tweets públicos del 20 al 25 de septiembre de 2009, que contienen el hashtag #atlflood (para capturar los tweets de las inundaciones de Atlanta). En este caso, al menos, los tweets más influyentes se originaron en algunos de los principales medios de comunicación y organismos gubernamentales.

Es probable que en un futuro próximo escuchemos más sobre aplicaciones gráficas en HPC. Los conjuntos de datos y los flujos de datos están superando las capacidades de las computadoras convencionales, y la demanda de digerir todos estos bytes aleatorios está aumentando rápidamente. Dado que las arquitecturas óptimas para esta escala de procesamiento intensivo de datos tienden a ser muy diferentes de las de las plataformas HPC convencionales (que tienden a optimizarse para código científico intensivo en computación), esto podría estimular mucha más diversidad en los proyectos de diseño. supercomputadora.

Con este fin, un nuevo grupo llamado Gráfico 500 ha desarrollado un punto de referencia dirigido a esta categoría de aplicaciones y tiene la intención de mantener una lista de los 500 sistemas principales con las capacidades gráficas de mejor rendimiento. La primera lista de Graph 500 se dará a conocer el próximo mes en la próxima Conferencia de Supercomputación (SC10) en Nueva Orleans.

Mientras tanto, si está interesado en probar GraphCT, puede descargar una versión anterior a la 1.0 del software de forma gratuita desde Sitio web de Georgia Tech. Solo necesitará una máquina compatible con Cray XMT o POSIX para ejecutarlo.

No te olvides compartir en tus redes sociales para que tus amigos lo disfruten

??? ? ? ???

Comparte