El experto japonés en informática de escala extrema habla sobre Big Data - Calendae | Informática, Electrónica, CMS, Ciberseguridad

El experto japonés en informática de escala extrema habla sobre Big Data

Hola, ¿qué tal colega?. Te habla Simón Sánchez y esta vez te voy a contar sobre El experto japonés en informática de escala extrema habla sobre Big Data

La Conferencia Internacional de Supercomputación (ISC’14) invitó a uno de los principales expertos en HPC de Japón, el profesor Satoshi Matsuoka, para dar un discurso de apertura titulado «Si no puede vencerlos, impulse: la convergencia de la supercomputación y el Big Data «extremo» de próxima generación, «

En este inspirador discurso del martes 24 de junio, Matsuoka compartirá por qué cree que las arquitecturas de supercomputadoras convergerán con el big data y desempeñarán un papel tecnológico crucial para la industria. Su declaración estará ejemplificada por una serie de proyectos de investigación japoneses recientes en esta área, incluido el proyecto JST-CREST «Extreme Big Data». Para comprender más sobre estos proyectos y dónde encajan en el alcance más amplio del procesamiento de escala extrema, hablamos con Matsuoka.

¿Existe una distinción entre «datos» y «macrodatos»?

Satoshi Matsuoka: Obviamente. De hecho, clasifico «datos simples», «datos masivos» y «datos masivos extremos» como tres dominios diferentes.

«Big data» implica dos características principales. Una es desde un punto de vista semántico, ya que grandes conjuntos de datos se recopilan de manera bastante imparcial; y luego se intentaría extraer información correlativa significativa de ellos, utilizando varios métodos como minería de datos, aprendizaje profundo, análisis de gráficos, etc. Otro es desde el punto de vista del sistema, como volumen de datos, ancho de banda, etc. demasiado grande para ser procesado con máquinas convencionales, incluso aquellas configuradas para bases de datos tradicionales. Los componentes del sistema, tanto hardware como software, necesitan mejoras para soportar el mayor nivel de procesamiento. En este sentido, el «superprocesamiento de datos» de big data es para el procesamiento de datos normal como la supercomputación es para el cálculo normal.

Big data extrema significa que los volúmenes de datos, así como las necesidades computacionales, se vuelven tan grandes que una simple extensión de las arquitecturas de procesamiento de big data convencionales ya no sería factible y requerirá convergencia con tecnologías y plataformas de supercomputación.

¿Qué importancia tiene el big data para el espacio HPC y cómo ha evolucionado el término con el tiempo? ¿Es esto algo diferente a lo que solía llamarse «procesamiento intensivo de datos»?

Matsuoka: En cierto sentido, HPC ha sido el pionero del big data desde los días del procesamiento intensivo de datos. Ya hace 20 años, los investigadores que ejecutan códigos climáticos estaban empezando a tener problemas con los terabytes de datos cuando el público en general todavía estaba en los días de los gigabytes.

En cualquier caso, el área general que ahora cubre el big data es mucho mayor. También debido a la aparición de nuevas áreas de aplicación, como la genómica, la computación intensiva en datos en HPC se ha expandido hasta el punto de que su cobertura se ha ampliado.

¿Cómo imagina que ocurra la convergencia entre big data y HPC?

Matsuoka: Lo que es único en la tendencia actual de big data es el énfasis en varios algoritmos de análisis de datos, como el aprendizaje profundo y el análisis de gráficos. Esto, junto con varios otros factores, requiere algunos cambios en la pila de hardware y software de HPC, como la necesidad de un gran aumento en la capacidad de datos y el ancho de banda. Por el contrario, la HPC tradicional tiende a tener un ancho de banda alto pero una capacidad de memoria baja.

Pero debido a que HPC también adolece de falta de capacidad de memoria, la convergencia a nivel de hardware se centrará principalmente en diseñar jerarquías de memoria profundas adecuadas a la capacidad. Esto se aplica tanto a la profundidad de la memoria dentro de un nodo, utilizando nuevas tecnologías de memoria y arquitecturas de procesador asociadas, como al ancho de la memoria entre nodos, que requieren un uso extensivo de ópticas para soportar altas ancho de banda y baja latencia.

Desde el punto de vista de los datos, las necesidades estarán impulsadas por los llamados «silos rotos». Los datos almacenados en múltiples instituciones y disciplinas, así como la proliferación de Internet de las cosas, explotarán las capacidades de datos y la computación de correlación cruzada. Ahora tenemos aplicaciones de big data en genómica que se ejecutan en casi todas las computadoras K, utilizando la abundancia de su memoria de petabytes y 660,000 núcleos. Esto ya es de 1/5 a 1/7 de la capacidad total de Amazon según una estimación de una importante empresa de consultoría de TI. Piense en la era de la exaescala en la que tendremos aplicaciones de big data que requieren 100 millones de núcleos, un número que incluso hace que Google sea pequeño en comparación.

En este momento tenemos la empresa con sus propios casos de uso de aplicaciones de big data y tal vez incluso su propia comprensión de lo que significa el término. Teniendo esto en cuenta, ¿cómo afectará la convergencia de HPC y big data a estos usuarios?

Matsuoka: La industria también adopta HPC, pero considera estas aplicaciones distintas del procesamiento tradicional. Gracias a su convergencia, los usuarios empresariales y de HPC aprenderán a hacer un mejor uso de las tecnologías combinadas y también permitirán la aparición de nuevas aplicaciones que vinculen la informática masiva con el análisis de datos. Ya vemos ejemplos ahora en áreas como la genómica y la ingeniería de diseño.

¿Puede profundizar en el papel de Japón en el avance de las tecnologías de big data y en impulsar su convergencia con HPC?

Matsuoka: Para Japón, tanto la HPC como el big data están a la cabeza de la agenda de la industria y la investigación. Es prudente trabajar con otras regiones del mundo con una visión similar para superar ambos límites. Los proyectos de HPC propuestos en Japón hacia la exaescala probablemente también tendrán más énfasis en big data extremo.

Ahora en su 29a edición, ISC es el evento de redes y conferencias más antiguo e importante de Europa para la comunidad HPC, que ofrece un sólido programa técnico de cinco días centrado en el desarrollo de la tecnología HPC y su aplicación en campos científicos, así como sobre su adopción en un entorno industrial.

Más de 300 oradores expertos seleccionados y 170 expositores, compuestos por los principales centros de investigación y proveedores, darán la bienvenida a los asistentes de este año a ISC. Una serie de eventos completan el programa técnico que incluye tutoriales, anuncio de TOP500, sesiones de trabajos de investigación, sesiones de Birds of a Feather (BoF), sesión de carteles de investigación, foro de expositores y talleres. Para mayor información por favor visite www.isc14.org.

No te olvides compartir en en tu Twitter y Facebook para que tus colegas lo lean

??? ? ? ???

Comparte