IBM inventa un atajo para evaluar la calidad de los datos - Calendae | Informática, Electrónica, CMS, Ciberseguridad

IBM inventa un atajo para evaluar la calidad de los datos

Hola y mil gracias por leerme. En el teclado Simón Sánchez y en esta ocasión te voy a hablar sobre IBM inventa un atajo para evaluar la calidad de los datos

En lo que IBM llama un «avance», los investigadores desarrollaron un algoritmo que reduce los costos computacionales de la evaluación de la calidad de los datos en dos órdenes de magnitud. La idea es traer cuantificación de la incertidumbre al alcance de los superordenadores actuales e incluso de máquinas mucho más modestas desde el punto de vista computacional. El nuevo algoritmo tiene una aplicabilidad potencialmente de gran alcance, que se extiende a casi todos los tipos de aplicaciones analíticas, así como al modelado y simulación científicos.

El desarrollo del algoritmo se realizó en IBM Research – Zurich y se presentó el jueves en la conferencia Society for Industrial and Applied Mathematics en Seattle. El equipo con sede en Zurich ha estado trabajando en el software durante el último año y medio y pudo patentarlo a fines de 2009, antes de publicar los resultados. El anuncio de esta semana siguió a una demostración sobre JuGene, el sistema Blue Gene / P en el Centro de Supercomputación Jülich en Alemania.

En ese experimento, se utilizaron 72 racks Blue Gene para validar nueve terabytes de datos en menos de 20 minutos. Según los investigadores de IBM, utilizando técnicas convencionales, ese análisis habría consumido más de un día y, en el proceso, habría utilizado 100 veces más energía. Se ha demostrado un rendimiento sostenido de 730 teraflops en la máquina Blue Gene / P, que representa el 73% del pico teórico, y se esperarían eficiencias similares o incluso mejores en clústeres y estaciones de trabajo más pequeños.

El ímpetu detrás de este trabajo es el flujo de datos que se envían a las computadoras para resolver problemas del mundo real, desde la gestión de la cartera de valores hasta la dinámica de los fluidos computacionales. Los datos se pueden generar a partir de fuentes físicas, como las fuentes del mercado financiero, los sensores meteorológicos, los dispositivos de medición de la red eléctrica y los flujos de Internet, así como de fuentes sintéticas como los modelos informáticos. «Esencialmente vivimos en un océano de bits y bytes», dice Costas Bekas de IBM Research – Zurich.

La idea, por supuesto, es usar computadoras para convertir todos estos datos en bruto en conocimientos valiosos. Pero primero, debe comprender qué tan buenos son los datos para que los resultados sean confiables. Y dado que la recopilación y generación de toda esta información nunca está libre de errores, se debe encontrar una forma de cuantificar todo el ruido y las anomalías en los datos.

Las técnicas estadísticas para caracterizar la calidad de los datos han existido durante algún tiempo y se incluyen en el término general de cuantificación de la incertidumbre, o UQ, para abreviar. Hay varios métodos utilizados para el análisis UQ, incluida la conocida técnica de Monte Carlo. Pero uno de los más poderosos usa algo llamado análisis de matriz de covarianza inversa. El problema con este método es que a medida que aumenta el tamaño de los datos, el costo computacional se vuelve poco práctico, incluso para los sistemas más potentes. Por ejemplo, Bekas afirma que una muestra de un millón de muestras de datos requeriría un exaflop de potencia informática. Esto es aproximadamente 1.000 veces el rendimiento de los mejores sistemas de supercomputación petaflop que existen en la actualidad. Para compensar, la gente ha «reformado» manualmente los datos y reducido el tamaño del problema, pero esto introduce el elemento del sesgo humano en el análisis.

El objetivo general de la investigación era hacer que la UQ fuera práctica, no solo para los científicos de élite en supercomputadoras, sino para los usuarios promedio en grupos de computadoras e incluso computadoras personales. Y debido a que querían cubrir la gama completa de plataformas de hardware, necesitaban diseñar el algoritmo para que fuera altamente escalable y tolerante a fallas.

La solución que se le ocurrió a IBM fue reemplazar el método de la matriz de covarianza inversa por uno que usa estimación estocástica y refinamiento iterativo. Esto permitió a los investigadores considerar el problema como un sistema lineal. «La clave es que el número de sistemas lineales que resolvemos es pequeño», explica Bekas. «Entonces, si tiene, digamos, un millón de muestras de datos, entonces solo tiene que resolver 100 sistemas lineales».

Según Bekas, este modelo no solo les permitió paralelizar la técnica, sino también reducir el costo computacional en un factor de 100. Además, el algoritmo usa un esquema de precisión mixto para que el cálculo principal se pueda realizar en precisión simple ( o incluso menor), pero generan resultados en doble precisión (o incluso mayor). Si bien la mayoría de las CPU modernas no pueden aprovechar este truco en particular, los aceleradores computacionales, como los procesadores Cell, las GPU y presumiblemente también los FPGA, pueden usar esta función de manera óptima.

La tolerancia a fallas es un subproducto del modelo de estimación estocástico. «Si, por ejemplo, algo sale mal con su máquina mientras está solucionando el problema de uno de los sistemas lineales, puede ignorarlo con seguridad y pasar al siguiente», dice Bekas. “Por otro lado, si tuviera que realizar la inversión de matriz completa [and] algo salió mal al final de un cálculo de matriz muy grande, por lo que sus datos se destruyen. «La técnica mantiene una precisión de tres, cuatro o incluso cinco dígitos, lo que, según él, supera con creces la requerida para las aplicaciones.

Ahora que la propiedad intelectual de IBM relacionada con el algoritmo ha sido patentada y la tecnología está fuera de la fase experimental, el siguiente paso es comenzar la comercialización. No hay escasez de aplicaciones potenciales: previsión meteorológica, gestión de la cadena de suministro, simulación de armas nucleares, astrofísica, resonancia magnética y todo tipo de inteligencia empresarial, básicamente cualquier aplicación de análisis o modelado en la que la calidad de los datos sea un factor determinante. Quizás el resultado más impactante es el análisis de la cartera financiera, donde la exposición al riesgo es el centro de la aplicación. IBM tiene un grupo de optimización y análisis de negocios dentro de su organización de consultoría listo para comenzar a involucrar a los clientes.

«Le sorprendería ver cuántas disciplinas diferentes se basan en los mismos problemas matemáticos básicos», dice Bekas. «Y esta cuantificación de la incertidumbre es una de ellas».

Recuerda compartir en una historia de tu Instagram para que tus colegas lo sepan

??? ? ? ???

Comparte