Big data cambia las reglas - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Big data cambia las reglas

Hola, ¿qué tal colega?. Te habla Simón Sánchez y en el día de hoy hablaremos sobre Big data cambia las reglas

Recién salido de ISC’08 y la petaflop-mania asociada, noté que el último número de la revista Wired contiene una serie de artículos sobre las ramificaciones de los datos en petabytes. El tema se titula «El fin de la ciencia» y el argumento principal es que estos enormes conjuntos de datos nos obligan a repensar cómo se realiza la ciencia tradicional.

Si bien los datos del tamaño de un petabyte pueden ser relativamente nuevos en el mundo de HPC, Google, Amazon y eBay han estado luchando con esto durante algún tiempo. En lugar de intentar modelar los datos, estas empresas utilizan métodos basados ​​en la heurística para generar información útil, o al menos lo suficientemente útil como para poder vender productos o anuncios a su alrededor. La teoría es que suficientes datos, la heurística es el camino más práctico para obtener los mejores resultados.

En la pieza de Wired titulada «La avalancha de datos vuelve obsoleto el método científico, «el

Del artículo:

En una escala de petabytes, la información no es una cuestión de simple taxonomía y orden tridimensional y tetradimensional, sino de estadísticas dimensionalmente agnósticas. Requiere un enfoque completamente diferente, que requiere que perdamos el enlace de datos como algo que se puede ver en su totalidad. Nos obliga a visualizar los datos matemáticamente primero y establecer un contexto para ellos más tarde. Por ejemplo, Google ha conquistado el mundo de la publicidad con nada más que matemáticas aplicadas. No pretendió saber nada sobre la cultura y las convenciones de la publicidad, sino que simplemente asumió que mejores datos, con mejores herramientas analíticas, ganarían el día. Y Google tenía razón.

Un ejemplo práctico en la ciencia es el trabajo de secuenciación de genes que Craig Venter está realizando en microbiología marina. En lugar de separar organismos individuales y secuenciarlos uno por uno, utiliza «secuenciación de rifle» y una supercomputadora para derivar especies probables basándose en análisis estadístico de fragmentos genéticos recolectados en una muestra de agua salada determinada. Este enfoque no produce una lista definitiva de especies, pero proporciona una enorme cantidad de información sobre todas las posibles especies encontradas y sobre los parámetros genéticos del ecosistema.

Este nuevo enfoque computacional también se reflejó en la presentación de Dan Reed en la reciente conferencia TeraGrid ’08, sobre la que informamos esta semana. Un área de la que habló es cómo estos grandes conjuntos de datos desafían el pensamiento convencional:

Los modelos de datos, señaló Reed, están evolucionando rápidamente debido a volúmenes de datos cada vez mayores. Esto es particularmente pronunciado en algunos campos, como la investigación biomédica, donde grandes bases de datos están sujetas a análisis distribuidos. Un gran desafío, probablemente subestimado, dice Reed, es la escala del diluvio de datos. «Consultaremos 100.000 servidores», dijo Reed. «Y la investigación se está moviendo de la basada en hipótesis (» Tengo una idea, déjame verificar «) a la exploratoria (» ¿Qué correlaciones puedo hacer con los datos de todos? «). Este tipo de análisis exploratorio se basará en herramientas para minería de datos en profundidad «. Los datos masivos y multidisciplinarios, dijo Reed, están creciendo rápidamente y en una escala sin precedentes.

Estos métodos computacionales heurísticos no son exactamente nuevos. Uno que ha existido durante algún tiempo es el algoritmo genético, una técnica que imita la evolución biológica como estrategia de resolución de problemas. Para que funcione, debes poder definir la forma general de la solución, por lo que es inútil si no tienes una idea de lo que estás buscando. Al igual que la evolución darwiniana, un algoritmo genético realiza cambios aleatorios en la solución candidata y permite que la «forma física» del resultado determine si está en el camino correcto.

UN Artículo de 2004 sobre algoritmos genéticos y cálculo evolutivo describe un ejemplo de la vida real:

[A] el algoritmo genético desarrollado conjuntamente por ingenieros de General Electric y el Instituto Politécnico Rensselaer produjo un diseño de turbina de motor a reacción de alto rendimiento que era tres veces mejor que una configuración hecha por el hombre y un 50% mejor que una configuración diseñada por un sistema experto navegando con éxito una solución espacial que contiene más de 10,387 posibilidades. Los métodos convencionales de diseño de tales turbinas son una parte central de los proyectos de ingeniería que pueden tardar hasta cinco años y costar más de $ 2 mil millones; el algoritmo genético descubrió esta solución después de dos días en una estación de trabajo de escritorio de ingeniería típica [Holland, John. “Genetic algorithms.” Scientific American, July 1992, p. 66-72].

Supongo que eliminar el elemento humano de la resolución de problemas es la conclusión lógica para que toda la ciencia se convierta en informática. Y ciertamente es una forma de hacer negocios que favorece a los capitalistas. Después de todo, ¿por qué molestarse en emplear a docenas de expertos en dominios cuando puede simplemente comprar o alquilar software en la nube? Pero incluso si la era de los petabytes pone fin a las teorías y los modelos, los humanos no son completamente prescindibles. Todavía tenemos que hacer las preguntas interesantes.

Recuerda compartir en tus redes sociales para que tus colegas lo vean

??? ? ? ???

Comparte