El próximo desafío para Big Data: Data Paring - Calendae | Informática, Electrónica, CMS, Ciberseguridad

El próximo desafío para Big Data: Data Paring

Hola de nuevo. En el teclado Simón Sánchez y esta vez vamos a hablar sobre El próximo desafío para Big Data: Data Paring

Invitado editorial

Pienso mucho en big data y los desafíos que ofrece. Supongo que comencé a pensar en big data mucho antes de escuchar el término. Empecé a pensar en ello cuando escuché y leí una de las conclusiones de la autopsia de los hechos del 11 de septiembre de 2001 y en torno a esto: que teníamos la información para darnos cuenta de que este ataque se avecinaba, pero simplemente no lo hicimos. analizar los datos con la suficiente rapidez. Esto siempre se me ha quedado grabado y ha tenido el problema en mente, mucho antes de que conociera el término Big Data.

Uno de los desafíos más conocidos de los macrodatos es que debe prestar mucha más atención a dónde están los datos ahora. Este no es un desafío nuevo: recuerdo a un cliente riendo cuando me dijo que su equipo enviaba discos duros de correo de un sitio a otro hace 15 años porque el servicio postal era más rápido que la transferencia de red, pero el tamaño los datos están creciendo tan rápidamente que esto está cambiando de una preocupación marginal a una preocupación central.

Siempre escuchamos sobre la necesidad de ubicar recursos informáticos y tomar decisiones inteligentes sobre la puesta en escena de los datos, pero una de las dimensiones de este problema que más debe discutirse es el análisis de datos. La necesidad de esto es bastante obvia: los datos crecen exponencialmente y el crecimiento exponencial del procesamiento de datos requerirá presupuestos poco realistas. Uno de claves para ganar en Big Data ignorará el ruido. A medida que la cantidad de datos aumenta exponencialmente, la cantidad de datos interesantes no lo hace; Apuesto a que, para la mayoría de los propósitos, los datos interesantes que se agregan son un pequeño porcentaje de los nuevos datos que se agregan al conjunto de datos general.

Para explicar estas afirmaciones, supongamos que soy un proveedor de transmisión de medios Online que intenta predecir lo que le interesaría ver en función de lo que está viendo ahora. Este es un problema de aprendizaje automático increíblemente difícil. Cada vez que un usuario mira un fragmento de contenido, debe cruzarse con todo lo demás que el usuario ha visto, creando potencialmente cientos, miles o incluso más combinaciones nuevas que se pueden usar para predecir qué más le gustaría ver.

Luego, estos se comparan con todos los demás datos empíricos de todos los demás clientes para determinar la probabilidad de que también desee ver la secuela, otro trabajo de dirección, otro trabajo estrella de la película, material del mismo género, etc. Mientras realizo estos cálculos, ¿cuántos datos debo ignorar? ¿Cuántas personas no utilizan varios perfiles de usuario y, por lo tanto, no representan los intereses de una persona? ¿Cuántos puntos de datos no están relacionados con otros puntos de datos y, por lo tanto, no deberían evaluarse como una permutación válida como otro punto?

Responder a estas preguntas a través de algoritmos de selección y selección es una dimensión de Big Data que crecerá en importancia con el tiempo. La adquisición de datos siempre será fundamentalmente más rápida y más fácil que el análisis de datos, y los datos continuarán multiplicándose más rápido que los conejos. No perder el tiempo en datos irrelevantes será una de las claves para mantenerse al día con la competencia.

La comunidad científica ha estado determinando cómo eliminar datos irrelevantes durante mucho tiempo, tanto tiempo que el término atípico es la corriente principal. A medida que avanza el Big Data, las organizaciones pueden adaptar técnicas para ignorar valores atípicos y dibujar conclusiones inteligentes basadas en datos más correlacionados están a punto de marcar el camino.

David Beer es ingeniero de software sénior en Adaptive Computing

Recuerda compartir en tu Facebook para que tus colegas lo consulten

??? ? ? ???

Comparte