Platform Tunes Symphony para Big Data Diluvio

Hola otra vez. En el teclado Simón Sánchez y esta vez te voy a contar sobre Platform Tunes Symphony para Big Data Diluvio

El tema de los «macrodatos» se está abriendo camino en un número creciente de conversaciones a medida que aumentan los volúmenes de datos, lo que lleva los recursos informáticos al límite. Este ámbito de enormes conjuntos de datos tampoco se limita a la inteligencia empresarial; se está convirtiendo cada vez más en un componente central de los objetivos empresariales de misión crítica.

Como resultado, el año pasado produjo una ola de noticias en torno a las empresas que buscan capitalizar los desafíos de la gestión de big data a través de versiones comerciales de productos populares de código abierto y la aparición de nuevos marcos abiertos para desarrollar aún más el panorama. Empresas más nuevas como Cloudera, por ejemplo, buscan llevar «big data a las masas» a través de la gestión simplificada de conjuntos de datos grandes y desordenados. Y ahora, la robusta plataforma informática de la industria está subiendo a bordo del Big Data Express.

Para ser más específico, la plataforma anunció esta semana que está buscando proporcionar procesamiento distribuido para el modelo de programación MapReduce, que es una de una lista corta de formas de extraer y mapear datos no estructurados molestos y, como su apodo, reduzca ese lío a información utilizable.

Cloudera (y una gran cantidad de soluciones de código abierto) se enfrentan a un problema importante. En el corazón de los desafíos para quienes luchan con big data (organizaciones de servicios financieros y usuarios de análisis de negocios a gran escala, entre otros) está el problema de los datos estructurados versus los no estructurados. Sin embargo, para ser claros, este no es solo un problema unilateral; Los datos no estructurados pueden ser problemáticos en varios frentes, entre los cuales se justifica la preocupación de estar «atados» a herramientas de gestión específicas para toda esa información.

La plataforma y otras tienen razón al abordar este y otros problemas, dada la continua proliferación de más de este tipo de datos particularmente complicado. En la actualidad, la gran mayoría del filtrado de datos está en formato no estructurado, hasta un 80% si los datos de IDC son correctos. Han entrado en juego nuevos marcos de programación para ayudar a gestionar esta complejidad y permitir el procesamiento distribuido en grandes conjuntos de datos.

En el ámbito del almacenamiento, se han desarrollado nuevas técnicas y sistemas de archivos como el sistema de archivos Hadoop (HDFS), que fue creado para atender las necesidades tanto de datos estructurados como no estructurados, pero desde el punto de vista de la plataforma (que explicaremos en espera) este y otros modelos tienen serias debilidades en un frente u otro.

Una plataforma en evolución

Para una empresa que ha estado en la industria de sistemas distribuidos durante 18 años, esta implementación no es inesperada. De hecho, el único elemento que causa algunos rasguños es por qué les tomó tanto tiempo entrar en el barco de big data cuando había tanto del marco necesario.

Según Scott Campbell, gerente de producto de Platform for Business Analytics, el proceso para comenzar a agregar herramientas a los «mapas retráctiles» comenzó hace unos ocho meses, aunque señaló que la empresa estaba experimentando algunos cambios sísmicos en el esfera de análisis en los últimos años en el frente de los datos no estructurados. Con enormes cantidades de datos filtrados por cualquier número de nuevas herramientas, sensores y otros métodos de recopilación, estaba claro que se estaba volviendo imposible ejecutar estos datos en almacenes estructurados o bases de datos, y había algunas limitaciones serias detrás de una serie de esfuerzos existentes. .

Ken Hertzler, vicepresidente de gestión de productos de Platform, nos dijo que sus clientes, en particular los del lado de los servicios financieros y el análisis, han descubierto que las soluciones de big data existentes (incluidas las herramientas de código abierto como Hadoop, las empresas como Cloudera o los sistemas de almacenamiento de datos como Greenplum o Aster Data) tenían fallas críticas. Señaló que con todas estas soluciones, los usuarios podrían ser responsables de administrar la pila de software (si usan código abierto) y, por lo tanto, necesitarían aumentar las habilidades internas y realizar un mantenimiento regular para mantener en movimiento los proyectos de big data. .

Otro problema importante destacado por Hertzler es que las soluciones de código abierto dependen solo del sistema de archivos HDFS y aquellos que intentan evitar esta «trampa» percibida y eligen una alternativa de almacenamiento de datos están obteniendo ese producto de arriba hacia abajo que puede ser muy difícil de extraer.

Esto no solo es bueno según la opinión de Hertzler; dijo que todos los clientes creen que las alternativas de administración de big data han hecho un gran trabajo al manejar el lado de las consultas de sus necesidades, pero han fallado a nivel empresarial o listas para producción. Reveló que las principales quejas estaban relacionadas con la compatibilidad deficiente de las aplicaciones, el problema del bloqueo, el mantenimiento del uso y los SLA, y las preocupaciones sobre tener datos en múltiples sistemas de almacenamiento en la nube distribuidos.

El administrador de carga de trabajo distribuido MapReduce de la plataforma y el motor de ejecución de trabajos, como han señalado repetidamente Hertzler y Campbell, están preparados para la empresa y son mucho más viables gracias a dos características clave en particular: apertura y escalabilidad.

Las palabras clave «abierto» y «escalable» se llevan a casi todos los contextos tecnológicos de hoy, casi hasta el punto de que a veces se pasa por alto su significado. Campbell explicó estos dos puntos de vista en profundidad para resaltar cómo Platform está haciendo algo que no está disponible con las otras alternativas de gestión.

Los ángulos de apertura y escalado son algo interesantes pero requieren cierta configuración, más específicamente colocando el anuncio de Platform en el contexto de su producto Symphony.

Esta funcionalidad de MapReduce se ha integrado en Platform Symphony, que es una especie de enfoque SOA para la distribución de cargas de trabajo, a diferencia del otro producto LSF ampliamente utilizado de la compañía, que opera desde una arquitectura orientada a lotes. Por qué es importante, pregunta …

Bueno, para ir un paso más allá, el enfoque de Symphony para la distribución y la gestión de la carga de trabajo encaja perfectamente con lo que Platform acaba de lograr hace ocho meses. Symphony se construyó literalmente para arquitecturas distribuidas, que es exactamente como se distribuye MapReduce. El corto tiempo de comercialización para esto (relativamente, después de todo, son ocho meses) se debe a que Campbell y su equipo simplemente construyen las API en Symphony. Con su herramienta existente en su lugar para proporcionar administración distribuida y motor de ejecución de trabajos, acumulan API específicas para diferentes tipos de trabajos (PIG, Hadoop, etc.). Los usuarios pueden gestionar la complejidad utilizando el marco Symphony junto con estas API y, en la parte posterior, utilizando el sistema de archivos o conectores de base de datos para actuar como E / S para trabajos de MapReduce.

Y volviendo al proceso relativamente corto detrás de esto: la compañía está más o menos agregando interfaces en lugar de abordar la incómoda misión de reescribir MapReduce como lo han hecho algunas de las compañías comerciales de big data.

En otras palabras, Symphony ya estaba siguiendo la gran búsqueda de MapReduce para optimizar las cargas de trabajo al permitir a los usuarios ejecutar varios trabajos a la vez en lugar de tener un trabajo suspendido hasta su finalización. Esto podría significar un juego de big data mucho más ágil para aquellos que, aquí está el truco, están bajo la licencia Symphony. Aunque la compañía aún no ha «producido» la nueva solución, estará disponible dentro de Symphony y ya se está abriendo camino en las organizaciones de servicios financieros.

Campbell dijo que esta «reestructuración de una distribución de carga de trabajo tiene una latencia baja y funciona más como un servidor que como una red, de modo que las cargas de trabajo que pueden ejecutarse en Symphony pueden ejecutarse en tiempos inferiores a un segundo». «.

Volver a Apertura y escalabilidad …

¿Recuerdas hace varios párrafos cuando nos topamos con la idea de que esta oferta podría ser algo revolucionaria (al menos para aquellos con licencia Symphony) por los aspectos de apertura y escalabilidad? Ahora que hay suficientes antecedentes, podemos explorarlos en detalle rápidamente. Aquí es donde está la carne del anuncio.

El ángulo «abierto» es probablemente el factor de diferenciación más importante aquí entre la boda Symphony / MapReduce y otras alternativas. Como señaló Campbell, debido a que esta capacidad «se encuentra en el centro de la pila para que podamos abrir la arquitectura tanto en el nivel de la aplicación frontal como en el nivel de la base de datos back-end. Esto significa que podemos permitir a los clientes cambiar entre una solución completa para un solo proveedor o seleccione la aplicación o los sistemas de archivos de forma independiente «.

Campbell continuó diciendo que “esta tecnología está recibiendo una gran inversión comercial y de código abierto porque es compatible con Hadoop y es totalmente compatible con las API de MapReduce. En este momento, casi siempre todo proviene de un solo proveedor de arriba hacia abajo, y cuando llega el código abierto, no puede aprovecharlo. A medida que se crean nuevos sistemas de archivos, puede explotarlos y administrarlos en lugar de bloquearlos «.

También es posible agregar API específicas a la lógica de MapReduce, de ahí la integración de Hadoop, PIG, HIVE y otros, ya que es probable que surjan más marcos de programación en los próximos meses. La gran historia de la plataforma aquí en el frente de apertura es que cuando algo nuevo llega a Pike, los usuarios realmente podrán ponerlo en producción en lugar de tener que lidiar con bloques con barreras muy altas para transferir.

En esta nota, la arquitectura está diseñada, como se señaló anteriormente, sin la necesidad de utilizar HDFS como un sistema de archivos final. Los usuarios podrán seleccionar sistemas de archivos en función de sus necesidades específicas mientras conservan su tipo de aplicación, que podría, por ejemplo, estar escrita en Hadoop.

En términos de escalabilidad, Campbell dijo que podrán manejar miles o incluso millones de archivos de diferentes tamaños en un corto período de tiempo utilizando el producto Symphony probado existente.

En esta nota, los usuarios pueden obtener una mayor utilización de los recursos ya que obtienen más de un trabajo distribuido a la vez; pueden tener varios en ejecución al mismo tiempo, lo cual es exclusivo de MapReduce. Este es un elemento importante para la gente de HPC preocupada por el rendimiento porque, como explicó Campbell, han «eliminado un gran problema en términos de tiempo de inicio en los mapeadores, por lo que los trabajos individuales pueden ser rápidos pero el tiempo total también se reduce porque no es más una cosa en serie; estamos haciendo mucho trabajo paralelo en una serie de trabajos «.

Cuando se le preguntó cómo este matrimonio de Symphony y MapReduce se fusionará con el campo de usuarios de HPC, Campbell notó una tracción en las esferas del gobierno y las ciencias de la vida, así como en áreas más predecibles como los servicios financieros y la analítica a gran escala. .

Dijo que si bien esto puede ser una mejora para los usuarios, no había un diseño básico detrás del esfuerzo, era una cuestión de interfaces de ingeniería para soportar la lógica de MapReduce. «Podemos reaccionar al mercado», dijo. «Si alguien crea otra aplicación de usuario final para MapReduce, simplemente podemos interactuar con ella».

A medida que los datos masivos se hacen más grandes y más empresas exigen gestión y procesamiento de datos, no hay duda de que los creadores de interfaces de la plataforma trabajarán horas extras.

No te olvides compartir en en tu Twitter y Facebook para que tus amigos lo vean

??? ? ? ???

Comparte