Wolfgang Hoschek de Cloudera habla sobre la evolución de Hadoop - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Wolfgang Hoschek de Cloudera habla sobre la evolución de Hadoop

Hola, un placer verte por aquí. Soy Simón Sánchez y en esta ocasión te voy a contar sobre Wolfgang Hoschek de Cloudera habla sobre la evolución de Hadoop

Wolfgang Hoschek es un ingeniero de software en Cloudera que trabaja en la plataforma Hadoop y el equipo de investigación de Cloudera. Es un miembro comprometido de los proyectos Apache Flume y Apache Lucene / Solr. Hoschek, ex becario del CERN y científico informático del Laboratorio Lawrence Berkeley, tiene más de 15 años de experiencia en sistemas distribuidos a gran escala, procesamiento intensivo de datos y análisis en tiempo real.

Hablará de lo inminente Big Data de ISC conferencia en Heidelberg, Alemania, sobre «Agregar la investigación como ciudadano de primera clase a Hadoop».

P1: ¿Cuál es la mejor indicación de que los macrodatos han dejado atrás el mundo de la publicidad y ahora están ocupando un lugar central, tanto para las empresas como para el mundo académico?

En el mundo académico, los macrodatos han sido el foco de muchos esfuerzos durante mucho tiempo. Por ejemplo, la física de alta energía, la genómica, las agencias espaciales, la investigación climática y las ciencias sociales utilizan rutinariamente sistemas de big data en formas económicas a una escala aún mayor.

Los proyectos de big data tampoco son proyectos piloto en las empresas. La seguridad, la fiabilidad y la alta disponibilidad han recorrido un largo camino. Los servicios de fabricación de macrodatos brindan funciones de misión crítica a las empresas líderes de la actualidad, por ejemplo, en industrias como Internet y tecnología, servicios financieros, atención médica, energía, industria, servicios públicos y telecomunicaciones. Estas empresas brindan nuevos servicios diferenciados que las separan de la competencia. El análisis de big data también ayuda a las campañas electorales y a los gobiernos.

P2: El ecosistema de Hadoop está madurando, pero también se vuelve más complejo. ¿Cómo pueden afrontar las situaciones los usuarios, especialmente aquellos que sólo quieren «la respuesta correcta»?

El ecosistema de Hadoop está evolucionando y expandiéndose rápidamente, algo similar a Linux. Han surgido empresas para cerrar la brecha entre las piezas sangrientas y las demandas de un sistema de fabricación sólido como una roca. Estas empresas ofrecen implementaciones de Hadoop llave en mano y centros de datos empresariales que se integran con los sistemas heredados existentes e integran completamente todos los componentes importantes del ecosistema de Hadoop, de forma segura, confiable, tolerante a fallas y rentable. Los productos del proveedor se ocupan de la instalación, configuración, monitoreo, resolución de problemas, ajuste, actualizaciones, mantenimiento y otros aspectos operativos.

Muchas de estas empresas también ofrecen formación, soporte, consultoría y servicios profesionales. También emplean una gran parte de la comunidad de confirmadores de código abierto de Apache Hadoop y, en consecuencia, financian el desarrollo clave de código abierto en respuesta a los informes de errores de los clientes y las solicitudes de funciones.

P3: ¿Elegir la infraestructura de hardware adecuada es en gran medida un problema resuelto para big data?

Cuanto mayores sean los datos, más importante es optimizar la configuración del hardware, en relación con los costes de personal. El panorama del hardware y sus curvas de crecimiento continúan cambiando, por ejemplo, con la introducción de flash como otra capa de almacenamiento a través de NVRAM, RAM más barata, CPU de muchos núcleos, GPU de mayor ancho de banda, enchufes de conmutación con un número elevado de puertas, etc. El nodo básico de Hadoop consta de 8-12 unidades SATA (en el rango de terabytes), un servidor de dos sockets con 6-8 núcleos (por socket), 128-256 MB de memoria y un enlace Ethernet de 10 Gb.

P4: En la conferencia ISC Big Data en octubre, hablará sobre cómo agregar capacidades de búsqueda sofisticadas al marco de Hadoop. En la conferencia también tendremos presentaciones sobre la evolución del análisis en un sentido más amplio. ¿Seguirá evolucionando rápidamente el ecosistema de Hadoop en el futuro?

El ecosistema de Hadoop seguirá evolucionando rápidamente en respuesta a la demanda, la innovación y las lecciones aprendidas. Esta evolución está impulsada por el valor observado del software y la creciente adopción y las grandes inversiones de una amplia gama de empresas y personas. Toda esta evolución tiene lugar en proyectos conjuntos a través de la colaboración intercultural de código abierto en todo el mundo.

P5: ¿Cree que Hadoop es el marco unificador para las aplicaciones de Big Data? En otras palabras, ¿cree que puede incluir toda la funcionalidad necesaria para convertirse en un estándar de facto para todo el dominio, o todavía habrá espacio para marcos alternativos?

Hoy, Hadoop es el marco unificador de facto para aplicaciones de big data. Sorprendentemente, no surgieron competidores serios y, en cambio, la industria del software se movilizó detrás de Hadoop. Algunas funciones aún faltan o están algo limitadas en Hadoop. Se está logrando un rápido progreso para abordar estas preocupaciones en muchas áreas. Por ejemplo, YARN ahora permite la gestión de recursos de una amplia gama de aplicaciones en la plataforma, no solo para MapReduce. De esta manera, los nuevos marcos de procesamiento de datos como Spark pueden aprovechar el ecosistema Hadoop y participar en él.

Hadoop es fundamentalmente abierto, y si hay una gran clase de aplicaciones de datos de conciertos repetibles de alto valor que no se están sirviendo bien, es probable que un marco de código abierto evolucione para satisfacer estas necesidades y se integrará con la plataforma Hadoop. Facilitar una variedad de aplicaciones informáticas en la misma plataforma de datos subyacente ofrece grandes sinergias.

Recuerda compartir en en tu Twitter y Facebook para que tus amigos opinen

??? ? ? ???

Comparte