Revolution Analytics lleva el lenguaje R al procesamiento de Terascale - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Revolution Analytics lleva el lenguaje R al procesamiento de Terascale

Hola otra vez. Yo soy Simón Sánchez y esta vez hablaremos sobre Revolution Analytics lleva el lenguaje R al procesamiento de Terascale

Mejora del lenguaje R Revolution Analytics persigue a la audiencia de análisis predictivo con su última plataforma de software Revolution R Enterprise. La compañía anunció esta semana que presentará un paquete llamado RevoScaleR para llevar el lenguaje R al mundo de «Big Data», permitiendo que las aplicaciones analíticas aumenten su rendimiento y escalen montañas de datos del tamaño de un terabyte.

La analítica se ha convertido cada vez más en una forma para que las empresas automaticen la inteligencia. Las empresas de finanzas cuantitativas, ciencias biológicas, telecomunicaciones, fabricación y minoristas están tratando de extraer sus datos para obtener ganancias. Los gobiernos también están generando cantidades masivas de datos y están buscando formas de darle sentido a todo. Las organizaciones tradicionalmente miraban a SAS y SPSS (ahora parte de IBM) para proporcionar análisis de alto nivel, pero está creciendo un nuevo ecosistema alrededor del lenguaje R de código abierto, un marco utilizado para el procesamiento y modelado estadístico.

Desarrollado en la década de 1990 por Ross Ihaka y Robert Gentleman en Nueva Zelanda, el lenguaje R fue creado específicamente para las necesidades de los estadísticos. Como tal, está hecho a medida para la analítica y se ha convertido en el lenguaje de programación más popular para este tipo de trabajo en la academia y, cada vez más, en el ámbito comercial. «Realmente se ha convertido en la lengua franca de las estadísticas de aprendizaje universitario», dice Jeff Erhardt, director de operaciones de Revolution Analytics.

Debido a su naturaleza de código abierto, R está atrayendo mucha innovación de su comunidad de usuarios. Erhardt dice que probablemente hay casi 2 millones de usuarios en todo el mundo en la actualidad y ese número está creciendo. Su empresa espera convertir esa popularidad popular en un negocio próspero introduciendo el lenguaje en los negocios.

Para lograr esto, se requerirá algo de trabajo. R tiene dos limitaciones fundamentales. Primero, el lenguaje está relacionado con la memoria. Es decir, espera que toda la base de datos esté en RAM. Para la estación de trabajo típica, esto se convierte en un problema para cualquier conjunto de datos mayor a unos pocos gigabytes. El segundo es el rendimiento. R ejecuta un solo proceso, por lo que no puede aprovechar el rendimiento inherente a las arquitecturas de clúster y CPU multinúcleo / multiproceso. Según David Champagne, director de tecnología de Revolution Analytics, para entrar en el negocio es necesario abordar ambos problemas. Y eso es lo que quieren hacer Revolution R Enterprise y el nuevo paquete RevoScaleR.

La velocidad es realmente el gran problema aquí, ya que los resultados del análisis predictivo son sensibles al tiempo de una forma u otra. Por ejemplo, una mesa de operaciones en los Estados Unidos debe estar lista para ejecutar oportunidades óptimas de negociación y arbitraje cuando los mercados de Tokio abren por la mañana. Para hacer esto, la institución comercial debe poder producir toda la cartera de la noche a la mañana.

Superar el límite de la memoria se logró con lo que la empresa llama su marco de «memoria externa». Esencialmente, permite que los datos se muevan rápidamente a la memoria en pequeños fragmentos para que incluso pueda contener archivos de datos del tamaño de un terabyte con miles de millones de filas. Para respaldar este modelo, Revolution Analytics inventó el formato de archivo XDF en el que las filas y columnas de datos se pueden leer y escribir en bloques arbitrarios. De hecho, también se pueden insertar nuevas columnas y filas sobre la marcha sin tener que volver a escribir el resto del archivo. Esto acelera enormemente las transformaciones de datos, según Champagne, y hace que el flujo de trabajo de análisis sea mucho más eficiente.

Gran parte de la velocidad de ejecución es el resultado de un buen paralelismo a la antigua. La implementación inicial de RevoScaleR permite que las aplicaciones R se paralelicen en múltiples núcleos (y CPU) en una computadora portátil, estación de trabajo o servidor. Con un servidor Intel Xeon 5600 (Westmere) de dos sockets, esto significa que la computación se puede distribuir en hasta 12 núcleos. El soporte para implementar una aplicación en múltiples nodos en un centro de datos seguirá en breve. RevoScaleR proporciona una interfaz para una serie de algoritmos estadísticos comunes que incluyen regresión lineal, tabulación cruzada, regresión logística y estadísticas de resumen, con más por venir.

La empresa ha demostrado notables aceleraciones con el paquete RevoScaleR. En un servidor Nehalem de 8 núcleos, con 8 GB de RAM, pudieron procesar un archivo de 13 GB en un tiempo récord. En este caso, el archivo contenía datos sobre vuelos de aerolíneas estadounidenses de 1987 a 2008 y constaba de 123 millones de filas y 29 columnas. Pudieron realizar una regresión lineal en dos variables (llegada tardía y día de la semana) en aproximadamente 1 segundo. La siguiente mejor implementación (usando un paquete R especial para manejar archivos de big data) tomó alrededor de seis minutos.

Faltan comparaciones específicas con las implementaciones tradicionales de SAS y SPSS, pero según Champagne, los clientes beta que utilizan RevoScaleR han informado incrementos de órdenes de magnitud en el rendimiento en comparación con las plataformas de análisis heredadas. Y aunque Erhardt dice que no buscan específicamente cuentas SAS y SPSS, los clientes que buscan una solución menos propietaria pueden verse tentados por la oferta de Revolution. «Claramente acuden a nosotros, en particular, cuando buscan una ventaja de costos», dice.

Básicamente, la empresa tiene dos niveles de precios para clientes comerciales (Revolution R Enterprise es gratuito para usuarios académicos). Para el usuario individual en un escritorio, cobrarán «los pocos miles de dólares». El segundo nivel es para varios usuarios en una configuración basada en servidor empresarial más típica. Dependiendo de la configuración, el precio debe estar en el rango de cinco dígitos, con una licencia de sitio en el rango de seis dígitos. Según Erhardt, el objetivo es aprovechar el software R de código abierto y ofrecer su producto empresarial a una fracción del precio de las plataformas de software de análisis tradicionales.

El paquete inicial RevoScaleR estará disponible en 30 días, pero solo con soporte multinúcleo / multiprocesador y solo en Windows. El soporte para computación distribuida en un clúster y en Linux está previsto para el próximo trimestre. También en la cola está el soporte para los usuarios de C ++ que desean agregar sus propios algoritmos desarrollados internamente que aprovechan el modelo de memoria externa de RevoScaleR. Y lo último en el expediente es un producto de servicios web que hará que las aplicaciones R sean accesibles desde un navegador o alguna otra interfaz de cliente. Para obtener una visión más detallada de lo que hay en la tienda, consulte la empresa libro blanco de su hoja de ruta.

Puedes compartir en una historia de tu Instagram para que tus colegas opinen

??? ? ? ???

Comparte