SAS ofrece análisis de alto rendimiento para dispositivos de base de datos - Calendae | Informática, Electrónica, CMS, Ciberseguridad

SAS ofrece análisis de alto rendimiento para dispositivos de base de datos

Hola y mil gracias por leerme. En el teclado Simón Sánchez y en el día de hoy hablaremos sobre SAS ofrece análisis de alto rendimiento para dispositivos de base de datos

A principios de abril, SAS Institute (SAS) anunció que había integrado su software de análisis más avanzado en los dispositivos de base de datos de EMC Greenplum y Teradata Corporation. Las nuevas ofertas combinan la computación de alto rendimiento con «big data» y están diseñadas para permitir a los usuarios realizar análisis en profundidad en enormes conjuntos de datos alojados en plataformas de computación paralelas especialmente diseñadas.

En la actualidad, SAS es considerada líder indiscutible en analítica avanzada, este segundo IDC que, en 2009, clasificó a la empresa con una participación de mercado del 34,7% en esta categoría. La analítica avanzada, un subconjunto de la analítica empresarial, utiliza técnicas de minería de datos y software estadístico intensivos en computación para extraer relaciones complejas de las bases de datos. Para SAS, es un trato de 500 millones de dólares.

Entre los competidores se incluyen SPSS de IBM y las ofertas menos utilizadas de Microsoft, TIBCO, Oracle y otros. Revolution Analytics, que recientemente desarrolló una versión empresarial de R para análisis estadístico, solo tiene alrededor de 100 implementaciones en este momento, pero su aprovechamiento del popular lenguaje R de código abierto introduce un nuevo modelo para usuarios de análisis avanzados.

En el nivel más simple, la analítica avanzada le permite desarrollar modelos y luego usarlos para preguntar «¿Y si?» preguntas sobre sus datos. Por ejemplo, el desarrollo de un modelo estadístico que asocie el comportamiento de compra con los perfiles de los clientes se puede aplicar al comportamiento futuro del cliente. La aplicación de este modelo se denomina «scoring» y es la base del análisis predictivo.

Este tipo de análisis está muy lejos de la inteligencia empresarial tradicional, que se trata más de hacer preguntas simples sobre datos en una o dos dimensiones (por ejemplo, ¿cuántos zapatos de la marca X tenemos en stock?) Este tipo de análisis es bastante sencillo utilizando una base de datos tradicional, que solo requiere una pequeña tubería para ingresar y sacar los datos y un componente de software en el cliente para administrar la interfaz.

«La inteligencia empresarial se cambió en la década de 1980 para que solo se refiriera a consultas e informes», dice Keith Collins, director de tecnología de SAS. «Estamos hablando de mucho más».

Según Collins, la analítica de alto rendimiento que SAS tiene en mente representará un «cambio de juego» para la industria. Dice que lo hará abordando ambos lados del problema: el tamaño cada vez mayor de los conjuntos de datos empresariales (terabytes, escalables a petabytes) y la necesidad de obtener información útil de ellos de manera oportuna. Tradicionalmente, la naturaleza intensiva en computación y datos de las herramientas analíticas avanzadas ha relegado su uso a muestras de conjuntos de datos, que no solo requieren tiempo y esfuerzo adicionales, sino que también introducen imprecisiones asociadas con el trabajo con datos incompletos.

La solución obvia es colocar el cálculo junto con los datos, en este caso, en las propias plataformas de datos de alto rendimiento, eliminando así la necesidad de muestrear. Y debido a que estos dispositivos son esencialmente clústeres de HPC (con el espacio adicional y el software necesarios para alojar grandes bases de datos), las CPU y la memoria se pueden usar para realizar análisis de forma nativa. La preparación de datos, la creación de modelos y la puntuación, así como el análisis real, se realizan en los servidores del dispositivo y en paralelo.

Convenientemente, esto se puede hacer dentro del entorno de lenguaje SAS existente. Los clientes con código heredado pueden aplicar dichas aplicaciones a este nuevo entorno de alto rendimiento con la especificación trivial (alto rendimiento) de HP en el momento de la llamada. Esto es posible gracias a la invención de dispositivos de base de datos relativamente económicos que, como la industria HPC en general, han pasado de arquitecturas SMP a plataformas de clústeres distribuidos que utilizan partes comunes, CPU Linux y x86.

En el caso de Teradata y Greenplum, el hardware básico del dispositivo es muy similar, ambos basados ​​en CPU Westmere Xeon de dos sockets de 2,93 GHz y equipados con 48 GB de memoria por nodo. La plataforma Teradata utiliza un sistema de interconexión patentado llamado BYNET, mientras que las máquinas Greenplum se basan en Ethernet 10Gig estándar.

Desde una perspectiva de almacenamiento, la plataforma Teradata presenta unidades SATA de 1 y 2 TB y puede escalar desde 45 TB en una sola instancia de servidor hasta 186 PB en 4096 nodos. Alternativamente, la compañía ofrece una versión de alto rendimiento que utiliza tecnología SSD y alcanza los 24TB de capacidad total.

Greenplum también tiene modelos de capacidad y rendimiento de su dispositivo, utilizando tanto discos duros como SSD en consecuencia. En este caso, sin embargo, las unidades giratorias son SCSI conectadas en serie. En la configuración de alta capacidad de Greenplum, su dispositivo escala de 31TB en un cuarto de rack a 744TB en seis racks completos.

A principios de abril, SAS demostró el poder de la analítica de alto rendimiento en su reunión del Foro Global. En el primer caso, se utilizaron dos racks (16 nodos) del Dispositivo de Computación de Datos (DCA) de Greenplum para realizar una regresión logística de los incumplimientos de préstamos bancarios en una base de datos con mil millones de registros, aplicando solo unas pocas variables. La regresión pudo completarse en menos de 80 segundos (en comparación con 20 horas para una implementación en serie no especificada). Otra demostración, esta vez en una plataforma Teradata de 24 nodos, utilizó 1.800 variables aplicadas a 50 millones de observaciones. En este caso, el análisis terminó en 42 segundos.

No todo el mundo necesitará este modelo integrado para un alto rendimiento, pero todos los casos de uso de análisis avanzados son un juego justo. Esto incluye todo, desde la detección de fraudes, el análisis de préstamos, el seguimiento de las preferencias de los clientes y la puntuación del riesgo financiero, hasta la mejora de los retornos de producción. El equipo de baloncesto de los San Antonio Spurs incluso utilizó tecnología para «optimizar el rendimiento de los jugadores».

Collins dice que los primeros en adoptar sus ofertas de análisis de alto rendimiento estarán en las industrias de seguros y finanzas, donde el valor ganado se transfiere fácilmente a las ganancias. Si bien no mencionó nombres, SAS ya tiene varias empresas a prueba con la tecnología. Se espera la disponibilidad general del producto en las plataformas Greenplum y Teradata en el cuarto trimestre de 2011.

No te olvides compartir en tus redes sociales para que tus amigos lo disfruten

??? ? ? ???

Comparte