Cray integra la tecnología de supercomputación en el dispositivo de big data

Hola, un placer verte por aquí. Te escribe Simón Sánchez y esta vez hablaremos sobre Cray integra la tecnología de supercomputación en el dispositivo de big data

Por primera vez en su historia, Cray ha construido algo más que una supercomputadora. El miércoles, la nueva división YarcData de la compañía lanzó «uRiKA», una solución de hardware y software destinada a descubrir conocimientos en tiempo real con conjuntos de datos del tamaño de una teraescala. El sistema está diseñado para servir a empresas y agencias gubernamentales que necesitan realizar análisis de alto nivel en áreas tan diversas como redes sociales, administración financiera, atención médica, administración de la cadena de suministro y seguridad nacional.

Como corresponde al MO de Cray, su mercado objetivo para uRiKA, (pronunciado Eureka) está sesgado hacia la vanguardia. Utilice un enfoque de datos basado en gráficos para realizar análisis interactivos con conjuntos de datos grandes, complejos y, a menudo, dinámicos. «No estamos tratando de ser todo para todos», dice Arvind Parthasarathi, CEO de YarcData.

A diferencia de las implementaciones de clústeres de Hadoop, que paralelizan las consultas en grandes granjas de clústeres, uRiKA es un sistema monolítico con mucha memoria compartida y procesamiento de múltiples subprocesos masivo. La arquitectura de estilo superordenador permite que uRiKA cargue conjuntos completos de datos en la RAM y los procese con cientos o incluso miles de subprocesos. La idea es evitar la penalización del rendimiento de dividir la base de datos en partes y procesarla en espacios de memoria dispares. En tal entorno, si parte de una consulta en un nodo es hablar con otra parte en otro nodo, la comunicación debe iniciarse a través de la red, que puede ser 100 veces más lenta que el acceso a la memoria.

El hardware detrás de uRiKA es el XMT de segunda generación de Cray (anteriormente conocido como XMT-2), en el que el grupo de servicios profesionales de la compañía ha estado trabajando durante los últimos tres años. Según Shoaib Mufti, vicepresidente de investigación y desarrollo de YarcData, el dispositivo YarcData reutiliza la infraestructura de la supercomputadora XT5, incluido el socket estilo AMD y la interconexión SeaStar2. A diferencia del XT5 con tecnología Opteron, el uRiKA utiliza el último procesador Threadstorm personalizado de Cray, que admite 128 subprocesos por chip y 512 TB de capacidad de memoria. Los procesadores y la memoria se pueden escalar de forma independiente, dice Mufti.

Otra mejora del rendimiento es la capacidad de Threadstorm para admitir una sincronización muy fina para ocultar latencias entre subprocesos. Merv Adrian, vicepresidente de investigación de gestión de la información de Gartner, cree que el hardware uRiKA podrá ejecutarse a velocidades que los dispositivos de base de datos típicos no pueden igualar. «Los procesadores no esperarán la E / S del disco, o incluso la latencia de memoria típica», dice, y agrega que la combinación de hardware y software en uRiKA «permitirá a la empresa abordar varios casos de uso muy desafiantes».

Se pueden cargar hasta 8.000 procesadores en un solo sistema, lo que permitiría escalar una aplicación a más de un millón de subprocesos. Sin embargo, la mayoría de los sistemas no se acercan a nada de ese tamaño. «Nuestros clientes de HPC tienden a tener muchos procesadores», dice Mufti. «Los clientes a los que nos dirigimos aquí tienden a necesitar mucha memoria». Esto se debe a que los conjuntos de datos que YarcData tiene en mente son cosas como bases de datos de redes sociales, carteras de activos financieros y mapas genómicos que abarcan poblaciones enteras.

Más precisamente, uRiKA está diseñado para analizar gráficos en lugar de simples bases de datos tabulares. Un gráfico, una de las abstracciones de datos fundamentales en informática, es básicamente una estructura cuyos objetos están vinculados entre sí por una relación. Es particularmente adecuado para estructuras como enlaces a sitios web, redes sociales y mapas genéticos, esencialmente cualquier conjunto de datos donde las relaciones entre objetos son tan importantes como los objetos mismos.

Este tipo de aplicación existe más en el cambio dietético de la analítica que la mayoría de las aplicaciones de inteligencia empresarial o minería de datos. En general, muchas de estas aplicaciones más tradicionales implican la búsqueda de elementos particulares o la derivación de relaciones simples. La tecnología YarcData se centra en descubrir relaciones. Y debido a que utiliza estructuras de gráficos, el sistema puede admitir deducciones y razonamientos basados ​​en gráficos para descubrir nuevas relaciones.

Un ejemplo típico son las consultas basadas en patrones: ¿x se parece a y? Es posible que esto no conduzca a una respuesta definitiva, pero proporcionará una serie de posibilidades que pueden perfeccionarse aún más. Entonces, por ejemplo, uno de los primeros clientes de YarcData es una agencia gubernamental interesada en encontrar «personas de interés». Mantienen perfiles de terroristas, delincuentes u otros delincuentes y utilizan uRiKA para buscar patrones de comportamiento y actividades específicos. Una compañía de tarjetas de crédito podría usar los mismos algoritmos básicos para buscar transacciones fraudulentas.

YarcData utiliza el término «análisis de relaciones» para describir este enfoque. Si bien puede sonar un poco a Oprah, ciertamente subraya la importancia de extraer conocimiento de cómo están conectados los objetos en lugar de solo su contenido. Esto no debe confundirse con las bases de datos relacionales, que están organizadas en forma tabular y utilizan formas más simples de consulta.

De hecho, según Parthasarathi de YarcData, las bases de datos relacionales no son adecuadas para los tipos de análisis de datos a gran escala y en tiempo real para los que está diseñado uRiKA. Él dice que es posible conectar estas aplicaciones a bases de datos relacionales utilizando herramientas RDBMS más tradicionales, pero el modelo no encaja muy bien a medida que aumentan las complejidades de los datos y las relaciones. Especialmente si está tratando de interactuar con datos en tiempo real, lleva demasiado tiempo, dice Parthasarathi.

Parthasarathi también sostiene que las plataformas tradicionales de bases de datos en memoria simplemente no tienen suficiente memoria para alterar los gráficos. Un solo servidor puede tener algunos terabytes, pero una vez que el tamaño de los datos excede ese límite, debe comenzar a obtener bytes del almacenamiento externo. Y debido a que el análisis de gráficos no es determinista, no hay forma de averiguar qué datos deben precargarse o almacenarse en caché para una consulta en particular.

Ser capaz de tragar un gráfico completo en la memoria es la mayor ventaja de uRiKA sobre otras arquitecturas, pero el sistema también es capaz de importar datos desde la memoria secundaria. Muchas aplicaciones requieren esto ya que sus datos suelen ser de naturaleza muy dinámica (piense en un sistema de comercio financiero donde los valores de los activos están en constante movimiento). Para satisfacer esta necesidad, uRiKA ofrece un subsistema de almacenamiento de alto rendimiento capaz de entregar tasas de transferencia de hasta 350 TB / hora.

Una vez que se han importado los datos, es necesario convertirlos a un formato interno llamado RDF o Marco de descripción de recursos (en caso de que se lo pregunte, uRiKA significa Universal RDF Integration Knowledge Appliance), un formato de gráficos estándar de la industria para representar información. Según Mufti, están proporcionando herramientas para la conversión de datos RDF y también están sentando las bases para un software basado en estándares que habilita herramientas de conversión de terceros.

El estándar de la industria es un tema común aquí. Los componentes internos del software URiKA incluyen SUSE Linux, Java, Apache, WS02, Google Gadgets y Relfinder. Esta pila de interfaz permite a los usuarios escribir o transferir aplicaciones analíticas a la plataforma sin tener que proporcionar una implementación específica para uRiKA. Así que las aplicaciones Java, J2EE, SPARQL y Gadget son un juego limpio. YarcData cree que esta será la clave para alentar a los desarrolladores externos a crear aplicaciones en el sistema, ya que no requiere que utilicen un lenguaje de programación o API completamente nuevos.

El anuncio de esta semana se dirigió a cinco clientes iniciales de uRiKA. Además de la agencia gubernamental anónima mencionada anteriormente, los primeros en adoptarlo incluyen el Instituto de Biología de Sistemas, que se enfoca en el descubrimiento de fármacos; Noblis, que se ha comprometido con varias agencias gubernamentales de EE. UU. Para ayudar a desarrollar una variedad de aplicaciones de bases de datos de gráficos en la plataforma; el Centro Nacional de Supercomputación de Suiza (CSCS), que utiliza el sistema para el análisis de datos científicos; y la Clínica Mayo, que tiene la intención de utilizar uRiKA para hacer coincidir a los pacientes con el modelo a fin de optimizar los regímenes de tratamiento.

La última aplicación recuerda el trabajo de IBM Watson en Wellpoint, donde el objetivo es utilizar la tecnología del sistema experto DeepQA para sugerir opciones de diagnóstico y tratamiento de pacientes para los médicos. En el caso de Watson, la arquitectura de hardware y software es completamente diferente a la de uRiKA, pero el nivel de análisis es del mismo orden. Al igual que IBM, Cray busca establecer su tecnología de análisis en múltiples verticales. En el futuro, YarcData planea ofrecer dispositivos con software integrado que se dirigen a dominios de aplicación específicos, como el descubrimiento de medicamentos, la comparación de pacientes y el comercio basado en eventos.

No se ha revelado el precio de las configuraciones de uRiKA, pero según Parthasarathi, una configuración de gama baja costará unos cientos de miles de dólares. Esto probablemente coincide con su configuración básica de 16 procesadores Threadstorm y medio terabyte de memoria. La memoria y / o los procesadores adicionales podrían llevarlos fácilmente al rango de un millón de dólares, pero considerando que no hay otros sistemas en el mercado que utilicen análisis basados ​​en gráficos de terascala, podría terminar siendo el verdadero negocio.

Artículos relacionados

Cray abre la puerta a los desarrollos de Big Data

¿Puede la supercomputación ayudar a sanar la atención médica?

Cray lleva a la supercomputadora XMT a un primer plano

No te olvides compartir en una historia de tu Instagram para que tus colegas lo sepan

??? ? ? ???

Comparte