Cuadrículas de datos distribuidos y la nube: una charla con el Dr. William Bain de ScaleOut - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Cuadrículas de datos distribuidos y la nube: una charla con el Dr. William Bain de ScaleOut

Hola de nuevo. En el teclado Simón Sánchez y en el día de hoy vamos a hablar sobre Cuadrículas de datos distribuidos y la nube: una charla con el Dr. William Bain de ScaleOut

Las cuadrículas de datos distribuidos, también conocidas como cachés distribuidos, almacenan datos en la memoria a través de un grupo de servidores (que puede incluir una cuadrícula de HPC o en una granja de comercio electrónico o web como en Amazon.com) con una caché distribuida para almacenar el fluido de datos en rápido movimiento. Esta tecnología hace que cualquier empresa que la ofrezca esté bien posicionada para atender una variedad de verticales, tanto en el espacio HPC tradicional como no tradicional, incluidos los servicios financieros y las organizaciones de comercio electrónico a gran escala.

Una empresa que ha sido particularmente visible en el frente de la cuadrícula de datos distribuidos, tanto para el comercio electrónico como para los servicios financieros en particular, fue ScaleOut Software, una empresa de ocho años que ha experimentado un tremendo crecimiento, más recientemente debido a la creciente interés de las instituciones financieras.

Como señaló el Dr. William Bain, fundador y director ejecutivo de ScaleOut sobre el interés en los servicios financieros, una señal real marcada por su necesidad de resultados casi en tiempo real, «las cuadrículas de datos distribuidos han evolucionado a partir de una caché de datos de basarse en una plataforma de análisis sofisticada para monitorear y procesar grandes volúmenes de mercado. La capacidad de realizar análisis complejos de manera rápida y eficiente en datos históricos y en tiempo real se ha vuelto fundamental para las principales empresas de Wall Street que buscan una ventaja competitiva «. .

La compañía ha ganado una participación de mercado significativa en el lado financiero del espectro, pero el discurso sobre las cuadrículas de datos distribuidos ha resurgido, en parte debido a la adopción más generalizada de la nube en esta y otras áreas, junto con la explosión masiva de volúmenes. grandes cantidades de datos generados en tiempo real que deben analizarse casi en tiempo real.

Una de las razones por las que las cuadrículas de datos distribuidos han recibido tanta atención es porque con las formas tradicionales de almacenar datos, existen causas integradas para los cuellos de botella que impiden la escalabilidad, lo que hace que estas opciones sean menos atractivas para algunos. El fundador y director ejecutivo de ScaleOut Software, William Bain, señala que «incorporar técnicas de computación paralela que han estado en proceso durante dos o tres décadas a este problema» está aliviando algunas de las debilidades inherentes del almacenamiento tradicional y maximizando el rendimiento mediante mejoras. en la forma en que se almacenan, consultan y utilizan los datos.

El Dr. Bain pasó algún tiempo hablando con nosotros sobre las cuadrículas de datos distribuidos y los casos de uso típicos recientemente y contextualizó parte de la tecnología, al tiempo que brindó una idea de cómo ha sido algo. Hace algún tiempo que está recibiendo un nuevo impulso de la nube.

Pongámoslo en este contexto; imagínese tener cientos de miles de usuarios accediendo a un sitio popular. El sitio debe tener los datos que están almacenando y actualizando rápidamente (como sucedería con un carrito de compras) almacenados en una tienda escalable, ya que esto es importante para mantener los tiempos de respuesta rápidos. Los cachés distribuidos se han utilizado de esta manera durante aproximadamente 7 años y ahora se están volviendo vitales para que los sitios web escalen el rendimiento.

En el área de los servicios financieros, esta tecnología permite al analista almacenar datos que se pueden archivar fácilmente y, por lo tanto, están listos para su análisis. Hay varias aplicaciones escritas para esta área que requieren cuadrículas de datos distribuidos para lograr el rendimiento escalable que necesitan.

Lo que lo impulsa es que la cantidad de datos analizados está creciendo muy rápidamente y los problemas de latencia involucrados significan que necesita tener una plataforma escalable para analizar los datos en tiempo real. Esto es especialmente cierto para las grandes empresas que realizan análisis financieros; los tipos de aplicaciones que ejecutan estas personas incluyen operaciones algorítmicas, historiales de acciones que predicen la tendencia futura de la estrategia de acciones, etc., y estos encajan perfectamente en un almacén de datos escalable.

Las tendencias clave que estamos viendo que hacen que esto sea emocionante es una, el valor de almacenar datos en la memoria puede mejorar drásticamente el rendimiento sobre otros enfoques, como realizar un cálculo de estilo de reducción de mapas en datos controlados por bases de datos porque el El almacenamiento en memoria elimina los problemas de latencia causados ​​durante la transferencia.

La segunda parte importante de esto es la nube. – la nube proporciona una plataforma ampliamente disponible para alojar estas aplicaciones en un gran grupo de servidores que se alquilan solo durante el tiempo que se ejecuta la aplicación. Existe una confluencia de tecnologías que traerán esta área de la tecnología a la vanguardia debido a la oportunidad que ha creado y que llevamos esperando 20 o 30 años.

El problema que tuvimos primero fue que era costoso comprar una computadora paralela, luego, con los clústeres en la última década, la gente podía tener clústeres departamentales para HPC, un área donde Microsoft ha proporcionado software. Pero ahora, con la nube, tenemos una plataforma que escalará no a decenas de nodos, sino a cientos o quizás miles, lo que ofrece la oportunidad de realizar cálculos escalables de una manera muy simple y rentable.

Da un paso atrás para ver una imagen más amplia

Bill Bain fundó ScaleOut Software en 2003 después de sus experiencias en Bell Labs Research, Intel y Microsoft, así como con sus tres iniciativas de inicio, incluida Valence Research, donde desarrolló un producto de software distribuido de equilibrador de carga web que Microsoft tiene. adquirido para su sistema operativo Windows Server y apodado Equilibrio de carga de red. Tiene un doctorado. de Rice University, donde se especializó en ingeniería y computación paralela y posee numerosas patentes tanto en computación distribuida como en arquitectura de computadoras.

Aunque inicialmente el enfoque estaba destinado a cubrir las tecnologías centrales detrás del software ScaleOut, la conversación durante la entrevista comenzó a cambiar a algunos problemas de «panorama general» con respecto a la nube y su lugar en HPC, sin mencionar de algunas de las barreras que impiden una adopción más amplia y cómo esos desafíos podrían superarse en un futuro próximo.

Bain reflexionó sobre dónde había visto ir la computadora durante sus 30 años en HPC y dijo:

Creo que pasamos por un período en el que HPC se volvió menos popular a medida que los procesadores individuales se volvieron más rápidos en la década de 1990, pero con el cambio de siglo y el pináculo de la Ley de Moore, la gente ha regresado a la computación paralela, que es un área en la que estábamos haciendo mucho trabajo pionero y la nube es la próxima gran novedad.

Aunque entendíamos cómo la computación paralela podía conducir a un alto rendimiento, la gente no tenía el hardware, por lo que estaba atascado con clústeres a nivel de departamento a menos que fuera el gobierno haciendo investigación nuclear y pudiera comprar una supercomputadora de 512 nodos. . Pero la mayoría de las personas involucradas en bioinformática, análisis de flujo de fluidos, modelado financiero y similares estaban bloqueadas por pequeñas computadoras a nivel de departamento … Entonces, la pregunta es quiénes son los actores que harán que sea práctico hacer HPC en la nube.

Creo que debería pensar en nuestra tecnología no como un callejón sin salida arcano de tecnología que podría ser moderadamente interesante; está trayendo tecnologías centrales HPC a la nube. Considerando que creo que encontrará que otros jugadores están trayendo tecnologías a la nube pero no están trayendo escalabilidad; que están planeando para la nube, por ejemplo, estos enfoques de plataforma no están impulsando la escalabilidad. Entonces, creo que la confluencia de HPC y la nube está ocurriendo ahora y que trae técnicas de computación paralela bien entendidas a esta nueva plataforma y que es fácil para los programadores poner sus aplicaciones en funcionamiento.

Hay una pieza clave del rompecabezas de la nube HPC que falta y su red de baja latencia; si nos fijamos en las nubes públicas, utilizan redes gigabit estándar y se puede decir muy poco sobre la calidad del servicio en cuanto a la ubicación de varios servidores virtuales; estos son aspectos de la computación paralela que son vitales y han pasado décadas tratando de optimizar. Por ejemplo, en Intel construimos estas supercomputadoras basadas en malla e invertimos mucho en tecnología derivada de Cal Tech para construir redes de corte para reducir la latencia de la red. La razón por la que se hizo esto es porque los programadores han aprendido que se requiere una red de baja latencia para lograr un rendimiento escalable para muchas aplicaciones; cualquier intercambio de datos entre servidores requiere una red muy rápida. En la nube encontramos una red estándar. Ahora, los próximos años comienzan a parecer esperanzadores para romper este obstáculo de rendimiento a medida que se ofrecen más opciones para redes de baja latencia. Hasta entonces, tenemos que sortear esta limitación.

No te olvides compartir en una historia de tu Instagram para que tus colegas lo vean

??? ? ? ???

Comparte