Almacenamiento a exaescala: algunas reflexiones del director de tecnología de Panasas, Garth Gibson

Hola de nuevo. En el teclado Simón Sánchez y esta vez te voy a contar sobre Almacenamiento a exaescala: algunas reflexiones del director de tecnología de Panasas, Garth Gibson

El cálculo a exaescala no se trata solo de FLOPS. También requerirá una nueva generación de memoria externa capaz de alimentar a estas bestias hexaflop. El cofundador y director de tecnología de Panasas, Garth Gibson, tiene algunas ideas sobre cómo se puede lograr esto y le pedimos que explicara el tema en detalle.

Calendae: ¿Qué tipo de rendimiento de almacenamiento deberá proporcionarse para el procesamiento a exaescala?

Garth Gibson: El principal requisito para el almacenamiento en una supercomputadora de exaescala es la capacidad de memorizar un punto de control en aproximadamente 15 minutos o menos para mantener la supercomputadora ocupada con tareas computacionales la mayor parte del tiempo. Si ejecuta un punto de control en 15 minutos, el período de cálculo puede ser de tan solo dos horas y media y todavía pasa solo el 10 por ciento de su tiempo en el punto de control. El tamaño de los datos del punto de control está determinado por el tamaño de la memoria; algo que algunos expertos esperan será de alrededor de 64 petabytes según los costos de energía y capital involucrados. Con base en este tamaño de memoria, estimamos que el sistema de almacenamiento debe poder escribir a 70 terabytes por segundo para admitir un punto de control de 15 minutos.

Calendae: Dada la pendiente más baja del rendimiento del disco en comparación con la informática, ¿qué tipos de tecnologías de almacenamiento en niveles y hardware se necesitarán para ofrecer ese rendimiento?

Gibson: Aunque hoy hemos visto picos de rendimiento superiores a cientos de gigabytes por segundo, tenemos que escalar 1000 veces para alcanzar la velocidad de escritura requerida para el cálculo a exaescala. El desafío con el requisito de escritura de 70 terabytes por segundo es que los discos duros tradicionales no se volverán significativamente más rápidos en la próxima década, por lo que requerirán casi 1000 veces la cantidad de ejes para mantener este nivel de capacidad de escritura.

Después de todo, solo podemos escribir a la velocidad de la suma de las unidades de disco individuales. Podemos considerar otras tecnologías como el almacenamiento flash, como los SSD, con capacidades de escritura más rápidas. Sin embargo, el desafío con esta tecnología es el enorme costo delta entre las soluciones basadas en flash y las tradicionales basadas en discos duros. Dado que el espacio de la memoria virtual probablemente será al menos 10 veces el tamaño de la memoria principal, estamos buscando 640 petabytes de memoria temporal, lo que se traduce en más de 500 millones de dólares en memoria flash solamente.

La solución es un enfoque híbrido en el que los datos se copian inicialmente en flash a 70 terabytes por segundo, pero el segundo nivel obtiene 10 veces más tiempo para escribir desde flash en disco, lo que reduce los requisitos de ancho de banda de almacenamiento a 7 terabytes por segundo. segundos y componentes de almacenamiento a solo unas 100 veces los sistemas actuales. Obtenga rendimiento flash y capacidad de disco giratorio. En esencia, la capa flash es en realidad una «memoria barata» temporal, quizás no forma parte del sistema de almacenamiento en absoluto, con un uso mínimo de su no volatilidad y quizás sin usar una interfaz de disco como SATA.

Calendae: ¿Qué tipos de tecnologías de software será necesario desarrollar?

Gibson: Si resolvemos el problema de rendimiento / capacidad / costo con un modelo híbrido que usa flash como un volcado de búfer antes de que los datos se borren en el disco, se requerirá una cantidad significativa de software inteligente de almacenamiento en niveles y copia para administrar el movimiento de datos entre memoria principal y memoria flash temporal y de ahí a los discos giratorios. Tampoco está claro qué capas de la aplicación, el sistema de tiempo de ejecución, el sistema operativo o el sistema de archivos administran esta memoria flash.

Quizás más desafiante, una cantidad significativa de inversión en software tendrá que ser para crear confiabilidad en el sistema. Un sistema de archivo de exaescala tendrá dos órdenes de magnitud más componentes que los sistemas actuales. Con muchos más componentes, se logra una tasa de fallas de componentes significativamente mayor. Esto significa que más reconstrucciones de RAID necesitan reconstruir unidades más grandes y más fallas de medios durante estas reconstrucciones.

El almacenamiento a exaescala requerirá una mayor tolerancia a fallas y la capacidad de una reconstrucción mucho más rápida, como lo proporciona la reconstrucción en paralelo de Panasas, así como una mejor defensa contra fallas de medios, como lo proporciona la paridad vertical de Panasas. Y lo más importante, la verificación de la integridad de los datos de un extremo a otro de los datos almacenados, los datos en tránsito, los datos en cachés, los datos enviados a los servidores y los datos recibidos en los nodos de cómputo, porque el los datos son tan altos que la detección del inevitable bit invertido será la clave. La industria del almacenamiento comenzó con este tipo de desarrollo de características altamente confiables, pero la computación a exaescala necesitará mecanismos a exaescala años antes de que los mercados de ingeniería más amplios lo demanden.

Calendae: ¿Cómo evolucionará la gestión de metadatos?

Gibson: En la Universidad Carnegie Mellon ya hemos visto con las pruebas realizadas en el Laboratorio Nacional Oak Ridge que no se necesita una configuración muy grande antes de que comience a tomar miles de segundos para abrir todos los archivos, de un extremo a otro. A medida que aumenta el tamaño de la supercomputadora, el aumento en el número de procesadores ejerce una enorme presión sobre la concurrencia y el rendimiento de los servidores de metadatos disponibles. Francamente, este es uno de los puntos de presión clave que tenemos en este momento: simplemente crear, abrir y eliminar archivos puede afectar realmente los ciclos de cómputo disponibles. Este es el problema básico de la gestión de metadatos.

La exaescala significará de 100.000 a 250.000 nudos o más. Con cientos o miles de núcleos por nodo y muchos subprocesos por núcleo (GPU en el extremo), el número de subprocesos simultáneos en el procesamiento a exaescala se puede estimar fácilmente en miles de millones. Con este nivel de actividad concurrente, una arquitectura de metadatos escalable y altamente distribuida es imprescindible, con un rendimiento significativamente más alto que el que ofrece cualquier proveedor en la actualidad. Aunque en Panasas creemos que estamos en una posición inicial relativamente buena, aún se requerirá una inversión de software muy significativa para abordar adecuadamente este desafío.

Calendae: ¿Cree que existe una hoja de ruta razonable para lograr todo esto? ¿Cree que se están realizando las inversiones adecuadas?

Gibson: Creo que existe una hoja de ruta bien pensada y comprensible para pasar de la petaescala a la exaescala. Sin embargo, se requerirá mucha más inversión de la que se invierte actualmente para cumplir con los objetivos de la hoja de ruta. El desafío es el retorno de la inversión para los proveedores. Teniendo en cuenta que el trabajo llevará la mayor parte del tiempo hasta 2018, cuando se necesitarán los primeros sistemas de exaescala, y que en ese momento apenas habrá más de 500 computadoras de petaescala conocidas públicamente, según los 7 historiadores de TOP500.org. de un año de retraso en la escala de la computadora número 500 más grande.

Será difícil pagar por el desarrollo de sistemas a esa escala ahora, sabiendo que solo habrá unas pocas implementaciones para distribuir los costos durante esta década y que tomará la mayor parte de la próxima década para que la base instalada de exaescala crezca a 500. Sabemos que las capacidades de exaescala son un programa viable en un tiempo lo suficientemente largo como para distribuir el costo de la inversión entre muchos clientes comerciales, como aquellos en el sector comercial que realizan trabajos como exploración de petróleo o modelado de proyectos.

Sin embargo, mientras tanto, financiar un proyecto de desarrollo, como los sistemas de almacenamiento a exaescala, podría hundir a una empresa pequeña y sería muy poco atractivo para las pérdidas y ganancias de una empresa que cotiza en bolsa. Lo que hizo realidad los sistemas de almacenamiento de petaescala como Panasas y Luster fue la inversión que el gobierno hizo con DARPA en la década de 1990 y el programa DOE Path Forward durante la última década. Se necesitarán programas similares para hacer realidad la exaescala. El gobierno debe participar en esta inversión si quiere que las soluciones de calidad de producción estén disponibles en el plazo de exaescala.

Calendae: ¿Cuál cree que es el mayor obstáculo para el almacenamiento a exaescala?

Gibson: El principal desafío para este tipo de básculas será la capacidad del software. El software que puede manejar estos niveles de simultaneidad, transmite a niveles tan altos de ancho de banda sin cuellos de botella en el rendimiento de metadatos, al tiempo que garantiza altos niveles de confiabilidad, disponibilidad, integridad y facilidad de uso, y en un El paquete que es conveniente para la operación y el mantenimiento requerirá un alto nivel de coordinación y no puede resultar de la alineación de un montón de módulos de código abierto. Simplemente puede hacer que la ruta de datos sea rápida conectándola con hilo de seguridad y cinta adhesiva, pero le da una falsa confianza porque los costos de capital se ven bien y hay una pieza de software que funciona por un tiempo y parece estar haciendo lo correcto.

Pero, de hecho, tener un software que mantenga una alta disponibilidad, no pierda datos y tenga una alta integridad y un costo operativo manejable es mucho más difícil de lo que mucha gente cree. Puede ver esta tensión hoy en el sistema de archivos de código abierto Lustre, que parece requerir personal no trivial y dedicado, capacitado para mantener el sistema en funcionamiento.

Calendae: ¿Habrá un nuevo sistema de archivos paralelo para exaescala?

Gibson: La probabilidad de comenzar desde cero hoy y construir un nuevo sistema de archivos de producción implementable a tiempo para 2018 es casi nula. Se requiere una gran inversión en tecnología de software para alcanzar la exaescala, y no podemos lograrlo sin una inversión adicional significativa en los sistemas de archivos paralelos disponibles en la actualidad. Entonces, si queremos cumplir con el tiempo para la exaescala, necesitaremos invertir en nuevas ideas e implementaciones existentes para alcanzar el objetivo de exaescala.

Puedes compartir en en tu Twitter y Facebook para que tus amigos lo vean

??? ? ? ???

Comparte