SDSC coloca el centro de datos en el escenario

Hola, un placer verte por aquí. En el teclado Simón Sánchez y en el día de hoy hablaremos sobre SDSC coloca el centro de datos en el escenario

El nombramiento de Michael Norman como director del Centro de Supercomputación de San Diego (SDSC) la semana pasada estaba muy retrasado. La SDSC ha estado sin director oficial durante más de 14 meses, y Norman ocupa el cargo de jefe interino desde julio pasado. El nombramiento podría marcar una especie de regreso para el centro, que no solo se quedó sin director durante este tiempo, sino que también operó sin una supercomputadora de alta gama.

DataStar, un sistema IBM P690 de 15 teraflop más antiguo se retiró en octubre de 2008, y la máquina Blue Gene / L relativamente pequeña del centro se puso fuera de servicio en junio de 2009. Pero Trestles, una nueva supercomputadora de 100 teraflop financiada por NSF , debería estar en funcionamiento antes de fin de año. Y con la incorporación de Gordon, una supercomputadora de 245 teraflop que se lanzará a mediados de 2011, SDSC volverá a ser un lugar relativamente feliz para FLOPS.

Se podría decir que nuestro perfil FLOPS se parecía al Dow Jones ”, rió Norman. «Realmente se desmayó en 2008 y 2009. Con el sistema Trestles llegando a fines de 2010, volveremos a estar en el marcador».

Un poco de historia

Norman, un astrofísico computacional, comenzó en Lawrence Livermore en la década de 1970, donde pudo combinar su amor por la astronomía (su especialización en Caltech) con su interés en todo lo computacional. «Y luego, básicamente, era un gitano, persiguiendo ciclos de supercomputadoras donde nunca pude encontrarlos», dijo Norman.

Después de su estadía en Livermore, Norman realizó una gira de cuatro años (1980-1984) en el Instituto Max Planck de Astrofísica, propietario del primer sistema Cray 1 en Europa Occidental. Fue durante su tiempo en Max Planck que colaboró ​​fuertemente con Larry Smarr, actualmente director de Calit2 en UC San Diego.

“He trabajado en estrecha colaboración con Mike durante más de 30 años, desde que era un estudiante de posgrado en Livermore”, dijo Smarr. «Aporta una amplia experiencia trabajando en múltiples centros de supercomputación nacionales e internacionales, además de ser un pionero práctico en astrofísica computacional y cosmología».

También fue durante este tiempo en Max Planck que él y Smarr concibieron la idea del Centro Nacional de Aplicaciones de Supercomputación (NCSA). Dos años después de que Norman dejara el instituto, nació NCSA. Pero mientras tanto, Norman se fue a Los Alamos para trabajar como científico de personal, antes de regresar a Smarr en NCSA en 1986. Permaneció allí durante 14 años antes de llegar a San Diego.

Allí, estuvo involucrado con SDSC, primero como investigador en el departamento de física de UC San Diego, luego como miembro del comité ejecutivo del centro. Hacia finales de 2007, Norman entró en la refriega de financiación de NSF para ayudar a SDSC a ganar una de las compras de supercomputadoras Track 2 de la agencia. El primer intento no tuvo éxito, pero el segundo lo fue, lo que resultó en el premio del sistema Gordon, con Norman como investigador principal. En el verano de 2009, Norman se convirtió en director interino del centro después de que Fran Berman dejara su gerencia y se trasladara al Instituto Politécnico Rensselaer como vicepresidente de investigación.

Supercomputación centrada en datos

El ascenso de Norman al SDSC confirma el nuevo enfoque del centro en supercomputación intensiva en datos. Él, más que nadie, quería hacer de San Diego un lugar para HPC y HPD (datos de alto rendimiento), un término que acuñó para llamar la atención sobre el modelo centrado en datos. La idea es apoyar a toda la empresa científica y esto requiere una infraestructura de almacenamiento más altamente integrada que admita supercomputadoras.

«Existen estas dos culturas: la cultura HPC y la cultura científica intensiva en datos, o cuarto paradigma, como se quiere llamar», explicó Norman. “Parece que viven en mundos diferentes. Espero reunirlos con la SDSC «.

Parte de esto se logrará con la próxima supercomputadora Gordon, que contendrá un cuarto de petabyte de memoria flash y memoria virtual compartida por software. Con 245 teraflops, la máquina ofrece solo un rendimiento moderado según los estándares de supercomputación de élite actuales. Pero hoy en día muchas aplicaciones tienen restricciones de E / S en lugar de computación, y realmente preferirían que sus grandes conjuntos de datos estuvieran en la memoria principal. Dado que la RAM es bastante cara, el flash está demostrando ser la mejor opción. Debido a su arquitectura de memoria única, Gordon debería hacerlo muy bien en el manejo de bases de datos del tamaño de una teraescala.

El motor de todo esto es el llamado «diluvio de datos», que fluye a través de múltiples disciplinas, en áreas tradicionales de computación técnica como la física, la ingeniería astronómica, la bioinformática y la medicina, así como en reinos menos tradicionales, como ciencias sociales, artes y economía.

Los flujos de terabytes de los sensores de observación del océano, las cámaras CCD astronómicas y los secuenciadores del genoma son solo algunos ejemplos de cómo los datos están superando la infraestructura de TI. Algunos de estos, como los flujos de datos astronómicos, pueden requerir su propia supercomputadora dedicada.

El problema es aún más agudo para los secuenciadores del genoma. Los biólogos de la genómica están acostumbrados a hacer su trabajo en una estación de trabajo, porque antes era perfectamente adecuado. Pero el rendimiento de estas máquinas ha aumentado tan rápidamente que los secuenciadores han pasado de la generación de gigabytes a terabytes en solo un par de años. Hay mejoras aún mayores en el horizonte. «Están realmente en el mar en este momento», dijo Norman, «y se están dando cuenta de que ya no pueden hacer este trabajo en sus laboratorios».

El núcleo de la reestructuración intensiva en datos en el SDSC será algo llamado Oasis de datos, un repositorio de archivos escalable muy grande diseñado para servir a múltiples clústeres de HPC y máquinas con uso intensivo de datos. Básicamente, es una granja de discos extensible que tendrá una alta conectividad a través de un conmutador muy grande de 10 gigabits. Desde el punto de vista de Norman, esto fundamentalmente da la vuelta al centro de datos, con la maquinaria de procesamiento y los generadores de datos en la periferia y el almacenamiento de datos en el centro.

Reinicio del programa de socios de la industria

Una vez que la nueva infraestructura esté lista, Norman espera relanzar el programa de asociación industrial del centro. Desde que retiraron sus supercomputadoras de capacidad en los últimos dos años, SDSC no ha podido atraer a muchos colaboradores comerciales. Después de que se cerró DataStar, el centro utilizó fondos internos para comprar Triton, un grupo de Appro de 20 teraflop. Según Norman, han reunido a algunos socios industriales con ese sistema, pero realmente no tiene la capacidad de respaldar un programa grande.

La supercomputadora Trestles, fiel a su nombre, actuará como un sistema puente hasta que se instale la máquina Gordon más grande el próximo año. (Por cierto, Trestles es también el nombre de un famoso lugar para surfear en San Diego). Shell Oil está muy interesado en la arquitectura de Gordon, dijo Norman. Actualmente, la compañía petrolera está empleando Dash, un prototipo de Gordon más pequeño con memoria flash acelerada, para un proyecto no revelado, y esperan hacer crecer ese trabajo una vez que su sucesor más capaz entre Online.

Según Norman, también están cultivando activamente el negocio de la informática biomédica, comenzando por trabajar en el centro médico local de la USCD. Planean aprovechar la facultad que trabaja en la escuela de medicina de la universidad para ayudar a desarrollar algunas de estas habilidades, con la esperanza de que este trabajo se extienda a las relaciones comerciales.

Financiamiento de la boutique

Con su enfoque centrado en los datos, SDSC decidió no ser parte de la última carrera petaflop-to-exaflop. Si bien esto le da al centro un nicho interesante, generalmente está en desacuerdo con el modelo de financiamiento que utiliza la NSF para financiar la supercomputación en la actualidad. Los presupuestos más ajustados convencieron a la agencia de distribuir el dinero de manera más fragmentada. Por lo tanto, puede obtener dinero por una supercomputadora, pero no por el almacenamiento de datos o la infraestructura de red necesaria para toda la instalación. «En los viejos tiempos, cuando teníamos fondos reales para los centros de supercomputadoras, había suficiente dinero para crear un entorno integrado», explicó Norman.

En este sentido, los centros ya no se financian como tales. Se financian como lugares donde la agencia puede descargar un recurso. Desde el punto de vista de Norman, esta no es una estrategia viable a largo plazo para los centros de supercomputación. «Es posible que volvamos a un modelo más sostenible», dijo. «Ciertamente lo espero.»

Deberías compartir en tus redes sociales para que tus colegas lo flipen

??? ? ? ???

Comparte