Nueva nube de almacenamiento de SDSC: "Flickr para datos científicos" - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Nueva nube de almacenamiento de SDSC: «Flickr para datos científicos»

Hola y mil gracias por leerme. Te habla Simón Sánchez y en el día de hoy te voy a hablar sobre Nueva nube de almacenamiento de SDSC: «Flickr para datos científicos»

El mes pasado, el Centro de Supercomputación de San Diego lanzó lo que cree que es «el sistema de almacenamiento en la nube académico más grande de los Estados Unidos». La infraestructura está diseñada para servir a la comunidad de investigación del país y estará disponible para científicos y ingenieros de prácticamente cualquier agencia gubernamental que necesite almacenar y compartir grandes conjuntos de datos.

Ciertamente existe la necesidad de tal servicio. La práctica científica moderna es una actividad comunitaria y la forma en que los investigadores colaboran es compartiendo sus datos. Antes de la aparición de la nube, la forma principal de hacerlo era a través del correo electrónico y enviando manuscritos de un lado a otro a través de Internet. Pero con la fusión de algunas tecnologías antiguas y nuevas, ahora existen formas económicamente viables de compartir cantidades masivas de datos con colegas.

En el comunicado de prensa que describe el almacenamiento en la nube, el director de SDSC, Michael Norman, lo describió de esta manera: «Creemos que SDSC Cloud puede revolucionar la forma en que se almacenan y comparten los datos entre los investigadores, especialmente los enormes conjuntos de datos que se están convirtiendo en más prevalente en esta nueva era de investigación y computación intensivos en datos «. O, como él lo expresó de manera más sucinta,» lo considero como Flickr para datos científicos «.

No es solo para académicos universitarios. Los proyectos científicos del DOE, NIH, NASA y otras agencias estadounidenses son bienvenidos. Aunque el centro está suscrito por la NSF, recibe fondos e investigadores sustanciales de todas estas organizaciones. Como la mayoría de los centros HPC compatibles con NSF en la actualidad, SDSC es un centro de múltiples agencias.

Norman dice que el objetivo inmediato de este proyecto es apoyar a los clientes de archivos de cinta existentes en SDSC con algo que permita compartir datos. Para la colaboración, dice, el archivo en cinta es probablemente la peor solución posible. No solo el ancho de banda de E / S es demasiado bajo, sino que con una plataforma de cinta, siempre hay una computadora entre usted y sus datos.

Con una solución en la nube basada en disco, automáticamente obtiene más ancho de banda, pero lo más importante, una interfaz web para el acceso a los datos. Cada archivo de datos se proporciona con una URL única, que hace que la información sea accesible globalmente desde cualquier cliente web. “Puede comunicarse con su iPhone tan fácilmente como puede comunicarse con su mainframe”, dice Norman.

La infraestructura de nube inicial consta de 5,5 petabytes de capacidad de disco conectados a los servidores a través de un par de conmutadores Arista Networks 7508, que proporcionan 10 terabits / segundo de conectividad. Los nodos Dell R610 se utilizan para servidores de almacenamiento, así como para servidores proxy y de equilibrio de carga. El hardware de almacenamiento consta de JBOD Supermicro SC847E26, ​​y cada JBOD aloja 45 unidades Seagate de 3 TB. Toda esta infraestructura se aloja y mantiene en SDSC.

El almacenamiento en la nube reemplazará el almacenamiento en cinta actual en el centro, en este caso un sistema StorageTek que actualmente contiene aproximadamente un petabyte de datos de usuario distribuidos en 30 o 40 proyectos. Durante los próximos 12 a 18 meses, SDSC migrará los datos, junto con sus clientes, a la nube y eliminará el hardware StorageTek.

Según Norman, a algunos de estos usuarios de cintas les gustaría mover otros conjuntos de datos a estos repositorios, y la nube debería hacer que el proceso sea mucho más fluido. “Lo estamos configurando como un negocio sostenible y esperamos que los clientes utilicen nuestra nube simplemente como un entorno de almacenamiento”, dice. Por ejemplo, ya están hablando con un centro de la NASA que está tratando de estacionar los datos de su misión en una ubicación accesible, pero en un entorno similar a un archivo.

Sin embargo, el cambio a una nube de almacenamiento no solo fue motivado localmente. Las agencias gubernamentales como NSF y NIH han comenzado a imponer planes de intercambio de datos para todos los proyectos de investigación. Los Investigadores Principales (IP) pueden asignar hasta el 5% de sus fondos de subvención para el almacenamiento de datos, pero aparentemente, en una subvención de investigación típica de cinco o seis cifras, eso no es mucho dinero.

Para que este intercambio de datos sea económicamente viable para los investigadores, debe ser fundamentalmente un modelo de costo-plus. Norman cree que ha logrado esto con su modelo de precios, aunque admite que «si les preguntara a los investigadores cuál sería el precio correcto, sería cero».

Para 100 GB de almacenamiento, las tarifas son $ 3.25 / mes para los usuarios de la Universidad de California (UC), 5.66 / mes para las afiliadas de UC y $ 7.80 / mes para los clientes más allá fuera del ámbito de la UC. Los usuarios que busquen una gran cantidad de almacenamiento de más de 200 TB tendrán que pagar por la infraestructura adicional, en lo que el programa llama su oferta de «micro-condominio».

El esquema de precios de los apartamentos es más complejo, pero se ofrece a usuarios con conjuntos de datos muy grandes y para subvenciones de investigación que incluyen consideraciones de almacenamiento para propuestas y presupuestos. E incluso si este modelo no incluye una nube elástica transparente, el modelo de condominio hace que la infraestructura sea al menos expandible. Según Norman, su nube está diseñada para expandirse al reino de cientos de petabytes.

Si bien los propietarios de datos pagan por la capacidad, gracias a las redes científicas respaldadas por el gobierno, los consumidores de datos no pagan por el ancho de banda de E / S. Amplias son las redes en proyectos como CENIC (Corporation for Education Network Iniciativas en California), ESNet (Energy Sciences Network) y XSEDE (Extreme Science and Engineering Discovery Environment) son inversiones públicas que pueden aprovecharse desde la nube SDSC. Esto puede ser una gran ventaja sobre el almacenamiento comercial en la nube, como el Simple Storage Service (S3) de Amazon, donde los usuarios deben tener en cuenta los costos de transferencia de datos.

Si bien algunos investigadores pueden terminar utilizando ofertas comerciales como Amazon S3, Norman cree que este tipo de configuraciones generalmente no se adaptan a los tipos académicos y ciertamente no forman parte de la mentalidad de la mayoría de los investigadores. También carece de algunas de las redes de alto rendimiento habilitadas por grandes tubos de 10 GbE y conmutación de baja latencia sobre SDSC.

Queda por ver si la nube roll-your-own del centro podrá competir con las nubes comerciales a largo plazo. Una de las razones por las que una organización relativamente pequeña como SDSC puede incluso construir una bestia así es gracias en gran parte a la disponibilidad de hardware básico de bajo costo y la experiencia nativa en el núcleo de la construcción de sistemas de almacenamiento de alta gama a partir de piezas. .

También existe OpenStack, un sistema operativo en la nube de código abierto que SDSC utiliza como base de su oferta. Además de ser esencialmente libre de tomar, la naturaleza no propietaria de OpenStack también significa que el centro no estará limitado a ningún proveedor de software o hardware en particular en el camino.

«Con OpenStack pasando a ser de código abierto, ahora es posible que cualquiera pueda crear una pequeña empresa en la nube», dice Norman. «Solo estamos haciendo esto en un entorno académico».

Deberías compartir en tus redes sociales para que tus colegas lo lean

??? ? ? ???

Comparte