Spectra da el siguiente paso en la confiabilidad de los archivos de cinta - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Spectra da el siguiente paso en la confiabilidad de los archivos de cinta

Hola de nuevo. Te escribe Simón Sánchez y hoy vamos a hablar sobre Spectra da el siguiente paso en la confiabilidad de los archivos de cinta

El proveedor de almacenamiento Spectra Logic ha agregado una serie de funciones de verificación de datos a su solución de biblioteca de cintas. La idea es simplificar la administración de archivos y brindar un nuevo nivel de confiabilidad al archivo de cintas petascale. La capacidad se integrará en la próxima versión de la compañía de su software de administración BlueScale, que se lanzará a fines de marzo.

La incorporación de confiabilidad de datos similar a la de un disco se ha producido a medida que la cinta se está moviendo hacia el territorio tradicional del disco duro: el almacenamiento primario. Pero a medida que aumentan los volúmenes de datos, los requisitos de energía y gastos asociados con el almacenamiento en disco se vuelven cada vez más problemáticos, lo que obliga a los usuarios a descargar más archivos en cinta.

Según Molly Rector, vicepresidenta de marketing y gestión de productos de Spectra, este cambio se ha acelerado significativamente durante los últimos 18 meses, ya que los datos de los usuarios crecen a un ritmo que supera los límites prácticos de un sistema basado en disco. . Spectra está experimentando una tasa de crecimiento anual del 45% para los datos de archivo destinados a archivos Online. Esto incluye datos en la nube, datos de archivos digitales, datos de modelos de HPC; en última instancia, todos los datos de archivos no estructurados se mueven a bibliotecas de cintas.

Especialmente cuando los sistemas de archivos ingresan al rango de petabytes, los clientes buscan mover la mayoría de sus datos a bibliotecas de cintas Online, dejando solo los datos transaccionales activos en las unidades más rápidas. Marco de gestión de archivos como HPSS se puede usar para administrar estos entornos muy grandes y extender el sistema de archivos nativo (como GPFS) a la cinta. «En estos entornos, alrededor del 90 por ciento del almacenamiento está en cinta», dice Rector.

Para sitios de HPC más grandes, este modelo se está volviendo especialmente común. Hoy en día, el Centro Nacional de Computación Científica de Investigación en Energía (NERSC) del Lawrence Berkeley Lab utiliza cinta como su principal almacén de datos. En este caso, tienen la friolera de 13 petabytes de datos en cinta sin copia secundaria. Para varias aplicaciones, escriben directamente en cinta, sin un disco intermedio. La idea es cargar los datos directamente desde la cinta en la memoria de la computadora, masticar los números por un día, una semana o lo que sea, y luego escupir los resultados en la cinta.

Es más parecido a la forma en que los mainframes usaban la cinta hace 20 años. Excepto que esta vez, los volúmenes de datos agregados son mucho, mucho mayores. El almacenamiento del tamaño de un petabyte significa que los usuarios no quieren tener que hacer múltiples copias de todo por razones de confiabilidad (los medios de cinta se degradan con el tiempo debido a la humedad y el polvo). En cambio, quieren que el sistema de cintas se comporte como un disco corporativo, notificando proactivamente que está funcionando correctamente.

Esto es esencialmente lo que hace la nueva verificación de integridad de datos de Spectra. El software ofrece un enfoque de tres niveles para la verificación de datos: PreScan, QuickScan y QuickScan. Cada uno puede activarse o desactivarse según las preferencias del usuario.

El escaneo previo se realiza antes de que la cinta se importe a la biblioteca para garantizar que los medios no se hayan dañado durante el envío desde la fábrica (alrededor del 1 o 2 por ciento de las cintas entran en esta categoría, dice Rector). La idea es evitar que el usuario escriba en una cinta defectuosa; es mejor que averigüe estas cosas antes de iniciar la producción.

A continuación, QuickScan, que se ejecuta cada vez que se escriben datos en una cinta. Verifique que los datos recién escritos se puedan volver a leer. Esto ofrece cierta seguridad de que los datos originales se pueden borrar de forma segura del disco (o unidad flash o memoria). Un QuickScan toma solo uno o tres minutos.

El último nivel es PostScan, que comprueba toda la cinta para asegurarse de que todos los sectores sean legibles. Básicamente, esta es una forma de automatizar la integridad de los datos del archivo actual, lo que, dadas las miles de cintas involucradas en un sistema de producción típico, no sería práctico hacerlo manualmente. El escaneo determinará la degradación de los medios y notificará al administrador si ha alcanzado un umbral predefinido.

Un PostScan de una cinta tarda de dos a tres horas, lo que congelará una unidad durante un buen rato. Como resultado, la interfaz BlueScale de Spectra le permite configurar la programación de PostScan de varias formas. Por ejemplo, un usuario puede optar por ejecutar un análisis completo después de un período de tiempo específico (cada seis meses, un año, etc.) y en una determinada hora del día. También se puede configurar para recuperar la cinta más antigua del sistema siempre que haya una unidad disponible y ejecutar el análisis completo en ese momento. Rector cree que así es como lo utilizarán la mayoría de los clientes.

Dado el flujo de trabajo y el tamaño de los almacenes de datos, es más probable que PostScan se utilice en grandes sitios de supercomputación que en los clientes comerciales de Spectra. De hecho, el Laboratorio Nacional Argonne y la NASA Ames ayudaron a definir esta capacidad en particular. Y un nuevo sistema de biblioteca de cintas recién instalado en NCSA tenía un requisito fundamental para esta función invocado en la RFP.

Si bien las características de integridad se adaptan mejor a la multitud de HPC, otros usuarios comerciales pueden encontrarlas útiles también, en particular aquellos que almacenan millones de archivos que necesitan ser recuperados en un instante. Un buen ejemplo es ESPN, que archiva todos sus videos deportivos. Cada vez que un atleta está en las noticias, debe poder acceder a su archivo de archivos de décadas para mostrar material relevante. Y al igual que un centro de HPC, ESPN tiene un equipo de software que escribe sus propios paquetes, en este caso, análisis personalizados para sus datos de medios. «Si no lo supiera, pensaría que estaba hablando con Argonne National Lab», dice Rector.

Spectra también utilizará las nuevas funciones de integridad internamente, incluso si según los estándares de supercomputación su conjunto de datos es pequeño. «Lo ejecutaremos en nuestros datos corporativos en Spectra», explica Rector. «Nuestro archivo tendrá alrededor de 50 terabytes».

Las funciones de salud están integradas en BlueScale 11.3, que generalmente estará disponible a partir del 30 de marzo. La nueva función es gratuita, pero Spectra recomienda una actualización del servidor de biblioteca de cintas para aquellos sitios con más de 5.000 cintas. La buena noticia es que incluso los servidores más pesados ​​son gratuitos para todos los clientes con un SLA.

Recuerda compartir en en tu Twitter y Facebook para que tus amigos opinen

??? ? ? ???

Comparte