Aborde los problemas de almacenamiento de macrodatos con almacenamiento a nivel de sitio - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Aborde los problemas de almacenamiento de macrodatos con almacenamiento a nivel de sitio

Hola, un placer verte por aquí. Te escribe Simón Sánchez y en esta ocasión te voy a hablar sobre Aborde los problemas de almacenamiento de macrodatos con almacenamiento a nivel de sitio

Cuando se trata de problemas de almacenamiento, nadie está exento. El crecimiento exponencial del big data científico y técnico no solo está teniendo un gran impacto en las infraestructuras de almacenamiento de HPC en las organizaciones más grandes del mundo, sino también en las pequeñas y medianas empresas.

Los obstáculos para las grandes organizaciones son muy visibles. A lo largo de los años, los laboratorios gubernamentales, las instituciones educativas y las grandes empresas han construido infraestructuras de almacenamiento complejas y, a menudo, muy dispersas. Cuentan con numerosos sistemas de archivos distribuidos que se ejecutan en varios sistemas HPC.

Como resultado, los silos de almacenamiento se han convertido en la norma. Algunas de las consecuencias son acceso limitado a los datos, alta latencia y mayores costos de almacenamiento, mantenimiento y recuperación. En particular, estas infraestructuras de TI luchan con cargas anticipadas o inesperadas durante los períodos pico causados ​​por actividades como puntos de control o demandas inesperadas de los usuarios.

Almacenamiento en todo el sitio en NERSC

El Centro Nacional de Computación Científica de Investigación en Energía (NERSC) es un excelente ejemplo de cómo una gran institución puede resolver estos espinosos problemas de almacenamiento.

Más de 5,000 científicos utilizan las instalaciones computacionales de NERSC cada año. Están llevando a cabo investigaciones científicas sobre hasta 700 temas que abarcan campos como la energía solar, la bioinformática, la ciencia de la fusión, la astrofísica, la ciencia del clima y más. El Centro cuenta actualmente con seis sistemas de tecnología de la información y sistemas de archivo avanzados. Se incluye «Edison», un Cray XC30 con un rendimiento máximo de más de dos petaflops.

Desde 2006, NERSC ha tenido que abordar continuamente sus problemas de almacenamiento y, recientemente, el ritmo se ha acelerado. Por lo general, hasta 400 investigadores por día de todo el mundo usaban el Centro para administrar cientos de aplicaciones de gran ancho de banda para acceder, analizar y compartir datos de investigación. Dado que el diseño se basó en múltiples sistemas de archivos diferentes, el principal desafío fue proporcionar un equilibrio óptimo entre capacidad y rendimiento.

“Movíamos datos constantemente por el centro para asegurarnos de que teníamos suficiente almacenamiento para manejar el crecimiento de nuevos proyectos, mientras manteníamos contentos a nuestros usuarios existentes”, dice Jason Hick, líder del grupo, Sistemas de almacenamiento para NERSC. «Tomó mucho tiempo y generó una gran cantidad de tráfico de red».

El equipo de Hick discutió las ventajas de implementar almacenamiento adicional o pasar a una solución centralizada diseñada para satisfacer el crecimiento presente y futuro. Optaron por lo último.

Hick dice: «NERSC fue un pionero en alejarse del almacenamiento local en favor de sistemas de archivos globales en todo el sitio y una arquitectura de almacenamiento consolidada». Agrega que el rendimiento y la eficiencia han sido los principales impulsores para adoptar una arquitectura de almacenamiento en todo el sitio.

Solución de almacenamiento DDN

En el corazón de la solución se encuentra DataDirect Networks Storage Fusion Architecture® (SFA), que proporciona toda la funcionalidad necesaria para capturar, analizar y archivar macrodatos en una única plataforma.

Este enfoque permite a NERSC implementar una capacidad de almacenamiento centralizada capaz de satisfacer los requisitos del sistema informático más grande de la red, incluidos los picos de los períodos pico, así como las necesidades de almacenamiento de los otros cinco sistemas del Centro. Y cuando la supercomputadora NERSC 8 “Cori” ultrapotente se instale a mediados de 2016, hará un uso completo de la infraestructura de almacenamiento escalable en todo el sitio.

Hick informa que el costo de la infraestructura centralizada es un 30% menor que el de un sistema de archivos local, con ahorros por un total de varios cientos de miles de dólares. Los costes de almacenamiento «cero» se han reducido en más del 50%.

NERSC es solo una de varias organizaciones grandes que se han trasladado a soluciones de almacenamiento a nivel de sitio basadas en tecnología DDN. Esto incluye el Centro de Computación Avanzada de Texas (TACC), el Laboratorio Nacional de Oak Ridge (ORNL) y el Laboratorio Nacional de Los Alamos (LANL).

Pero los beneficios de la solución de archivo a nivel de sitio no son del dominio exclusivo de estos grandes laboratorios gubernamentales e instituciones importantes. Es posible que los sitios más pequeños no tengan los recursos para comprar, implementar y administrar la infraestructura a la escala de TACC u ORNL, pero aún pueden disfrutar de los beneficios del almacenamiento a nivel del sitio. Un enfoque muy exitoso es «converger» los sistemas de archivos paralelos y otras aplicaciones con almacenamiento para crear bloques de almacenamiento centralizados que brinden mayor rendimiento y menor latencia. Al mismo tiempo, esta solución también ofrece facilidad de compra, implementación y administración.

Manejo de Big Data en la Universidad de Florida

La Universidad de Florida es un buen ejemplo. Su Centro Interdisciplinario de Investigación Biotecnológica (ICBR) está creciendo rápidamente, generando cantidades cada vez mayores de datos a medida que agrega nuevos equipos como secuenciadores de próxima generación y herramientas de microscopía crioelectrónica. Para gestionar este crecimiento, ICBR quería una infraestructura simplificada, flexible y respetuosa con el medio ambiente que pudiera escalar según fuera necesario.

El Centro eligió la infraestructura convergente DDN In-Storage Processing ™ (DDN) que permite a los usuarios integrar sistemas de archivos paralelos y aplicaciones clave dentro del controlador de almacenamiento. Este enfoque permitió al ICBR eliminar la latencia de acceso a los datos, así como la necesidad de servidores, cables, conmutadores de red y adaptadores adicionales, al tiempo que reducía la sobrecarga administrativa. El almacenamiento equilibrado y el rendimiento de ráfagas de aplicaciones más rápido significan que las aplicaciones de big data se ejecutan a niveles óptimos.

La solución proporciona el rendimiento y las capacidades avanzadas necesarias para manejar proyectos de secuenciación de próxima generación en rápido crecimiento con cargas de aplicaciones en constante cambio.

La experiencia de ICBR muestra cómo una organización de rango medio con recursos limitados puede disfrutar de una solución de almacenamiento satisfactoria a nivel de sitio. El Centro implementó una arquitectura adaptable y personalizable para almacenar, administrar y analizar grandes colecciones de datos distribuidos que se ejecutan en miles de millones de archivos y petabytes de almacenamiento en docenas de redes de datos federadas.

Almacenamiento optimizado para todos

Como demuestran los ejemplos de la Universidad de Florida y NERSC, los beneficios del almacenamiento optimizado para el sitio están disponibles para organizaciones grandes y pequeñas. DDN, líder en almacenamiento HPC, está liderando el camino.

Puedes compartir en tus redes sociales para que tus amigos lo sepan

??? ? ? ???

Comparte