¿Problemas de gestión de datos? El almacenamiento de artículos puede ayudar. - Calendae | Informática, Electrónica, CMS, Ciberseguridad

¿Problemas de gestión de datos? El almacenamiento de artículos puede ayudar.

Hola, un placer verte por aquí. En el teclado Simón Sánchez y en el día de hoy vamos a hablar sobre ¿Problemas de gestión de datos? El almacenamiento de artículos puede ayudar.

Habilitar flujos de trabajo distribuidos ha sido un desafío al que HPC y las comunidades de investigación se han enfrentado durante décadas. En el corazón de este problema está la consolidación de datos, la habilitación de categorización, la búsqueda de datos y la administración de acceso. Esto es más fácil dicho que hecho. Las organizaciones suelen ver las aplicaciones de front-end, los transportadores de datos y los servicios basados ​​en la nube como soluciones; sin embargo, los avances en el almacenamiento de objetos hacen que sea más fácil que nunca habilitar flujos de trabajo distribuidos y acelerar los tiempos de descubrimiento.

Consolidación de datos

El primer paso para proporcionar una gestión de datos eficiente es la visibilidad, que comienza con la consolidación de datos. Una de las principales prioridades para muchas organizaciones de investigación es permitir un acceso eficiente a los datos a través de HTTP, particularmente a través de S3. El principal desafío es que muchos dispositivos y aplicaciones de investigación existentes no son compatibles directamente con S3. Por lo tanto, muchas soluciones de almacenamiento han desarrollado interfaces que pueden almacenar datos a través de protocolos tradicionales como SMB y NFS y luego acceder a esos datos a través de S3. La precaución aquí es que las soluciones que no se basan de forma nativa en HTTP (por ejemplo, las soluciones basadas en el sistema de archivos) deberán convertir los datos antes de transmitirlos a través de HTTP. Para muchos casos de uso de HPC y flujos de trabajo de alto rendimiento, esta traducción tarda demasiado en cumplir los requisitos de rendimiento. Por lo tanto, si el acceso a S3 está en la parte superior de su lista de prioridades, debe buscar una solución de almacenamiento de objetos que permita un alto rendimiento a través de S3. Y, si el costo es una consideración para su organización, querrá encontrar una solución que no requiera costosas unidades de estado sólido (SSD).

Clasificación y búsqueda de datos

Una vez que los datos están en una única plataforma de almacenamiento, el próximo desafío es clasificar los datos y hacer que se puedan buscar. Para muchas organizaciones de investigación que se financian con subvenciones o tienen ciclos de aprobación de presupuestos prolongados, la compra de una solución sólida de gestión de recursos para cientos o miles de usuarios no es una opción.

Afortunadamente, muchas soluciones de almacenamiento de objetos tienen incorporada la capacidad de personalizar metadatos. Las mejores soluciones hacen esto de una manera en la que no hay necesidad de mantener o administrar una base de datos adicional. Cuando los metadatos se almacenan con los datos en sí, los datos se pueden buscar mediante programación a través de una interfaz de programación de aplicaciones (API) o mediante una interfaz de usuario (UI) basada en web. Si la categorización de datos y la búsqueda están en la parte superior de su lista de prioridades, asegúrese de que está utilizando una solución de almacenamiento de objetos que no requiera mantenimiento adicional de la base de datos y que utilice una solución NoSQL de código abierto como Elasticsearch para una fácil integración en aplicaciones de visualización de datos.

Proporcionar y administrar el acceso seguro a los datos.

Una vez que los datos están consolidados, categorizados y se pueden buscar, el próximo desafío es brindar acceso seguro a cientos de miles (o posiblemente incluso millones) de usuarios de una manera que sea fácil de administrar y controlar. Aunque muchos flujos de trabajo todavía usan FTP o procesos manuales para administrar el acceso (como almacenar quién tiene acceso a qué en una hoja de cálculo); este no es un modelo escalable y, en última instancia, obstaculizará el tiempo de descubrimiento al consumir recursos valiosos. Para un acceso seguro interno y externo, se requiere una solución de almacenamiento de objetos que integre la administración de inquilinos (para medir el espacio de almacenamiento y el fácil control de acceso en el servidor) y el intercambio de archivos a través de una API. y una interfaz de usuario basada en web.

Descubra cómo el proyecto JASMIN gestiona los datos

La instalación de JASMIN es un «super grupo de datos» en el laboratorio STFC Rutherford del Reino Unido que proporciona una infraestructura para el análisis de datos. Eligieron utilizar una solución de almacenamiento de objetos para ampliar la capacidad de almacenamiento mediante la gestión inteligente tanto de datos como de acceso a datos en JASMIN. Obtenga más información sobre cómo JASMIN se beneficia del uso del almacenamiento de objetos.

Puedes compartir en tu Facebook para que tus colegas lo lean

??? ? ? ???

Comparte