Gestión de explosiones de archivos

Hola de nuevo. Yo soy Simón Sánchez y esta vez te voy a contar sobre Gestión de explosiones de archivos

El «universo digital» parece reflejar nuestro universo físico: continúa expandiéndose a velocidades cada vez más rápidas. Considere esta asombrosa estadística de los investigadores de mercado de IDC: el volumen total de información digital creada y replicada globalmente alcanzó los 281 MIL MILLONES de gigabytes de información digital en 2007. Eso significa 45 gigabytes por cada persona en la Tierra.

Gran parte de este crecimiento proviene del aumento del contenido generado por el consumidor. Si bien las primeras etapas de la web incluían una cantidad relativamente pequeña de sitios con contenido relativamente fijo, ahora tenemos miles de opciones. Y muchos destinos web se basan en su capacidad para agregar una gran cantidad de archivos generados por el consumidor, como fotos y videos.
Pero hay más en la historia. Aunque la cantidad de datos creados y almacenados sigue aumentando con un clip significativo, la cantidad de archivos, o el recuento de archivos, aumenta a un ritmo mucho más rápido. Los datos recientes de IDC detallan cómo la tasa de crecimiento anual compuesta por terabyte de capacidad es del 59%, mientras que la tasa de crecimiento compuesta para el recuento de archivos es del 88% durante el mismo período. Esto da lugar a nuevos desafíos y demandas de infraestructura a escala web.

Ya no hay suficiente capacidad para escalar la infraestructura a escala web de cientos de miles a millones de usuarios. El problema más espinoso ahora es lidiar con la «explosión del recuento de archivos» resultante del aumento del número de elementos de contenido generados por el usuario proporcionados individualmente y la optimización del rendimiento de aplicaciones de escala web cada vez más complejas en servidores web como Apache. y Lighttpd, motores de indexación como Lucene y bases de datos como MySQL.

En el lado del recuento de archivos del libro mayor, es un problema clásico de «aguja en el pajar». A medida que se generan más y más archivos, se necesita más y más tiempo para manejar las consultas de los usuarios sobre archivos específicos. ¿Porque? Los índices utilizados para encontrar los archivos también son cada vez más grandes. Tenga en cuenta que en la mayoría de estas aplicaciones, aunque el contenido solicitado varía mucho según cada usuario individual, las formas de llegar a ese contenido, como la búsqueda por nombre, tema o «tema», requieren el uso de un índice común para todos los usuarios. Como resultado, se necesita más tiempo para examinar estos índices enormes para encontrar los archivos que desea un usuario. Y eso crea serios cuellos de botella de rendimiento cuando la práctica histórica de mantener la información de indexación en discos mecánicos comienza a estancarse.

La raíz de esta sobrecarga de índice son los metadatos o la información del archivo, más que el contenido del archivo en sí. En particular, cuando los sistemas de archivos tienen que buscar muchos archivos y muchos niveles de directorio, la sobrecarga de estas operaciones de metadatos puede sobrecargar el sistema de almacenamiento. El impacto de esto se puede ver en una operación típica de recuperación de archivos u objetos donde la solicitud común de «pasar por el árbol de directorios» conduce a demasiadas operaciones NFS adicionales en lugar de simplemente poder identificar el ubicación del archivo y obtenerlo.

La resolución de este cuello de botella requiere una reevaluación de cómo se distribuye la memoria en el centro de datos. Los arquitectos y gerentes de centros de datos con visión de futuro están reconociendo ahora los beneficios del almacenamiento en caché escalable y basado en la red como un medio para resolver este creciente problema de «explosión de archivos». Al hacer que un grupo de memoria escalable esté disponible en forma de un servicio de almacenamiento en caché de red centralizado, los centros de datos pueden proporcionar servicios de archivos acelerados que descargan unidades de disco mecánicas existentes, subsistemas de almacenamiento y sistemas de archivos que son más lentos por el trabajo pesado de manejar estos metadatos en crecimiento e índice de crecimiento. Algunos beneficios del almacenamiento en caché de red incluyen:

1. Máximo rendimiento

La distribución de memoria como caché centralizada mejora el rendimiento de la unidad de disco y permite ganancias de rendimiento de E / S inmediatas de 10 a 50 veces, lo que mejora significativamente los tiempos de respuesta de las aplicaciones.

2. Recursos consolidados y centralizados

La implementación de un recurso de almacenamiento en caché de red compartido y consolidado mejora en gran medida la eficiencia general del sistema, reduce los costos generales y reequilibra de manera inteligente las cargas de trabajo en respuesta a la infraestructura de aplicaciones existente.

3. Gestión de un punto

Un modelo de administración centralizado de un solo punto permite una verdadera expansión sin costos de administración adicionales. Agregar recursos a los dispositivos de almacenamiento en caché no requiere tareas administrativas adicionales, ya que se puede cambiar el tamaño de un solo dispositivo en una única interfaz de administración.

4. Uso de la infraestructura existente

Las soluciones de almacenamiento en caché centralizado mejoran la infraestructura existente al admitir sistemas de almacenamiento y servidores web / de aplicaciones existentes.

5. Distribución multipropósito

Como recurso compartido, los dispositivos de almacenamiento en caché escalables pueden optimizar el rendimiento de múltiples aplicaciones dentro de un solo dispositivo, aumentando en gran medida la eficiencia y la eficacia generales en el centro de datos.

Para abordar los problemas de rendimiento de las aplicaciones a escala web, están surgiendo nuevos servicios de archivos y objetos acelerados para abordar los desafíos de la escalabilidad. Estos nuevos servicios hacen que las aplicaciones estén disponibles para varios usuarios simultáneos con un rendimiento de acceso a archivos significativamente mejorado para satisfacer las necesidades de uso intensivo de computación y almacenamiento de los centros de datos a escala web.

Un ejemplo de estos servicios incluye la capacidad de administrar y almacenar en caché metadatos de forma selectiva. El modelo convencional de almacenar toda la información en sistemas basados ​​en disco puede llevar a tiempos de respuesta prolongados al limitar el número de transacciones de aplicaciones que pueden ocurrir dentro de un período de tiempo determinado. Las operaciones de metadatos, como la búsqueda de nombres y ubicaciones de archivos, pueden generar numerosas solicitudes aleatorias pequeñas que, cuando se multiplican por miles de usuarios simultáneos, suelen abrumar a un sistema de almacenamiento en disco típico. A medida que aumenta el recuento de archivos y aumenta el número de directorios anidados, no es imposible tener relaciones de hasta 20: 1 entre los comandos de metadatos y los comandos de recuperación de archivos. Esta sobrecarga limita la escala de la infraestructura general.

Al mantener los datos requeridos con frecuencia en la memoria en lugar de en discos mecánicos, el rendimiento de E / S del sistema aumenta drásticamente, lo que permite una mejor respuesta de la aplicación. El principal beneficio de la implementación de caché centralizada es la capacidad de optimizar las solicitudes en cientos o miles de servidores web, lo que a su vez permite que las aplicaciones web escalen fácilmente el número de usuarios simultáneos sin experimentar retrasos excesivos o la necesidad de sobrecargas. aprovisionamiento de infraestructura.

Conclusiones

Las cargas de trabajo de las aplicaciones están cambiando de usuarios individuales que acceden a aplicaciones de escritorio a cientos o miles de usuarios simultáneos que acceden a aplicaciones web comunes. Ya sea que se trate de redes sociales, uso compartido de archivos o aplicaciones comerciales, el uso de la infraestructura establecida a escala web va en aumento y exige nuevas ideas para los sistemas de centros de datos.

Afortunadamente, no todo tiene que ser rediseñado. A medida que aumentan las demandas de acceso rápido a los archivos, colocando cargas cada vez más pesadas en la infraestructura web original, las aplicaciones a escala web pueden utilizar recursos de almacenamiento en caché centralizados para escalar adecuadamente con la infraestructura existente. Esto asegura que se cumplan tiempos de respuesta rápidos para una experiencia optimizada del usuario final.

Acerca de

Gary Orenstein es el vicepresidente de marketing y desarrollo comercial de Gear6 y ha estado activo en la industria de redes de almacenamiento IP desde sus inicios. Fue el primer miembro de la junta del IP Storage Forum de la Storage Networking Industry Association, donde ayudó a desarrollar, promover y entregar información educativa impulsando el crecimiento del mercado.

Antes de Gear6, Gary fue vicepresidente de marketing en Compellent Technologies, una empresa de almacenamiento en red que ofrece SAN modulares y asequibles. Antes de Compellent, fue miembro fundador del equipo de Nishan Systems, líder en el mercado de almacenamiento IP, y dirigió muchos de los eventos líderes en la industria de Nishan, como The Promontory Project, la primera red de almacenamiento IP transcontinental y la primera demostración de iSCSI. velocidad de cable. Anteriormente, pasó varios años creando distribución internacional y empresas conjuntas para empresas estadounidenses, incluida una distribución para Sun Microsystems en Asia.

Gary es también el

No te olvides compartir en una historia de tu Instagram para que tus amigos lo sepan

??? ? ? ???

Comparte