Cuidado y nutrición de tu racimo - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Cuidado y nutrición de tu racimo

Hola, ¿qué tal colega?. Soy Simón Sánchez y esta vez te voy a hablar sobre Cuidado y nutrición de tu racimo

En la columna anterior Gestión del ciclo de vida del clúster, describí los pasos cruciales que debe seguir para implementar y validar el nuevo clúster. En esta columna, analizo la mejor manera de llevar el sistema a producción, configurarlo y mantenerlo para que las operaciones se ejecuten sin problemas y de manera eficiente a largo plazo.

Una vez que se completa la implementación y validación del nuevo clúster de HPC, es hora de que comiencen las funciones de administración de sistemas de HPC. Supongo que se ha seguido el consejo de las columnas anteriores y que se ha identificado al administrador principal del sistema HPC y se ha establecido en la etapa de implementación. No es el momento de descubrir que no cuenta con un experto en HPC en su personal ni a su disposición. El hecho de que el hardware y el software estén funcionando ahora no significa que seguirán así. Como cualquier otro sistema complejo, el clúster de HPC debe monitorearse, analizarse y mantenerse continuamente para que funcione de manera eficiente.

El error que he visto con demasiada frecuencia, especialmente en organizaciones más grandes, es la suposición de que parte del personal de TI existente probablemente pueda comprender el sistema HPC, quizás con menos capacitación. Desafortunadamente, esto rara vez funciona. Aunque HPC es un nicho dentro del espacio más amplio de la tecnología de la información, incluso el mejor generalista de TI tendrá poca o ninguna experiencia en supercomputación. NO es solo una colección de servidores Linux o Windows apilados juntos. HPC es una especialización por derecho propio.

Debe tener competencia en HPC si desea que su nuevo sistema funcione según lo previsto. Tiene dos opciones: contratar a uno o más administradores de HPC a tiempo completo o contratar el soporte continuo del sistema HPC. Es probable que su presupuesto determine cuál funciona mejor para su organización. Para varios escenarios, el soporte por contrato puede ser una mejor opción debido a la dificultad de encontrar y retener expertos de HPC en el personal debido a la intensa demanda del mercado o porque es posible que no necesite una persona a tiempo completo. Consulte con su proveedor de sistemas o integrador para ver si ofrecen servicios de gestión de contratos.

Ahora que su clúster está operativo y tiene uno o más administradores de HPC calificados en plantilla o contrato, la primera tarea es configurar el clúster para que funcione correctamente. Los dos aspectos principales de esta responsabilidad son que el clúster debe estar configurado para funcionar de manera óptima tanto desde el punto de vista de la usabilidad del usuario final como desde el punto de vista del funcionamiento de los sistemas.

El administrador primero debe configurar un acceso de seguridad adecuado para los usuarios finales. Hay dos componentes principales para un diseño de seguridad exitoso. El primero dirige la conectividad al sistema de autenticación adecuado que garantiza que los usuarios puedan iniciar sesión de forma segura. A menudo, el clúster debe configurarse para conectarse a un sistema empresarial ya establecido, como LDAP, Windows, etc. Es imperativo que esta autenticación se realice con rapidez y confiabilidad. Los trabajos de HPC que se ejecutan en paralelo a menudo fallan si el sistema de autenticación no es de confianza. El segundo componente del éxito se refiere a la

Además, puede ser necesario establecer políticas en el planificador que se asignarán a varios grupos de usuarios y perfiles de aplicación, así como en el almacenamiento para cumplir con los requisitos de espacio variables. Cuando la seguridad, la computadora y el almacenamiento están configurados, los usuarios pueden iniciar sesión de forma segura en el sistema y saber dónde almacenar de forma segura sus datos.

Si su clúster es nuevo, es muy probable que los usuarios utilicen la tecnología HPC por primera vez. Esto significa que necesitarán capacitación e instrucción sobre cómo ejecutar sus aplicaciones en el sistema. Las aplicaciones que se ejecutan en una computadora de escritorio o una computadora central no funcionarán de la misma manera en el clúster. Es probable que los usuarios necesiten formación específica sobre la aplicación. Dependiendo del programador, habrá varias formas de enviar trabajos desde varias aplicaciones.

Será responsabilidad del administrador comenzar a crear una base de conocimientos escrita sobre el clúster y cada aplicación. Este documento impreso o basado en la web servirá como una guía para que los usuarios comprendan cómo enviar y realizar un seguimiento de los trabajos y qué hacer si ocurre un problema. Dependiendo del nivel o tamaño de la base de usuarios, también puede tener sentido buscar en algunos portales que pueden facilitar a los usuarios finales la gestión del trabajo.

Para el clúster en sí, el administrador debe configurar herramientas de monitoreo y alerta tan pronto como el sistema esté operativo. El monitoreo, la generación de informes y las alertas de los servicios de almacenamiento, redes y procesamiento de forma continua o periódica son fundamentales para identificar signos de problemas antes de que se conviertan en fallas importantes. Los problemas menores de uso podrían simplemente significar que el espacio en disco se está llenando, pero los errores de memoria del software podrían ser signos de una falla inminente del nodo.

Estas herramientas de seguimiento y análisis están fácilmente disponibles. Muchos clústeres de HPC vienen con herramientas específicas del sistema, mientras que otros paquetes de análisis técnicos y comerciales más sólidos están disponibles comercialmente. Cualquiera que sea su origen, estas herramientas deben configurarse para identificar y predecir problemas de mantenimiento de rutina, como la limpieza del disco y la revisión del registro de errores, así como las fallas reales que deben solucionarse.

En mi experiencia, sin embargo, identificar la causa de varios problemas en el dominio HPC requiere buscar pistas en múltiples componentes. Cuando las cosas van mal con un clúster de HPC, las alarmas se pueden activar en varios puntos al mismo tiempo. El administrador experimentado revisará todos los problemas de rendimiento informados y descubrirá cuál es realmente la causa subyacente. Pocas herramientas de software pueden reemplazar a un ser humano en este sentido.

El cuidado adecuado del clúster también requiere que el administrador sea proactivo. Cada tres a seis meses, recomiendo ejecutar un conjunto estándar de diagnósticos y evaluaciones comparativas para ver si el clúster tiene algún problema con el sistema o si ha caído por debajo de las líneas base establecidas durante la implementación. Si es así, es necesario realizar más comprobaciones. Por último, pero no menos importante, el administrador de HPC debe encontrar la manera correcta de realizar cambios para que todas las aplicaciones continúen funcionando correctamente en el clúster. Los parches y modificaciones para aplicaciones, bibliotecas o sistema operativo / hardware deben evaluarse y probarse cuidadosamente, si es posible, antes de la implementación. He visto algunas interrupciones costosas en las que un simple cambio para una aplicación causaba errores en otras aplicaciones coexistentes.

Finalmente, se debe implementar un plan de respaldo válido para que el sistema pueda volver a estar Online rápidamente en caso de falla. Las cosas más importantes para respaldar son el programador, el nodo principal, el software clave, la aplicación y las configuraciones de datos del usuario. Si bien a menudo no es necesario realizar una copia de seguridad de los datos intermedios, los datos de entrada y salida del usuario deberían serlo, especialmente si el tiempo para regenerar los resultados es alto. La organización también debe establecer políticas de retención de datos que determinen cuándo realizar una copia de seguridad de los datos del clúster en el almacenamiento externo.

Una extensión del cuidado y la nutrición de su nuevo grupo es «Planificación de capacidad e informes», que cubriré en la siguiente columna.

Deepak Khosla es el presidente y director ejecutivo de X-ISS Inc.

Recuerda compartir en tu Facebook para que tus amigos lo vean

??? ? ? ???

Comparte