Cómo implementar y validar su clúster - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Cómo implementar y validar su clúster

Hola y mil gracias por leerme. Te habla Simón Sánchez y hoy te voy a hablar sobre Cómo implementar y validar su clúster

En la columna Gestión del ciclo de vida del clúster anterior, analicé las mejores prácticas para elegir el proveedor adecuado para crear el clúster que satisfaga sus necesidades. Una vez que su equipo ha seleccionado un proveedor y finalizado la compra de su nuevo sistema, el siguiente paso crucial es la implementación y validación del clúster de HPC.

Como parte del proceso de selección de proveedores, le recomiendo que solicite a los solicitantes que incluyan servicios de implementación y validación en sus propuestas de precios. La mayoría, si no todos, los proveedores de sistemas HPC están listos para instalar el hardware y el software que venden y asegurarse de que todo funcione correctamente. En algunos casos, pueden subcontratar parte de este trabajo a profesionales con experiencia en HPC.

Si tiene un departamento de TI experto en HPC, implementar la implementación usted mismo puede ahorrarle dinero, pero debe pensar detenidamente en esta opción. En demasiadas situaciones, he visto caer un clúster costoso mientras se soluciona un problema inesperado. Este tiempo de inactividad puede eliminar los ahorros de costos que esperaba lograr mediante la implementación de personal interno.

Una vez que se establecieron las responsabilidades de implementación y se firmó el acuerdo de compra final, el equipo de selección de HPC no completó su trabajo. El mismo grupo de partes interesadas internas debe ahora centrar su atención en las fases de implementación y validación.

La primera orden del día es que el equipo prepare la instalación que pronto albergará el grupo. Su equipo debe asegurarse de que el sitio que elija tenga el espacio adecuado para albergar el hardware. También debe haber energía suficiente y confiable para operar el sistema y los sistemas de aire acondicionado para mantenerlo fresco. Puede resultar que la estructura local no sea adecuada; en este caso, también debe seleccionarse una estructura de columna. Al examinar la potencia, tenga especial cuidado en proporcionar al proveedor las especificaciones exactas de voltaje / fase / enchufe. Proporcionar los cables de conexión de alimentación correctos suele ser responsabilidad del vendedor, pero se deben anticipar las especificaciones correctas. Si el sitio está listo para la instalación, la implementación puede comenzar.

Para el clúster más grande, los proveedores de HPC normalmente «colocan y apilan» clústeres fuera del sitio antes del envío, lo que significa que los bastidores pueden insertarse fácilmente en la estructura y colocarse en ubicaciones seleccionadas. Los racks se conectarán entre sí y a la fuente de alimentación. Un paso importante durante la instalación es el etiquetado de los equipos y las conexiones de los cables para que puedan identificarse fácilmente.

Luego, el proveedor enciende el hardware para asegurarse de que cada componente esté funcionando y realice un quemado. En el lugar o antes del envío, el proveedor confirma que el equipo tiene la BIOS y el firmware compatibles más recientes para los diversos componentes del sistema.

La siguiente etapa crucial de la implementación es cargar el sistema operativo y el software. La mayoría de los proveedores utilizarán un paquete de sistema de gestión de clústeres para implementar el sistema operativo y la pila de software HPC en los nodos. Específicamente, este software especializado asegura que los nodos de computación estén configurados de manera consistente para que el sistema operativo los inicie correctamente y todos contengan una pila de software idéntica. Si los nodos están configurados con imágenes consistentes y tienen conectividad con el nodo principal, todos tendrán el mismo aspecto para las aplicaciones que se ejecutarán en ellos. También reduce significativamente el tiempo para volver a implementar un nodo si es necesario o para implementar cambios de software.

La implementación también puede implicar la configuración de cualquier almacenamiento externo necesario para el clúster. Finalmente, el programador y las aplicaciones adecuados deben configurarse e implementarse correctamente.

El clúster ahora está listo para la validación básica. El proveedor ejecuta un paquete de software diseñado específicamente para probar los nodos y el clúster, generalmente LINPACK de alto rendimiento (HPL). Alternativamente, estas suites pueden ser específicas del fabricante y suministradas con pilas de HPC. Por ejemplo, Intel ofrece su propio programa de requisitos específicos de clúster llamado Intel Cluster Ready. También están disponibles aplicaciones de validación Online. Además, las pruebas pueden ser solicitadas por usted y diseñadas específicamente para sus aplicaciones y casos de uso particulares.

Normalmente, la prueba primero valida que los nodos funcionan individualmente y luego confirma que funcionan juntos como un clúster. Algunos de los problemas que se pueden identificar durante la validación básica son problemas de memoria dentro de nodos específicos o errores de interconexión entre nodos. La suite puede incluir herramientas para probar cada unidad de interconexión y almacenamiento de datos.

Los proveedores suelen completar las pruebas de validación en este punto. Pero recomiendo una validación adicional e incluso una evaluación comparativa como parte del proceso. Una vez que haya completado las pruebas básicas de validación del clúster anteriores, es imperativo que se pruebe la configuración de su aplicación haciendo que envíe trabajos a través del programador para asegurarse de que se esté ejecutando en el clúster de un extremo a otro. Solo entonces puede estar seguro de que su nuevo clúster está completamente en funcionamiento.

Algunos proveedores harán todo lo posible y ejecutarán pruebas comparativas para determinar la eficiencia de la operación del clúster. Un punto de referencia de HPL, por ejemplo, mide la rapidez con la que el sistema HPC llega a soluciones al realizar cálculos reales. Los resultados sirven como un punto de referencia para el rendimiento del clúster, y algunos proveedores utilizan esta información para ajustar el sistema, cambiar varias configuraciones y obtener más potencia y velocidad.

Suponiendo que los problemas se resolvieron durante la validación y que las puntuaciones de referencia son aceptables, el clúster de HPC ahora está listo para funcionar.

El tiempo total requerido para la implementación y validación varía según el tamaño del sistema. Un clúster más pequeño de 16 o 32 nodos, por ejemplo, puede tardar una semana en estar operativo, mientras que un sistema de 200 a 300 nodos puede tardar uno o dos meses, según la complejidad de la configuración general y los requisitos de prueba de aceptación. . Estos tiempos pueden ser más cortos si el proveedor realiza gran parte del trabajo fuera del sitio antes de la entrega e instalación en sus instalaciones.

Los miembros del equipo de TI interno deben estar disponibles durante la implementación y la validación por varias razones. Es importante asegurarse de que el proceso se desarrolle según lo planeado y el equipo comprenderá cómo está conectado el equipo si se ve sin obstaculizar a los proveedores. La mayoría de los proveedores están dispuestos a tener una sesión de «transferencia de conocimientos», pero es mejor dejarla para que se complete la implementación y la validación para que no disminuya la velocidad mientras el trabajo está en progreso.

Ahora es el momento de usar su nuevo clúster de HPC y asegurarse de que continúe funcionando de manera eficiente. Cubriré «Cuidado y alimentación adecuados de su racimo» en la siguiente columna.

Deepak Khosla es el presidente y director ejecutivo de X-ISS Inc.

Deberías compartir en en tu Twitter y Facebook para que tus amigos opinen

??? ? ? ???

Comparte