Titán avanza a toda máquina - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Titán avanza a toda máquina

Hola otra vez. Soy Simón Sánchez y en esta ocasión hablaremos sobre Titán avanza a toda máquina

Al ser nuevo, hay una tendencia a centrarse en lo que salió mal en lugar de en lo que salió bien, pero según una actualización de Oak Ridge Leadership Computing Facility, los primeros problemas asociados con su sistema Cray XK7 «Titan» Se han resuelto. Los representantes de OLCF dicen que Titan «ha superado un lanzamiento desafiante y ahora muestra una estabilidad impresionante».

«La máquina funciona muy bien» Estados Don Maxwell, jefe de tareas en el grupo de operaciones de HPC del OLF.

«Las fallas de los nodos están a la par de lo que esperaríamos», continúa Maxwell. «Las cosas van muy bien. Solo encontramos una interrupción no programada en más de cinco meses y ninguna interrupción no programada en 2014 «.

Chris Fuson, de User Assistance and Outreach Group, informó opiniones similares y se centró en la estabilidad de la máquina. «Esto solo muestra la madurez de la máquina».

«El tiempo de actividad es más largo», dijo, «por lo que se pueden hacer cola y completar más trabajos».

«No necesariamente anunciamos que somos más de lo normal», agregó. «El resultado directo de una mayor estabilidad es que los usuarios tienen una mejor experiencia».

Poco después de la entrega de Titán, se descubrieron problemas que requirieron dos rondas de «reparaciones continuas». El 8 de abril de 2013, el laboratorio anunció que se había completado el primer lote de reparaciones. Ahora es revelador que el trabajo en un segundo conjunto de reparaciones se completó el 17 de diciembre de 2013. Las reparaciones se llevaron a cabo en secciones, lo que hizo que aproximadamente el 20% de la máquina fuera inaccesible. Desde que se finalizaron las reparaciones, la máquina ha sido «muy estable y muy utilizada», según los funcionarios del laboratorio.

Buddy Bland, director del proyecto OLCF, señala que tener que solucionar algunos problemas al principio es normal con una máquina de última generación. Explica: «Como hemos visto muchas veces con sistemas muy grandes y únicos, es probable que haya anomalías y defectos de fabricación que es posible que nunca se encuentren en ningún otro lugar, simplemente porque hay muchas partes diferentes. muchos lugares diferentes «.

Abordar las reparaciones y llevar a Titan a su plena capacidad operativa fue el resultado de un esfuerzo coordinado. Maxwell lidera un equipo de cuatro empleados de Cray y tres miembros del personal de ORNL, quienes tienen la tarea de mantener la salud de Titan. Las funciones incluyen programar el tiempo de inactividad programado para las actualizaciones de software y la resolución de problemas para estar al tanto de los problemas a corto y largo plazo. Brindar soporte 24 horas al día, 7 días a la semana, significa que los miembros del equipo se turnan para llamar.

Maxwell también agregó que no ha habido cortes inesperados o tiempo de inactividad desde el año nuevo. Cuando los trabajos se pueden completar con menos reinicios, la experiencia general del usuario mejora. Los números reflejan esta disponibilidad y uso más altos de lo normal. Al 1 de enero de 2014, los usuarios de OLCF han completado 110,587 trabajos en Titan y han utilizado 1,611,330,832 horas base. La utilización combinada de los proyectos INCITE 2014 es más alta que nunca en este punto del ciclo de adjudicación. Otro dato interesante es el alto grado de utilización de la capacidad: el 62% del tiempo empleado en Titán en lo que va de año en todas las asignaciones provino de trabajos que utilizan más del 20% de los recursos.

No te olvides compartir en tus redes sociales para que tus amigos lo flipen

??? ? ? ???

Comparte