¿El precio del rendimiento ECC es válido para las GPU? - Calendae | Informática, Electrónica, CMS, Ciberseguridad

¿El precio del rendimiento ECC es válido para las GPU?

Hola, ¿qué tal colega?. Yo soy Simón Sánchez y en el día de hoy hablaremos sobre ¿El precio del rendimiento ECC es válido para las GPU?

Escuche la secuela del podcast sobre esta historia.

Uno de los muchos elementos que separan a las GPU de procesamiento de alto rendimiento de sus hermanos de juegos y gráficos es la adición de códigos ECC, que apuntan a errores críticos de inversión de bits en la memoria, que pueden generar resultados o problemas no válidos. sistema.

Aunque ECC a menudo se considera un componente necesario para confirmar la viabilidad de los resultados de la simulación, tiene un precio en términos de rendimiento. Según un equipo de investigadores del Centro de Supercomputación de San Diego y el Laboratorio Nacional de Los Alamos, lo que permite que ECC reduzca el tamaño del sistema disponible en un 10% debido a la cantidad de memoria consumida por los códigos de corrección de errores. También señalan que habilitar ECC «reduce la velocidad de simulación, lo que genera más oportunidades para otras fuentes de fallas, como fallas de disco en sistemas de archivos grandes, fallas de energía y fallas de nodos inexplicables durante el período de tiempo de computación». «.

Con este rendimiento y un mayor potencial de falla en mente, surge la pregunta de si ECC está evitando suficientes defectos críticos para justificar el precio. En otras palabras, ¿son estos errores tan comunes que ECC es necesario? Como puede imaginar, esta es una pregunta difícil de abordar ya que los tiempos de procesamiento están involucrados con múltiples hardware, aplicaciones, GPU y otros problemas. Sin embargo, el equipo abordó el problema de la utilidad de ECC en grandes sistemas XSEDE, incluido Keeneland en el Instituto de Tecnología de Georgia, un grupo de producción más pequeño en Los Alamos, y en Dante en SDSC, que está equipado con GPU. de la variedad de juegos (por lo tanto, sin ningún ETC).

Como se ve en el gráfico, la penalización del rendimiento en Keeneland, que fue el sistema más grande utilizado en la prueba de GPU / nodo por recuento de nodos, es ciertamente observable. También se observaron resultados similares en términos de éxito en el rendimiento en otros sistemas. Pero lo más interesante es que, cuando se trató de ver realmente cuán útil era ECC en general para todos los sistemas, resultó que había muy pocos errores y, de hecho, los errores o problemas más importantes con el Los resultados cuando se compararon entre diferentes sistemas se basaron en el hardware en sí, placas base defectuosas u otras variables … no en los tipos de errores que ECC está diseñado para abordar, al menos para el código de dinámica molecular AMBER que se utilizó como base. para pruebas entre sistemas. Hay muchos más detalles sobre la naturaleza de este código MD y por qué fue particularmente relevante para este tipo de prueba en el documento completo.

Como resumen los investigadores, «Si bien la capacidad de ECC para detectar y corregir errores de un solo bit es innegablemente útil en teoría, la aplicación práctica de esta tecnología puede no ser del interés de la comunidad de médicos». Indican la rareza de los errores corregibles de ECC y señalan que «no superan los costos en términos de tamaño del sistema y velocidad de cálculo», señalando que «los errores parecen ser tan raros en los cálculos de producción de GPU que su tasa de incidencia no podría cuantificarse en este experimento «.

Finalmente, especulan que, en general, «el hecho de que se observaron otras fuentes de falla de hardware durante el experimento, independientemente del estado ECC, indica que hay formas mucho más probables de falla de las simulaciones y que tales errores probablemente causen la falla». simulación en lugar de producir datos erróneos «.

Una vez más, hay mucha más información a lo largo del artículo, pero esto enciende una nueva vida en el debate sobre si ECC es o no todo lo que se ha inventado para algunas aplicaciones científicas. ¿Significa esto una nueva vida para las tarjetas gráficas de juegos de gama baja en sitios de computación científica a gran escala? Probablemente no, pero de todas formas una lectura interesante.

No te olvides compartir en tu Facebook para que tus amigos lo sepan

??? ? ? ???

Comparte