Buscando software tolerante a fallas - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Buscando software tolerante a fallas

Hola de nuevo. En el teclado Simón Sánchez y en esta ocasión vamos a hablar sobre Buscando software tolerante a fallas

Si pasa el tiempo, el cálculo avanza. Actualmente, en la era terascal y temprana de petascala, estamos viendo miles de procesadores en una máquina determinada. La conexión de todos estos procesadores requiere aún más hardware. Y cuanto más hardware haya, mayores serán las posibilidades de que fallen los componentes. Este es el tema de un artículo en Computación Científica.

Las medidas de tolerancia a fallas de hardware se utilizan hoy en día, pero los inconvenientes son muchos. La capacidad de predecir cuándo el hardware está a punto de fallar, hacerlo intercambiable en caliente y reprogramar de manera proactiva el software que se ejecuta en piezas que están a punto de fallar son todas formas actuales de abordar el problema del hardware defectuoso. Estos métodos son útiles, pero solo en hardware supervisado activamente. Otra solución alternativa es la redundancia de hardware, pero el gasto puede hacerla poco práctica. Hay un reinicio del punto de control, pero el costo y los problemas logísticos de controlar grandes volúmenes de memoria distribuida pueden anular los beneficios.

Es por estas razones que Baxter recomienda ponerse en contacto con la comunidad de ingenieros de software para obtener un cálculo tolerante a fallas. Él informa que los investigadores han comenzado a trabajar en este objetivo y clasifica sus esfuerzos en dos grupos: software centrado en datos y software centrado en procesos. Baxter prosigue con la exploración de una estrategia centrada en el proceso. Para que los códigos HPC centrados en el proceso se adapten a las fallas de hardware, Baxter dice que primero debe haber un cambio en los paradigmas de diseño de software y un rechazo de las suposiciones obsoletas. Algunos ejemplos de lo último son que las operaciones de entrada / salida nunca fallan y son relativamente económicas y que las llamadas de comunicación siempre tienen éxito. Aunque la idea que Baxter se propone desenmascarar, y que él cree que está particularmente arraigada, es que un conjunto coherente de recursos está disponible durante la duración de un cálculo. Continúa exponiendo su caso en detalle, incluidos los posibles escollos con las soluciones sugeridas.

Finalmente, Baxter pide a la comunidad de desarrolladores de software que «diseñe aplicaciones sincronizadas localmente, programadas dinámicamente y administradas jerárquicamente que puedan completar los cálculos a pesar del modesto número esperado de fallas de hardware». Imagine una aplicación que puede detectar una falla de hardware y evitarla, como un automóvil que evita un gran bache, capaz de continuar hasta su destino.

Puedes compartir en tus redes sociales para que tus amigos opinen

??? ? ? ???

Comparte