SMCV: a Methodology for Detecting Transient Faults in Multicore Clusters

Montezanti, Diego Miguel; Frati, Fernando Emmanuel; Rexachs, Dolores; Luque, Emilio; Naiouf, Marcelo; Giusti, Armando De

doi:10.19153/cleiej.15.3.5

Cited by 2 publications

(1 citation statement)

References 24 publications

(31 reference statements)

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Debido a esto, todos los fallos que conducen a T DC tienen un alto impacto sobre los resultados finales: este es el principio sobre el cual se sustenta el mecanismo de detección de SEDAR. estrategia de detección llamada SMCV[91,92,94]), cuyo objetivo es proveer tolerancia a fallos transitorios a sistemas formados por aplicaciones paralelas que utilizan paso de mensajes y se ejecutan en clusters de multicores. SEDAR es una solución basada en La diferencia, si ocurre un fallo, estará dada por el tiempo total de ejecución.La limitación consiste en que se deben almacenar múltiples checkpoints, y no existe seguridad de que un determinado checkpoint no esté corrompido por un fallo que Finalmente, en su estado actual, la metodología y la implementación de SEDAR soportan únicamente los checkpoints coordinados de nivel de sistema (DM T CP ) o no-coordinados (por proceso, en capa de aplicación); en este sentido, requiere ser extendida de forma de poder soportar diferentes tecnologías de checkpointing, como los checkpoints semicoordinados o el checkpointing diferencial o incremental, no tenidas en cuenta hasta el momento.…”

unclassified

SEDAR: Detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones

Montezanti¹

View full text Add to dashboard Cite

El manejo de fallos es una preocupación creciente en el contexto del HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en los próximos sistemas de exa-escala, los errores ocurran incluso varias veces al día y se propaguen en grandes aplicaciones paralelas, generando desde caídas de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se propone SEDAR, una metodología que mejora la fiabilidad, frente a los fallos transitorios, de un sistema que ejecuta aplicaciones paralelas de paso de mensajes. La solución diseñada, basada en replicación de procesos para la detección, combinada con diferentes niveles de checkpointing (checkpoints de nivel de sistema o de nivel de aplicación) para recuperar automáticamente, tiene el objetivo de ayudar a los usuarios de aplicaciones científicas a obtener ejecuciones confiables con resultados correctos. La detección se logra replicando internamente cada proceso de la aplicación en threads y monitorizando los contenidos de los mensajes entre los threads antes de enviar a otro proceso; además, los resultados finales se validan para prevenir la corrupción del cómputo local. Esta estrategia permite relanzar la ejecución desde el comienzo ni bien se produce la detección, sin esperar innecesariamente hasta la conclusión incorrecta. Para la recuperación, se utilizan checkpoints de nivel de sistema, pero debido a que no existe garantía de que un checkpoint particular no contenga errores silenciosos latentes, se requiere el almacenamiento y mantenimiento de múltiples checkpoints, y se implementa un mecanismo para reintentar recuperaciones sucesivas desde checkpoints previos si el mismo error se detecta nuevamente. La última opción es utilizar un único checkpoint de capa de aplicación, que puede ser verificado para asegurar su validez como punto de recuperación seguro. En consecuencia, SEDAR se estructura en tres niveles: (1) sólo detección y parada segura con notificación al usuario; (2) recuperación basada en una cadena de checkpoints de nivel de sistema; y (3) recuperación basada en un único checkpoint válido de capa de aplicación. Cada una de estas variantes brinda una cobertura particular, pero tiene limitaciones inherentes y costos propios de implementación; la posibilidad de elegir entre ellos provee flexibilidad para adaptar la relación costo-beneficio a las necesidades de un sistema particular. Se presenta una descripción completa de la metodología, su comportamiento en presencia de fallos y los overheads temporales de emplear cada una de las alternativas. Se describe un modelo que considera varios escenarios de fallos y sus efectos predecibles sobre una aplicación de prueba para realizar una verificación funcional. Además, se lleva a cabo una validación experimental sobre una implementación real de la herramienta SEDAR, utilizando diferentes benchmarks con patrones de comunicación disímiles. El comportamiento en presencia de fallos, inyectados controladamente en distintos momentos de la ejecución, permite evaluar el desempeño y caracterizar el overhead asociado a su utilización. Tomando en cuenta esto, también se establecen las condiciones bajo las cuales vale la pena comenzar con la protección y almacenar varios checkpoints para recuperar, en lugar de simplemente detectar, detener la ejecución y relanzar. Las posibilidades de configurar el modo de uso, adaptándolo a los requerimientos de cobertura y máximo overhead permitido de un sistema particular, muestran que SEDAR es una metodología eficaz y viable para la tolerancia a fallos transitorios en entornos de HPC.

show abstract

unclassified

SEDAR: Detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones

Montezanti¹

View full text Add to dashboard Cite

show abstract

A Methodology for Soft Errors Detection and Automatic Recovery

Villamayor

Rexachs

Luque

et al. 2017

2017 International Conference on High Performance Computing &Amp; Simulation (HPCS)

Self Cite

View full text Add to dashboard Cite

Handling faults is a growing concern in HPC; higher error rates, larger detection intervals and silent faults are expected in the future. It is projected that, in exascale systems, errors will occur several times a day, and they will propagate to generate errors that will range from process crashes to corrupted results because of undetected errors. In this article, we propose a methodology that improves system reliability against transient faults, when running parallel message-passing applications. The proposed solution, based on process replication, has the goal of helping programmers and users of parallel scientific applications to achieve reliable executions with correct results. This work presents a characterization of the strategy, defining its behavior in the presence of faults and modeling the temporal costs of employing it. As a result, we show its efficacy and viability to tolerate transient faults in HPC systems.

show abstract

SMCV: a Methodology for Detecting Transient Faults in Multicore Clusters

Cited by 2 publications

References 24 publications

SEDAR: Detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones

SEDAR: Detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones

A Methodology for Soft Errors Detection and Automatic Recovery

Contact Info

Product

Resources

About