2012
DOI: 10.19153/cleiej.15.3.5
|View full text |Cite
|
Sign up to set email alerts
|

SMCV: a Methodology for Detecting Transient Faults in Multicore Clusters

Abstract: The challenge of improving the performance of current processors is achieved by increasing the integration scale. This carries a growing vulnerability to transient faults, which increase their impact on multicore clusters running large scientific parallel applications. The requirement for enhancing the reliability of these systems, coupled with the high cost of rerunning the application from the beginning, create the motivation for having specific software strategies for the target systems… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...

Citation Types

0
0
0
1

Year Published

2017
2017
2017
2017

Publication Types

Select...
2

Relationship

1
1

Authors

Journals

citations
Cited by 2 publications
(1 citation statement)
references
References 24 publications
(31 reference statements)
0
0
0
1
Order By: Relevance
“…Debido a esto, todos los fallos que conducen a T DC tienen un alto impacto sobre los resultados finales: este es el principio sobre el cual se sustenta el mecanismo de detección de SEDAR. estrategia de detección llamada SMCV[91,92,94]), cuyo objetivo es proveer tolerancia a fallos transitorios a sistemas formados por aplicaciones paralelas que utilizan paso de mensajes y se ejecutan en clusters de multicores. SEDAR es una solución basada en La diferencia, si ocurre un fallo, estará dada por el tiempo total de ejecución.La limitación consiste en que se deben almacenar múltiples checkpoints, y no existe seguridad de que un determinado checkpoint no esté corrompido por un fallo que Finalmente, en su estado actual, la metodología y la implementación de SEDAR soportan únicamente los checkpoints coordinados de nivel de sistema (DM T CP ) o no-coordinados (por proceso, en capa de aplicación); en este sentido, requiere ser extendida de forma de poder soportar diferentes tecnologías de checkpointing, como los checkpoints semicoordinados o el checkpointing diferencial o incremental, no tenidas en cuenta hasta el momento.…”
unclassified
“…Debido a esto, todos los fallos que conducen a T DC tienen un alto impacto sobre los resultados finales: este es el principio sobre el cual se sustenta el mecanismo de detección de SEDAR. estrategia de detección llamada SMCV[91,92,94]), cuyo objetivo es proveer tolerancia a fallos transitorios a sistemas formados por aplicaciones paralelas que utilizan paso de mensajes y se ejecutan en clusters de multicores. SEDAR es una solución basada en La diferencia, si ocurre un fallo, estará dada por el tiempo total de ejecución.La limitación consiste en que se deben almacenar múltiples checkpoints, y no existe seguridad de que un determinado checkpoint no esté corrompido por un fallo que Finalmente, en su estado actual, la metodología y la implementación de SEDAR soportan únicamente los checkpoints coordinados de nivel de sistema (DM T CP ) o no-coordinados (por proceso, en capa de aplicación); en este sentido, requiere ser extendida de forma de poder soportar diferentes tecnologías de checkpointing, como los checkpoints semicoordinados o el checkpointing diferencial o incremental, no tenidas en cuenta hasta el momento.…”
unclassified