2020
DOI: 10.1016/j.future.2020.07.003
|View full text |Cite
|
Sign up to set email alerts
|

Soft errors detection and automatic recovery based on replication combined with different levels of checkpointing

Abstract: Handling faults is a growing concern in HPC. In future exascale systems, it is projected that silent undetected errors will occur several times a day, increasing the occurrence of corrupted results. In this article, we propose SEDAR, which is a methodology that improves system reliability against transient faults when running parallel message-passing applications. Our approach, based on process replication for detection, combined with different levels of checkpointing for automatic recovery, has the goal of he… Show more

Help me understand this report
View preprint versions

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1

Citation Types

0
0
0
6

Year Published

2021
2021
2024
2024

Publication Types

Select...
3
1
1

Relationship

0
5

Authors

Journals

citations
Cited by 5 publications
(6 citation statements)
references
References 25 publications
0
0
0
6
Order By: Relevance
“…Estudios recientes muestran que, a medida de que los sistemas de HPC continúan creciendo e incluyendo más componentesde hardware de distintos tipos, el M T BF para una aplicación determinada también disminuye, resultando en una tasa de fallos más alta en general. Aunque un nodo de cómputo presente una avería cada 100 años, una máquina con En un procesador sobre el que se ejecutan procesos de una aplicación paralela de paso de mensajes, existen dos situaciones en las cuales un fallo transitorio resulta en una SDC [92]. Las contribuciones a la tasa total de SDC en aplicaciones paralelas se muestra en la Ecuación 1.5:…”
Section: Fallos Transitorios En Sistemas De Hpcunclassified
See 4 more Smart Citations
“…Estudios recientes muestran que, a medida de que los sistemas de HPC continúan creciendo e incluyendo más componentesde hardware de distintos tipos, el M T BF para una aplicación determinada también disminuye, resultando en una tasa de fallos más alta en general. Aunque un nodo de cómputo presente una avería cada 100 años, una máquina con En un procesador sobre el que se ejecutan procesos de una aplicación paralela de paso de mensajes, existen dos situaciones en las cuales un fallo transitorio resulta en una SDC [92]. Las contribuciones a la tasa total de SDC en aplicaciones paralelas se muestra en la Ecuación 1.5:…”
Section: Fallos Transitorios En Sistemas De Hpcunclassified
“…Además, las condiciones ambientales en las que se desempeñan las computadoras, así como el envejecimiento de los componentes, son causas de fallo que no pueden ser predichas durante la etapa de desarrollo [132]. Por otro lado, la evolución arquitectural hacia los multicores ha producido un gran interés en la adaptación de los recursos paralelos que proporcionan para utilizarlos, tal y como se presentan, con el objeto de lograr fiabilidad frente a los fallos transitorios [92].…”
Section: Propuestas Basadas Puramente En Softwareunclassified
See 3 more Smart Citations