Please enable JavaScript.
Coggle requires JavaScript to display documents.
Tolerancia a Fallas - Coggle Diagram
Tolerancia a Fallas
Falla Parcial
En un sistema no distribuido, una falla es a menudo total y por lo general trae abajo todo el sistema
El sistema deberá continuar operando de modo aceptable mientras se realizan las reparaciones (tolerar fallas) para que pueda ser un sistema fiable
Objetivo de diseño de los sistemas distribuidos es que puedan recuperarse automáticamente de las fallas parciales
Tipos
Transitoria
Ocurren una vez y luego desaparecen, suelen ser por causas fortuitas
-
Intermitente
Aparece y reaparece cada cierto tiempo, son difíciles de diagnosticar y causan muchos problemas
-
Permanente
-
Ejemplo: Cuando un componente falla de la pc, necesita ser remplazado para que se solucione
-
-
Atenuación
-
-
-
Replicación-write
-
-
-
Hay 2 tipos de grupos
-
Grupo jerárgico
Menos complejo, pero no es tolereante a fallas
-
Detección de fallas
Cuando un proceso falla, los que conforman el grupo deben de detectarlo
-
Si un proceso no responde, no siempre significa que esta fallando, puede estar ocupado
No es lo mismo por ejemplo, una falla en
la red, que una falla en el nodo
Comunicación confiable
-
-
Fallas en RPC
-
-
Enfoques
Exterminio
Se guarda un registro de cada petición RPC de tal forma que se eliminan si tras un reinicio son detectados
Reencarnación
El cliente emite un mensaje de tiempo cada vez que se reinicia para que se eliminen los cálculos huérfanos
Reencarnación gentil
Antes de eliminar los cálculos huérfanos, se trata de buscar a sus dueños
Expiración
Cada RPC viene con un límite de tiempo para ser resuelta, si se supera se elimina el cálculo huerfano