Please enable JavaScript.
Coggle requires JavaScript to display documents.
TOLERANCIA A FALLAS - Coggle Diagram
TOLERANCIA A FALLAS
-
ATENUACIÓN DE UN PROCESO
-
temas de diseño
La forma clave de afrontar la tolerancia a un proceso defectuoso es organizar varios procesos idénticos en un grupo. La propiedad fundamental que tienen todos los grupos es que cuando un mensaje es enviado al grupo, todos los miembros de éste lo reciben.
Membresía a un grupo
Cuando en un grupo existe comunicación, se requiere de algún método para crear y eliminar grupos, así como también para permitir que los procesos se unan a los grupos o los abandonen. Un posible método es tener un servidor de grupo al cual todas estas peticiones puedan ser enviadas
El método opuesto es gestionar la membresía de una forma distribuida. Por ejemplo, si la multitransmisión (confiable) está disponible, un extraño puede enviar un mensaje a todos los miembros
del grupo para comunicarles su deseo de unirse al grupo.
-
-
-
REALIZACIÓN DISTRIBUIDA
realización bifásica
El protocolo de realización bifásico (2PC, del inglés two-phase commit protocol) se debe a Gray (1978). Sin que se pierda la generalidad, consideremos una transacción distribuida que implica la participación de varios procesos y donde cada proceso se ejecuta en una máquina diferente
Surgen varios problemas cuando se utiliza este protocolo 2PC básico en un sistema que presenta fallas. En primer lugar, observe que tanto el coordinador como los participantes tienen estados en
los que se bloquean esperando los mensajes entrantes.
Realización trifásica
Un problema con el protocolo de realización bifásica es que cuando el coordinador se congela, es
posible que los participantes no puedan llegar a una decisión final
El coordinador en 3PC primero envía un mensaje VOTE_REQUEST a todos los participantes, después de lo cual espera las respuestas. Si cualquier participante vota por abortar la transacción, la decisión final también será abortar, por lo que el coordinador envía un mensaje GLOBAL_ABOR
RECUPERACIÓN
-
Introducción
Un procedimiento alternativo es utilizar un método conocido como corrección por borradura. En este procedimiento, se construye un paquete perdido a partir de otro para entregar los paquetes con éxito
Un procedimiento alternativo es utilizar un método conocido como corrección por borradura. En este procedimiento, se construye un paquete perdido a partir de otro para entregar los paquetes con éxito
La recuperación de errores es fundamental para la tolerancia a fallas. Recordemos que un error es esa parte de un sistema que puede conducir a una falla. La idea integral sobre recuperación de errores es reemplazar un estado erróneo con un estado libre de error. Esencialmente, existen dos formas de recuperación de errores
A resultas de esta implementación, el almacenamiento estable es muy adecuado para aplicaciones que requieren un alto grado de tolerancia a las fallas, tales como transacciones atómicas. Cuando se escriben datos en almacenamiento estable y luego se leen para comprobar si se escribieron correctamente, la probabilidad de que se pierdan después es extremadamente pequeña.