Please enable JavaScript.
Coggle requires JavaScript to display documents.
Recuperación de Fallas( Conceptos ) - Coggle Diagram
Recuperación de Fallas( Conceptos )
1. Importancia
La recuperación de fallas es un aspecto crítico en sistemas distribuidos debido a que estos están compuestos por múltiples componentes interconectados que pueden fallar.
La importancia radica en garantizar la disponibilidad, confiabilidad y tolerancia a fallas del sistema en su conjunto. Si no se implementa una adecuada recuperación de fallas, un solo fallo en alguno de los componentes podría llevar a la degradación del sistema completo o incluso a su colapso
Existen 2 formas de recuperación de Fallas: BackWard y Forward
2. Que es un CheckPoint?
Un checkpoint es una instantánea del estado del sistema distribuido en un momento específico
Es un punto de referencia que permite guardar la información relevante sobre el estado de los procesos y la memoria compartida en un determinado instante de tiempo.
Estos checkpoints son utilizados para respaldar la recuperación de fallas, ya que si el sistema sufre una falla, puede reiniciarse desde el último checkpoint conocido en lugar de comenzar desde cero.
Existen checkpoints coordinados, en donde todos los procesos se sincronizan para escribir sus estado de forma local y CheckPoint Independientes, en donde los procesos efectuan sus propios checkpoints sin estar sincronizados
3. Cada cuanto tiempo debe generarse un CheckPoint?
La frecuencia de generación de checkpoints es una decisión importante y debe ser balanceada. Si se generan checkpoints con demasiada frecuencia, se pueden gastar recursos valiosos y afectar el rendimiento del sistema.
Si los checkpoints son muy infrecuentes, se corre el riesgo de perder una gran cantidad de trabajo en caso de una falla. La elección del intervalo de tiempo para generar checkpoints depende del contexto del sistema y de factores como la tasa de cambio de los datos, la criticidad del sistema y la capacidad de recuperación requerida.
En algunos casos, los sistemas distribuidos pueden usar enfoques adaptativos que ajusten dinámicamente la frecuencia de los checkpoints según la carga de trabajo y la estabilidad del sistema.
4. ¿Cuál es el propósito de los Message Logging?
Consiste en registrar y almacenar en un registro persistente todos los mensajes enviados entre los distintos nodos del sistema.
Esto permite garantizar que los mensajes no se pierdan y que puedan ser reproducidos en caso de que ocurra una falla o se necesite una recuperación.
Cuando se produce una falla en uno de los nodos, los mensajes registrados se pueden utilizar para restaurar el estado del sistema y garantizar que los nodos vuelvan a estar sincronizados y en un estado consistente.
5. De que manera Servira un Reboot?
Un "reboot" es una acción de reiniciar un sistema, y sirve para:
Recuperación de fallas: Cuando un nodo falla y no puede recuperarse de manera efectiva, un reboot puede ser una medida para intentar restablecer el nodo y restaurar su funcionalidad.
Aplicación de cambios o actualizaciones: En ocasiones, es necesario aplicar cambios o actualizaciones en los nodos de un sistema distribuido. Un reboot después de la actualización permite que los cambios surtan efecto y que el nodo vuelva a estar en funcionamiento con la última versión del software.
Limpieza y mantenimiento: Un reboot periódico puede ser parte de las prácticas de mantenimiento para mantener el rendimiento óptimo del sistema y liberar recursos que puedan estar acumulando lentamente problemas con el tiempo de ejecución continuo