Please enable JavaScript.
Coggle requires JavaScript to display documents.
HDFS (Hadoop Distributed FileSystem) (se caracteriza por (Patrón write…
HDFS (Hadoop Distributed FileSystem)
tiene los todos los problemas de los sistemas distribuidos
como
Mayor probabilidad de falla en los nodos.
puede implicar
Perdida de datos
se caracteriza por
Patrón write-once, read-many-times
luego
EL tiempo de leer todo el dataset es más importanque que el tiempo que tarda el disco en acceder al primer registro
Estar diseñado para correr en clusters baratos
debido a
EL sistema tolerante a fallos hace que no se requiera hardware muy sofisticado con poca probabilidad de fallo
Almacenar archivos muy grandes
No es recomendado para
Muchos archivos pequeños
Debido a
La metadata de los archivos se almacena en la memoria de una sola máquina, luego hay una restricción de hardware que limita la cantidad de archivos.
Escribir varias veces en los archivos
Acceso a los datos con baja latencia
En cambio HDFS está optimizado para
Throughput
Una alternativa
HBase
conceptos importantes
Datanodes(workers)
función
Almacenar
Devolver
Bloques
Reportar
Lista de bloques que están almacenando
Cuándo?
Periódicamente
A quién?
Namenode
Bloques
es
Mínima cantidad de data que puede ser leída o escrita
La cuál suele ser
Muy grande (128MB) por defecto
en comparación
Sistema de archivos tradicional
Debido a
El acceso a los datos debe hacerse a la tasa de transferencia y no debe estar determinado por el "seek", el cuál es muy lento.
Difrente a los tradiconales de los FL en que
Un archivo más pequeño que un bloque no va a acopuar el espacio entero de un bloque
beneficios
Es más fácil lidiar con bloques
porque
Sabes de qué tamaño son
No hay que preocuparse de la metadata, la cual va estar almacenada en un solo nodo
Hace posible la alta disponibilidad
Los archivos se pueden almacenar distribuídamente
Namenode(Master)
almacena
el namespace dell sistema de archivos y la metadata de los archivos
en
Disco
La ubicación(en los datanodes) de los bloques pertenecientes a los archivos
en
Memoria
Es
Single point of failure (SPF)
que hadoop soluciona mediante
Backups de la metadata del filesystem a otros sistemas de archivos preferiblemente en un disco remoto
Un namenode alterno que une el namenode image con el edit log y mantiene una copia del namenode image por si hay un fallo
Flujo de los datos
Lectura
Diagrama
Escritura
Diagrama
normalmente se hace mediante
Algoritmo por defecto para escribir