Please enable JavaScript.
Coggle requires JavaScript to display documents.
Instalación y configuración de Hadoop (Especificación del Cluster (Máquina…
Instalación y configuración de Hadoop
opciones para montar un cluster
Rentar máquinas
Comprar el servicio de Hadoop como tal en la nube
Comprar máquinas propias
Opciones para instalar hadoop
Packages
Viene con un filesystem layout consistente
Hadoop cluster management tools
como
Cloudera Manager
Apache Ambari
permiten facilidades en la configuración
como
Wizards para configurar el cluster rápidamente
Heurísticas que configuran hadoop a partir del perfil del hardware
otras ventajas
Monitoreo unificado y búsqueda en los logs y upgrades en el cluster
Parcheos de seguridad
Apache tarballs
Más flexibilidad
Hay que especificar
Archivos de instalación
Archivos de configuración
Logfiles
Permisos
Otras cosas
Más trabajo
Especificación del Cluster
Máquina típica
Almacenamiento: 12−24 × 1−4 TB SATA disks
Red: Gigabit Ethernet with link aggregation
Memoria: 64−512 GB ECC RAM (Con detección de errores)
Procesador: Two hex/octo-core 3 GHz CPUs
¿Por qué no RAID?
La redundancia es innecesaria, a menos que se trate del namenode
JBOD (just a bunch of disks) es más rapido porque la velocidad de los discos es independiente
Si un disco falla JBOD el sistema entero no colapsa
Tamaño del cluster
Puede ser muy grande dependiendo del crecimiento de los datos
Distribución de los demonios maestros
Cluster pequeño (10 nodos)
Namenode y resource manager en una sola máquina.
sin embargo para HA es mejor
Separarlos
Topología de red
Hay que configurar hadoop de tal forma que conozca la topología de red del cluster
Típicamente
Instalación
Java
Crear usuarios unix dediados (Buena práctica)
hadoop(grupo)
yarn
hdfs
maprex
Configurar SSH
debido a
Scrpts de control (opcionales) usan ssh
como
Script para empezar o parar todos los demonios en un cluster
Timeout
StrictHostKeyChecking
generar host keys automáticamente
Formatear HDFS
No hay que indicar tamaño
debido a qué
El sistema de archivos puede crecer a medida que se agregan datanodes
Configuración
Archivos de configuración
Administración de la configuración
Cada nodo
tiene
Conjunto de archivos de configuración
que deben
Mantenerse sincronizados
Para ello son útiles
herramientas de consola
2 more items...
Hadoop cluster management tools
Puede compartir
Único conjunto de archivos de configuración
Ventajas
Simplicidad
Desventajas
Si se tienen diferentes tipos de máquinas un solo archivo de configuración no es conveniente
Pero
Se pueden crear tipos de máquinas con herramientas como Chef, Puppet, CFEngine, y Bcfg2
Memoria
Demonios
por defecto
1 GB
Lo cual alcanza en el namenode para
1 milón de bloques
EJemplo
1 more item...
puede configurarse en scripts, exepto los demonios de hdfs
Aplicaciones
Pueden solicitar una cantidad arbitraria de memoria
es por eso que
NodeManager
Decide cuantas tasks se puede ejecturar en un nodo particular, no basado en el número de slots disponibles sino en la cantidad de memoria solicitada por los tasks
Containers
Por defecto
1 GB
Restricciones de memoria virtual (Umbral de uso que mata al proceso)
Logs
son producidor por
Demonios
en dos tipos
.log
COn tiene log messages
Nunca se borra
.out
Contiene poco output.
Solo almacena los últimos 5 logs
prints
HDFS
Directorios dataNodes
Directorios dataNamenode
CPU
Configuración recomendada
NodeManager
Asigna
La totalidad de los cores menos 1 por cada demonio corriendo en el nodo.
Por defecto no limita capacidad de containers
Direcciones y puertos de los demonios
Demonios
corren
RPC servers
interacción entre demonios
HTTP Server
interacción con personas
Otras propiedades
Tamaño de almacenamiento reservado
Los datanodes por defecto usan todo el almacenamiento de sus directorios
Trash
Tiempo que duran los archivos en el trash
Aunque solo se usa cuando los archivos son borrados por los usuarios. Sin embago puede usarse una clase para usarla desde código
Tamaño del bloque
Job scheduler
Tamaño del buffer
Para las I/O operations
Reduce slow start
Umbral de avance de los mapper para programar los reducers
Si las tareas son muy largas y el umbral es muy pequeño, se desperdicias recursos puesto que los reducers deberán esperar mucho
Membresías en el cluster
Lista de las máquinas autorizadas
Short-circuit local reads
Boolean
Seguridad
HDFS
Solo provee autorización sobre los archivos dependiendo del usuario y del grupo
puede ser burlado mediante
Falsificación por un usuario que tuvo acceso a la red
solución
Kerberos
es simplificado mediante
Delegation Tokens
llave para no tener que seguir todos los pasos de kerberos
Otros
Las tareas pueden ser corridas usando la cuenta del usuario del usuario del SO que solicitó el task y no del usuario que corre el node manager
evita
El usuario del task tenga acceso a los demás tasks
Inseguridad en el caché
Usuarios solo ven y modifican sus propios jobs
The shuffle is secure
Demonios deben autenticarse con masterNode
Prevenir que se unan datanodes, namenodes o nodemanagers peligrosos
Datanode corriendo en un puerto privilegiado
Una tarea solo se puede comunicar con su app master
evita
Robo de información de otras tareas
Encriptación en la comunicación en la red
Benchmark
para tunning
Elegir jobs representativos de los usuarios del cluster