Please enable JavaScript.
Coggle requires JavaScript to display documents.
Casos reales: las jerarquías de memoria del AMD Opteron X4 (Barcelona) y…
Casos reales: las jerarquías de memoria del AMD Opteron X4 (Barcelona) y del Intel Nehalem
Generalidades de las jerarquías de memoria
Jerarquías de memoria: Organización en niveles para optimizar el acceso a datos.
Controladores de memoria integrados: Reducen la latencia en el acceso a la memoria al eliminar la necesidad de puentes externos.
Cache L3 compartida: Optimiza el acceso entre múltiples núcleos de procesadores.
Procesador Intel Nehalem
Caches:
L1: 32 KB para datos e instrucciones, asociatividad por conjuntos (4 vías para instrucciones, 8 vías para datos).
L2: 512 KB unificada por núcleo.
L3: 8 MB compartida entre núcleos.
TLB:
Niveles: Tres TLB (I-TLB y D-TLB en L1, unificado en L2).
Capacidades: Procesamiento de fallos en hardware, asociatividad por conjuntos.
Política de inclusión: Los datos de niveles superiores están incluidos en niveles inferiores.
Procesador AMD Opteron X4 (Barcelona)
Caches:
L1: 64 KB para datos e instrucciones, asociatividad por conjuntos (2 vías).
L2: 512 KB unificada por núcleo.
L3: 2 MB compartida.
TLB:
Niveles: Cuatro TLB (I-TLB y D-TLB en L1, separados en L2).
Capacidades: Asociatividad por conjuntos y política de reemplazo LRU.
Política de exclusión: Los bloques de cache no se duplican entre niveles
Técnicas de optimización
Cache no bloqueante: Permite continuar operaciones durante fallos de cache.
Prefetching: Anticipa accesos basados en patrones.
Caché de víctimas: Niveles inferiores almacenan datos desplazados de niveles superiores.
Comparación entre Nehalem y Opteron X4
Tamaños de cache: Nehalem tiene mayor capacidad en L3; Opteron, mayor capacidad en L1.
Políticas de inclusión/exclusión: Nehalem sigue inclusión; Opteron, exclusión.
Accesos simultáneos:
Nehalem: Multipuerto o banco dividido.
Opteron: Banco dividido con ocho bancos.
Rendimiento y métricas
CPI (Ciclos por instrucción): Relacionado con fallos de cache y accesos a DRAM.
Fallos por nivel de cache: Aciertos en L3 disminuyen accesos a DRAM.
Aplicaciones optimizadas: Programas que aprovechan mejor la L3 incluyen h264avc, hmmer y bzip.