Please enable JavaScript.
Coggle requires JavaScript to display documents.
CIENCIA DE DATOS - Parcial 2 - Coggle Diagram
CIENCIA DE DATOS - Parcial 2
PCA
Definición
Análisis de Componentes Principales
Técnica estadística
Pertenece al aprendizaje no supervisado
Utilizada para reducir la dimensionalidad de un conjunto de datos
Conserva la mayor cantidad posible de su información
Conceptos
Transformar las variables originales en un nuevo conjunto llamadas componentes principales
Combinaciones lineales de las variables originales
El primer componente explica la mayor parte de la varianza del conjunto de datos, el segundo la segunda, y así sucesivamente
El número máximo de componentes extraídos siempre es igual al número de variables
Elementos de evaluación
Valor propio
Mide cuánta varianza explica un componente
Gráfico de sedimentación
Muestra los valores propios en orden
Ayuda a elegir cuántos componentes conservar (codo)
Proporción
% de varianza explicada por cada componente
Acumulada
% acumulado de varianza explicada por varios componentes
Puntuaciones
Coordenadas de los datos en el nuevo espacio de componentes
Sirven para ver patrones y grupos
Distancia de Mahalanobis
Mide qué tan lejos está un punto
Detecta outliers
Gráfica de influencia
Muestra qué variables influyen más en cada componente
Gráfica de doble proyección
Combina puntuaciones + influencias
Muestra qué variables explican qué patrones
Matriz de correlación
Se utiliza cuando las variables están en diferentes escalas
Primero se estandarizan
Reglas de Asociación
Sistemas de Recomendación
Definición
Sugiere productos, contenidos o servicios a los usuarios, basándose en sus preferencias pasadas
Pasos
Importar el data set
Cargar el conjunto de datos de los usuarios
Extraer las características
Para identificar patrones
Vectorizar el texto a numérico
Convirtiendo la información en una matriz dispersa (1 y 0) y la máquina lo comprenda
Calcular la medida de similitud
Para visualizar qué tan parecidos son los usuarios
Coeficiente de Correlación de Pearson
Coseno de Similitud
Similitud de Jaccard
Distancia Euclidiana
Distancia Manhattan
Generar recomendaciones
Vectorización de Matriz Binaria
Método para convertir texto a números
Si la palabra existe, se pone un 1
Si la palabra no está presente, se pone un 0
Mejoras
Aumentar el tamaño del vector
Usar embeddings más largos
Capturan más información de las palabras
Mejores recomendaciones
Ajustar hiperparámetros
Optimizar los parámetros
Mejora la calidad de las representaciones
Usar embeddings preentrenados
Resultados mejores que entrenar desde cero
Mejor preprocesamiento de texto
Embeddings más representativos
Combinar características
Aporta más contexto
Limitaciones
Personalización limitada
Solo usan características del producto, no consideran el comportamiento real del usuario
Dispersión de datos
Necesitan muchos datos del productos y del usuario
Problema de arranque en frío
Si hay nuevos usuarios o productos sin datos, no pueden recomendar bien
Enfoque limitado
Usan pocas características
Recomendaciones poco variadas
Alta complejidad computacional
Requieren mucho procesamiento
Sesgo en los datos
Si los datos están sesgados, las recomendaciones también lo estarán
Definición
Busca descubrir relaciones o patrones entre variables en grandes conjuntos de datos
Expresión de las reglas
Si ocurre A, es probable que ocurra B
Antecedente → Consecuente
X → Y
Objetivos
Generar conocimiento nuevo sobre cómo se comportan los datos
No hacer una predicción directa
Formato de datos
Matriz dispersa
Representación de los datos en función a la presencia o ausencia de los elementos
0 o 1
Terminologías
Conjunto de elementos
Variables que aparecen juntas en una transacción (o evento)
{pan, manteca, leche}
Métricas
Soporte
Frecuencia del patrón en los datos (% de transacciones)
N° de transacciones que contienen X e Y / Total de transacciones
Confianza
Probabilidad de que ocurra el consecuente si ocurre el antecedente
N° de transacciones que contienen X e Y / N° de transacciones que contienen X
Lift
Cuánto mejora la probabilidad del consecuente vs. azar
Lift = 1 → No hay relación
Lift > 1 → La presencia del antecedente aumenta la probabilidad del consecuente
Lift < 1 → Disminuye la probabilidad
Ejemplo: Lift = 2 → “El doble de probabilidad de comprar leche si se compra pan”
Coverage
Frecuencia del antecedente en las transacciones
Fisher Exact Test
Test que verifica si la relación es significativa (p-valor bajo = regla confiable)
Convicción
Mide errores de predicción (antecedente ocurre sin consecuente)
Co-ocurrencia
Dos cosas suceden juntas, pero no significa que una cause la otra
Algoritmos
Apriori
Algoritmo clásico, busca combinaciones frecuentes que superen un umbral
Usa “fuerza bruta” + poda
FP-Growth
Más rápido, construye un árbol, evita generar combinaciones
Eclat
Más rápido, usa listas verticales de transacciones en vez de árboles
Series Temporales
Definición
Colección de datos en el tiempo, donde cada valor depende de los anteriores
Son modelos estadísticos
Objetivos
Describir las tendencias, estacionalidad y outliers
Predecir los valores futuros (forecasting) en base al pasado
Regresión Lineal o Análisis de Tendencia
Cuando no hay estacionalidad
Redes Neuronales
ARMA
Series estacionarias
ARIMA
Series no estacionarias (con tendencia)
SARIMA
ARIMA + Estacionalidad
Holt-Winters
Suaviza + Tendencia + Estacionalidad (alternativa simple a ARIMA)
Clasificación
Según como se tomen las observaciones
Discreta
Datos en momentos puntuales
Continua
Datos en todo momento
Determinística
Se puede predecir con exactitud el valor futuro
Estocástica
Sólo se puede estimar el futuro con probabilidades
Consideraciones
Datos recolectados en intervalos regulares y crecientes
Cada variable en su columna
Elegir bien el intervalo (evitar ruido)
Recolectar suficientes datos para ver tendencias
Componentes
Tendencia
Cambio a largo plazo (sube, baja, se mantiene)
Estacionalidad
Patrones que se repiten en ciclos (ej: subas todos los veranos)
Ruido
Variaciones impredecibles
Autocorrelación
Mide si los valores actuales dependen de los pasados
ACF
Relación con valores de k períodos atrás
Identifica MA (Media Móvil)
PACF
Relación con k períodos atrás (quitando efectos intermedios)
Identifica parte AR (Autoregresiva)
Interpretación de los resultados
Buscar valores atípicos y cambios repentinos
Buscar tendencias
Buscar patrones estacionales o movimientos cíclicos
Evaluar si los cambios estacionales son aditivos o multiplicativos