Please enable JavaScript.
Coggle requires JavaScript to display documents.
ANALISIS MULTIVARIANTE CON R - Coggle Diagram
ANALISIS MULTIVARIANTE CON R
Nociones básicas de algebra de matrices (matrices y vectores)
MATRICES Y DETERMINANTES
Para matrices cuadradas
El determinante de una matriz es igual a su transpuesta
Si una matriz tiene una linea de ceros el determinante es cero
VALORES Y VECTORES PROPIOS
Los vectores propios no cambian de dirección al ser transformados por la matriz
Valores propios Indican los factores de escala
para los vectores propios
DISEÑO DE ENCUESTAS
Medio para recopilar datos
library(stringrlongitud_preguntas <- str_length(datos$pregunta)
datos$tipo_pregunta <- factor(c("Abierta", "Cerrada")
library(dplyr)tiempo_promedio <- datos %>% summarise(tiempo =mean(tiempo_respuesta))
diseno <- svydesign(ids = ~1, data = datos, weights = ~peso)
datos <- data.frame(pregunta = c("Pregunta 1", "Pregunta 2"),
respuesta = c("Respuesta A", "Respuesta B"))
library(ggplot2) ggplot(datos, aes(x = pregunta, y =respuesta)) + geom_bar(stat = "identity")
resultados <- svymean(~respuesta, diseno)summary(resultados)
OUTLIERS
Son observaciones en un conjunto de datos que se desvían significativamente del resto de los datos.
Estos puntos pueden ser causados por errores de medición, errores de codificación o simplemente por la naturaleza de los
datos.
Si no se manejan adecuadamente, los outliers pueden distorsionar los resultados del análisis estadístico y llevar a conclusiones erróneas.
¿COMO IDENTIFICAR EN RSTUDIO?
Diagrama de dispersión:
Útil para visualizar la distribución de los datos y detectar
puntos que se alejan significativamente del resto
Diagrama de cajas:
Útil para visualizar la distribución de los datos y detectar puntos que se alejan significativamente del resto
MEDIDAS ESTADÍSTICAS:
Desviación estándar: Una forma de identificar outliers es calcular la desviación estándar de los datos y considerar como outliers aquellos puntos que se encuentren a más de 3 desviaciones
estándar de la media.
Distancia de Cook: La distancia de Cook es una medida que indica la influencia que tiene cada observación en el modelo de regresión.
DFFITS: DFFITS es otra medida de influencia que se utiliza para identificar outliers.
INTRODUCCIÓN A R
R es un lenguaje y entorno para el análisis estadístico y la visualización de datos. Es muy potente para manipular datos, realizar análisis estadísticos complejos y crear gráficos de alta calidad.
Paso 2: Instalar RStudio
Ve al sitio web de RStudio.
Descarga la versión gratuita de RStudio Desktop.
Instala RStudio siguiendo las instrucciones.
Crear un Script
Abre RStudio.
Ve a File -> New File -> R Script.
Comienza a escribir tu código R en el editor.
EJECUTAR CÓDIGO
Escribe una línea de código en el script, por Ejemplo:
2.Selecciona la línea de código y presiona Ctrl + Enter (o Cmd + Enter en macOS) para ejecutarla.
PARA CREAR GRÁFICOS:
Para crear un gráfico simple, escribe y ejecuta el siguiente código: plot(cars)
El gráfico aparecerá en el panel de "Plots".
Paso 1: Instalar R
Ve al sitio web de CRAN.
Descarga la versión de R correspondiente a tu sistema operativo (Windows, macOS o Linux).
3.Sigue las instrucciones de instalación.
ANÁLISIS MULTIVARIANTE
Un análisis multivariante se refiere a cualquier técnica utilizada para analizar datos que involucran múltiples variables al mismo tiempo.
IMPORTANCIA: permite manejar y analizar datos complejos, identificar relaciones no obvias entre variables y hacer predicciones más precisas.
PRINCIPALES TECNICAS DEL ANALISIS MULTIVARIANTE: 1.Análisis de Componentes Principales (ACP):
Objetivo: Reducir la dimensionalidad de un conjunto de datos mientras se preserva la mayor cantidad de varianza posible.
Aplicaciones: Identificación de patrones en datos, reducción de ruido, y simplificación de modelos.
Análisis de Correspondencias:
Objetivo: Visualizar asociaciones entre variables categóricas en tablas de contingencia.
Aplicaciones: Marketing, encuestas y análisis de datos cualitativos.
Análisis de Clúster (o Clustering):
Objetivo: Agrupar observaciones en grupos (clústeres) que sean internamente homogéneos y externamente heterogéneos.
Aplicaciones: Segmentación de mercado, reconocimiento de patrones, y agrupación de datos biológicos.
Análisis Discriminante:
Objetivo: Clasificar observaciones en categorías predeterminadas.
Aplicaciones: Diagnóstico médico, análisis de crédito, y reconocimiento de patrones
MATRICES VECTORES OPERACIONES
VECTORES
Indispensables en operaciones matriciales como
Multiplicar una matriz por un vector columna para producir otro vector columna
MATRIZ
Conjunto bidimensional de
números o símbolos distribuidos
Líneas
verticales y horizontales
Sistema de ecuacion de lineal o diferencial
representa una aplicacion lineal
APLICACION DE MATRICES
Se utilizan para programar robots
ANÁLISIS MULTIVARIANTE EN R
Análisis discriminante
Lineal
Cuadrático
Análisis de conglomerados
Algoritmo de Clústeres
Utilizamos el método de K-medias
Medición precisa
Análisis de componentes prinicipales
Librerías:(psych)(corrplot)
VALORES PERDIDOS
Errores de medición, problemas en recolección, falta de respuesta.
Modelos estadísticos: Manejo directo de valores faltantes.
Imputación múltiple: Múltiples estimaciones.
Regresión: Predicción basada en otros datos.
Media/Mediana/Moda: Uso de estadísticas descriptivas.