Please enable JavaScript.
Coggle requires JavaScript to display documents.
2.EDA
Exploratory Data Analysis
Explorar
Limpiar
Correlacionar, Las…
2.EDA
Exploratory Data Analysis
- Explorar
- Limpiar
- Correlacionar
2. ETL
Explor and Clean
Drops constant features
-
-
constant:
For example, if you have a column called "City" and every row in that column contains the value "London"
Para no numericas, cuando sean num[ericas
Puedes usar:
-
-
-
Remove Duplicates
Identify
Rows

- subset.- which columns to consider. (None = all, ['a', 'b'] = column a and b)
- inplace.- controls whether the changes are made directly to the DataFrame df or in a copy
-
Drop Monotonicity
Eliminar llave primaria porquie monitiiza y todas las que diferencian especificamente cada uno
o transformarla (dia, mes año)
-
-
Outlier Treatment
Solution
Se busca que la curva sea masomenos normal, que tenga sesgos otuliers puede targiverzar..
- Si es normal. Se puede remplazar con el valor promedio
- Si tiene sesgo. Se puede reemplazar con la mediana
- Se puede dividir, lso outliers se separa de la población general
- Elimin
- Remplaza con la media
- Remplaza con la mediana
- Tratar en un grupo por separado homogenero
-
Detection

Reemplazar con la mediana si se quiere mantener con seesgo
-
-
EDA, describe info, shape
Duplicates
Constant
Monotonocy Id
Stadnarizar y normalizar
Missing Data
Outlier
Ciorrelation Heat map
-
-
- SelECT CORRERELATED VARIABLES
Correlation
-
No es tan adecuado con todos todos con todos.
La aproximación es por medio de hipótesis.
Las que crees planteate
Ej. Deserción de estudiante
- Las materiaas de matematicas limitan la persistencia en la carrera
-
Graphics
Merge, Join and Concatenate
-
-
-
-
-
-
-
- Upload or Create your Data Frame
UPLOAD WITH SEABORN
Create and converto to Data frame from a diccionary
aUDITAJE DE DATOS
Caracteristicas de un Data set
- Cada línea es un punto en un espacio n dimensional
- la [ultuma columna.- target
- Cada variable una dimension
- Generalmente al menos 1500 datos y al menos 10 a 15 columnas(varaibles o features)
- Baja calidad. información faltante,
- Variables irrelevantes.- Aparentemente algunas no tienen sentido
-
Target
Es comun tener uno solo, pero ahora pueden darse diferentes targets
PSA
Proceso para reducri dataset extremadamente anchas. Muchas varaibles
Con 14 y 20 ya esta bien. Pero más varaibles no
DATA SET
Solcuiion
Procesar, sacar
SOn datos de menor granulidad
Data mar,
Generalmente los wharehouse no son muy buenos para hacer datos. porque es agregada
No son una fuente adecuada de datos para los datawharehouese
-
-
Data Access Issues
- Legales
- Políticas de las empresas
-
-
-
-
Las gr[aficas son importantes. pueden parecer iguales pero su comportamiento es diferente
-