Please enable JavaScript.
Coggle requires JavaScript to display documents.
Python, METODOLOGIES PARA TRANSFORMAR DATA EN CONOCIMIENTO from…
Python
S1. EDUCATIONAL SYSTEM
What is Artificial Intelligence
Machine Learning
Aprender
Como dotar a las maquinas fodotar de conocimeitno a partir de EXPEREINCIAS
paradigma de aprendizjae
AP supervisado
Tea liemntan y ya reconoce luego hace lo mismo
"al mostrarle los resultados estamos supervisando su aprendiazjae"
costoso, un hombre alimenta y dice gato gato 10000 veces
2 TIPos de datos de entrada y de salida
Le alimentas alimentas
Le pides lo que quieres que te de
AP NO SUPERVISADO
clustering. agrupar por similares. nadie te p muestra solo por alguna similad agrupas
no le muestras, los agrupa por similitud
Solo recibe datso de entrada
Le aliemntas y nunca le dices que quieres, por eso agrupoa por similitud
AP REFORZADO
Técnicas
Arboles de decision
Modelos de Regresion
Modelos de Clasificación
Técnicas de Clasteriazación
Redes Neuronales
sUBDICIPLICNA DEL CAMPO DE LA INFORMÁTICOA
Que busca the development of machines that could imit the human
Debil
Limitados a bvasico
Fuerte
Adpatación a prblemas diferentes
Big Data
Acumular Data
Deep Learning
Aprendizaje Profundo.
Redes Neuronales
Where and how Data Science is applied
Como esta influyendo en la sociedadPOWER POINT COROT
S5. NEW SKILLS
Association Rules
K means
Unsupervised Learning Algorithms
S3. NEW SKILLS
Linear Regression
Logistic Regression
S4. NEW SKILLS
Algorithms
Decision Trees
Naive Bayes Classification
Crisp DM Methodology (More used)
S6. Other Clustering Algorithms (Agrupación)
METODOLOGIES PARA TRANSFORMAR DATA EN CONOCIMIENTO
from existing data now to build
KDD
Amplio, abarca todo el proceso de descubrimiento de conocimiento.
exahustivo
Seleccion de datos
preprocesamiento de datos
trandormaci[on de datos
mineria de datos
evaluacion e interpretación
implementación y uso
PREPARACIÓN DE DATOS
Técnicas como:
Webscraping
MINERÍA DE DATOS
Se llama "minería" porque, al igual que en la minería tradicional, se trata de buscar algo valioso (información) en un gran conjunto de materia prima (datos)
PATRONES
EVALUACIÓN, INTEGRACIÓN, VISUALIZACIÓN
SEMMA
Desarrollo de modelos de minería
ENFOQUE EN TECNICA DE
MODELOS PREDICTIVOS
SAMPLE
Escoger una parte representariva de la población para analizas
EXPLORE
Se utilizan técnicas estadísticas y gráficas para comprender mejor la estructura de los datos.
MODIFY
Transformación y preparación de los datos con Transformación y preparación de los datos, etc
MODEL
Construcción de modelos de minería de datos
. adecuadas, como regresión, clasificación, clustering, entre otras.
ASSESS
Evaluación del rendimiento del modelo construido mediante métricas específicas, como precisión, recall, error cuadrático medio, etc.
CRISP DM
Cross Industry Standard
Process for Data Mining.
Fortalezas:
felxibilidad
iterativo
Empieza por comprender el negocio
comprensión del negocio
Comprensión de lso datos
Esto esta bien? Creo que no tengo los suficientes datos como par arealizar este análisis
Ej. Estos datos no son suficientes, mi sugerencia es que se haga una encuesta más y se pregutne esto....
Control de calidad de los datos. si es que podemos operar con estos datos o son muy pocos
Puede hacer equivocar al algorimo, puede darte dato que no sea el correcto
.describe()
Todas las medidas de una, los min, mac, mean, median, todo
El .describe, se puede hacer por columnas, como todo el data frame
Por columnas
df_bolivia["new_cases"]
.describe()
todo el data frame
df_bolivia
.describe()
Mapear tu data y verfificar que esté bien. Min y Max . Para rechazar y decirles que deben mejorar la data para que yo la analice
Preparación de Datos
Limpieza
Quitar tildes a los nombres (José, Jose)
eliminar outliers
Modelado
Los datos deben acomodarse a los algortimos, OSE ACAMBIA mujer por 1 y varon por 0
ALGORTIMOS
Hiperparametros
Yo los puedo tunear
CLASIFIFCACIÓN
SUPERVISADO
Random Forest (para ver cuales son la varaibesl que más importan)
arbol de decision
Regresión Logística bINARIA (predecir) La variable caracterísitica y la varaible objetiivo deben tener una relación lineal
probabilidad de que sea si o no.
Tendrá buen rendimiento ALTO O BAJO?
Compara modelos. probar
Naive Bayes son intedependientes entre si, no estar relacionadas
NO SUPERVISADO
No tiene etiquetas o respuesta correctas
K-means
aGRUPAMEINTO DE k MEDIAS
Agrupar datos de acuerdo a sus similitudes. Nosotros le damos la cantidad de grupos a crear
Solo damos x, porque no estan etiquetamos, no sbemos la respuesta
Ejemplo. Agrupar empleados para dar beneficios personalizados o capacitacioens personalizadas
Métopdo del codo:
mayuda a elegir el número correcto de grupos k=
En la gráfica la curva más pronunciada es la k mejro
Inercia: "que tan "apretados" estan los puntos a sus clusteres"
La inercia mide la suma de las distancias cuadradas entre cada punto de datos y el centro (centroide) de su clúster correspondiente.
Cuanto menor sea la inercia, significa que los puntos están más cerca de sus centroides, lo que indica que los grupos son más compactos y coherentes.
Indice de silueta
Evañua la calidad del agrupameinto realizado.
Mientras mas cercano a 1 los clusteres están bien definidos
0 clusteres superpuestos
negativos. mala aisgnacion de puntos
algoritmo = receta
Lista de pasos, claros y ordenados
Types
Clasificación
• Árbol de decisión
Este modelo organiza las decisiones y sus posibles resultados en una estructura jerárquica similar a un árbol, lo que lo hace fácil de interpretar y visualizar.
Nodo raíz: Representa el inicio del árbol y
Nodos internos: Representan las decisiones intermedias
Ramas: Conectan los nodos y representan las decisiones tomadas.
Indice de Gini
mide la impureza de un conjunto de datos, es decir, qué tan mezclados están los elementos
Mientras mas cerca a 0 mejor
• K-vecino más cercano
• Razonamiento basado en casos CBR
Naive Bayes
Se llama "naive" porque asume que todas las caracrterísitcas son independientes entre sí. (Eso no siempre es así pero la suposcición simplifica mucho y funciona bien)
"La presencia o ausencia de una caracteristica no afecta a las demás"
Requiere pocos datos de entrenamiento
Simple y rápido
Tipos
Gaussiano
Cuando los atributos has
normal distribution
Datos continuos
Multinomial
Datos discretos
COmun en provcesamiento del lenguaje natural
Bernoulli
Datos binarios
Predicción
• Análisis de regresión
• Redes neuronales
Segmentación
• Redes neuronales
• Técnicas de visualización
Evaluación
Puedes rechazar y decir "rechazar pro falta de datos"
validadcion de tu modelo entrenado
Split
validación cruzada k-fold
ventajas: reduce le riesgo de que lso resultados de una soal partición
Emplantación
Colab
Preprocesamiento
ETL
Integración (Join)
MUESTREO
Formulas para hallar la meustra
CONFIANZA
Lo que implican un Z-score 1.96
MARGEN DE ERRO
el comentemento a la confianza
hyperparametro: guiaran como el modelo aprende los datos. Puedes cambiar para mejror el rendiemitno
Para saber cuáles son los mejore hiperparametros podemos usar
Grid_sEARCH:_CV