CIENCIA DE DATOS
Big data es un término de origen inglés cuya traducción equivale a “datos masivos”.
Velocidad.
pasos
Variedad.
Volumen.
datos que se generan diariamente en las empresas y organizaciones de todo
el mundo
Se trata de los flujos de datos, la creación de registros estructurados
y la disponibilidad para el acceso y la entrega.
e tener la capacidad de combinar una gran variedad de
información digital en los diferentes formatos en los que se puedan presentar.
valor
veracidad
Hace referencia a los beneficios que se desprenden del uso de big data
ha de ser capaz de tratar y analizar inteligentemente este
gran volumen de datos con la finalidad de obtener una información verídica y útil
que nos permita mejorar la toma de decisiones basada en los datos más exactos.
click to edit
click to edit
click to edit
herramientas de análisis
orange
RapidMiner.
weka
Tanagra
KNIME (Konstanz Information Miner)
Oracle Data Mining (ODM)
IBM SPSS Modeler
SAS Enterprise Miner
click to edit
- Formular el problema.
- Determinar la representación (atributos y clases). Esta determinación se puede
realizar directamente a la vista de los datos, mediante la intervención de expertos
o utilizando técnicas automáticas como son los filtros.
- Identificar y recolectar datos de entrenamiento (bases de datos, ficheros, etc.).
- Preparar datos para análisis.
- Selección de modelo, construcción y entrenamiento.
- Evaluar lo aprendido. La evaluación puede realizarse automáticamente, como
por ejemplo la validación cruzada o mediante la intervención de un experto que
valore los resultados obtenidos.
- Integrar la base de conocimiento a la espera de nuevos datos tras acciones.
click to edit
etapas
Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final.
Creación del conjunto de datos.
Limpieza y preprocesamiento de los datos
Reducción de los datos y proyección
Elegir la tarea de minería de datos
Elección del algoritmo(s) de minería de datos.
Minería de datos
Interpretación de los patrones encontrados
Consolidación del conocimiento descubierto.
Minería de datos
Bases de datos que permiten almacenar los datos de forma estructurada, tanto a nivel lógico (con la aparición en los últimos años de las bases de datos no
relacionales) y a nivel de hardware (con la capacidad para el proceso en clúster).
click to edit
Técnicas de visualización que permiten realizar representaciones gráficas de
los datos que facilitan la labor del usuario a la hora de entender los datos, para
filtrarlos y procesarlos.
Técnicas estadísticas, que permiten analizar analíticamente los datos almacenados en las bases de datos y desarrollar modelos estadísticos que los expliquen.
Técnicas de aprendizaje automático, que permiten desarrollar modelos conceptuales que representan los datos almacenados en la base de datos.
Aplicaciones
marketing
Identificar patrones de compra de los clientes
Segmentación de clientes
Predecir respuestas a campañas de mailing
Análisis de cestas de la compra (market-basket analysis)
Telecomunicaciones
Detección de fraude telefónico. Mediante el agrupamiento o clustering se pueden
detectar patrones en los datos que permitan detectar fraudes.
Minería de textos
Bag of words. Cada palabra constituye una posición de un vector y el valor corresponde con el número de veces que ha aparecido.
N-gramas o frases
Representación relacional (primer orden).
modelos y tareas
click to edit
Modelos descriptivos. Su objetivo no es otro que hallar patrones o resumir los
datos. No pretenden predecir nuevos datos a partir de la información recabada.
Los datos se presentan como un conjunto, sin estar ordenados
ni etiquetados de manera alguna. Técnicas tales para estos modelos son el
agrupamiento, las reglas de asociación y el análisis correlacional.
click to edit
Modelos predictivos. Tienen como principal objetivo aproximar posibles valores
del futuro o desconocidos a través de los datos de los que ya se dispone. Los datos
van acompañados de una salida (clase, categoría o valor numérico). La regresión
y la clasificación son técnicas comúnmente usadas en este tipo de modelos.
metodos y tecnicas
Técnicas algebraicas y estadísticas
Técnicas bayesianas
Técnicas basadas en conteos de frecuencias y tablas de
contingencia
Técnicas basadas en árboles de decisión y sistemas de
aprendizaje de reglas
Técnicas relacionales, declarativas y estructurales
Técnicas basadas en redes neuronales artificiales
Técnicas basadas en núcleo y máquinas de soporte vectorial
Técnicas estocásticas y difusas
Técnicas basadas en casos, en densidad o distancia