CIENCIA DE DATOS

Big data es un término de origen inglés cuya traducción equivale a “datos masivos”.

Velocidad.

pasos

Variedad.

Volumen.

datos que se generan diariamente en las empresas y organizaciones de todo
el mundo

Se trata de los flujos de datos, la creación de registros estructurados
y la disponibilidad para el acceso y la entrega.

e tener la capacidad de combinar una gran variedad de
información digital en los diferentes formatos en los que se puedan presentar.

image

image

image

image

valor

veracidad

Hace referencia a los beneficios que se desprenden del uso de big data

ha de ser capaz de tratar y analizar inteligentemente este

gran volumen de datos con la finalidad de obtener una información verídica y útil

que nos permita mejorar la toma de decisiones basada en los datos más exactos.

click to edit

click to edit

click to edit

herramientas de análisis

orange

RapidMiner.

weka

Tanagra

KNIME (Konstanz Information Miner)

Oracle Data Mining (ODM)

IBM SPSS Modeler

SAS Enterprise Miner

image

click to edit

  1. Formular el problema.
  1. Determinar la representación (atributos y clases). Esta determinación se puede

realizar directamente a la vista de los datos, mediante la intervención de expertos

o utilizando técnicas automáticas como son los filtros.

  1. Identificar y recolectar datos de entrenamiento (bases de datos, ficheros, etc.).
  1. Preparar datos para análisis.
  1. Selección de modelo, construcción y entrenamiento.
  1. Evaluar lo aprendido. La evaluación puede realizarse automáticamente, como

por ejemplo la validación cruzada o mediante la intervención de un experto que

valore los resultados obtenidos.

  1. Integrar la base de conocimiento a la espera de nuevos datos tras acciones.

click to edit

etapas

Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final.

Creación del conjunto de datos.

Limpieza y preprocesamiento de los datos

Reducción de los datos y proyección

Elegir la tarea de minería de datos

Elección del algoritmo(s) de minería de datos.

Minería de datos

Interpretación de los patrones encontrados

Consolidación del conocimiento descubierto.

Minería de datos

Bases de datos que permiten almacenar los datos de forma estructurada, tanto a nivel lógico (con la aparición en los últimos años de las bases de datos no
relacionales) y a nivel de hardware (con la capacidad para el proceso en clúster).

click to edit

Técnicas de visualización que permiten realizar representaciones gráficas de

los datos que facilitan la labor del usuario a la hora de entender los datos, para

filtrarlos y procesarlos.

Técnicas estadísticas, que permiten analizar analíticamente los datos almacenados en las bases de datos y desarrollar modelos estadísticos que los expliquen.

Técnicas de aprendizaje automático, que permiten desarrollar modelos conceptuales que representan los datos almacenados en la base de datos.

Aplicaciones

marketing

Identificar patrones de compra de los clientes

Segmentación de clientes

Predecir respuestas a campañas de mailing

Análisis de cestas de la compra (market-basket analysis)

Telecomunicaciones

Detección de fraude telefónico. Mediante el agrupamiento o clustering se pueden
detectar patrones en los datos que permitan detectar fraudes.

Minería de textos

Bag of words. Cada palabra constituye una posición de un vector y el valor corresponde con el número de veces que ha aparecido.

N-gramas o frases

Representación relacional (primer orden).

modelos y tareas

click to edit

Modelos descriptivos. Su objetivo no es otro que hallar patrones o resumir los

datos. No pretenden predecir nuevos datos a partir de la información recabada.

Los datos se presentan como un conjunto, sin estar ordenados

ni etiquetados de manera alguna. Técnicas tales para estos modelos son el

agrupamiento, las reglas de asociación y el análisis correlacional.

click to edit

Modelos predictivos. Tienen como principal objetivo aproximar posibles valores

del futuro o desconocidos a través de los datos de los que ya se dispone. Los datos

van acompañados de una salida (clase, categoría o valor numérico). La regresión

y la clasificación son técnicas comúnmente usadas en este tipo de modelos.

metodos y tecnicas

Técnicas algebraicas y estadísticas

Técnicas bayesianas

Técnicas basadas en conteos de frecuencias y tablas de
contingencia

Técnicas basadas en árboles de decisión y sistemas de
aprendizaje de reglas

Técnicas relacionales, declarativas y estructurales

Técnicas    basadas en redes    neuronales artificiales

Técnicas basadas en núcleo y máquinas de soporte vectorial

Técnicas estocásticas y difusas

Técnicas basadas en casos, en densidad o distancia

image

image

image

image