Please enable JavaScript.
Coggle requires JavaScript to display documents.
La metodología y el científico de la ciencia de datos, METODOLOGÍAS,…
La metodología y el científico de la ciencia de datos
KDD (Knowledge Discovery in Databases)
Metodología de 5 pasos. Inicia con la selección donde de un data set principal hay que selecciónar un subconjunto de variables que nos pueden apoyar en la exploración del fenómeno que estamos estudianto.
En el pre-procesamiento realizamos la limpieza y balanceo de datos.
En la transformación, el método sugiere que reduzcamos dimensiones con técnicas estadísticas para manejar la menor cantidad de variables necesarias.
Finalmente pasamos por el proceso de intepretación y evaluación de modelo
Al final de la iteración se le otorga una calificación al modelo y si no se cumplieron satisfactoriamente los objetivos se repite hasta que sean logrados.
SEMMA (Sample, Explore, Modify, Model and Access)
En esta metodología iniciamos con «sample» o un muestro de la base de datos principal
Después exploramos los datos para ganar entendimiento e ideas, así como refinir nuestro proceso de búsqueda de anomalías, patrones y tendencias.
Llegamos entonces al paso de modificar donde nos enfocamos en crear, seleccionar y transformar variables para enfocarnos en un proceso de selección.
Luego sigue la etapa de modelaje en donde debemos aplicar distintos métodos estadísticos evaluando sus fortalezas y cumplimiento de objetivos.
Finalmente la etapa de «access» que significa evaluar la confiabilidad y utilidad de los hallazgos. Se evalúa particularmente el «performance».
CRIPS-DM (Cross-Industry Standard Process for Data Mining)
En la etapa de «Entendimiento de negocio» primero se determinan los objetivos de negocio: Antecedentes, objetivos estratégicos de impacto y criterios de éxito.
Después revisamos la situación, inventariamos recursos, realizamos un análisis de costo-beneficio, determinamos objetivos y producimos un plan de proyecto.
En «Data Understanding» es donde recolectamos los datos iniciales, describimos cada uno de estos datos, exploramos y verificamos la calidad de la información.
En «Data preparation» seleccionamos la información más razonable, la limpiamos, construimos variables de ser necesario, integramos datos y finalmente formateamos. El entregable de esta etapa sería un dataset listo para trabajar.
Para la etapa de «Modeling», similar a los otros modelos, experimentamos con distintas técnicas, consideramos supuestos, hacemos pruebas, definimos parámetros y revisamos funcionalidad general de los modelos.
En «Evaluación» es donde considerando los criterios de éxito definidos consideramos como positiva y/o negativa la evaluación. Aqui mismo definimos los siguientes pasos y tomamos las decisiones necesarias.
Finalmente en «Deployment», esta etapa sólo se activa si el proyecto tuvo evaluación positiva. Se genera entonces un plan de desarrollo, un plan de mantenimiento, se genera un reporte final y presentación para socializar el caso de estudio.
Un data scientist es un experto que se encarga de estructurar enormes bases de datos y que aplica sobre ellas sus conocimientos en programación, estadística y matemáticas para recopilar, extraer y procesar la información relevante que contienen.
FUNCIONES
Extracción:
el data scientist extrae los datos, de diversas fuentes, y los analiza para obtener la mayor cantidad posible de información.
Limpieza:
elimina todo lo que molesta y prepara las cantidades de información para que puedan ser procesadas, normalizando valores o transformando variables.
Procesamiento:
usando diferentes métodos estadísticos, el data scientist procesa el volumen de datos y extrae la información relevante.
Visualización:
expone los resultados obtenidos de forma que todo el mundo los pueda entender, sean o no sean expertos en la ciencia de datos.
HABILIDADES
Dominar bases de datos
Para la gestión de los datos es necesario tener todos los elementos recogidos en bases de datos. Un data scientist tiene que dominar su uso y algunas de las más importantes son MySQL, MariaDB, Oracle o AWS Aurora.
Big data
Un profesional de este perfil tiene que saber manejar grandes volúmenes de datos, por eso, debe ser un experto en Big Data, tanto si trabaja en el ámbito privado como público.
Programación
Entre los conocimientos informáticos que un científico de datos posee destaca saber programar y dominar programas como Python, Hadoop o Julia.
Machine learning
Es importante para hacer predicciones saber utilizar la inteligencia artificial. El machine learning o aprendizaje automático es una rama de la inteligencia artificial que consiste en enseñar a las máquinas a que identifiquen patrones entre los datos para desarrollar los modelos predictivos, posteriormente.
Pasión por los datos.
Comunicativo para transmitir los resultados.
Curioso.
Aprendizaje rápido.
Paciente.
Proactivo.
Multidisciplinario.
Creativo.
Pragmático.
PUNTOS DE MEJORA
Machine Learning
, considero que aún me falta bastante conocimiento en esta área, solo conozco lo más básico de este tema.
Dominar bases de datos
, cuento con bastante conocimiento en el manejo de bases de datos pero considero que tengo que mejorar en algunos temas
METODOLOGÍAS
CIENTÍFICO DE DATOS
CUALIDADES PERSONALES