Please enable JavaScript.
Coggle requires JavaScript to display documents.
Résoudre un problème de DATA SCIENCE (données (Résource principale du DS…
Résoudre un problème de DATA SCIENCE
l'explosion de la quantité de données produites et collectées par les humains
l'amélioration et l'accessibilité plus grande des algorithmes de machine learning
l'augmentation exponentielle des capacités de calcul des ordinateurs
données
Résource principale du DS donc sans données liées au problème on ne peut pas aider sur ce problème
cold start problem
:Trouver comment travailler avec pas ou peu de données est un des domaines de recherche très actifs.
La valeur d'un data scientist
réside aussi dans sa capacité à trouver des manières innovantes de récupérer des données auxquelles on ne penserait pas au premier abord. Faites appel à votre esprit de hacker et essayez de bien réfléchir à la façon de récupérer des données utiles, même s'il ne semble pas y en avoir à première vue.
problématiques
bien définie
spectre assez large de problématiques, exclure un certain nombre :contraintes de temps fortes pour produire des résultats.
Estimer la faisabilité d'un projet est toujours compliqué en data science,
exemples de problématique réalistes :
Prédire les ventes d'une campagne marketing
Identifier si une image est déjà présente dans une banque d'image existante
Segmenter les utilisateurs d'un site en plusieurs groupes en fonction de leur comportement sur le site
Pb difficile : Détecter l'ironie dans une phrase
Pb difficile : Savoir si une corrélation entre deux variables est une causalité ou pas
3eme Etape :
L'exploration
Les
meilleurs data scientists
ne sont pas ceux qui connaissent les algorithmes les plus complexes mais ceux qui ont une très bonne connaissance des données
permet de mieux comprendre les différents comportements et de bien saisir le phénomène sous-jacent.
afficher toutes sortes de graphiques, confronter les différentes variables les unes aux autres, tester des hypothèses de corrélation,
A la fin de l’exploration, vous devrez être en mesure de :
Proposer plusieurs pistes de modélisation statistique possible des données (nous étudierons cette partie en détail dans la suite du cours), qui vont permettre de résoudre la problématique de départ considérée
Proposer plusieurs hypothèses sur les causes sous-jacentes à la génération du dataset : "suite à l'exploration, il y a clairement une relation entre X et Y"
Proposer si nécessaire de nouvelles sources de données qui aideraient à mieux comprendre le phénomène
Les
meilleurs data scientists
ne sont pas ceux qui connaissent les algorithmes les plus complexes mais ceux qui ont une très bonne connaissance des données
1er Etape :
trouver des données
Exemples :
Habitudes d'utilisation des téléphones mobiles pour détecter l'illettrisme
CAPTCHAs pour la digitalisation automatique de livres
Images satellites pour évaluer le niveau de pauvreté
Les bases de données existantes, des données brutes alternatives (image, son), et même la création de nouveaux canaux d'acquisition de données. Essayez de trouver l'ensemble des variables qui impactent de près ou de loin le phénomène qui vous intéresse.
données =
dataset
ou
jeu de données
Explorer toutes les pistes possibles pour récupérer les données.
problème d'apprentissage machine
Données
(entrainements et nouvelles données)
Bases de données
transaction bancaire
Comportements utilisateurs d'un site
Données brutes
necessite un pré-traitements specifique
Deep learning
= regroupe algo et modèle pour traiter les données brutes directement sans pré-traitement
Texte
articles, livres, messages
code HTML, sequences ADN
NLP
: Natural Language Processing
Images et Video
Machine vision
IoT
Tache spécifique
(prédire, recommander, décider qlqch)
Algorithme d'apprentissage
choisira un type d'algorithme particulier en fonction du type de tâche que l'on souhaite accomplir et du type de données dont on dispose.
Exemples
Regression linéaire
K-nn
Support Vector Machine (SVM)
réseaux de neurones
random forests
Analyse d'erreur
(ou
mesure des performances
2eme Etape :
Nettoyer les données
Les données doivent être :
Consistantes
sans valeurs
aberante
s ni
manquantes
L'important, c'est de bien préparer le terrain pour les étapes suivantes, qui en seront grandement simplifiées si ce travail fastidieux est bien effectué en amont.
4eme Etape :
Modélisez les données avec machine learning
la création du modèle statistique associé aux données qui nous intéressent : C'est ce qu'on appelle
machine learning
(ou apprentissage automatique).
modélisation statistique des données” = En machine learning et en data science plus généralement, l'objectif est de trouver un modèle (stochastique ou déterministe) du phénomène à l'origine des données. C'est à dire qu'on considère que chaque donnée observée est l'expression d'une variable aléatoire générée par une distribution de probabilité
5eme Etape :
Évaluation et interprétation des résultats
quartet d'Anscombe
: illustre bien le fait que si on n'examine pas assez les données, et on ne mesure pas de la bonne manière l'erreur de son modèle, on peut facilement arriver à des aberrations de modélisation
l’évaluation de la qualité de notre modèle : capacité à représenter avec exactitude notre phénomène
Machine learning : algorithme
S'entrainer
training set = training dataset = jeu de données d'entrainement
une entrée dans le jeu données est une
instance
ou une
observation
Modèle
Algorithme d'apprentissage
traitement de la tache spécifique sera appris à partir du
training set
et ensuite effectué par l'algorithme lui même dans une
sonde phase
.
appris
6 eme Etape :
Deployer le modele en production
Le machine learning est l'apprentissage d'un modèle statistique par la machine