01-4-Nettoyage des données: Le nettoyage de données n'est normalement pas dans le cahier des charges du data analyst mais dans celui du data librarian. Si notre organisation, notre employeur a respecté les règles de cohérence de données, il n'y a presque rien à nettoyer, à part d'éventuelles fautes de frappes or d'orthographe ou de valeurs manquantes. Par contre, s'il n'y a pas de système de saisie avec des masques de données et des structures logistiques, alors le travail peut être immense. Comme par exemple : compléter les données manquantes, enlever les doublons, mettre les dates et les heures au format international, mettre les attributs catégoriels dans une langue identique, forcer les minuscules ou majuscules, sur certains caractères, ajouter ou retirer des préfixes à des codes d'articles, ou également rechercher/remplacer des caractères par d'autres. Le cas le plus connu étant de remplacer les points par des points-virgules, ou l'inverse, et ainsi de suite.
-