Please enable JavaScript.
Coggle requires JavaScript to display documents.
Miljødataanalyse-prosjekt (CRISP-DM) - Coggle Diagram
Miljødataanalyse-prosjekt (CRISP-DM)
Tekniske retningslinjer
Struktur og koding
Gjenbrukbar kkode i src/
Enhetstesting i tests/
Docstrings
Logging i stedet for print()
Versjonshåndtering
Git (Commit, Push, Merge, Tag)
Reproduserbarhet
Dataforståelse
1.1 Datainnsamling
Valg av åpne datakilder
Kildeautoritet og tilgjengelighet
Innlesing til pandas-dataframer
1.2 Databeskrivelse
Datastruktur (shape, columns, dtypes)
Innhold (head, describe, nunique
Kompletthet og kvalitet
1.3 Datautforsking
Visualiseringer
Mønstre i manglende verdier
Statistisk utforsning (mean, median, std...)
Programmeringsteknikker (SQL, map/filter, ...)
1.4 Verifisering og datakvalitet
Vurdering av kompletthet og utliers
Nøkkelintegritet og unikhet
Gyldighet og konsistens
Beregning av datakvalitetspoeng
Dataklargjøring
2.1 Datautvalg
Filtrering av relevante rader og kolonner
Lagring av arbeidskop
2.2 Datavask
Håndtering av manglende verdier og outliers
Standardisering av tekst og koder
Korrigering av inkonsistenser
2.3 Konstruere variabler
Feature Engineering
Kategorisering og miljøspesifikke mål
2.4 Integrering
Sammenslåing med merge()
Kontroll av join-resultat
2.5 Dataformatering
Encoding av kategoriske variabler
Sikre riktige datatyper