Etapa mais trabalhosa, que ocupa 70-80% do tempo de um projeto, e tem alta importância nas atividade seguintes. É o primeiro processo do aprendizado de máquina, quando os dados passam de brutos para tratados, se referindo a preparação e estruturação das informações, ao identificar valores incorretos, duplicados ou inconsistentes; atributos; objetos de um conjunto de informações.
Mas o que são dados?
Conjunto de informações que possibilitam a dedução de fatos ou a tradução em algoritmos e qualitativos.
-
- Dados estruturados: dados que contidos numa estrutura de organização rígida, que os armazena. São adaptados de acordo com seu padrão ou definição, organizados n padrão fixo e constante.
- Dados semiestruturados: é uma representação heterogênea, não possuindo forma rígida, mas também não sendo flexível, utilizando marcadores para separação dos campos.
- Dados não-estruturados: não possui estrutura de organização, sendo flexível e exigindo um árduo pré-processamento na recuperação de informações.