Please enable JavaScript.
Coggle requires JavaScript to display documents.
MINERAÇÃO DE DADOS PARTE 5 - Coggle Diagram
MINERAÇÃO DE DADOS PARTE 5
Conceitos Avançados
5.1 – Aprendizado de Máquina (Machine Learning)
Trata-se de uma ferramenta poderosa para a aquisição automática de conhecimento por meio da imitação do comportamento
de aprendizagem humano com foco em aprender a reconhecer padrões complexos e tomar decisões.
5.2 – Mineração de Texto (Text Mining)
A Mineração de Texto é um meio para encontrar padrões interessantes/úteis em um contexto
de informações textuais não estruturadas
5.3 – Técnicas de Pré-Processamento
Agregação. Amostragem. Redução de dimensionalidade. Seleção de subconjuntos de
recursos. Criação de recursos. Binarização e discretização. Transformação de variáveis
CRISP-DM
O CRISP-DM (Cross Industry
Standard Process for Data Mining) é um modelo de referência2 de mineração de dados que
descreve um conjunto de processos para realizar projetos de mineração de dados em uma
organização baseado nas melhores práticas utilizadas por profissionais e acadêmicos do ramo.
é importante destacar que se trata de uma metodologia não proprietária que pode ser aplicada livremente a qualquer projeto independentemente do tamanho ou tipo do negócio.
Os processos subsequentes de mineração de dados se beneficiarão das experiências dos
anteriores. Beleza? As fases são: (1) Entendimento do Negócio; (2) Entendimento dos Dados; (3)
Preparação dos Dados; (4) Modelagem; (5) Avaliação; e (6) Implantação
6.1 – Entendimento do Negócio
Em outras palavras, essa fase busca entender
qual problema o negócio quer resolver
6.2 – Entendimento dos Dados
Em seguida, busca-se avaliar a qualidade dos dados, descobrir as primeiras ideias
sobre os dados ou detectar subconjuntos interessantes para formar hipóteses de informação ocultas e descobrir insights.
6.3 – Preparação dos Dados
Também chamada de pré-processamento, nessa fase ocorre a preparação dos dados
para a fase de modelagem.
construir o conjunto de dados final a
partir dos dados brutos iniciais
Essa lista não é exaustiva, mas inclui tarefas como seleção de tabelas, integração,
transformação, limpeza e organização de dados – além da seleção e engenharia de recursos.
Além disso, trata-se da fase mais
demorada, ocupando mais de 70% do tempo/esforço total gasto em qualquer projeto de ciência de dados
6.4 – Construção do Modelo
Também chamada de Modelagem, nessa fase ocorre a seleção das técnicas, ferramentas e
algoritmos a serem utilizados, como também a elaboração e execução da modelagem sobre o conjunto de dados preparado na fase anterior
6.5 – Teste e Avaliação
6.6 – Implantação/Implementação
Também chamada de desenvolvimento, essa
fase busca colocar o modelo para funcionar