Please enable JavaScript.
Coggle requires JavaScript to display documents.
10-Arvores de Decisão (ARVORE DE DECISAO
Um nó folha (ou nós reposta)…
10-Arvores de Decisão
ARVORE DE DECISAO
- Um nó folha (ou nós reposta) que contém o nome da classe ou símbolo nulo
- Um nó interno ou nó de decisão que contém o nome de um atributo
PROCESSO DE CONTRUÇÃO
INFORMAL
:warning: PROBLEMAS
VÁRIAS ÁRVORES
Várias árvores podem ser criadas dependendo da ordem de escolha dos atributos
SOLUÇÃO: utilizar uma função de escolha do próximo atributo (por exemplo, que melhor divide os exemplos)
MUITOS NÓS
A árvore pode ter muitos nós, alguns deles com poucos ou nenhum objeto
SOLUÇÃO: realizar podas na árvore ao final do treinamento
ALGORITMO
- Expansão da árvore, através de sucessivas partições do conjuntos de treinamento, até que a condição de parada seja satisfeita
- Eliminação de algumas partes inferiores (poda) da árvore, através de reagrupamentos dos sub-conjuntos da partição
REQUISITOS
-
CONDIÇÃO DE PARADA
É uma condição que o conjunto de treinamento E deve satisfazer para seu nó correspondente ser considerando um nó terminal
FUNÇÃO DE AVALIAÇÃO SCORE
é utilizada para tentar identificar o atributo mais relevante existente sobre E (mais poder determinante)
ESCOLHA DO ATRIBUTO ÓTIMO
Função baseada em uma medida de impureza
- máxima quando todas as classes estão igualmente presentes no nós
- mínima quando o nó contém apenas uma classe
Impureza global da árvore I(T) = Soma das impurezas
ENTROPIA
-
INDICE GINI
IMPUREZA
A probabilidade estimada de erro atribuida aleatoriamente dentro do nó a classe i com probabilidade p(i|t0)
REDUÇÃO DE IMPUREZA: O atributo que maximiza a redução de impureza é escolhido cocmo atributo de divisão de conjunto. Ou seja, quanto mais puro for a partição criada por A, menor é o Gini
-
-
CRITÉRIO DE PODA
Depos da montagem da árvore pode ocorrer folhas pequenas que ajudam a gerar efeito de Overfitting. Processo de poda
-
PÓS PODA
construção da árvore completa para posterior poda das sub-árvores consideradas não confiáveis
PODA POR CUSTO-COMPLEXIDADE
Método mais conhecido, implementado no algoritmo CART (árvores binárias)
-
-
MISSING VALUES
Alternativas:
– “missing” como um valor possível do atributo
– Treinamento: ir até onde der na árvore. Se chegar em uma folha, ótimo. Se parar em um nó interno t,dividir os exemplos pelos ramos
– Classificação: ir até onde der na árvore. Se chegar em uma folha, ótimo. Se parar em um nó interno t, usar a distribuição deste nó para classificar a instância
-
-
DESCRICAO
são métodos de aprendizado de máquina supervisionado não paramétrico utilizado em tarefas de regressão e classificação. Sua estrutura é semelhante a de uma árvore, só que onde o nó folha contém o nome da classe e o nós interno contém o nome de um atributo. Seu processo de construção....