Please enable JavaScript.
Coggle requires JavaScript to display documents.
Aula 03 - Árvore de Decisão - Coggle Diagram
Aula 03 - Árvore de Decisão
Link para aula
https://www.youtube.com/watch?v=ecYpXd4WREk
Conteúdos abordados
Técnicas de classificação
Usadas quando trabalhamos com valores discretos
Existem diversas técnicas como
Redes Neurais
Floresta Randômica
Árvore de Decisão
O que vamos trabalhar hoje
Árvore de Decisão
Conceitos importantes
Entropia
Medida da aleatoriedade ou da incerteza
Quanto maior a entropia, maior a desorganização de um sistema
E eu organizo esse sistema através do ganho de informação
Quanto menor a entropia, menor a desorganização de um sistema
Trade-off do viés e variância
Variância
Como o modelo se adapta a diferentes datasets
Overfitting causa alta variância
Viés
Como o modelo se adequa aos dados
Muitos erros = Alto víes
O ideal é:
Possuir um modelo
ajustado
Diminuir o viés, mantendo a variância dentro de um valor aceitável/pré-definido
Uma árvore de decisão é um mapa dos possíveis resultados de uma série de escolhas relacionadas
Pra tentar diminuir a
entropia
Preciso testar diferentes abordagens de seleção de features (por exemplo, como nó pai)
Receita da árvore de decisão
Calcule o quanto cada feature deixa os dados melhor organizados após a divisão
Escolha a melhor feature
Ao me deparar com entropia muito grande, uso a técnica do
ganho de informação
Preciso identificar qual feature me traz o maior ganho de informação
Faço isso calculando (aplicando a fórmula do ganho de informação) para cada feature
Repita esse passo para novas divisões
Quando parar de dividir?
Posso deixar o algoritmo dividir até não ter mais ganho de informação
Porém, árvore alta = risco de
overfitting
Overfitting é quando meu modelo se adapta muito bem (treinei tnato que ele praticamente "decorou") aos dados de teste, mas se mostra ineficaz para prever novos resultados
Overfitting causa alta variância porque o modelo se comporta bem no dataset de treino e péssimo do dataset de teste
Posso especificar a altura máxima da árvore
É considerado um modelo white box
Podemos entender melhor o que ele aprendeu e como ele decide
Podemos mostrar a árvore pra isso