Please enable JavaScript.
Coggle requires JavaScript to display documents.
Aula 02 - Regressão Linear - Coggle Diagram
Aula 02 - Regressão Linear
Link para aula
https://www.youtube.com/watch?v=J9HuFIYcFWU
Conteúdos abordados
Aprendizado de Máquina
Antes de iniciar um projeto de ML, preciso saber
Algumas nomenclaturas importantes
Variáveis
Independentes
Uso para entrar os dados
Existem por si só
Dependentes
É aquela que eu quero prever
Classes/Labels
As "etiquetas" dos dados
Ex: Um paciente de idade x, sexo y, com pressão arterial z (features)... deve ser medicado com a droga A (droga é a label... possíveis valores como droga A, droga B... são as classes)
"rotula" determinado resultado dadas as variáveis apresentadas
Muito usado para aprendizado supervisionado
Features
Ex: Idade, Sexo, etc...
Indica as variáveis de entrada
O que eu quero que meu modelo preveja?
Valores Contínuos
Normalmente devo usar técnicas de regressão
Ex: O possível valor de uma ação daqui a 2 anos
Valores Discretos
Normalmente devo usar técnicas de classificação
Ex: É fraude ou não é fraude? Devo prescrever medicamento A, B ou C? É spam ou não é spam?
Em qual contexto estou inserido?
Quais dados tenho?
Tipos
Por Reforço
Não Supervisionado
Supervisionado
Consigo fazer
Regressão
Nosso foco nessa aula
Quando tenho
valores contínuos
Classificações
Quando tenho
dados rotulados
e eles são
discretos
Aprendizado Supervisionado [REGRESSÃO]
Antes de tudo...
Correlação
Importante: Correlação não implica causalidade
Coeficiente de Pearson
Mede o grau e a direção de uma correlação entre duas variáveis
Valores variam entre -1 e 1
próximo de -1: indica correlação negativa
próximo de 0: indica não haver correlação
próximo de 1: indica correlação positiva
É a relação estatística que envolve dependência entre duas variáveis
Diferença entre Modelo e Algoritmo
Algoritmo
É a fórmula/receita da técnica que aplico aos dados que tenho para obter o resultado esperado (o aprendizado que gera um modelo)
Modelo
É o resultado da aplicação do algoritmo utilizando determinados dados
O modelo treinado é o que é usado futuramente para prever/classificar outros dados.
Regressão linear
É uma equação para estimar o valor esperado de uma variável y, dados os valores de algumas outras variáveis x
É chamada linear porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros
ou seja, consigo visualizar essa função (se plotar em um gráfico) no formato de uma linha reta
Fórmula
y = A + B.x
Regressão não-linear
Uso quando preciso avaliar fenômenos que não podem ser visualizados de forma linear
Ex: casos de coronavírus
Mas como eu acho essa bendita reta?
Técnica dos Mínimos Quadrados (MMQ)
Técnica mais usada
É um método não interativo que ajusta um modelo de modo que a
soma dos quadrados das diferenças (erros/resíduos) dos valores observados e previstos seja minimizada
Treino e Teste
Divido meu Dataset em 2
Treino e teste
Posso pegar determinado % para cada
Ex: 80% treino e 20% teste
Pego aleatoriamente
Uso o dataset de teste pra avaliar a qualidade do meu modelo (quanto ele tá errando)
Métricas de Avaliação do modelo
Soma do erro quadrático (SSE)
Erro médio absoluto
Erro quadrático médio (MSE)
Raiz do erro quadrático médio (RMSE)
R2
Coeficiente de determinação
Métrica que indica que o modelo linear explica tal % da variância de y a partir do valor de x.
Ex: R²=0,823 (utilizando dados de emissão de CO2 a partir do motor) indica que o modelo linear explica 82% da variância de CO2 a partir do motor.