Please enable JavaScript.
Coggle requires JavaScript to display documents.
Matemática para Machine Learning - Coggle Diagram
Matemática para Machine Learning
Limite
Limite tem o objetivo de determinar o comportamento de uma função à medida que ela se aproxima de alguns valores, sempre relacionando os pontos x e y
Quando algo é indefinido tipo 0/0
então, e forço uma operação a tender a um número
Derivada
Coeficiente Angular, o que varia a operação
a
x+b
Taxa de variação
Coeficiente linear, não varia
Descreve a taxa de variação instantânea da função em um certo ponto.
entender a taxa de variação por qualquer ponto da curva
Sempre que a gente quer a taxa de variação, então a gente faz a derivada para achar isso
Propriedades da derivada
Propriedade do polimonio
Taxa de variação
Derivada parcial
A mesma coisa, só que é com mais dimensões
A gente só vive em um mundo de 3 dimensões, então a de 4 não dá.
Pontos máximos e mínimos
Pontos máximo e pontos mínimos a taxa de variação é 0
então eu posso derivar e igualar a 0
máx global e máx local
Achar o ponto de máximo e o ponto no mínimo
dx/dy = 0
o valor da derivada vai me garantir o máximo valor
Distribuição gausiana
A distribuição normal é uma distribuição de probabilidade contínua e simétrica em ambos os lados da média, de modo que o lado direito é uma imagem espelhada do esquerdo.
Vetores
comprimento (módulo)
ex: Tamanho da seta
direção
ex: Horizontal, vertical
sentido
ex: Direita para a esquerda
Subtração vetorial
Negativo é o ponto de partida e o positivo é o ponto de chegada
Alguns algoritmos de machine learnig (como SVM – support vector machines) fundamentam-se em cálculo vetorial, realizando normalização vetorial, projeção de vetores, multiplicação escalar, entre outras operações que são importantes você dominar.
Normalização
log10
Altura x Peso
unidades diferentes
dividir todas elas pela média para alterar a ordem de grandeza
MAE x MSE
diferença entre os conceitos de erro médio absoluto (MAE) e erro médio quadrático (MSE). Esses nomes vêm do inglês (Mean Absolute Error – MAE; Mean Square Error – MSE).
Servem como verificação da eficácia dos modelos.
Erro médio absoluto
módulo, (valor - média)
Erro médio quadrático
Erro médio absoluto²
o quadrático é muito maior que o absoluto, por isso ele penaliza muito quem tá mais distante da média
Se eu quero validar um modelo de M.L, eu não to importando tanto com a distância em relação à média se usar o MAE
Mas se eu quiser me importar sobre essa distância eu uso o MSE
Coeficiente R2
R? = (SQT - SQTresíduos)/SQT
r² = 0,87
87% da variância, um percentual pra onde eles estão mudando, a direção desses erros e quando ele consegue capturar.
Mais perto de 0, pior
então, quanto mais perto de 1 melhor
Normalizo que fica entre 0 e 1, o melhor cenário possível é quando for 1, quando o setor é 0 é o pior
Mas meu modelo de machine learning representa muito melhor os dados
olhar a distância da reta verde e do ponto e elevar ao quadrado
Achar uma média para traçar uma reta
distância entre o ponto e a média e eleva ao quadrado ²
porém fica com bastante erro
Aprender o que é o coeficiente de determinação R2 e o que significa na prática (como interpretar o resultado).
é uma medida estatística de quão próximos os dados estão da linha de regressão ajustada.
R2 ajustado
as vezes é interessante ver as principais variaveis e calcular em cima disso
R2 ajustado
quanto mais variaveis menor o R2 ajustado, então pra aumentar eu preciso que
R2 só vai aumentar se a variávei que eu coloquei é relevante
quando eu aumento a quantidade de variáveis menor o R2, é inversamento proporcional
K e R2
diretamente proporcional
R2 ajustado
Diferentemente do coeficiente R2, ela usa só as principais variáveis que realmente importam para ser testado se influenciam no meu modelo
A variável que eu coloquei tem que ser impactante ao ponto de conseguir aumentar o R2, esse é o objetivo
resumo
Mais K = Menor o R2
pro r2 ajustado aumentar, que é o que queremos, é necessário que o a variável que eu coloquei seja tão importante ao ponto de aumentar meu R2
Função Sigmóide
função sigmóide e sua importância para a binarização dos dados
Se queremos classificar entre 0 e 1, se é devedora ou não por exemplo
vemos o extrato das pessoas, se o valor está negativo = 0 e positivo = 1
tem uma transição suave, porque a função degrau não é diferenciável
ponto de transição
podem ter várias variáveis
é isso que vamos fazer quando falarmos de redes neurais
Quando o limite é descontínuo não é diferenciável e se não é diferenciável não conseguimos usar derivada e resolver o problema
Teirena de Bayes
Probabilidade de ter o câncer
Teorema de Bayes faz tudo isso a partir de uma fórmula
Evento A
Evento B
uma fórmula de probabilidade que calcula a possibilidade de um evento acontecer, com base em um conhecimento que pode estar relacionado ao evento.
Qual a probababilidade da hipótese dado essa nova crença
Gradiente descendente
como ele funciona
ele tenta achar a melhor reta que correlaciona os dados
e quando ele tá perto ele vai mais devagar
quando ele tá muito longe o fit da reta ele vai rápido
mx + b
um algoritmo de otimização usado para minimizar algumas funções movendo-se iterativamente na direção da descida mais íngreme, conforme definido pelo negativo do gradiente. Nos modelos de machine learning, usamos gradiente descendente para atualizar os parâmetros do nosso modelo.
Vai caminhar para o lugar mais certo até achar o ponto da reta melhor