À medida que vamos adicionando mais variáveis, tendemos a fazer previsões cada vez melhores sobre os dados de treinamento. No entanto, além de um certo ponto, a adição de mais variáveis deixa de ajudar na modelagem e começa a atrapalhar( gera overfitting). O modelo começa a encontrar padrões onde existem variações (aleatoriedades, ruídos, etc), dado que não existe lei que obrigue uma pessoa a seguir uma equação para definir o preço de seu apartamento (
Ao adicionar cada vez mais variáveis, o modelo começa a procurar padrões onde não existe! Ele vai
tentar encontrar padrões onde, na verdade, existe apenas uma variação/ruído.
Se nós – humanos – conseguimos encontrar padrões em coisas aleatórias, imagine uma máquina
com altíssimo poder computacional.