Please enable JavaScript.
Coggle requires JavaScript to display documents.
Section 2. Review, Machine Learning, Model Agnostic(Interpretation)
:…
-
Machine Learning
Unsupervised Learning (비지도학습)
: 데이터에 라벨이 없을 떄
: 데이터의 구조 혹은 특징을 파악
- 군집화 (clustering)
- 차원축소 (dimension reduction)
- 연관규칙학습 (Association Rule Learning)
Clustering
: 주어진 데이터의 유사성을 파악하고 정리
Hierarchical Clustering
- Agglomerative : 작은 >> 크게
- Divisive : 큰 >> 작게
- 임의의 클러스터 수를 지정할 필요 X
- with Dendrogram
- 계층적 트리모형
- Dendrogram을 사용해서
원하는 클러스터 수 만큼 cutting
-
K-means Clustering
: 평균값을 기반으로 k개의 클러스터 형성
- 임의의 중심점 설정
- distance 기반으로 클러스터 형성
- 평균을 기반으로 새로운 중심점 계산
- 위 과정 반복 수행
-
-
Reinforcement Learing (강화학습)
: 주어진 환경에 대해 행동을 취하고,
피드백을 통해 학습
Supervised Learning (지도학습)
: 데이터에 라벨이 있을 때
- 분류 (classfication)
- 회기 (Prediction)
Linear Models
- Simple Regression
- Multiple Regression
- Ridge Regression
- Logistic Regression
회귀문제
Simple, Multiple, Ridge
-
Ridge Regression : 훈련데이터의 과적합을 막기 위해 고의적으로 덜 fit하게 만들어 줌 (ex. 샘플이 너무 적을 때, 로지스틱 회귀를 사용할 때)
- Ridge와 비슷하지만 다른 모델인 LASSO & Elastic Net Regression 도 있음
- Bias를 높여주면 Variance가 낮아짐,
so 예측모델의 정확도를 높일 수 있음
- Hyperparameter(alpha)를 사용해서
기울기 조정 : 너무 크게 조정하면 회귀계수들이 0이 됨..
- bias가 낮아서 과적합 되는 문제를 해결
- RidgeCV를 통한 최적의 패널티(alpha) 검증
- OLS와 비슷하지만 이상치 영향을 덜 받음
분류문제
Logistic, Ridge
Logistic Regression : 샘플이 특정 범주에 속할 확률을 추정, 최대가능도(Maximum likelihood)를 사용
Baseline : 타겟의 최빈값
어떤 사건이 발생할 지를 직접 예측하는 것이 아니라 사건이 발생할 확률을 예측하는 것
Hyper Parameter Tuning
C (Inverse of regularization strength)
class_weight
penalty
Interpretation
로지스틱회귀의 계수는 비선형이라 해석하기가 어려움. Odds를 사용해서 선형결합 형태로 변환
- 해당 특성이 변할 때, 로짓이 얼마나 변했는지 해석 가능
- Odds rate : 실패확률에 대한 성공확률의 비
- Odds에 로그를 취해서 로짓 변환
- 로지스틱 회귀 모델의 회귀계수는 로짓변환 되어서 값을 주고, 이를 오즈비로 변환 후 odds 확률로해석할 수 있음 (exp(계수))
평가지표
- Confusion Matrix
: TP, TN, FP, FN
- Simple Accuracy :
(TP + TN) / (TP + TN + FP + FN)
- Precision : 1로 분류된 것 중 실제 1은?
TP / (TP + FP)
- Recall : 실제 1 중 1로 분류된 것은?
TP / (TN + FN)
- F beta measure :
(1+B²) x Precision x Recall / (B² x Precision) + Recall
- Threshold 조정을 통한 모델 성능 개선
- ROC curve / AUC score :
ROC curve는 여러 임계값에 대해 TPR, FPR 그래프를 보여줌. 그 아래 면적이 AUC score(이진분류 문제에서 사용 가능)
- 3-class(A, B, C) 문제 -> A vs (B,C), B vs (A,C), C vs (A,B) 로 나누어 수행
Tree-based Models
- Decision Tree
- Ensemble
- Random Forest
- Boosting
Decision Tree
- 범주형, 숫자형 모두 처리 가능
- Root nodes >> Internal nodes >> Leaf nodes
- [비용함수 == 불확실성(impurity or entorpy)]를 감소하도록 학습
- Information Gain : 불확실성이 감소하는 것
[부모노드 엔트로피] - [자식노드 엔트로피의 가중치 평균의 합]
- Hyperparameter Tuning :
*min_samples_split
*min_samples_leaf
*max_depth
-
Out of Sample Testing
Bias(편향) & Variance(분산) Trade-off모델이 복잡해질수록 편향에러가 낮아지고 분산에러가 높아짐 - overfitting반대로 학습모델이 단순해질수록 분산에러가 낮아지고 편향에러가 높아짐편향/분산 모두 잡지 못하면 과소적합분산/편향 모두 잘 잡은 것은 일반화가 잘 된 모델
-
평가지표
- R2 score (결정계수) :
(예측값 - 평균) / (실제값 - 평균)
1에 가까울수록 정확
- MSE :
평균제곱오차 (잔차 제곱의 평균)
0에 가까울수록 정확
scaling 여부에 따라 많이 달라짐
RSME로 대체 가능
- MAE
평균절대오차 (잔차 절대값의 평균)
-
-
Encoding
- OneHot Encoder
- Ordinal Encoder
- Target Encoder
Imputation
- Simple Imputer
- Iterative Imputer
Scaling
- Standard Scaler
- MinMax Scaler
Feature Selection
- SelectKBest
-회귀 : f_regression
-분류 : f_classif
- 파이프라인에 넣어줘서 cv를 사용하여 최적의 k를 찾을 수도 있음
Feature Extraction
Feature Engineering