Please enable JavaScript.
Coggle requires JavaScript to display documents.
피처엔지니어링 (기본 데이터 수집 (속성 별 기본 검사 (상관분석 (독립변수 끼리 높은 경우 (파생변수로 대동단결 고려), 종속변수와…
피처엔지니어링
기본 데이터 수집
속성 별 기본 검사
결측치 여부
대부분 결측
버림(개나 줘버림)
조금 있다
결측치 보정 검토
비지니스 로직상 너무너무 중요하다고 판단
예측 모델 다중화 고려
히스토그램(분포)
특정값에 완존 쏠리거나 균등
버림
눈으로 봐서 적당히 흩어짐
t-test (차이검정)
상관분석
독립변수 끼리 높은 경우
파생변수로 대동단결 고려
종속변수와 높은 경우
일단 keep
종속변수와 낮은 경우
일단 keep
독립변수끼리 낮은 놈들
일단 keep
피처 셀렉션
기본 모델링
로지스틱회귀, SVM, RF, xgboost 등등
피처 중요도 자동 추출
팩토리얼 머신 적용
xlearn
fm
ffm
처음부터 많이 넣지말고 중요도 높은 놈들 먼저 넣기
조금씩 추가해 보기
개노가다
시간이 좀 있고 능력이 받쳐줄때
슬랙 tips에 공유한
The Automated Feature Engineering process using Featuretools.