Please enable JavaScript.
Coggle requires JavaScript to display documents.
Aiffel 22일차캐글 경진대회 - Coggle Diagram
Aiffel 22일차
캐글 경진대회
대회
개요
evaluation
RMSE
\({\sqrt{ {1 \over N} \sum{(yt - y{pr})}^2}} \)
prize
description
rules
timeline
Data
train.csv
test.csv
sample_submission.csv
필요 library 설치
$ conda install -c conda-forge xgboost=1.3.3
$ conda install -c conda-forge lightgbm=3.1.1
$ conda install -c conda-forge missingno=0.4.2
실행
https://www.kaggle.com/whatam1doing/2019-ml-month-2nd-baseline/edit
에서 파일 받아서 실행
절차 전반
대회 내용 살펴보기
대회 데이터 살펴보기
baseline, 라이브러리, 데이터 셋팅 및 가져오기
모델 살피고 모델 설계하기
blending
ensemble
참조 ensemble이란
voting
분류
averaging
회귀
참조 Kaggle Ensemble
Guide
결과 제출
모델 데이터 이해하기
학습데이터에서 라벨 제거
참조
https://www.w3schools.com/python/ref_keyword_del.asp
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html
데이터 불러오기
학습 데이터와 테스트 데이터 합치기
전처리
결측치전처리
missingno 라이브러리 이용
msno.matrix(data)
직접결측치의 개수 출력
참조
https://datascienceschool.net/01%20python/04.03%20%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84%20%EA%B3%A0%EA%B8%89%20%EC%9D%B8%EB%8D%B1%EC%8B%B1.html?highlight=%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84%20%EA%B3%A0%EA%B8%89%20%EC%9D%B8%EB%8D%B1%EC%8B%B1
print('{} : {}'.format('id', len(data.loc[pd.isnull(data['id']), 'id'].values)))
for c in data.columns:
print('{} : {}'.format(c, len(data.loc[pd.isnull(data[c]), c].values)))
필요 없는 변수 정리
id
sub_id = data['id'][train_len:]
del data['id']
print(data.columns)
date
참조
https://data-newbie.tistory.com/207
data['date'] = data['date'].apply(lambda x : str(x[:6]))
data.head()
각 변수 분포 확인
시각화를 위한 그래프 이용
sns.kdeplot
https://seaborn.pydata.org/generated/seaborn.kdeplot.html
분포가 한 쪽으로 치우칠 시
로그 변환
skew_columns = ['bedrooms', 'sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement', 'sqft_lot15', 'sqft_living15']
for c in skew_columns:
data[c] = np.log1p(data[c].values)
로그함수 특징
2 more items...
하이퍼 파라미터 튜닝
제출