Please enable JavaScript.
Coggle requires JavaScript to display documents.
데이터 사이언스
(통계) (데이터 사이언스는 코딩이 아니라 통계학을 이용한 모델링 (화려한 모델링 보다는 데이터추적에 더…
데이터 사이언스
(통계)
-
데이터 전처리
-
매출액이라는 종속변수 (y)는 분명히 우리 팀원들의 열정(….)과 설비 5대의 결합물일 것이다. (물론 운, 시장 트렌드 등등의 외부적인 요소가 끼여들었을 여지는 인정한다.) 여기서 설비 5대가 정말로 효과가 있었는지를 “수학적”으로 어떻게 검증하냐고? 설비 5개 증가값을 X1으로 우리팀의 노동력 투입을 X2로, 나머지 변수들 X3으로 놓고, Y를 X1으로 Regression 한 다음 (1st-stage), 잔차항을 다시 X2, X3으로 Regression하면 된다 (2nd-stage). 만약 X1의 기여도가 컸다면 매출액 증가분 (y값의 상승분)이 X1으로만 설명되는 현상이 나타날 것이다.
기법
변수확인
각 변수의 유형
범주형/연속형, Data/Character/Numeric
-
-
-
다른값으로 대체
다른 관측치의 평균값, 최빈값, 중앙값등으로 교체
-
-
-
Scaling
변수의 단위를 바꾸거나, 변수의 분포가 편향되어 있을 때, 변수간의 관계가 잘 드러나지 않는 경우
log를 취함, square root를 취하는 방법
-
-
-
데이터 분석가는 자동차 수리공, 머신러닝 개발자는 자동차 엔진 개발자, 그리고 데이터 사이언티스트는 자동차 설계 및 디자이너라고. 참고로 여기서 엔진 개발자라는 분은 이미 만들어진 엔진을 차체에 이식시키는 수리공이 아니라, 4기통, 8기통 엔진을 직접 개발하는 엔지니어를 말한다. (한국에 있는 인공지능 기반 상품 회사에서 그런 능력을 갖추신 분을 별로 본 적이 없었다.)
데이터 사이언티스트에게 가장 핵심적인 스킬은 문제에 맞는 모델링을 하고 그 모델을 통계학, 시뮬레이션, 머신러닝 기술을 적절하게 조합해서 실제로 구현하는 능력이라고 본다.
바둑판 안 같이 잘 짜여진 시스템 안에서라면 Neural network만으로 시스템이 스스로 학습하도록 만들 수 있을지 모르지만, 잘 짜여진 시스템 밖에서 나타나는 경우도 다 고려해야하면, 새로운 설정을 해주거나, 불확실성을 배우도록 알고리즘이 구성되어야 한다.