Please enable JavaScript.
Coggle requires JavaScript to display documents.
3과목 - Coggle Diagram
3과목
군집분석
군집분석
대표적 비지도학습
생물학의 종의 분류 , 마케팅의 시장세분화, 금융의 산업분석 처럼 자주 쓰임
데이터들 간의 유사성(거리)을 기준으로 군집을 나누고 다변량분석을 통해 각 군집에 대한 특징을 파악하는 기법
데이터 간 거리 측정 방법
연속형 변수
유클리디안 거리
두 점 사이의 거리를 구하는 가장 일반적인 방법
가장 짧은 거리를 측정하는 수학적 거리
맨하튼 거리
두 점 사이의 길을 따라갔을 때의 수학적 거리
체비셰프 거리
두 점 사이의 거리 중 최댓값을 데이터간 거리로 정의
표준화 거리
유클리디안 거리를 표준편차로 나눔
마할라노비스 거리
데이터 간의 상관성까지 고려한 거리
민코프스키 거리
유클리디안 , 맨하튼 거리를 일반화 한 거리
변수가 범주형
단순 일치 계수
자카드 지수
자카드 거리
합집합과 교집합의 비율
코사인 유사도
코사인 거리
순위 상관계수
평가 지표
실루엣계수
하나의 데이터와 나머지 모두의 데이터를 활용하여 지금 데이터가 속한 군집 안에 데이터가 잘 속해 있는지 평가하는 방법
-1 < < 1
분류방식
데이터 간의 거리
계층적 군집분석
데이터 간의 거리를 계산해서 가장 가까운 데이터들끼리 결합해 나가면서 트리 구조를 형성하고
이를 통해 군집화를 수행하는 방식
분할적 방법
전체 데이터를 하나의 군집으로 가정하고 각각의 관측치가 하나의 군집이 될 때까지 군집을 순차적으로 분할
병합적 방법
각각의 데이터를 순차적으로 병합해 군집을 형성
군집 간의 거리 측정 방법
단일 연결법
최단 연결법
군집 간 가장 가까운 데이터 연결
완전 연결법
최장 연결법
군집 간 가장 먼 데이터 연결
평균 연결법
군집 내 평균 데이터로 거리를 계산
중심 연결법
각 군집의 중심점 사이의 거리를 거리로 정의
와드 연결법
두 군집의 편차의 제곱합이 최소가 되는 데이터로 거리를 계산
시각적으로 계층적 군집화를 표현
덴드로그램
군집의 수
비계층적 군집분석
구하고자 하는 군집의 수를 사전에 정의해서 원하는 군집의 수만큼 형성
K-Means 군집
원하는 군집의 수(K개)를 사전에 정의한 뒤 군집화
중심점
초기 k값 설정이 어렵다
연속형 변수
이상값에 민감
DBSCAN
거리가 아닌 밀도기반의 군집 분석 방법 중 하나
노이즈와 이상치에 강함
혼합 분포 군집
EM(Expectation Maximizatioin) 알고리즘
likelihood의 기댓값을 계산하는 E단계와 기댓값 최대화 추정값을 계산하는 M단계를 반복
자기조직화지도(SOM)
인공신경망을 활용하여 차원을 축소해 저차원의 지도를 생성하고 데이터 군집화 역시 동시에 수행할 수 있는 알고리즘
고차원 데이터를 저차원 공간에 정렬화 하는 시각화 방법 중 하나
입력층의 모든 데이터는 경쟁층의 모든 노드와 완전연결 되어 있다
역전파가 아닌 순전파 방식
연관분석
연관분석의 측도
두 아이템이 서로의 구매를 지지하는가?
지지도
A와 B 가 동시에 구매된 거래 수 / 전체 거래수
진짜로 A를 구매하면 B를 구매하는가?
신뢰도
A 와 B가 동시에 구매될 확률 / A가 구매될 확률
방향에 따라 값이 다름
두 품목의 조건부 확률로 나타낼 수 있음
A와 B의 상관성이 얼마나 되는가?
향상도
A와 B가 동시에 구매될 확률 / A가 구매될 확률 * B가 구매될 확률
1보다 크면 A가 구매될 때 B가 구매될 확률이 높다
1보다 작으면 A가 구매될 때 B가 구매될 확률이 닞다
1과 같으면 B가 구매될 확률 변화가 없다
(A→B)의 신뢰도 / B가 구매될 확률
연관분석 알고리즘과 특징
Apriori 알고리즘
지지도를 사용해 자주 발생하는 아이템 집합을 판별하고 이를 통해 계산의 복잡도를 감소시키는 알고리즘
FP-Growth 알고리즘
후보빈발집합을 생성하지 않고 연관 규칙을 발견하도록 고안된 알고리즘
연관분석의 개요
개념
장바구니 분석
고객들의 구매패턴을 분석하여 의미 있는 규칙을 도출
치킨을 구매한 고객은 콜라를
구매할 확률이 높다