반응형
[ADsp 정리] 3-5-6. 군집 분석(Clustering Analysis)
연관규칙분석(Association Analysis)
1. 개념
- 장바구니분석(Market Basket Analysis) : 장바구니에 무엇이 같이 들어있는지 분석
- 서열분석(Sequence Analysis) : A 다음 B를 고를 것인가
2. 형태
- IF A THEN B 의 형태
3. 측도
A. 지지도(Support)
- p(a&b)/ p(전체)
B. 신뢰도(Confidence)
- p(a&b)/p(a)
C. 향상도(Lift)
- a를 구매했을 때, b를 구매할 확률이 증가비 이다.
- a와 b가 독립일 경우 향상도는 1이다
p(a&b)/p(a)p(b)
D. 절차
- 처음에는 5%만 잡고 규칙이 도출되는지 보고 다양하게 조절
- 너무 낮은 지지도를 선택하는 것은 리소스가 소모되어 적절치 않음
최소 지지도 결정 -> 최소 지지도 넘는 품목 설정 -> 2가지 품목 집합 생성 -> 반복적 수행으로 빈발품목 집합 써치
E. 연관규칙의 장단점
장점
- 뷔게 이해, 범용성, 간단
단점
- 품목수에 따라 복잡성 증가, 거래량이 적으면 발견 어려움
F. 순차 패턴(Sequence Analysis)
- 시간 개념이 포함되어 순차적으로 구매할 품목을 찾는 것
2. 최근 연관성 분석
2.1 과거 및 현재
- 과거에 대용량의 경우 분석이 불가능, 시간이 오래걸림
- 최근연관성은 메모리를 효율적으로 사용함
1세대 : Apriori
2세대 : FP-Growth
3세대 : FPV
품목의 개수 : N -> 갯수를 줄이난 방식이 FP-Growth
부분집합 : 2^N -1 -> 갯수를 줄이는 방식이 Apriori 알고리즘
연관규칙 3^N- 2^(N+1)+1
2.2 Apriori 알고리즘
- 빈발항목집합(frequent item set)은 최소 지지도보다 큰 지지도를 갖는 품목의 집합
- Apriori는 빈발항목집합(frequent iem set) 의 연관규칙을 찾는 방식
- 낮은 지지도 설정시 아이템의 갯수가 많아 복잡도 증가
2.3 FP-Growth 알고리즘
- FP-TRee(Frequent Pattern Tree)를 만들어 분할정복 방식을 사용하여 연관규칙을 찾음
- 데이터베이스 스켄 횟수가 apriori보다 작다는 장점이 있음
반응형