7. Association Rules

Frequent Pattern을 추출했으니, 이것을 이용해서 Association Rule들을 만들고 평가해야 한다

Association Rules

Mining Multilevel Association
Mining Multidimensional Association
Mining Quantitative Assocation
Mining Interesting Correlation Patterns

Mining Multilevel Association Rules

Item들은 종종 계층 구조를 형성한다

예를 들면, Milk와 2% Milk
- Milk가 2% Milk의 상위 개념이라고 볼 수 있다
각 계층마다 유연하게 Minimum Supoort를 설정해주는 것이 필요하다
- 계층이 내려갈수록 당연히 Support가 작아질텐데, 이걸 고려해야한다는 주장
- 낮은 계층의 Item들과, 높은 계층의 Item들이 Frequent Pattern에 포함될 수 있는 확률이 비슷하도록 조정을 해야 한다

Uniform Setting
- Hierarchy에 상관없이 동일한 min_sup값 적용
- 지금까지 봐온 방식
Flexible Setting
- Low level 일수록 더 낮은 기준 적용

Redundancy Filtering

계층 구조가 형성되다 보면, 의미없는 Rule이 생성되는 경우가 있다

Ancestor로 인해서 불필요한 Rule의 중복이 발생할 수 있다

위의 두 Rule은 비슷한 의미를 갖는다
- MilK를 구매한 사람이 Wheat Bread를 구매할 확률은 70%
- 2% Milk를 구매한 사람이 Wheat Bread를 구매할 확률은 72%
위의 경우에서 첫번째 Rule이 두번째 Rule의 Ancestor라고 한다

그렇다면 어떤 경우에 Rule이 Redundant하다고 판단 할까?

Support가 Ancestor의 Supoort에 기반한 기대값과 유사할 때
Confidence가 Ancestor의 Confidence와 유사할 때
위의 예시에서 Ancestor Rule의 Support는 8%이고, 두번째 Rule의 Support는 2%로 차이가 꽤난다고 볼 수 있다
그런데 기대값을 생각해보면, 마트에 비치되어 있는 전체 Milk 중에 2% Milk가 1/4 정도라면, 비슷한 기대값을 갖는다고 볼 수 있다
- 2% * 4 = 8%

Mining Multi-Dimensional Associations

다차원의 속성이 Association Rule을 형성하는 경우

Single-Dimensional Rules

Multi-Dimensional Rules ( >= 2 Dimensions)

Inter-Dimension Association Rules (반복되는 Dimension이 없는 경우)

Hybrid-Dimension Association Rules (반복되는 Dimension이 있는 경우)
- 위의 예시에서는 buys가 반복

Attribute Types

Attribute, Feature, Dimension은 모두 같은 말이다

Categorical Attributes
- Attribute 값의 범위가 유한하고, 값들 사이에 순서가 없는 경우
- Ex) Occupation, Buys
Quantitative Attributes
- Attribute 값의 도메인이 숫자 이고, 값들 사이에 명시적인 순서가 있는 경우
- 보통 값이 연속적이기 때문에 Discretization이 필요하다
  - 연속적인 값을 범위로 자르는 것
  - Ex) 키가 150 ~ 155, 155 ~ 160, ...
- Ex) Age, Height, Weight

Quantitative Association Rules

정량적인 Association Rules

Numeric한 Attributes들은 Discretize된다고 했다
Association Rule의 틀은 다음과 같다 A_quan ^ A_quan => A_categorical
정량적인 값들이 모여서 범주적인 값을 결정
우리는 조금 더 일반적인 Rule을 생성하기 위해서 인접한 Rule끼리 클러스터링 을 하기도 한다

예시

min_sup, min_conf를 만족하는 셀을 체크한다
age(X, "34-35") ^ income(X, "30-50K") => buys(X, "high resolution TV")
Cluster의 장점은 비슷한 Rule들을 모아서 Universal Rule을 만듦으로써 Rule의 수를 줄여준다

From Association Mining to Correlation Analysis

Association Rule이 의미가 있는지를 분석해야 한다

위와 같은 Rule이 있을 때, 오 농구를 하는 학생들은 시리얼을 먹는 경향이 있구나! 라고 잘못된 분석을 하게 된다
애초에 시리얼을 먹는 학생의 비율이 75%라고 한다면, 위의 Rule은 의미없는 Rule이다
66.7%라는 Confidence는 꽤나 높아보이기 때문에 의미있는 Rule로 생각될 수 있지만, 원래 시리얼을 먹는 비율보다 작기 때문에 의미없는 Rule이다

오히려 이렇게 되어야 의미있는 Rule이 된다
무조건 Support와 Confidence가 높다고 의미있는 Rule이 아니라는 것을 보여준다
33.3% > 25% 이기 때문에, 농구를 하는 학생들은 시리얼을 먹지 않는 경향을 보이는구나 라고 해석이 가능하다

Support & Confidence를 사용하는 Framework의 한계이다
=> Rule만 보고서는 Positive Correlation을 갖는지 파악하기가 어렵다

Lift

Rule의 Interestingness를 측정하는 방법

lift값이 1보다 작으면 General trend에 비해 Negative Correlation을 갖는다는 뜻
- lift(Basketball, Cereal) = 0.89 이므로 Negative Correlation을 갖는다
- lift(Basketball, Not Cereal) = 1.33 이므로 Positive Correlation을 갖는다

정리

지금까지의 내용 정리

Frequent Pattern & Association Rule Mininng은 데이터 마이닝에서 중요한 작업이다
Pattern의 수가 너무 많아지지 않게 Scalable Frequent Pattern Mining을 하는 방법이 필요하다
- Apriori
- FP-growth
- Miner Improvements
  - DIC, Partition, Sampling, MaxMiner, CHARM, ...
다양한 방식으로 Rule들을 마이닝할 수 있다
- Hierarchy and Multi-attribute Settings, Lift, ...

728x90

저작자표시

'HYU > 데이터사이언스' 카테고리의 다른 글

9. Decision Tree (0)	2024.04.13
8. Classification (0)	2024.04.13
6. Miner Improvements (0)	2024.04.13
5. FP-growth (0)	2024.04.13
4. Improving Apriori (0)	2024.04.13

코북이 🐢 :기록하는 습관

7. Association Rules

Association Rules

Mining Multilevel Association Rules

Redundancy Filtering

Mining Multi-Dimensional Associations

Attribute Types

Quantitative Association Rules

From Association Mining to Correlation Analysis

Lift

정리

'HYU > 데이터사이언스' 카테고리의 다른 글

티스토리툴바

7. Association Rules

Association Rules

Mining Multilevel Association Rules

Redundancy Filtering

Mining Multi-Dimensional Associations

Attribute Types

Quantitative Association Rules

From Association Mining to Correlation Analysis

Lift

정리

'HYU > 데이터사이언스' 카테고리의 다른 글

관련글

티스토리툴바