본문 바로가기
HYU/데이터사이언스

7. Association Rules

by Jaeguk 2024. 4. 13.

Frequent Pattern을 추출했으니, 이것을 이용해서 Association Rule들을 만들고 평가해야 한다

 

Association Rules


  • Mining Multilevel Association
  • Mining Multidimensional Association
  • Mining Quantitative Assocation
  • Mining Interesting Correlation Patterns

 

Mining Multilevel Association Rules


Item들은 종종 계층 구조를 형성한다

  • 예를 들면, Milk와 2% Milk
    • Milk가 2% Milk의 상위 개념이라고 볼 수 있다
  • 각 계층마다 유연하게 Minimum Supoort를 설정해주는 것이 필요하다
    • 계층이 내려갈수록 당연히 Support가 작아질텐데, 이걸 고려해야한다는 주장
    • 낮은 계층의 Item들과, 높은 계층의 Item들이 Frequent Pattern에 포함될 수 있는 확률이 비슷하도록 조정을 해야 한다

 

  • Uniform Setting
    • Hierarchy에 상관없이 동일한 min_sup값 적용
    • 지금까지 봐온 방식
  • Flexible Setting
    • Low level 일수록 더 낮은 기준 적용

 

Redundancy Filtering


계층 구조가 형성되다 보면, 의미없는 Rule이 생성되는 경우가 있다

  • Ancestor로 인해서 불필요한 Rule의 중복이 발생할 수 있다

 

  • 위의 두 Rule은 비슷한 의미를 갖는다
    • MilK를 구매한 사람이 Wheat Bread를 구매할 확률은 70%
    • 2% Milk를 구매한 사람이 Wheat Bread를 구매할 확률은 72%
  • 위의 경우에서 첫번째 Rule이 두번째 Rule의 Ancestor라고 한다

 

그렇다면 어떤 경우에 Rule이 Redundant하다고 판단 할까?

  • Support가 Ancestor의 Supoort에 기반한 기대값과 유사할 때
  • Confidence가 Ancestor의 Confidence와 유사할 때
  • 위의 예시에서 Ancestor Rule의 Support는 8%이고, 두번째 Rule의 Support는 2%로 차이가 꽤난다고 볼 수 있다
  • 그런데 기대값을 생각해보면, 마트에 비치되어 있는 전체 Milk 중에 2% Milk가 1/4 정도라면, 비슷한 기대값을 갖는다고 볼 수 있다
    • 2% * 4 = 8%

 

Mining Multi-Dimensional Associations


다차원의 속성이 Association Rule을 형성하는 경우

 

Single-Dimensional Rules

 

Multi-Dimensional Rules ( >= 2 Dimensions)

  • Inter-Dimension Association Rules (반복되는 Dimension이 없는 경우) 

 

  • Hybrid-Dimension Association Rules (반복되는 Dimension이 있는 경우)
    • 위의 예시에서는 buys가 반복

 

Attribute Types


Attribute, Feature, Dimension은 모두 같은 말이다

  • Categorical Attributes
    • Attribute 값의 범위가 유한하고, 값들 사이에 순서가 없는 경우
    • Ex) Occupation, Buys
  • Quantitative Attributes
    • Attribute 값의 도메인이 숫자 이고, 값들 사이에 명시적인 순서가 있는 경우
    • 보통 값이 연속적이기 때문에 Discretization이 필요하다
      • 연속적인 값을 범위로 자르는 것
      • Ex) 키가 150 ~ 155, 155 ~ 160, ... 
    • Ex) Age, Height, Weight

 

Quantitative Association Rules


정량적인 Association Rules

  • Numeric한 Attributes들은 Discretize된다고 했다
  • Association Rule의 틀은 다음과 같다 A_quan ^ A_quan => A_categorical
  • 정량적인 값들이 모여서 범주적인 값을 결정
  • 우리는 조금 더 일반적인 Rule을 생성하기 위해서 인접한 Rule끼리 클러스터링 을 하기도 한다

 

예시

  • min_sup, min_conf를 만족하는 셀을 체크한다
  • age(X, "34-35") ^ income(X, "30-50K") => buys(X, "high resolution TV")
  • Cluster의 장점은 비슷한 Rule들을 모아서 Universal Rule을 만듦으로써 Rule의 수를 줄여준다

 

 

From Association Mining to Correlation Analysis


Association Rule이 의미가 있는지를 분석해야 한다

  • 위와 같은 Rule이 있을 때, 오 농구를 하는 학생들은 시리얼을 먹는 경향이 있구나! 라고 잘못된 분석을 하게 된다
  • 애초에 시리얼을 먹는 학생의 비율이 75%라고 한다면, 위의 Rule은 의미없는 Rule이다
  • 66.7%라는 Confidence는 꽤나 높아보이기 때문에 의미있는 Rule로 생각될 수 있지만, 원래 시리얼을 먹는 비율보다 작기 때문에 의미없는 Rule이다

 

  • 오히려 이렇게 되어야 의미있는 Rule이 된다
  • 무조건 Support와 Confidence가 높다고 의미있는 Rule이 아니라는 것을 보여준다
  • 33.3% > 25% 이기 때문에, 농구를 하는 학생들은 시리얼을 먹지 않는 경향을 보이는구나 라고 해석이 가능하다

 

Support & Confidence를 사용하는 Framework의 한계이다
=> Rule만 보고서는 Positive Correlation을 갖는지 파악하기가 어렵다

 

Lift


Rule의 Interestingness를 측정하는 방법

  • lift값이 1보다 작으면 General trend에 비해 Negative Correlation을 갖는다는 뜻
    • lift(Basketball, Cereal) = 0.89 이므로 Negative Correlation을 갖는다
    • lift(Basketball, Not Cereal) = 1.33 이므로 Positive Correlation을 갖는다

 

정리


지금까지의 내용 정리

  • Frequent Pattern & Association Rule Mininng은 데이터 마이닝에서 중요한 작업이다
  • Pattern의 수가 너무 많아지지 않게 Scalable Frequent Pattern Mining을 하는 방법이 필요하다
    • Apriori
    • FP-growth
    • Miner Improvements
      • DIC, Partition, Sampling, MaxMiner, CHARM, ...
  • 다양한 방식으로 Rule들을 마이닝할 수 있다
    • Hierarchy and Multi-attribute Settings, Lift, ...
728x90

'HYU > 데이터사이언스' 카테고리의 다른 글

9. Decision Tree  (0) 2024.04.13
8. Classification  (0) 2024.04.13
6. Miner Improvements  (0) 2024.04.13
5. FP-growth  (0) 2024.04.13
4. Improving Apriori  (0) 2024.04.13