์ ์ฒด ๊ธ207 7. Association Rules Frequent Pattern์ ์ถ์ถํ์ผ๋, ์ด๊ฒ์ ์ด์ฉํด์ Association Rule๋ค์ ๋ง๋ค๊ณ ํ๊ฐํด์ผ ํ๋ค Association Rules Mining Multilevel Association Mining Multidimensional Association Mining Quantitative Assocation Mining Interesting Correlation Patterns Mining Multilevel Association Rules Item๋ค์ ์ข ์ข ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ค ์๋ฅผ ๋ค๋ฉด, Milk์ 2% Milk Milk๊ฐ 2% Milk์ ์์ ๊ฐ๋ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค ๊ฐ ๊ณ์ธต๋ง๋ค ์ ์ฐํ๊ฒ Minimum Supoort๋ฅผ ์ค์ ํด์ฃผ๋ ๊ฒ์ด ํ์ํ๋ค ๊ณ์ธต์ด ๋ด๋ ค๊ฐ์๋ก ๋น์ฐํ Support๊ฐ ์์.. 2024. 4. 13. 6. Miner Improvements ์ง๊ธ๊น์ง Frequent Pattern Mining์ ํ๊ธฐ ์ํ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณด์๋ค Apriori๋ Candidate์ ์๋ฅผ ์ค์ฌ์ฃผ๊ธด ํ์ง๋ง ์ฌ์ ํ ๊ทธ ์๊ฐ ๋๋ฌด ๋ง๊ณ , DB ์ ๊ทผ๋ ๋๋ฌด ๋ง๋ค ๊ทธ๋์ ์ด๊ฑธ ๊ฐ์ ํ๊ธฐ ์ํ Improving Apriori ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ณด์๋ค ๊ทธ๋ผ์๋ ์ฌ์ ํ Candidate๋ฅผ ์์ฑํ๊ณ , Testํ๋ ๊ฒ์ด ๋ฌด๊ฑฐ์ด ์์ ์ด๋ผ ์ด๊ฒ์ ํ์ง ์์๋ ๋๋ FP-growth๋ผ๋ ๋ฐฉ๋ฒ๋ ๋ดค๋ค ์ด๊ฒ ์ธ์ ๋ค๋ฅธ ๋ง์ด๋์ Improveํ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณผ ๊ฒ์ด๋ค MaxMiner Mining Max Patterns Recall Max Pattern : Max Pattern์ X์ Superset(X ⊂ Y) ์ค์ Frequent Pattern์ด ์กด์ฌํ์ง ์์ผ๋ฉด, Itemset X๋ฅผ.. 2024. 4. 13. 5. FP-growth Frequent Pattern Growth ์ด์ ๊น์ง๋ Apriori algorithm์ ์ฌ์ฉํด์ Freqeunt Pattern Mining์ ํ๋ ๋ฐฉ๋ฒ์ ๋ดค๋ค Apriori์ ํ๊ณ๋ฅผ ๊ฐ์ ํ Improving Apriori ๋ฐฉ๋ฒ๋ค๋ ์ดํด๋ณด์๋ค DIC, Partition, Sampling, DHP ๊ทธ๋ผ์๋ ์ฌ์ ํ ๋๋ฆฌ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค Candidate๋ฅผ ์์ฑํ๊ณ , Testํ๋ ๊ณผ์ ์์ฒด๊ฐ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ(Bottleneck) FP-growth Mining Frequent Patterns without Candidate Generation Candidate๋ฅผ Generateํ๋ ๊ฒ ์์ฒด๋ฅผ ํ์ง ์๋ ๋ฐฉ๋ฒ Local Frequent Item๋ค์ ์ฌ์ฉํด์, ์งง์ Pattern์ผ๋ก๋ถํฐ ๊ธด Pattern์ ์์ฑํด๋ด.. 2024. 4. 13. 4. Improving Apriori Apriori ์๊ณ ๋ฆฌ์ฆ์๋ ์ฌ๋ฌ ํ๊ณ๊ฐ ์กด์ฌํ๋ค๊ณ ํ๋ค Multiple scans of DB (k times) ๋๋ต k๋ฒ์ DB ์ค์บ์ด ๋ฐ์ํ๋ค๋ ๊ฒ ์ฌ๊ธฐ์ k๋ Max Pattern์ ๊ธธ์ด์ด๋ค DB ์ ๊ทผ์ ๋๋ฌด ๋๋ฆฌ๊ธฐ ๋๋ฌธ์ ๊ฐ์ ์ด ํ์ํ๋ค Huge number of candidates ํ๋ณด๊ตฐ์ ์๊ฐ ๋๋ฌด ๋ง๋ค Max Pattern {i1, i2, ..., i100}์ ์ฐพ๊ธฐ ์ํด์๋ # of scans(k): 100 # of candidates: 2^100 - 1 ๋งํผ์ ํ๋ณด๊ตฐ Tedious workload of Candidate generation and Test Candidate๋ค์ Support๋ฅผ Countํ๋ ๊ฒ์ Cost๊ฐ ๊ฝค ํฌ๋ค Improving Apriori Apriori๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ.. 2024. 4. 13. 3. Apriori Scalable Mining Method ์ค ํ๋ Scale down์ ํ๋ฉด์ Frequent Pattern์ ์ฐพ๋ Method ์ค ํ๋ Apriori Candidate Generation and Test Approach Apriori์์ Scaledown์ ํ๋ ์๋ฆฌ๋ Infrequentํ Pattern์ด ์๋ค๋ฉด, ํด๋น ํจํด์ Superset์ ์ ๋ Frequentํ ์๊ฐ ์๋ค๋ ๊ฒ์ ์ด์ฉ Downward property ์ด์ฉ ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ตณ์ด Generationํ๊ณ Testํ ํ์๊ฐ ์๋ค ์ฒดํฌํด์ผ ํ ํจํด์ ์๋ฅผ ์ค์ฌ์ค๋ค ๋ฐฉ๋ฒ์ ๊ฐ๋ตํ๊ฒ ๋ณด๋ฉด 1. DB๋ฅผ ์ค์บํด์ ํฌ๊ธฐ๊ฐ 1์ธ Frequent Pattern๋ค์ ์ฐพ๋๋ค 2. ์๋์ ๊ณผ์ ์ ๊ณ์ํด์ ๋ฐ๋ณตํ๋ค 2-1. ๊ธธ์ด๊ฐ K์ธ Frequent Patt.. 2024. 4. 13. 2. Frequent Patterns Mining Frequent Patterns, Association and Correlatons Frequent Pattern Mining ๋ฐ์ดํฐ ์์์ ์์ฃผ ๋ฑ์ฅํ๋ ํจํด์ ๋ถ์ํ๋ ๊ธฐ์ Frequent Pattern? : ๋ฐ์ดํฐ์ ๋ด์์ ์์ฃผ ๋ฑ์ฅํ๋ ํจํด ์๋ฅผ ๋ค๋ฉด, ์์ฃผ ํจ๊ป ๊ตฌ๋งค๋๋ ์ํ๋ค Motivation? ๋ฐ์ดํฐ ์์ ๋ด์ฌ๋ ํจํด๋ค ์ฐพ๊ธฐ ์ํจ ์ด๋ค ์ํ๋ค์ด ํจ๊ป ๊ตฌ๋งค๊ฐ ๋๋๊ฐ? (์ด๊ฒ ์์ผ๋ก ์ฃผ๋ก ๋ค๋ค์ง ์์) Beers and Diapers ๊ธฐ์ ๊ท์ ๋งฅ์ฃผ๋ ํจ๊ป ๊ตฌ๋งค๊ฐ ๋๋ ๊ฒฝํฅ์ด ์๋ค ์ด ์ ๋ณด๋ฅผ ์๋ฉด ๊ธฐ์ ๊ท์ ๋งฅ์ฃผ๋ฅผ ํจ๊ป ๋น์นํ๋ฉด ํ๋งค์จ์ด ์ฌ๋ผ๊ฐ ๊ฒ ํน์ ์ํ์ ๊ตฌ๋งคํ ๋ค์ ์์ฐจ์ ์ผ๋ก ์ด๋ค ๊ฒ์ ๊ตฌ๋งคํ๋ ๊ฒฝํฅ์ด ์๋๊ฐ? ๋์งํธ ์นด๋ฉ๋ผ๋ฅผ ๊ตฌ๋งคํ ํ์ ์ผ๋ง์๋ค๊ฐ SD์นด๋(๋ฉ๋ชจ๋ฆฌ)๋ฅผ ๊ตฌ๋งคํ๋.. 2024. 4. 13. 1. Introduction What is Data Mining? ๋ฐ์ดํฐ ๋ง์ด๋์ด๋ ๋ฌด์์ผ๊น ๋๋์ ๋ฐ์ดํฐ ์์์ ํฅ๋ฏธ๋กญ๊ณ ์ค์ํ ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ๋ฝ์๋ด๋ ๊ณผ์ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ํฅ๋ฏธ๋กญ๊ณ ์ค์? Non-trivial, Implicit, Previously unknown, Potentially usefull ,,, ํ ์ ๋ณด๋ค ์์ฆ ์ฐ๋ฆฌ๋ ๋๋์ ๋ฐ์ดํฐ ์๋์ ์ด๊ณ ์๊ณ , ๋ฐ์ดํฐ๋ ๊ณ์ํด์ ์์ฌ๊ฐ๊ธฐ ๋๋ฌธ์ ๊ทธ ์์์ ์ค์ํ ์๋ฏธ๋ฅผ ์ฐพ์์ผ ํ๋ค Knowledge Discovery Process ๋๋์ ๋ฐ์ดํฐ ์์์ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ฐพ์๋ด๋ ๊ณผ์ Data Cleaning ๋ฐ์ดํฐ์ ์์ฌ์๋ ๋ ธ์ด์ฆ, ์๋ฌ ๋ฑ์ ์ ๊ฑฐํ๋ ๊ณผ์ Data Warehouse ๋๋์ ๋ฐ์ดํฐ๋ค์ด ์ ์ฅ๋ ์ ์ฅ์ Task-relevant Data ํ์ฌ ์งํํ๊ณ ์๋ Task.. 2024. 4. 13. ๋ ๋์ค ? Redis์ผ๋ฐ์ ์ผ๋ก ๋ ๋์ค๋ผ ํ์ ๋ ๋ ์ค๋ฅด๋ ์ด๋ฏธ์ง๋,DB์ ์ ๊ทผํ๋ ๊ฒ์ด ๋๋ฆฌ๊ธฐ ๋๋ฌธ์ DB ๋ฐ์ดํฐ์ ์ผ๋ถ๋ฅผ ์ ์ฅํ๋ ์บ์ ์ญํ ์ Key-Value Store๋ผ๊ณ ์๊ณ ์๋ค.๋๋ต์ ์ผ๋ก ์ด์ ๋๋ ์์ง๋ง, ์ ํํ๋ ์ ๋ชฐ๋๊ธฐ ๋๋ฌธ์ ์ด๋ฒ์ ์ ๋ฆฌ๋ฅผ ํ๋ฒ ํด๋ณด๊ณ ์ ํ๋ค ์ต๊ทผ ์ด์Redis๋ ์๋๋ ์คํ์์ค์์ผ๋, ์ต๊ทผ์ ๋ผ์ด์ผ์ค๊ฐ ๋ณ๊ฒฝ๋์ด ๋์ด์ ์คํ์์ค๊ฐ ์๋๊ฒ ๋์๋ค๋คํ(?)์ธ ์ ์ ๊ธฐ์กด ๊ฐ๋ฐ์ ์ค ๋ช๋ช ์ด Fork๋ฅผ ๋ ์ ๊ฐ์ง๊ณ ๋์์ ValKey๋ผ๋ ์คํ ์์ค๋ฅผ ๋ง๋ค๊ฒ ๋์๋คValKey๋ ํ์ฌ Linux์ ์ฌ๋จ์์ ๊ด๋ฆฌ๋ฅผ ํ๊ณ ์๊ณ , ์ด๋ฏธ ๋ง์ ์ฌ์ฉ์๋ค์ด ValKey๋ฅผ ์ฌ์ฉํ๊ณ ์๋คFork๋ฅผ ๋ ์จ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ํ์ฌ๊น์ง๋ ์ฌ์ฉ๋ฒ์ ํฐ ์ฐจ์ด๊ฐ ์๋ค Redis?๋ ๋์ค๋ ๋ฌด์์ธ๊ฐIn-Memory Cache.. 2024. 4. 13. 8. ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ตฌ์ถ ์ด๋ฒ ํ๋ ์์ฝ ์ด๋ฒ์ฃผ์๋ ๋ฐฑ์๋ ์๋ฒ ๊ตฌ์ถ์ ์ํด์ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์์ฑํ์๋ค ์๋ฒ ์ปดํจํฐ์ ์๋ฒ๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ ์, ๋จผ์ ๋ก์ปฌ์์ ๊ฐ๋ฐ ์์ ์ ํ๋ ค๊ณ ํ๋ค. ๊ทธ๋ผ์๋ ํ์ฌ ๋์ด์ ์์ ์ ํ๋ ์ํฉ์ด๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ ๊ณต์ ๋ฅผ ํ๋ฉด ์ข๊ฒ ๋ค๊ณ ์๊ฐํ์ฌ, ์๋ฒ ์ปดํจํฐ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ง ๋จผ์ ์ค์น๋ฅผ ํ๊ธฐ๋ก ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ๋ก์ปฌ์์ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ง ์ฐ๊ฒฐ์ ํด์ ๋ฐฑ์๋ ์์ ์ ์งํํ๊ณ ์ ํ๋ค ๋ฐ์ดํฐ๋ฒ ์ด์ค ์๋ฒ ์ปดํจํฐ์ ์๋ก ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ค์นํ๋ค ๋จผ์ ์ด๋ค DB๋ฅผ ์ธ ๊ฒ์ธ์ง๋ฅผ ๊ณ ๋ฏผํ๋ค. ํฌ๊ฒ ๋ดค์ ๋, SQL๊ณผ NoSQL๋ก ๋๋ ์ ์๋ค. SQL์ ๊ฒฝ์ฐ์๋ ์ฃผ๋ก ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก ์๊ฐํ ์ ์๊ณ , NoSQL์ ๊ทธ์ ๋ฐ๋๋๋ ๋น๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ผ๊ณ ์๊ฐํ ์ ์๋ค. NoSQL์ ์ฅ์ ์ ์กฐํ๊ฐ ๋น ๋ฅด๊ณ , ๋์ฉ๋.. 2024. 3. 31. ์ด์ 1 2 3 4 5 ยทยทยท 23 ๋ค์