HYU39 10. Louvain Algorithm ์ ์ฉ ๋ฐ ๋ก๊ทธ์ธ ๊ตฌํ ์ด๋ฒ ํ๋ ์์ฝ์ง๋ ๋ฒ์ ์ ๋์จ ํ์ธ๋์ ์ฌ์ฉ์ผ๋ก ๋ฐ์ํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ณ ์ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํ๋ค์ด์ ์๋ ์ปค๋ฎค๋ํฐ๋ฅผ ํ์งํ๊ธฐ ์ํด์ Union-Find ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ค.์ฒ์์ ํ๊ธฐ์ ์ธ ์๊ฐ์ด๋ผ๊ณ ์ฌ๊ฒผ์ง๋ง, ๋ฐ์ดํฐ๊ฐ ๋ง์์ง๋ค๋ณด๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.๋ฐ์ดํฐ๊ฐ ๋ง์์ง๋ค๋ณด๋ ์์์ ๋ ๋ฐ์ดํฐ ๊ฐ์ ์ด๋ป๊ฒ๋ ํ๊ณ ํ๊ณ ์ฐ๊ฒฐ์ด ๋์ด ์์๊ณ , ๊ทธ๋ฌ๋ค๋ณด๋ Union-Find๋ก ์งํฉ์ ์ฐพ์์ ๋๋ ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ํ๋์ ์งํฉ์ ์์๋ ๊ฒ์ผ๋ก ์ธ์๋๋ค๋ ๋ฌธ์ ๊ฐ ์์๋ค Modularity๋คํธ์ํฌ ๋ด์ ์ปค๋ฎค๋ํฐ๊ฐ ์ผ๋ง๋ ๋ชจ๋ํ ๋์ด ์๋๊ฐ ๋ฅผ ์ ๋์ ์ผ๋ก ๋ํ๋ด๊ธฐ ์ํ ๊ฐ์ง๋ ๋ฏธํ ๋ ์กฐ๊ต๋์ด Modularity ์๊ณ ๋ฆฌ์ฆ์ ํ๋ฒ ์์๋ณด๋ผ๊ณ ์ถ์ฒํด์ฃผ์ จ๋คModulairty๋ ์ปค๋ฎค๋ํฐ ๋ด๋ถ์ ํผ์ณ์ ธ ์๋ ๋งํฌ๋ค์ด ๋ฌด์์์ ์ธ ์ฐ๊ฒฐ.. 2024. 5. 17. 12. Evaluation & Ensemble Classification Model์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐฉ๋ฒ๊ณผ ์์๋ธ์ ๋ํด์ ๋ค๋ฃฐ ๊ฒ์ด๋ค Accuracy Evaluation ๋ชจ๋ธ์ ์ ํ์ฑ์ ํ๊ฐ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํตํด์ ๋ชจ๋ธ์ ๋ถ๋ฅ ์ ํ์ฑ์ ํ๊ฐ ํ๋ค Test Data ์ ํ์ฑ ์ธก์ ์ ์ํด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ ์ ํํ ๋ชจ๋ธ์ ์ ๋ ฅํ ๋๋ ์ ๋ต ํด๋์ค๋ฅผ ์ ์ธํ๊ณ ์ ๋ ฅํ ํ, ์์ธก๊ฐ๊ณผ ์ฃผ์ด์ง Class Label์ ๋น๊ตํ๋ค Accuray = ๋ชจ๋ธ์ด ์ ํํ๊ฒ ๋ถ๋ฅํ ๊ฐ์ ํ ์คํธ ๋ฐ์ดํฐ๋ ํ์ต์ ์ฌ์ฉ๋์ง ์์ ๋ ๋ฆฝ์ ์ธ ๋ฐ์ดํฐ์ฌ์ผ ํ๋ค ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ก ํ ์คํธ๋ฅผ ํ๋ ๊ฑด, ์ด๋ฏธ ๋ต์ ์๋ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์ Confusion Matrix ๋ถ๋ฅ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ ๊ฐ ์ํธ๋ฆฌ๋ class i์ธ ๋ฐ์ดํฐ์ ๋ํด ๋ชจ๋ธ์ด class j๋ก ์์ธกํ ๊ฐ์๋ฅผ ์๋ฏธํ๋ค Tru.. 2024. 4. 16. 9. ๋ฐ์ดํฐ ์ถ๊ฐ ๋ฐ ์ฐ๋ ์ด๋ฒ ํ๋ ์์ฝ ์ง๋ ๋ฒ์ ๊ตฌ์ถํด๋ ์๋ฒ์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๊ณ , ํ๋ก ํธ์ ์ฐ๋ํ๋ ์์ ์ ์งํํ๋ค ์ด์ ๊น์ง ๋ฐฑ์๋ ์๋ฒ๋ฅผ ๊ตฌ์ถํ๊ณ ๊ธฐ๋ณธ์ ์ธ CRUD๋ฅผ ๊ตฌํํ์๋ค ์ด๋ฒ์๋ DB์ ๋๋ฏธ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๊ณ , ํ๋ก ํธ์๋์์ API๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๋ ๊ฒ๊น์ง ์งํ์ ํ๋ค ๋ฐ์ดํฐ ์ถ๊ฐ ๊ธฐ์กด์ ํ๋ก ํธ์์ ์ง์ ์ ์ฅํ์ฌ ์ฐ๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ DB์ ์ถ๊ฐํ๋ ์์ ์ ํ๋ค ์ด๊ธฐ ๋ฐ์ดํฐ ์ ์ฅ์ ์ํด ํ๋ก ํธ์์ String ํํ๋ก ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฑํด์ ์๋ฒ์ ์ ์ฅํ๋ค ์ด๋, ํด๋ฌ์คํฐ๋ง์ ํด์ ๋ฏธ๋ฆฌ ํด๋ฌ์คํฐ๋ณ๋ก ์์์ ์ง์ ํด์ ์์๊ฐ๋ ํจ๊ป ์ ์ฅํ๋ค ์๋๋ ์ด ๋ก์ง์ ํ๋ก ํธ์์ ์ง์ ํ ๋ค์, ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ ค๋ด๊ณ ์์๋๋ฐ DB์์ ๋ฐ์์ค๊ฒ ๋๋ค ์ด๋ฏธ ๋ชจ๋ ์ค๋น๊ฐ ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์์์ ์ถ๋ ฅํ๊ธฐ ๋๋ฌธ์, ์ด๊ธฐ ํ๋ฉด ๊ตฌ์ฑ์ด ๋นจ๋ผ์ก์.. 2024. 4. 14. 11. Rule Based Classification Rule์ ๊ธฐ๋ฐํ ๋ถ๋ฅ๊ธฐ ๊ธฐ๋ณธ์ ์ธ ์์ด๋์ด๋ IF-THEN์ ์ฌ์ฉํ๋ ๊ฒ Ex) IF age = youth AND student = false THEN buys_computer = no ๋ฐ์ดํฐ์ ์๊ฐ ๊ทธ๋ ๊ฒ ๋ง์ง ์์ ๊ฒฝ์ฐ์ ์ฌ์ฉํ ์ ์๋ค ์ด Rule๋ค์ Domain Experts (Human Experts)์ ์ํด์ ๋ง๋ค์ด์ง๋ค ํน์ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ ๊ฐ์ Rule์ ๋ถํฉํ๋ ๊ฒฝ์ฐ์๋ Conflict Resolution์ด ํ์ํ๋ค Size Ordering Rule์ Size๋ผ๋ ๊ฒ์ IF๋ฌธ์ ๊ฑธ๋ ค์๋ Feature์ ์ ์ฆ, Size๊ฐ ํฌ๋ค๋ ๊ฒ์ Rule์ด ๊ตฌ์ฒด์ ์ด๊ณ Toughest ํ๋ค๋ ๊ฒ์ด๋ค Size๊ฐ ํฐ Rule์ผ์๋ก ๋ ๋์ ์ฐ์ ์์๋ฅผ ์ฃผ๋ ๋ฐฉ์ Class-based Ordering Miscla.. 2024. 4. 14. 10. Overfitting Training Data๋ฅผ ์ฌ์ฉํด์ Decision Tree๋ฅผ Top-down ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ๊ฒ์ ๋ดค๋ค ํ์ต์ ์ธ์ ์ข ๋ฃํ๋ ๊ฒ์ด ์ข์๊น? ๋ ธ๋์ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ค์ด ๊ฐ์ Class๋ฅผ ๊ฐ์ง ๋๊น์ง ๋ถ๋ฅํ๋ค ๊ทธ๋ฌ๋ฉด ํ์ต ๋ฐ์ดํฐ์ ๋ํด์ 100% ๋ถ๋ฅ ์ ํ๋๋ฅผ ๋ณด์ด๋ Decision Tree๊ฐ ๋ง๋ค์ด์ง๊ฒ ๋๋ค ์์ฒ๋ผ ํ์ต์ด ๋๋ฉด ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด 100% ์ ํํ ๋ถ๋ฅํ๋ Decision Tree๊ฐ ํ์ต๋์๋ค ์ด๊ฒ ๊ณผ์ฐ ์ข์ ๊ฒ์ผ๊น? ์๋๋ค. Overfitting์ด ๋ ๊ฒ ์ด๋ค Overfitting of Decision Tree Models Decision Tree๋ Overfitting์ด ๋ฐ์ํ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค Overfitting์ด ๋๋ค๋ ๊ฒ์ ์ ๋ฌธ์ ์ผ๊น ๋๋ฌด ๋ง์ Branch๊ฐ ์๊ธฐ๊ฒ ๋๊ณ ,.. 2024. 4. 14. 9. Decision Tree What is Decesion Tree? Decision Tree๋ ํน์ ์กฐ๊ฑด์ ๊ธฐ๋ฐํ์ฌ ๊ฒฐ์ ์ ๋ํ ๋ชจ๋ ๊ฐ๋ฅํ ํด๊ฒฐ์ฑ ์ ์๊ฐ์ ์ผ๋ก ๋ํ๋ธ ๊ทธ๋ํฝ ํํ์ด๋ค ์ค๊ฐ ๋ ธ๋๋ ์ฌ๋ฌ Alternatives ์ค์ ์ด๋ ํ ์ ํ์ ์๋ฏธํ๋ค ๋ฆฌํ ๋ ธ๋๋ ์ต์ข Decision์ ์๋ฏธํ๋ค ๊ทธ๋ฆผ์์ ๋์ด๊ฐ 30์ธ ์ดํ์ด๊ณ , ํ์์ด ์๋๋ฉด ์ปดํจํฐ๋ฅผ ์ฌ์ง ์์ ๊ฒ์ด๋ผ๊ณ ์์ธก Algorithm Overview Decision Tree ์๊ณ ๋ฆฌ์ฆ์ ๋๋ต์ ์ธ ๊ณผ์ ๋ถํ ์ ๋ณต์ ์ฌ์ฉํด์ Top-down ๋ฐฉ์์ผ๋ก ํธ๋ฆฌ๋ฅผ ํ์ฑํ๋ค ์ฒ์์๋ ๋ชจ๋ Training data๋ Root๋ก๋ถํฐ ์์ํ๋ค ๋ฐ์ดํฐ๋ค์ ํ์ฌ ๋จ๊ณ์์ ์ ํ๋ Feature๋ฅผ ๊ธฐ์ค์ผ๋ก Recursiveํ๊ฒ ๋๋๋ค ์ด๋ ํ์ฌ ๋จ๊ณ์์ ์ด๋ค Feature๋ฅผ ์ ํํ ์ง๋, Heuri.. 2024. 4. 13. 8. Classification Classification์ด๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ Class label์ ์์ธกํ๋ ๊ฒ Classificaiotn vs Regression ๋์ ์ด๋ค ์ฐจ์ด๊ฐ ์์๊น? Classification ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด Categoricalํ Class label์ ์์ธก ํ๋ ๊ฒ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด์ Classifier๋ฅผ ํ์ต์ํจ ๋ค์, ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ ๋ฃ์ด์ ๊ฒฐ๊ณผ๋ฅผ ์์ธก Ex) ๋ ์จ๊ฐ ์ถ์ด์ง ์ ์ถ์ด์ง ํ๋ณํ๋ ๋ชจ๋ธ Regression Continuousํ ๊ฐ์ ๋ฑ์ด๋ด๋ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค Unknownํ๊ฑฐ๋ Missing๋ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์์ธกํ๋ค ์ฐ์๋ ๊ฐ์ ์์ธก ํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ Ex) ๊ธฐ์จ์ ์์ธกํ๋ ๋ชจ๋ธ Classification Classification์ ์ํํ๋ ๋ชจ๋ธ์ ์ด๋ป๊ฒ.. 2024. 4. 13. 7. Association Rules Frequent Pattern์ ์ถ์ถํ์ผ๋, ์ด๊ฒ์ ์ด์ฉํด์ Association Rule๋ค์ ๋ง๋ค๊ณ ํ๊ฐํด์ผ ํ๋ค Association Rules Mining Multilevel Association Mining Multidimensional Association Mining Quantitative Assocation Mining Interesting Correlation Patterns Mining Multilevel Association Rules Item๋ค์ ์ข ์ข ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ค ์๋ฅผ ๋ค๋ฉด, Milk์ 2% Milk Milk๊ฐ 2% Milk์ ์์ ๊ฐ๋ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค ๊ฐ ๊ณ์ธต๋ง๋ค ์ ์ฐํ๊ฒ Minimum Supoort๋ฅผ ์ค์ ํด์ฃผ๋ ๊ฒ์ด ํ์ํ๋ค ๊ณ์ธต์ด ๋ด๋ ค๊ฐ์๋ก ๋น์ฐํ Support๊ฐ ์์.. 2024. 4. 13. 6. Miner Improvements ์ง๊ธ๊น์ง Frequent Pattern Mining์ ํ๊ธฐ ์ํ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณด์๋ค Apriori๋ Candidate์ ์๋ฅผ ์ค์ฌ์ฃผ๊ธด ํ์ง๋ง ์ฌ์ ํ ๊ทธ ์๊ฐ ๋๋ฌด ๋ง๊ณ , DB ์ ๊ทผ๋ ๋๋ฌด ๋ง๋ค ๊ทธ๋์ ์ด๊ฑธ ๊ฐ์ ํ๊ธฐ ์ํ Improving Apriori ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ณด์๋ค ๊ทธ๋ผ์๋ ์ฌ์ ํ Candidate๋ฅผ ์์ฑํ๊ณ , Testํ๋ ๊ฒ์ด ๋ฌด๊ฑฐ์ด ์์ ์ด๋ผ ์ด๊ฒ์ ํ์ง ์์๋ ๋๋ FP-growth๋ผ๋ ๋ฐฉ๋ฒ๋ ๋ดค๋ค ์ด๊ฒ ์ธ์ ๋ค๋ฅธ ๋ง์ด๋์ Improveํ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณผ ๊ฒ์ด๋ค MaxMiner Mining Max Patterns Recall Max Pattern : Max Pattern์ X์ Superset(X ⊂ Y) ์ค์ Frequent Pattern์ด ์กด์ฌํ์ง ์์ผ๋ฉด, Itemset X๋ฅผ.. 2024. 4. 13. ์ด์ 1 2 3 4 5 ๋ค์