์ ์ฒด ๊ธ204 12. Evaluation & Ensemble Classification Model์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐฉ๋ฒ๊ณผ ์์๋ธ์ ๋ํด์ ๋ค๋ฃฐ ๊ฒ์ด๋ค Accuracy Evaluation ๋ชจ๋ธ์ ์ ํ์ฑ์ ํ๊ฐ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํตํด์ ๋ชจ๋ธ์ ๋ถ๋ฅ ์ ํ์ฑ์ ํ๊ฐ ํ๋ค Test Data ์ ํ์ฑ ์ธก์ ์ ์ํด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ ์ ํํ ๋ชจ๋ธ์ ์ ๋ ฅํ ๋๋ ์ ๋ต ํด๋์ค๋ฅผ ์ ์ธํ๊ณ ์ ๋ ฅํ ํ, ์์ธก๊ฐ๊ณผ ์ฃผ์ด์ง Class Label์ ๋น๊ตํ๋ค Accuray = ๋ชจ๋ธ์ด ์ ํํ๊ฒ ๋ถ๋ฅํ ๊ฐ์ ํ ์คํธ ๋ฐ์ดํฐ๋ ํ์ต์ ์ฌ์ฉ๋์ง ์์ ๋ ๋ฆฝ์ ์ธ ๋ฐ์ดํฐ์ฌ์ผ ํ๋ค ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ก ํ ์คํธ๋ฅผ ํ๋ ๊ฑด, ์ด๋ฏธ ๋ต์ ์๋ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์ Confusion Matrix ๋ถ๋ฅ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ ๊ฐ ์ํธ๋ฆฌ๋ class i์ธ ๋ฐ์ดํฐ์ ๋ํด ๋ชจ๋ธ์ด class j๋ก ์์ธกํ ๊ฐ์๋ฅผ ์๋ฏธํ๋ค Tru.. 2024. 4. 16. 9. ๋ฐ์ดํฐ ์ถ๊ฐ ๋ฐ ์ฐ๋ ์ด๋ฒ ํ๋ ์์ฝ ์ง๋ ๋ฒ์ ๊ตฌ์ถํด๋ ์๋ฒ์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๊ณ , ํ๋ก ํธ์ ์ฐ๋ํ๋ ์์ ์ ์งํํ๋ค ์ด์ ๊น์ง ๋ฐฑ์๋ ์๋ฒ๋ฅผ ๊ตฌ์ถํ๊ณ ๊ธฐ๋ณธ์ ์ธ CRUD๋ฅผ ๊ตฌํํ์๋ค ์ด๋ฒ์๋ DB์ ๋๋ฏธ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๊ณ , ํ๋ก ํธ์๋์์ API๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๋ ๊ฒ๊น์ง ์งํ์ ํ๋ค ๋ฐ์ดํฐ ์ถ๊ฐ ๊ธฐ์กด์ ํ๋ก ํธ์์ ์ง์ ์ ์ฅํ์ฌ ์ฐ๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ DB์ ์ถ๊ฐํ๋ ์์ ์ ํ๋ค ์ด๊ธฐ ๋ฐ์ดํฐ ์ ์ฅ์ ์ํด ํ๋ก ํธ์์ String ํํ๋ก ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฑํด์ ์๋ฒ์ ์ ์ฅํ๋ค ์ด๋, ํด๋ฌ์คํฐ๋ง์ ํด์ ๋ฏธ๋ฆฌ ํด๋ฌ์คํฐ๋ณ๋ก ์์์ ์ง์ ํด์ ์์๊ฐ๋ ํจ๊ป ์ ์ฅํ๋ค ์๋๋ ์ด ๋ก์ง์ ํ๋ก ํธ์์ ์ง์ ํ ๋ค์, ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ ค๋ด๊ณ ์์๋๋ฐ DB์์ ๋ฐ์์ค๊ฒ ๋๋ค ์ด๋ฏธ ๋ชจ๋ ์ค๋น๊ฐ ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์์์ ์ถ๋ ฅํ๊ธฐ ๋๋ฌธ์, ์ด๊ธฐ ํ๋ฉด ๊ตฌ์ฑ์ด ๋นจ๋ผ์ก์.. 2024. 4. 14. 11. Rule Based Classification Rule์ ๊ธฐ๋ฐํ ๋ถ๋ฅ๊ธฐ ๊ธฐ๋ณธ์ ์ธ ์์ด๋์ด๋ IF-THEN์ ์ฌ์ฉํ๋ ๊ฒ Ex) IF age = youth AND student = false THEN buys_computer = no ๋ฐ์ดํฐ์ ์๊ฐ ๊ทธ๋ ๊ฒ ๋ง์ง ์์ ๊ฒฝ์ฐ์ ์ฌ์ฉํ ์ ์๋ค ์ด Rule๋ค์ Domain Experts (Human Experts)์ ์ํด์ ๋ง๋ค์ด์ง๋ค ํน์ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ ๊ฐ์ Rule์ ๋ถํฉํ๋ ๊ฒฝ์ฐ์๋ Conflict Resolution์ด ํ์ํ๋ค Size Ordering Rule์ Size๋ผ๋ ๊ฒ์ IF๋ฌธ์ ๊ฑธ๋ ค์๋ Feature์ ์ ์ฆ, Size๊ฐ ํฌ๋ค๋ ๊ฒ์ Rule์ด ๊ตฌ์ฒด์ ์ด๊ณ Toughest ํ๋ค๋ ๊ฒ์ด๋ค Size๊ฐ ํฐ Rule์ผ์๋ก ๋ ๋์ ์ฐ์ ์์๋ฅผ ์ฃผ๋ ๋ฐฉ์ Class-based Ordering Miscla.. 2024. 4. 14. 10. Overfitting Training Data๋ฅผ ์ฌ์ฉํด์ Decision Tree๋ฅผ Top-down ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ๊ฒ์ ๋ดค๋ค ํ์ต์ ์ธ์ ์ข ๋ฃํ๋ ๊ฒ์ด ์ข์๊น? ๋ ธ๋์ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ค์ด ๊ฐ์ Class๋ฅผ ๊ฐ์ง ๋๊น์ง ๋ถ๋ฅํ๋ค ๊ทธ๋ฌ๋ฉด ํ์ต ๋ฐ์ดํฐ์ ๋ํด์ 100% ๋ถ๋ฅ ์ ํ๋๋ฅผ ๋ณด์ด๋ Decision Tree๊ฐ ๋ง๋ค์ด์ง๊ฒ ๋๋ค ์์ฒ๋ผ ํ์ต์ด ๋๋ฉด ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด 100% ์ ํํ ๋ถ๋ฅํ๋ Decision Tree๊ฐ ํ์ต๋์๋ค ์ด๊ฒ ๊ณผ์ฐ ์ข์ ๊ฒ์ผ๊น? ์๋๋ค. Overfitting์ด ๋ ๊ฒ ์ด๋ค Overfitting of Decision Tree Models Decision Tree๋ Overfitting์ด ๋ฐ์ํ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค Overfitting์ด ๋๋ค๋ ๊ฒ์ ์ ๋ฌธ์ ์ผ๊น ๋๋ฌด ๋ง์ Branch๊ฐ ์๊ธฐ๊ฒ ๋๊ณ ,.. 2024. 4. 14. 9. Decision Tree What is Decesion Tree? Decision Tree๋ ํน์ ์กฐ๊ฑด์ ๊ธฐ๋ฐํ์ฌ ๊ฒฐ์ ์ ๋ํ ๋ชจ๋ ๊ฐ๋ฅํ ํด๊ฒฐ์ฑ ์ ์๊ฐ์ ์ผ๋ก ๋ํ๋ธ ๊ทธ๋ํฝ ํํ์ด๋ค ์ค๊ฐ ๋ ธ๋๋ ์ฌ๋ฌ Alternatives ์ค์ ์ด๋ ํ ์ ํ์ ์๋ฏธํ๋ค ๋ฆฌํ ๋ ธ๋๋ ์ต์ข Decision์ ์๋ฏธํ๋ค ๊ทธ๋ฆผ์์ ๋์ด๊ฐ 30์ธ ์ดํ์ด๊ณ , ํ์์ด ์๋๋ฉด ์ปดํจํฐ๋ฅผ ์ฌ์ง ์์ ๊ฒ์ด๋ผ๊ณ ์์ธก Algorithm Overview Decision Tree ์๊ณ ๋ฆฌ์ฆ์ ๋๋ต์ ์ธ ๊ณผ์ ๋ถํ ์ ๋ณต์ ์ฌ์ฉํด์ Top-down ๋ฐฉ์์ผ๋ก ํธ๋ฆฌ๋ฅผ ํ์ฑํ๋ค ์ฒ์์๋ ๋ชจ๋ Training data๋ Root๋ก๋ถํฐ ์์ํ๋ค ๋ฐ์ดํฐ๋ค์ ํ์ฌ ๋จ๊ณ์์ ์ ํ๋ Feature๋ฅผ ๊ธฐ์ค์ผ๋ก Recursiveํ๊ฒ ๋๋๋ค ์ด๋ ํ์ฌ ๋จ๊ณ์์ ์ด๋ค Feature๋ฅผ ์ ํํ ์ง๋, Heuri.. 2024. 4. 13. 8. Classification Classification์ด๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ Class label์ ์์ธกํ๋ ๊ฒ Classificaiotn vs Regression ๋์ ์ด๋ค ์ฐจ์ด๊ฐ ์์๊น? Classification ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด Categoricalํ Class label์ ์์ธก ํ๋ ๊ฒ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด์ Classifier๋ฅผ ํ์ต์ํจ ๋ค์, ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ ๋ฃ์ด์ ๊ฒฐ๊ณผ๋ฅผ ์์ธก Ex) ๋ ์จ๊ฐ ์ถ์ด์ง ์ ์ถ์ด์ง ํ๋ณํ๋ ๋ชจ๋ธ Regression Continuousํ ๊ฐ์ ๋ฑ์ด๋ด๋ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค Unknownํ๊ฑฐ๋ Missing๋ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์์ธกํ๋ค ์ฐ์๋ ๊ฐ์ ์์ธก ํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ Ex) ๊ธฐ์จ์ ์์ธกํ๋ ๋ชจ๋ธ Classification Classification์ ์ํํ๋ ๋ชจ๋ธ์ ์ด๋ป๊ฒ.. 2024. 4. 13. 7. Association Rules Frequent Pattern์ ์ถ์ถํ์ผ๋, ์ด๊ฒ์ ์ด์ฉํด์ Association Rule๋ค์ ๋ง๋ค๊ณ ํ๊ฐํด์ผ ํ๋ค Association Rules Mining Multilevel Association Mining Multidimensional Association Mining Quantitative Assocation Mining Interesting Correlation Patterns Mining Multilevel Association Rules Item๋ค์ ์ข ์ข ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ค ์๋ฅผ ๋ค๋ฉด, Milk์ 2% Milk Milk๊ฐ 2% Milk์ ์์ ๊ฐ๋ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค ๊ฐ ๊ณ์ธต๋ง๋ค ์ ์ฐํ๊ฒ Minimum Supoort๋ฅผ ์ค์ ํด์ฃผ๋ ๊ฒ์ด ํ์ํ๋ค ๊ณ์ธต์ด ๋ด๋ ค๊ฐ์๋ก ๋น์ฐํ Support๊ฐ ์์.. 2024. 4. 13. 6. Miner Improvements ์ง๊ธ๊น์ง Frequent Pattern Mining์ ํ๊ธฐ ์ํ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณด์๋ค Apriori๋ Candidate์ ์๋ฅผ ์ค์ฌ์ฃผ๊ธด ํ์ง๋ง ์ฌ์ ํ ๊ทธ ์๊ฐ ๋๋ฌด ๋ง๊ณ , DB ์ ๊ทผ๋ ๋๋ฌด ๋ง๋ค ๊ทธ๋์ ์ด๊ฑธ ๊ฐ์ ํ๊ธฐ ์ํ Improving Apriori ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ณด์๋ค ๊ทธ๋ผ์๋ ์ฌ์ ํ Candidate๋ฅผ ์์ฑํ๊ณ , Testํ๋ ๊ฒ์ด ๋ฌด๊ฑฐ์ด ์์ ์ด๋ผ ์ด๊ฒ์ ํ์ง ์์๋ ๋๋ FP-growth๋ผ๋ ๋ฐฉ๋ฒ๋ ๋ดค๋ค ์ด๊ฒ ์ธ์ ๋ค๋ฅธ ๋ง์ด๋์ Improveํ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณผ ๊ฒ์ด๋ค MaxMiner Mining Max Patterns Recall Max Pattern : Max Pattern์ X์ Superset(X โ Y) ์ค์ Frequent Pattern์ด ์กด์ฌํ์ง ์์ผ๋ฉด, Itemset X๋ฅผ.. 2024. 4. 13. 5. FP-growth Frequent Pattern Growth ์ด์ ๊น์ง๋ Apriori algorithm์ ์ฌ์ฉํด์ Freqeunt Pattern Mining์ ํ๋ ๋ฐฉ๋ฒ์ ๋ดค๋ค Apriori์ ํ๊ณ๋ฅผ ๊ฐ์ ํ Improving Apriori ๋ฐฉ๋ฒ๋ค๋ ์ดํด๋ณด์๋ค DIC, Partition, Sampling, DHP ๊ทธ๋ผ์๋ ์ฌ์ ํ ๋๋ฆฌ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค Candidate๋ฅผ ์์ฑํ๊ณ , Testํ๋ ๊ณผ์ ์์ฒด๊ฐ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ(Bottleneck) FP-growth Mining Frequent Patterns without Candidate Generation Candidate๋ฅผ Generateํ๋ ๊ฒ ์์ฒด๋ฅผ ํ์ง ์๋ ๋ฐฉ๋ฒ Local Frequent Item๋ค์ ์ฌ์ฉํด์, ์งง์ Pattern์ผ๋ก๋ถํฐ ๊ธด Pattern์ ์์ฑํด๋ด.. 2024. 4. 13. ์ด์ 1 2 3 4 ยทยทยท 23 ๋ค์