Classification์ด๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ Class label์ ์์ธกํ๋ ๊ฒ
Classificaiotn vs Regression
๋์ ์ด๋ค ์ฐจ์ด๊ฐ ์์๊น?
- Classification
- ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด Categoricalํ Class label์ ์์ธก ํ๋ ๊ฒ
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด์ Classifier๋ฅผ ํ์ต์ํจ ๋ค์, ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ ๋ฃ์ด์ ๊ฒฐ๊ณผ๋ฅผ ์์ธก
- Ex) ๋ ์จ๊ฐ ์ถ์ด์ง ์ ์ถ์ด์ง ํ๋ณํ๋ ๋ชจ๋ธ
- Regression
- Continuousํ ๊ฐ์ ๋ฑ์ด๋ด๋ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค
- Unknownํ๊ฑฐ๋ Missing๋ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์์ธกํ๋ค
- ์ฐ์๋ ๊ฐ์ ์์ธก ํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ
- Ex) ๊ธฐ์จ์ ์์ธกํ๋ ๋ชจ๋ธ
Classification
Classification์ ์ํํ๋ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ๋ง๋ค ์ ์์๊น
- ์ด๋ฏธ ํด๋์ค ๊ฐ์ด ๊ฒฐ์ ๋์ด ์๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์, ๊ทธ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ
- Training Data
- ๋ชจ๋ธ์ ์์ฑํ๊ธฐ ์ํด์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ
<Feature 1, Feature 2, ..., Feature N, Lable>
ํํ- ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ ํ๋์ Class์ ์ํ ๊ฒ์ผ๋ก ๊ฐ์ ๋๋ค
- Model
- ๋ชจ๋ธ์
<Feature 1, Feature 2, ..., Feature N>
ํํ์ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ฉด, ํด๋น ๋ฐ์ดํฐ์ label์ ์์ธกํ๋ค - ๋ค์ํ Classifier ๋ชจ๋ธ์ด ์กด์ฌํ๋ค
- Classification Rules
- Decision Trees
- Networks
- Mathematical Formula
- ๋ชจ๋ธ์
๊ฒฐ๊ตญ, ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ํด๋์ฅ ๊ฐ์ ์์ธกํ๋ ๊ฒ์ด Classification์ด๋ค
์์
Spam mail์ ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ ์์ฑํ๊ณ , ์ฌ์ฉํ๋ ์์
Supervised vs Unsupervised
๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์๋ ํฌ๊ฒ 2๊ฐ์ง๊ฐ ์๋ค
- Supervised Learning (Classification)
- ํ์ต ๋ฐ์ดํฐ์ Class label์ด ๋ช ์๋์ด ์๋ค
- ์์ Spam mail ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ต์ํฌ ๋ ํ์ต ๋ฐ์ดํฐ์ label์ด ์คํธ์ธ์ง ์๋์ง ๋ช ์๋์ด ์์๋ค
- ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ฉด, ํ์ต ๋ฐ์ดํฐ์ ๊ทผ๊ฑฐํด์ Class๋ฅผ ์์ธกํ๋ค
- Unsupervised Learning (Clustering)
- ํ์ต ๋ฐ์ดํฐ์ Class label์ ๋ํ ์ ๋ณด๊ฐ ์๋ค
- ํด๋์ค๋ฅผ ์์ธกํ๋ ๊ฒ์ด ๋ชฉํ๊ฐ ์๋๋ผ, ๋น์ทํ ๋ฐ์ดํฐ๋ผ๋ฆฌ ํด๋ฌ์คํฐ๋ง์ ํ์ฑํ๋ ๊ฒ์ด ๋ชฉํ
Issues in Classification
Classification์ ํ ๋ ๊ณ ๋ คํด์ผ ํ๋ ๊ฒ๋ค
Data Preparation
๋ฐ์ดํฐ๋ฅผ ์ค๋นํ๋ ๊ณผ์ ์ด ํ์ํ๋ค
- Data Cleaning
- ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํด์ ๋ ธ์ด์ฆ, ์๋ฌ ๋ฑ์ ์ด์๋ฅผ ์ ๊ฑฐํ๋ ๊ณผ์
- Relevance Analysis (Feature Selection)
- ํ์์๋ Feature๋ค์ ์ ๊ฑฐํด์, ๋ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ํ์ต๊ณผ ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํ๋๋ก ํ๋ค
- Data Transformation
- ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ์ ๊ทํํ๋ ๊ฒ
Evaluation Points
์๋ง์ ๋ชจ๋ธ๋ค ์ค์์ ํ๋๋ฅผ ๊ณจ๋ผ์ผ ํ๋๋ฐ, ๋ชจ๋ธ์ ํ๊ฐํ๊ธฐ ์ํ ๊ธฐ์ค
- Accuracy
- Speed
- ํ์ต ์๊ฐ
- ๋ถ๋ฅ ์๊ฐ
- Robustness
- ๋ฐ์ดํฐ์ ์์ธ ๋ ธ์ด์ฆ, ์๋ฌ, ์์๋ผ์ด์ด ๋ฑ์ ์ผ๋ง๋ ์ ํธ๋ค๋ง ํ ์ ์๋๊ฐ
- Scalability
- ๋ฐ์ดํฐ์ ์๊ฐ ๋์ด๋๋ ๋ฌธ์ ๊ฐ ์๋์ง?
- Interpretability
- ์ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋์๋์ง์ ๋ํ ๋ถ์์ด ๊ฐ๋ฅํ์ง?
728x90
'HYU > ๋ฐ์ดํฐ์ฌ์ด์ธ์ค' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
10. Overfitting (0) | 2024.04.14 |
---|---|
9. Decision Tree (0) | 2024.04.13 |
7. Association Rules (0) | 2024.04.13 |
6. Miner Improvements (0) | 2024.04.13 |
5. FP-growth (0) | 2024.04.13 |