What is Data Mining?
๋ฐ์ดํฐ ๋ง์ด๋์ด๋ ๋ฌด์์ผ๊น
- ๋๋์ ๋ฐ์ดํฐ ์์์ ํฅ๋ฏธ๋กญ๊ณ ์ค์ํ ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ๋ฝ์๋ด๋ ๊ณผ์
- ์ด๋ค ๋ฐ์ดํฐ๊ฐ ํฅ๋ฏธ๋กญ๊ณ ์ค์?
- Non-trivial, Implicit, Previously unknown, Potentially usefull ,,, ํ ์ ๋ณด๋ค
- ์์ฆ ์ฐ๋ฆฌ๋ ๋๋์ ๋ฐ์ดํฐ ์๋์ ์ด๊ณ ์๊ณ , ๋ฐ์ดํฐ๋ ๊ณ์ํด์ ์์ฌ๊ฐ๊ธฐ ๋๋ฌธ์ ๊ทธ ์์์ ์ค์ํ ์๋ฏธ๋ฅผ ์ฐพ์์ผ ํ๋ค
Knowledge Discovery Process
๋๋์ ๋ฐ์ดํฐ ์์์ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ฐพ์๋ด๋ ๊ณผ์
- Data Cleaning
- ๋ฐ์ดํฐ์ ์์ฌ์๋ ๋ ธ์ด์ฆ, ์๋ฌ ๋ฑ์ ์ ๊ฑฐํ๋ ๊ณผ์
- Data Warehouse
- ๋๋์ ๋ฐ์ดํฐ๋ค์ด ์ ์ฅ๋ ์ ์ฅ์
- Task-relevant Data
- ํ์ฌ ์งํํ๊ณ ์๋ Task์ ๊ด๋ จ๋ ๋ฐ์ดํฐ๋ง Warehouse๋ก๋ถํฐ ์ถ์ถ
- Data Mining
- ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ฏธ์๋ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ๊ณผ์
- Pattern Evaluation
- ๋ฐ์ดํฐ ๋ง์ด๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ ๋ฐ ํ๊ฐ
- ์ฌ๊ธฐ์ ์๋ฏธ์๋ค๊ณ ํ๊ฐ๋ ๋ฐ์ดํฐ๋ Knowledge๊ฐ ๋๊ณ , Data Warehouse์ ํตํฉ๋๋ค
Data Mining: Confluence of Multiple Disciplines
๋ฐ์ดํฐ ๋ง์ด๋์ ํ๊ธฐ ์ํด ๋ค์ํ ๊ธฐ์ ๋ค์ด ์ฌ์ฉ๋๋ค
- ์ฌ๋ฌ ๋ถ์ผ์ ๊ด๋ จ์ด ์๋ค
Functionalities for Data Mining
๋ฐ์ดํฐ ๋ง์ด๋์ ๊ธฐ๋ฅ๋ค
- ๋ฐ์ดํฐ ๋ง์ด๋์ ๋ชฉ์ ์ด๋ผ ์๊ฐํ ์๋ ์๋ค
Frequent Patterns, Association Rules
Frequent Pattern์ ํ์ ํ๊ณ , ๊ทธ๋ก๋ถํฐ Association Rule๋ค์ ์ถ์ถ
- Ex) Diaper -> Beer
- { Diaper, Beer }๊ฐ ๋ฐ์ดํฐ์ ํจ๊ป ๋ง์ด ๋ฑ์ฅํ๋ ๊ฒฝํฅ์ด ์๊ณ
- ๊ทธ ์ค์์ Diaper๋ฅผ ์ฐ ์ฌ๋๋ค์ด Beer๋ ํจ๊ป ์ฌ๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค
- ๊ทธ ์ด์ ๋ ์๋น ๋ค์ด ๊ธฐ์ ๊ท๋ฅผ ์ฌ๋ฌ ๊ฐ๋ค๊ฐ, ๋งฅ์ฃผ๋ ํจ๊ป ์ฌ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ
- ํ์ง๋ง ๋ฐ๋๋ก ๋งฅ์ฃผ๋ฅผ ์ฌ๋ฌ ๊ฐ๋ค๊ฐ ๊ธฐ์ ๊ท๋ฅผ ์ฌ๋ ๊ฒฝ์ฐ(Beer -> Diaper)๋ ์๋์ ์ผ๋ก ์ ์ ๊ฒ์ด๋ค
- ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ Pattern ์์์ Rule์ ์ฐพ์๋ด๋ ๊ฒ๋ ์ค์
- ์ด ์ ๋ณด๊ฐ ์ด๋ค ์๋ฏธ๊ฐ ์์๊น?
- ์ด๋ฐ ์ ๋ณด๋ฅผ ์๋ฉด, ๋งํธ์์ ๊ธฐ์ ๊ท์ ๋งฅ์ฃผ๋ฅผ ํจ๊ป ๋ฐฐ์นํ๋ค๋ฉด ๋งค์ถ์ด ์ฆ๊ฐํ ๊ฒ์ด๋ค
- ์๋ฏธ์๋ ์ ๋ณด์!
Classification and Regression
ํด๋์ค๋ฅผ ๋ถ๋ฅํ๊ฑฐ๋, Regression์ ํ๋ ๊ธฐ๋ฅ
- Classification: ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋, ํด๋น ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ํด๋์ค๋ฅผ ๋ถ๋ฅ
- Regression: ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋, ํด๋น ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ํน์ ๊ฐ์ ์์ธก
- ์ด๊ฑด ์ฃผ๋ก Machine Learning์ ์ด์ฉํด์ ์ด๋ฃจ์ด์ง๋ค
Cluster Analysis
ํด๋ฌ์คํฐ๋ฅผ ๋ถ์
- Classification๊ณผ ๋ค๋ฅด๊ฒ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๋ ๊ฒ์๋ ๊ด์ฌ์ด ์๊ณ , ๋ฐ์ดํฐ ์์ฒด์ ๊ด์ฌ์ด ์๋ค
- ์ ์ฌํ ๋ฐ์ดํฐ๋ผ๋ฆฌ ๊ทธ๋ฃนํ๋ฅผ ์ํจ๋ค
Outlier Analysis
์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ๋ค๊ณผ ๋๋จ์ด์ง Outlier๋ฅผ ์ฐพ๋๋ค
- ๊ทธ๋ฌํ Outlier๋ Noise, Error๊ฐ ๋ ์ ์๊ธฐ ๋๋ฌธ์ ์ฐพ๋ ๊ฒ์ด ์๋ฏธ๊ฐ ์๋ค
Trend and Evolution Anylsis
๋ฐ์ดํฐ๋ฅผ ํตํด ํธ๋ ๋์ ๋ณํ๋ฅผ ํ์
- Sequential Pattern Mining
- ์ฐ์์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ ํจํด์ ๋ถ์
- Frequent Pattern์ ๋์์ ์ผ์ด๋๋ ํจํด์ด์ง๋ง, Sequential Pattern์ ์ฐ์์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ ํจํด์ ๋ถ์
- Ex) Digital Camera -> Large SD Memory
- ๋์งํธ ์นด๋ฉ๋ผ๋ฅผ ๊ตฌ๋งคํ ์ฌ๋์, ์ผ๋ง ํ์ SD ์นด๋๋ฅผ ๊ตฌ๋งคํ๋ ๊ฒฝํฅ์ด ์๋ค
- ์ฒ์ ์นด๋ฉ๋ผ๋ฅผ ์ด ๋๋ ์ฌ์ง ์์ง๋ง, ์กฐ๊ธ ์ฐ๋ค๋ณด๋ ์ฉ๋์ด ๋ถ์กฑํด์ ๊ตฌ๋งคํ๊ฒ ๋๋ ๊ฒฝํฅ์ด ์๋ค (์ฐ์์ )
728x90
'HYU > ๋ฐ์ดํฐ์ฌ์ด์ธ์ค' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
6. Miner Improvements (0) | 2024.04.13 |
---|---|
5. FP-growth (0) | 2024.04.13 |
4. Improving Apriori (0) | 2024.04.13 |
3. Apriori (0) | 2024.04.13 |
2. Frequent Patterns (0) | 2024.04.13 |