๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ๋ก : ์ ์ฐจ, ๋ฐฉ๋ฒ, ๋๊ตฌ์ ๊ธฐ๋ฒ, ํ ํ๋ฆฟ๊ณผ ์ฐ์ถ๋ฌผ๋ก ๊ตฌ์ฑ๋จ
๋ถ์ ๋ง์คํฐํ๋์ ์ธ๋ถ ์ดํ๊ณํ ์๋ฆฝ ์ ๊ณ ๋ ค์ฌํญ
- ๋ฐ์ดํฐ ๋ถ์ ์ฒด๊ณ(๋ถ์ ๋ฐฉ๋ฒ๋ก )์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ์ธ๋ถ์ ์ธ ์ผ์ ๊ณํ์ ์๋ฆฝํด์ผํจ
๋ถ์ ๋ง์คํฐํ๋ ์๋ฆฝ ์ ์ ์ฉ ๋ฒ์ ๋ฐ ๋ฐฉ์์ ๋ํ ๊ณ ๋ ค ์์
- ์ ๋ฌด ๋ด์ฌํ ์ ์ฉ ์์ค
- ๋ถ์๋ฐ์ดํฐ ์ ์ฉ ์์ค
- ๊ธฐ์ ์ ์ฉ ์์ค
๊ธฐ์ ์์ ๋ฐ์ดํฐ์ ๊ธฐ๋ฐํ ์์ฌ๊ฒฐ์ ์ ๋ฐฉํดํ๋ ์์
- ํ๋ ์ด๋ฐ ํจ๊ณผ: ๋์ผํ ์ฌ๊ฑด์ด๋ ์ํฉ์ ๋๊ณ ๋ ๊ฐ์ธ์ ํ๋จ์ด๋ ์ ํ์ด ๋ฌ๋ผ์ง ์ ์๋ ํ์
๋ฌผ์ด ๋ฐ๋ฐ์ ์๊ตฐ VS ๋ฌผ์ด ๋ฐ์ด๋ ์๊ตฐ - ๊ณ ์ ๊ด๋
- ํธํฅ๋ ์๊ฐ
๋ถ์ ๋ฐฉ๋ฒ๋ก ์ด ์ ์ฉ๋๋ ์ ๋ฌด ํน์ฑ์ ๋ฐ๋ฅธ ๋ชจ๋ธ
- ํญํฌ์(Waterfull) ๋ชจ๋ธ
๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ์์ฐจ์ ์ผ๋ก ์งํํ๋ ๋ฐฉ๋ฒ
ํ์ฌ ๋จ๊ณ๊ฐ ์๋ฃ๋์ด์ผ ๋ค์ ๋จ๊ณ๋ก ์งํ๋ ์ ์๋ ํํฅ์ ๋ฐฉํฅ์ผ๋ก ์งํ
๋ฌธ์ ๋ ๊ฐ์ ์ฌํญ์ด ๋ฐ๊ฒฌ๋ ๊ฒฝ์ฐ ํผ๋๋ฐฑ ๊ณผ์ ์ ์ํํ ์ ์์ - ํ๋กํ ํ์
((Prototype) ๋ชจ๋ธ
์งํ์ ํ๋ก์ธ์ค ๋ชจ๋ธ์ ํ๋๋ก ์ผ๋ถ๋ถ ๋จผ์ ๊ฐ๋ฐํ์ฌ ์ ๊ณตํ ํ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๊ฐ์ ํ๋ ๋ชจ๋ธ - ๋์ ํ(Spiral) ๋ชจ๋ธ: ๋ฐ๋ณต์ ํตํด ์ ์ง์ ์ผ๋ก ๊ฐ๋ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก์, ์ฒ์ ์๋ํ๋ ํ๋ก์ ํธ์ ์ ์ฉ์ด ์ฉ์ดํ์ง๋ง ๊ด๋ฆฌ ์ฒด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ถ์ง ๋ชปํ ๊ฒฝ์ฐ ๋ณต์ก๋๊ฐ ์์นํ์ฌ ํ๋ก์ ํธ ์งํ์ด ์ด๋ ค์ธ ์ ์์
- ์ ์์ผ(Agile) ๋ชจ๋ธ
๋ฐฉ๋ฒ๋ก ์ ๊ตฌ์ฑ
- ๊ณ์ธตํ ํ๋ก์ธ์ค ๋ชจ๋ธ
์ผ๋ฐ์ ์ผ๋ก ๋ถ์ ๋ฐฉ๋ฒ๋ก ์ ๊ณ์ธตํ ํ๋ก์ธ์ค ๋ชจ๋ธ ํํ๋ก ๊ตฌ์ฑ๋จ
๊ณ์ธต์ ํ๋ก์ธ์ค ๋ชจ๋ธ์ ์ต์์ ๊ณ์ธต์ธ ๋ช ๊ฐ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ ํ๋์ ๋จ๊ณ๋ ์ฌ๋ฌ ๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋๊ณ ํ๋์ ํ์คํฌ๋ ์ฌ๋ฌ ๊ฐ์ ์คํ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์
์คํ ์ WBS(Work Breakdown Structure)์ ์ํฌํจํค์ง์ ํด๋นํ๋ฉฐ,
โ์ ๋ ฅ(Input) โ ์ฒ๋ฆฌ ๋ฐ ๋๊ตฌ(Process & Tool) โ ์ถ๋ ฅ(Output)โ์ผ๋ก ๊ตฌ์ฑ๋ ๋จ์ ํ๋ก์ธ์ค์
KDD ๋ถ์ ๋ฐฉ๋ฒ๋ก ํ๋ก์ธ์ค
- ๋ฐ์ดํฐ์
์ ํ(Selection)
๋น์ฆ๋์ค ๋๋ฉ์ธ์ ๋ํ ์ดํด์ ํ๋ก์ ํธ ๋ชฉํ ์ค์ ์ด ํ์
๋ถ์์ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ์ ํ โ ํ๊น ๋ฐ์ดํฐ(target data) ์์ฑ - ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Processing)
์ก์, ์ด์์น, ๊ฒฐ์ธก์น๋ฅผ ํ์ ํ์ฌ ์ ๊ฑฐํ๊ฑฐ๋ ์๋ฏธ ์๋ ๋ฐ์ดํฐ๋ก ์ฌ๊ฐ๊ณต
์ถ๊ฐ๋ก ์๊ตฌ๋๋ ๋ฐ์ดํฐ์ ์ด ์๋ค๋ฉด ๋ฐ์ดํฐ ์ ํ ํ๋ก์ธ์ค๋ฅผ ๋ค์ ์คํ - ๋ฐ์ดํฐ ๋ณํ(Transformation)
๋ถ์ ๋ชฉ์ ์ ๋ง๋ ๋ณ์๋ฅผ ์์ฑ/์ ํํ๊ณ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์
ํ์ต์ฉ ๋ฐ์ดํฐ(training data set)์ ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ(test data set)๋ฅผ ๋ถ๋ฆฌ - ๋ฐ์ดํฐ ๋ง์ด๋(Data Mining)
ํ์ต์ฉ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๋ถ์ ๋ชฉ์ ์ ๋ง๋ ๋ฐ์ดํฐ ๋ง์ด๋ ๊ธฐ๋ฒ์ ์ ํํ๊ณ ์ ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉ
ํ์์ ๋ฐ๋ผ ์ ์ฒ๋ฆฌ์ ๋ณํ ํ๋ก์ธ์ค๋ ์ถ๊ฐ - ํด์๊ณผ ํ๊ฐ
๋ถ์ ๋ชฉ์ ๊ณผ์ ์ผ์น์ฑ์ ํ์ธํ๊ณ ํ๊ฐ
๋ฐ๊ฒฌํ ์ง์์ ์ ๋ฌด์ ํ์ฉํ๊ธฐ ์ํ ๋ฐฉ์ ๋ง๋ จ
CRISP-DM(Cross-Industry Standard Process for Data Mining) ๋ถ์ ๋ฐฉ๋ฒ๋ก ํ๋ก์ธ์ค
1996๋
์ ๋ฝ ์ฐํฉ์ ESPRIT์์ ์๋ ํ๋ก์ ํธ์์ ์์๋์ด SPSS, NCR, Daimler, Chrysler ๋ฑ์ด ์ฐธ์ฌํจ
- ํญํฌ์ ๋ชจ๋ธ์ฒ๋ผ ์ผ๋ฐฉํฅ์ด ์๋, ๋จ๊ณ ๊ฐ ํผ๋๋ฐฑ์ผ๋ก ๋จ๊ณ๋ณ ์์ฑ๋๋ฅผ ๋์ธ ๋ชจ๋ธ
- ๊ณ์ธตํ ํ๋ก์ธ์ค ๋ชจ๋ธ๋ก์จ 4๋ ๋ฒจ, 6๊ฐ์ ํ๋ก์ธ์ค๋ก ๊ตฌ์ฑ๋จ
- ์
๋ฌด ์ดํด(Business Understanding)
์ ๋ฌด ๋ชฉ์ ํ์ , ์ํฉ ํ์ , ๋ฐ์ดํฐ ๋ง์ด๋ ๋ชฉํ ์ค์ , ํ๋ก์ ํธ ๊ณํ ์๋ฆฝ - ๋ฐ์ดํฐ ์ดํด(Data Understanding)
์ด๊ธฐ ๋ฐ์ดํฐ ์์ง, ๋ฐ์ดํฐ ๊ธฐ์ ๋ถ์, ๋ฐ์ดํฐ ํ์, ๋ฐ์ดํฐ ํ์ง ํ์ธ - ๋ฐ์ดํฐ ์ค๋น
๋ถ์์ฉ ๋ฐ์ดํฐ์ ์ ํ, ๋ฐ์ดํฐ ์ ์ , ๋ถ์์ฉ ๋ฐ์ดํฐ์ ํธ์ฑ, ๋ฐ์ดํฐ ํตํฉ, ๋ฐ์ดํฐ ํฌ๋งคํ - ๋ชจ๋ธ๋ง
๋ชจ๋ธ๋ง ๊ธฐ๋ฒ ์ ํ, ๋ชจ๋ธ ํ ์คํธ ๊ณํ ์ค๊ณ, ๋ชจ๋ธ ์์ฑ, ๋ชจ๋ธ ํ๊ฐ- ๋ฐ์ดํฐ์ ์ด ์ถ๊ฐ๋ก ํ์ํ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ์ค๋น ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ณต ์ํํจ
- ํ ์คํธ์ฉ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๊ฐํ์ฌ ๋ชจ๋ธ์ ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ํ์ธํจ
- ํ๊ฐ
๋ถ์ ๊ฒฐ๊ณผ ํ๊ฐ, ๋ชจ๋ธ๋ง ๊ณผ์ ํ๊ฐ, ๋ชจ๋ธ ์ ์ฉ์ฑ ํ๊ฐ - ์ ๊ฐ
์ ๊ฐ ๊ณํ ์๋ฆฝ, ๋ชจ๋ํฐ๋ง๊ณผ ์ ์ง๋ณด์ ๊ณํ ์๋ฆฝ, ํ๋ก์ ํธ ์ข ๋ฃ ๋ณด๊ณ ์ ์์ฑ, ํ๋ก์ ํธ ๋ฆฌ๋ทฐ
๋น ๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ๋ก
๋จ๊ณ(Phase) โ ํ ์คํฌ(Task) โ ์คํ (Step)

[๋ถ์ ๊ธฐํ]
๋ถ์ ๋ชฉํ ์ค์ ์ด ๊ฐ์ฅ ์ค์ํจ
- ๋น์ฆ๋์ค ์ดํด ๋ฐ ๋ฒ์ ์ค์
๊ด๋ จ ๋ฐ์ดํฐ ํ์ : ๋ถ์์ ๊ธฐ๋ณธ์ด ๋๋ ๊ฐ์ฉ ๋ฐ์ดํฐ์ ๋ํ ๊ณ ๋ ค๊ฐ ํ์ํจ- ํ๋ก์ ํธ ๋ฒ์ ์ ์์(SOW; Statement of Works): ํ๋ก์ ํธ ๊ด๋ฆฌ ๋ถ์ผ์์ ์๋น์ค๋ฅผ ํตํด ์ ๊ณตํ๊ธฐ ์ํ ํ๋, ์ฐ์ถ๋ฌผ, ์์ ์๊ฐ ๋ฑ์ ํฌํจํ๋ ๊ธฐ์ ์ ๋น์ฆ๋์ค ์ดํด ๋ฐ ๋ฒ์ ์ค์ ํ ์คํฌ์ ์ฐ์ถ๋ฌผ
- ๋น์ฆ๋์ค ์ผ์ด์ค ํ๋ณด
๋ถ์์ ํตํด ๊ฐ์น๊ฐ ์ฐฝ์ถ๋ ์ ์๋ ์ ์ ํ ํ์ฉ๋ฐฉ์๊ณผ ํ์ฉ ๊ฐ๋ฅํ ์ ์ฆ์ผ์ด์ค ํ์์ด ํ์ํจ - ์ดํ ์ ํด ์์ ๊ด๋ฆฌ
๋ถ์์ ์ํํ๋ฉฐ ๋ฐ์ํ๋ ์ฅ์ ์์๋ค์ ๋ํ ์ฌ์ ๊ณํ ์๋ฆฝ์ด ํ์ํจ- 4๊ฐ์ง๋ก ๊ตฌ๋ถํด ์ํ ๊ด๋ฆฌ ๊ณํ์๋ฅผ ์์ฑํจ
ํํผ(Avoid), ์ ์ด(Transfer), ์ํ(Mitigate), ์์ฉ(Accept)
- 4๊ฐ์ง๋ก ๊ตฌ๋ถํด ์ํ ๊ด๋ฆฌ ๊ณํ์๋ฅผ ์์ฑํจ
[๋ฐ์ดํฐ ์ค๋น]
- ํ์ ๋ฐ์ดํฐ ์ ์
- ๋ฐ์ดํฐ ์คํ ์ด ์ค๊ณ
- ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ํฉ์ฑ ๊ฒ์
[ํผ๋๋ฐฑ]
๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ์์ ์ถ๊ฐ ๋ฐ์ดํฐ ํ๋ณด๊ฐ ํ์ํ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ์ค๋น ๋จ๊ณ์ ํผ๋๋ฐฑ์ ๋ณด๋
[์์คํ ๊ตฌํ]
- ์ค๊ณ ๋ฐ ๊ตฌํ: ์์คํ
์ค๊ณ ๋ฐ ๊ตฌํ, ํ
์คํธ ๋ฐ ์ด์์ด ์ฃผ์ ๊ณ ๋ ค์ฌํญ
- ์์คํ ์ค๊ณ์๋ฅผ ๋ฐํ์ผ๋ก BI ํจํค์ง๋ฅผ ํ์ฉํ๊ฑฐ๋ ์๋กญ๊ฒ ํ๋ก๊ทธ๋จ ์ฝ๋ฉ์ ํตํด ์์คํ ์ ๊ตฌ์ถํจ