ADsP 2κ³Όλͺ© 1-2 λΆμ λ°©λ²λ‘ | μ 리π
λ°μ΄ν° λΆμ λ°©λ²λ‘ : μ μ°¨, λ°©λ², λꡬμ κΈ°λ², ν νλ¦Ώκ³Ό μ°μΆλ¬Όλ‘ ꡬμ±λ¨
λΆμ λ§μ€ν°νλμ μΈλΆ μ΄νκ³ν μ립 μ κ³ λ €μ¬ν
- λ°μ΄ν° λΆμ 체κ³(λΆμ λ°©λ²λ‘ )μ νΉμ±μ κ³ λ €νμ¬ μΈλΆμ μΈ μΌμ κ³νμ μ립ν΄μΌν¨
λΆμ λ§μ€ν°νλ μ립 μ μ μ© λ²μ λ° λ°©μμ λν κ³ λ € μμ
- μ 무 λ΄μ¬ν μ μ© μμ€
- λΆμλ°μ΄ν° μ μ© μμ€
- κΈ°μ μ μ© μμ€
κΈ°μ μμ λ°μ΄ν°μ κΈ°λ°ν μμ¬κ²°μ μ λ°©ν΄νλ μμ
- νλ μ΄λ° ν¨κ³Ό: λμΌν μ¬κ±΄μ΄λ μν©μ λκ³ λ κ°μΈμ νλ¨μ΄λ μ νμ΄ λ¬λΌμ§ μ μλ νμ
λ¬Όμ΄ λ°λ°μ μκ΅° VS λ¬Όμ΄ λ°μ΄λ μκ΅° - κ³ μ κ΄λ
- νΈν₯λ μκ°
λΆμ λ°©λ²λ‘ μ΄ μ μ©λλ μ 무 νΉμ±μ λ°λ₯Έ λͺ¨λΈ
- νν¬μ(Waterfull) λͺ¨λΈ
λ¨κ³λ₯Ό κ±°μ³ μμ°¨μ μΌλ‘ μ§ννλ λ°©λ²
νμ¬ λ¨κ³κ° μλ£λμ΄μΌ λ€μ λ¨κ³λ‘ μ§νλ μ μλ νν₯μ λ°©ν₯μΌλ‘ μ§ν
λ¬Έμ λ κ°μ μ¬νμ΄ λ°κ²¬λ κ²½μ° νΌλλ°± κ³Όμ μ μνν μ μμ - νλ‘ν νμ
((Prototype) λͺ¨λΈ
μ§νμ νλ‘μΈμ€ λͺ¨λΈμ νλλ‘ μΌλΆλΆ λ¨Όμ κ°λ°νμ¬ μ 곡ν ν κ·Έ κ²°κ³Όλ₯Ό ν΅ν΄ κ°μ νλ λͺ¨λΈ - λμ ν(Spiral) λͺ¨λΈ: λ°λ³΅μ ν΅ν΄ μ μ§μ μΌλ‘ κ°λ°νλ λ°©λ²μΌλ‘μ, μ²μ μλνλ νλ‘μ νΈμ μ μ©μ΄ μ©μ΄νμ§λ§ κ΄λ¦¬ 체κ³λ₯Ό ν¨κ³Όμ μΌλ‘ κ°μΆμ§ λͺ»ν κ²½μ° λ³΅μ‘λκ° μμΉνμ¬ νλ‘μ νΈ μ§νμ΄ μ΄λ €μΈ μ μμ
- μ μμΌ(Agile) λͺ¨λΈ
λ°©λ²λ‘ μ ꡬμ±
- κ³μΈ΅ν νλ‘μΈμ€ λͺ¨λΈ
μΌλ°μ μΌλ‘ λΆμ λ°©λ²λ‘ μ κ³μΈ΅ν νλ‘μΈμ€ λͺ¨λΈ ννλ‘ κ΅¬μ±λ¨
κ³μΈ΅μ νλ‘μΈμ€ λͺ¨λΈμ μ΅μμ κ³μΈ΅μΈ λͺ κ°μ λ¨κ³λ‘ ꡬμ±λμ΄ μκ³ νλμ λ¨κ³λ μ¬λ¬ κ°μ νμ€ν¬λ‘ ꡬμ±λκ³ νλμ νμ€ν¬λ μ¬λ¬ κ°μ μ€ν μΌλ‘ ꡬμ±λμ΄ μμ
μ€ν μ WBS(Work Breakdown Structure)μ μν¬ν¨ν€μ§μ ν΄λΉνλ©°,
’μ λ ₯(Input) — μ²λ¦¬ λ° λꡬ(Process & Tool) — μΆλ ₯(Output)’μΌλ‘ ꡬμ±λ λ¨μ νλ‘μΈμ€μ
KDD λΆμ λ°©λ²λ‘ νλ‘μΈμ€
- λ°μ΄ν°μ
μ ν(Selection)
λΉμ¦λμ€ λλ©μΈμ λν μ΄ν΄μ νλ‘μ νΈ λͺ©ν μ€μ μ΄ νμ
λΆμμ νμν λ°μ΄ν°λ₯Ό μ ν → νκΉ λ°μ΄ν°(target data) μμ± - λ°μ΄ν° μ μ²λ¦¬(Processing)
μ‘μ, μ΄μμΉ, κ²°μΈ‘μΉλ₯Ό νμ νμ¬ μ κ±°νκ±°λ μλ―Έ μλ λ°μ΄ν°λ‘ μ¬κ°κ³΅
μΆκ°λ‘ μꡬλλ λ°μ΄ν°μ μ΄ μλ€λ©΄ λ°μ΄ν° μ ν νλ‘μΈμ€λ₯Ό λ€μ μ€ν - λ°μ΄ν° λ³ν(Transformation)
λΆμ λͺ©μ μ λ§λ λ³μλ₯Ό μμ±/μ ννκ³ λ°μ΄ν°μ μ°¨μμ μΆμ
νμ΅μ© λ°μ΄ν°(training data set)μ κ²μ¦μ© λ°μ΄ν°(test data set)λ₯Ό λΆλ¦¬ - λ°μ΄ν° λ§μ΄λ(Data Mining)
νμ΅μ© λ°μ΄ν°λ₯Ό μ΄μ©νμ¬ λΆμ λͺ©μ μ λ§λ λ°μ΄ν° λ§μ΄λ κΈ°λ²μ μ ννκ³ μ μ ν μκ³ λ¦¬μ¦μ μ μ©
νμμ λ°λΌ μ μ²λ¦¬μ λ³ν νλ‘μΈμ€λ μΆκ° - ν΄μκ³Ό νκ°
λΆμ λͺ©μ κ³Όμ μΌμΉμ±μ νμΈνκ³ νκ°
λ°κ²¬ν μ§μμ μ 무μ νμ©νκΈ° μν λ°©μ λ§λ ¨
CRISP-DM(Cross-Industry Standard Process for Data Mining) λΆμ λ°©λ²λ‘ νλ‘μΈμ€
1996λ
μ λ½ μ°ν©μ ESPRITμμ μλ νλ‘μ νΈμμ μμλμ΄ SPSS, NCR, Daimler, Chrysler λ±μ΄ μ°Έμ¬ν¨
- νν¬μ λͺ¨λΈμ²λΌ μΌλ°©ν₯μ΄ μλ, λ¨κ³ κ° νΌλλ°±μΌλ‘ λ¨κ³λ³ μμ±λλ₯Ό λμΈ λͺ¨λΈ
- κ³μΈ΅ν νλ‘μΈμ€ λͺ¨λΈλ‘μ¨ 4λ 벨, 6κ°μ νλ‘μΈμ€λ‘ ꡬμ±λ¨
- μ
무 μ΄ν΄(Business Understanding)
μ 무 λͺ©μ νμ , μν© νμ , λ°μ΄ν° λ§μ΄λ λͺ©ν μ€μ , νλ‘μ νΈ κ³ν μ립 - λ°μ΄ν° μ΄ν΄(Data Understanding)
μ΄κΈ° λ°μ΄ν° μμ§, λ°μ΄ν° κΈ°μ λΆμ, λ°μ΄ν° νμ, λ°μ΄ν° νμ§ νμΈ - λ°μ΄ν° μ€λΉ
λΆμμ© λ°μ΄ν°μ μ ν, λ°μ΄ν° μ μ , λΆμμ© λ°μ΄ν°μ νΈμ±, λ°μ΄ν° ν΅ν©, λ°μ΄ν° ν¬λ§€ν - λͺ¨λΈλ§
λͺ¨λΈλ§ κΈ°λ² μ ν, λͺ¨λΈ ν μ€νΈ κ³ν μ€κ³, λͺ¨λΈ μμ±, λͺ¨λΈ νκ°- λ°μ΄ν°μ μ΄ μΆκ°λ‘ νμν κ²½μ° λ°μ΄ν° μ€λΉ νλ‘μΈμ€λ₯Ό λ°λ³΅ μνν¨
- ν μ€νΈμ© λ°μ΄ν°μ μΌλ‘ νκ°νμ¬ λͺ¨λΈμ κ³Όμ ν© λ¬Έμ λ₯Ό νμΈν¨
- νκ°
λΆμ κ²°κ³Ό νκ°, λͺ¨λΈλ§ κ³Όμ νκ°, λͺ¨λΈ μ μ©μ± νκ° - μ κ°
μ κ° κ³ν μ립, λͺ¨λν°λ§κ³Ό μ μ§λ³΄μ κ³ν μ립, νλ‘μ νΈ μ’ λ£ λ³΄κ³ μ μμ±, νλ‘μ νΈ λ¦¬λ·°
λΉ λ°μ΄ν° λΆμ λ°©λ²λ‘
λ¨κ³(Phase) → ν μ€ν¬(Task) → μ€ν (Step)
[λΆμ κΈ°ν]
λΆμ λͺ©ν μ€μ μ΄ κ°μ₯ μ€μν¨
- λΉμ¦λμ€ μ΄ν΄ λ° λ²μ μ€μ
κ΄λ ¨ λ°μ΄ν° νμ : λΆμμ κΈ°λ³Έμ΄ λλ κ°μ© λ°μ΄ν°μ λν κ³ λ €κ° νμν¨- νλ‘μ νΈ λ²μ μ μμ(SOW; Statement of Works): νλ‘μ νΈ κ΄λ¦¬ λΆμΌμμ μλΉμ€λ₯Ό ν΅ν΄ μ 곡νκΈ° μν νλ, μ°μΆλ¬Ό, μμ μκ° λ±μ ν¬ν¨νλ κΈ°μ μ λΉμ¦λμ€ μ΄ν΄ λ° λ²μ μ€μ ν μ€ν¬μ μ°μΆλ¬Ό
- λΉμ¦λμ€ μΌμ΄μ€ ν보
λΆμμ ν΅ν΄ κ°μΉκ° μ°½μΆλ μ μλ μ μ ν νμ©λ°©μκ³Ό νμ© κ°λ₯ν μ μ¦μΌμ΄μ€ νμμ΄ νμν¨ - μ΄ν μ ν΄ μμ κ΄λ¦¬
λΆμμ μννλ©° λ°μνλ μ₯μ μμλ€μ λν μ¬μ κ³ν μλ¦½μ΄ νμν¨- 4κ°μ§λ‘ ꡬλΆν΄ μν κ΄λ¦¬ κ³νμλ₯Ό μμ±ν¨
ννΌ(Avoid), μ μ΄(Transfer), μν(Mitigate), μμ©(Accept)
- 4κ°μ§λ‘ ꡬλΆν΄ μν κ΄λ¦¬ κ³νμλ₯Ό μμ±ν¨
[λ°μ΄ν° μ€λΉ]
- νμ λ°μ΄ν° μ μ
- λ°μ΄ν° μ€ν μ΄ μ€κ³
- λ°μ΄ν° μμ§ λ° μ ν©μ± κ²μ
[νΌλλ°±]
λ°μ΄ν° λΆμ κ³Όμ μμ μΆκ° λ°μ΄ν° νλ³΄κ° νμν κ²½μ° λ°μ΄ν° μ€λΉ λ¨κ³μ νΌλλ°±μ 보λ
[μμ€ν ꡬν]
- μ€κ³ λ° κ΅¬ν: μμ€ν
μ€κ³ λ° κ΅¬ν, ν
μ€νΈ λ° μ΄μμ΄ μ£Όμ κ³ λ €μ¬ν
- μμ€ν μ€κ³μλ₯Ό λ°νμΌλ‘ BI ν¨ν€μ§λ₯Ό νμ©νκ±°λ μλ‘κ² νλ‘κ·Έλ¨ μ½λ©μ ν΅ν΄ μμ€ν μ ꡬμΆν¨