ADsP

ADsP 2κ³Όλͺ© 1-2 뢄석 방법둠 | μ •λ¦¬πŸ“

studyrooom 2024. 9. 4. 17:45
SMALL

데이터 뢄석 방법둠: 절차, 방법, 도ꡬ와 기법, ν…œν”Œλ¦Ώκ³Ό μ‚°μΆœλ¬Όλ‘œ ꡬ성됨

 

뢄석 λ§ˆμŠ€ν„°ν”Œλžœμ˜ μ„ΈλΆ€ μ΄ν–‰κ³„νš 수립 μ‹œ 고렀사항

  • 데이터 뢄석 체계(뢄석 방법둠)의 νŠΉμ„±μ„ κ³ λ €ν•˜μ—¬ 세뢀적인 일정 κ³„νšμ„ μˆ˜λ¦½ν•΄μ•Όν•¨

 

뢄석 λ§ˆμŠ€ν„°ν”Œλžœ 수립 μ‹œ 적용 λ²”μœ„ 및 방식에 λŒ€ν•œ κ³ λ € μš”μ†Œ

  • 업무 λ‚΄μž¬ν™” 적용 μˆ˜μ€€
  • 뢄석데이터 적용 μˆ˜μ€€
  • 기술 적용 μˆ˜μ€€

 

κΈ°μ—…μ—μ„œ 데이터에 κΈ°λ°˜ν•œ μ˜μ‚¬κ²°μ •μ„ λ°©ν•΄ν•˜λŠ” μš”μ†Œ

  • ν”„λ ˆμ΄λ° 효과: λ™μΌν•œ μ‚¬κ±΄μ΄λ‚˜ 상황을 두고도 개인의 νŒλ‹¨μ΄λ‚˜ 선택이 λ‹¬λΌμ§ˆ 수 μžˆλŠ” ν˜„μƒ
    물이 λ°˜λ°–μ— μ—†κ΅° VS 물이 λ°˜μ΄λ‚˜ 있ꡰ
  • 고정관념
  • 편ν–₯된 생각

 

뢄석 방법둠이 μ μš©λ˜λŠ” 업무 νŠΉμ„±μ— λ”°λ₯Έ λͺ¨λΈ

  • 폭포수(Waterfull) λͺ¨λΈ
    단계λ₯Ό 거쳐 순차적으둜 μ§„ν–‰ν•˜λŠ” 방법
    ν˜„μž¬ 단계가 μ™„λ£Œλ˜μ–΄μ•Ό λ‹€μŒ λ‹¨κ³„λ‘œ 진행될 수 μžˆλŠ” ν•˜ν–₯식 λ°©ν–₯으둜 μ§„ν–‰
    λ¬Έμ œλ‚˜ κ°œμ„  사항이 발견될 경우 ν”Όλ“œλ°± 과정을 μˆ˜ν–‰ν•  수 있음
  • ν”„λ‘œν† νƒ€μž…((Prototype) λͺ¨λΈ
    진화적 ν”„λ‘œμ„ΈμŠ€ λͺ¨λΈμ˜ ν•˜λ‚˜λ‘œ 일뢀뢄 λ¨Όμ € κ°œλ°œν•˜μ—¬ μ œκ³΅ν•œ ν›„ κ·Έ κ²°κ³Όλ₯Ό 톡해 κ°œμ„ ν•˜λŠ” λͺ¨λΈ
  • λ‚˜μ„ ν˜•(Spiral) λͺ¨λΈ: λ°˜λ³΅μ„ 톡해 μ μ§„μ μœΌλ‘œ κ°œλ°œν•˜λŠ” λ°©λ²•μœΌλ‘œμ„œ, 처음 μ‹œλ„ν•˜λŠ” ν”„λ‘œμ νŠΈμ— 적용이 μš©μ΄ν•˜μ§€λ§Œ 관리 체계λ₯Ό 효과적으둜 κ°–μΆ”μ§€ λͺ»ν•œ 경우 λ³΅μž‘λ„κ°€ μƒμŠΉν•˜μ—¬ ν”„λ‘œμ νŠΈ 진행이 μ–΄λ €μšΈ 수 있음
  • μ• μžμΌ(Agile) λͺ¨λΈ

 

λ°©λ²•λ‘ μ˜ ꡬ성

  • κ³„μΈ΅ν˜• ν”„λ‘œμ„ΈμŠ€ λͺ¨λΈ
    일반적으둜 뢄석 방법둠은 κ³„μΈ΅ν˜• ν”„λ‘œμ„ΈμŠ€ λͺ¨λΈ ν˜•νƒœλ‘œ ꡬ성됨
    계측적 ν”„λ‘œμ„ΈμŠ€ λͺ¨λΈμ€ μ΅œμƒμ˜ 계측인 λͺ‡ 개의 λ‹¨κ³„λ‘œ κ΅¬μ„±λ˜μ–΄ 있고 ν•˜λ‚˜μ˜ λ‹¨κ³„λŠ” μ—¬λŸ¬ 개의 νƒœμŠ€ν¬λ‘œ κ΅¬μ„±λ˜κ³  ν•˜λ‚˜μ˜ νƒœμŠ€ν¬λŠ” μ—¬λŸ¬ 개의 μŠ€ν…μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ 있음
    μŠ€ν…μ€ WBS(Work Breakdown Structure)의 μ›Œν¬νŒ¨ν‚€μ§€μ— ν•΄λ‹Ήν•˜λ©°,
    ’μž…λ ₯(Input) — 처리 및 도ꡬ(Process & Tool) — 좜λ ₯(Output)’으둜 κ΅¬μ„±λœ λ‹¨μœ„ ν”„λ‘œμ„ΈμŠ€μž„

 

KDD 뢄석 방법둠 ν”„λ‘œμ„ΈμŠ€

  1. 데이터셋 선택(Selection)
    λΉ„μ¦ˆλ‹ˆμŠ€ 도메인에 λŒ€ν•œ 이해와 ν”„λ‘œμ νŠΈ λͺ©ν‘œ 섀정이 ν•„μˆ˜
    뢄석에 ν•„μš”ν•œ 데이터λ₯Ό 선택 → 타깃 데이터(target data) 생성
  2. 데이터 μ „μ²˜λ¦¬(Processing)
    작음, μ΄μƒμΉ˜, 결츑치λ₯Ό νŒŒμ•…ν•˜μ—¬ μ œκ±°ν•˜κ±°λ‚˜ 의미 μžˆλŠ” λ°μ΄ν„°λ‘œ μž¬κ°€κ³΅
    μΆ”κ°€λ‘œ μš”κ΅¬λ˜λŠ” 데이터셋이 μžˆλ‹€λ©΄ 데이터 선택 ν”„λ‘œμ„ΈμŠ€λ₯Ό λ‹€μ‹œ μ‹€ν–‰
  3. 데이터 λ³€ν™˜(Transformation)
    뢄석 λͺ©μ μ— λ§žλŠ” λ³€μˆ˜λ₯Ό 생성/μ„ νƒν•˜κ³  λ°μ΄ν„°μ˜ 차원을 μΆ•μ†Œ
    ν•™μŠ΅μš© 데이터(training data set)와 κ²€μ¦μš© 데이터(test data set)λ₯Ό 뢄리
  4. 데이터 λ§ˆμ΄λ‹(Data Mining)
    ν•™μŠ΅μš© 데이터λ₯Ό μ΄μš©ν•˜μ—¬ 뢄석 λͺ©μ μ— λ§žλŠ” 데이터 λ§ˆμ΄λ‹ 기법을 μ„ νƒν•˜κ³  μ μ ˆν•œ μ•Œκ³ λ¦¬μ¦˜μ„ 적용
    ν•„μš”μ— 따라 μ „μ²˜λ¦¬μ™€ λ³€ν™˜ ν”„λ‘œμ„ΈμŠ€λ„ μΆ”κ°€
  5. 해석과 평가
    뢄석 λͺ©μ κ³Όμ˜ μΌμΉ˜μ„±μ„ ν™•μΈν•˜κ³  평가
    λ°œκ²¬ν•œ 지식을 업무에 ν™œμš©ν•˜κΈ° μœ„ν•œ λ°©μ•ˆ 마련

 

CRISP-DM(Cross-Industry Standard Process for Data Mining) 뢄석 방법둠 ν”„λ‘œμ„ΈμŠ€
1996λ…„ 유럽 μ—°ν•©μ˜ ESPRITμ—μ„œ 있던 ν”„λ‘œμ νŠΈμ—μ„œ μ‹œμž‘λ˜μ–΄ SPSS, NCR, Daimler, Chrysler 등이 참여함

  • 폭포수 λͺ¨λΈμ²˜λŸΌ 일방ν–₯이 μ•„λ‹Œ, 단계 κ°„ ν”Όλ“œλ°±μœΌλ‘œ 단계별 완성도λ₯Ό 높인 λͺ¨λΈ
  • κ³„μΈ΅ν˜• ν”„λ‘œμ„ΈμŠ€ λͺ¨λΈλ‘œμ¨ 4레벨, 6개의 ν”„λ‘œμ„ΈμŠ€λ‘œ ꡬ성됨

 

  1. 업무 이해(Business Understanding)
    업무 λͺ©μ  νŒŒμ•…, 상황 νŒŒμ•…, 데이터 λ§ˆμ΄λ‹ λͺ©ν‘œ μ„€μ •, ν”„λ‘œμ νŠΈ κ³„νš 수립
  2. 데이터 이해(Data Understanding)
    초기 데이터 μˆ˜μ§‘, 데이터 기술 뢄석, 데이터 탐색, 데이터 ν’ˆμ§ˆ 확인
  3. 데이터 μ€€λΉ„
    λΆ„μ„μš© 데이터셋 선택, 데이터 μ •μ œ, λΆ„μ„μš© 데이터셋 νŽΈμ„±, 데이터 톡합, 데이터 ν¬λ§€νŒ…
  4. λͺ¨λΈλ§
    λͺ¨λΈλ§ 기법 선택, λͺ¨λΈ ν…ŒμŠ€νŠΈ κ³„νš 섀계, λͺ¨λΈ μž‘μ„±, λͺ¨λΈ 평가
    • 데이터셋이 μΆ”κ°€λ‘œ ν•„μš”ν•œ 경우 데이터 μ€€λΉ„ ν”„λ‘œμ„ΈμŠ€λ₯Ό 반볡 μˆ˜ν–‰ν•¨
    • ν…ŒμŠ€νŠΈμš© λ°μ΄ν„°μ…‹μœΌλ‘œ ν‰κ°€ν•˜μ—¬ λͺ¨λΈμ˜ 과적합 문제λ₯Ό 확인함
  5. 평가
    뢄석 κ²°κ³Ό 평가, λͺ¨λΈλ§ κ³Όμ • 평가, λͺ¨λΈ μ μš©μ„± 평가
  6. μ „κ°œ
    μ „κ°œ κ³„νš 수립, λͺ¨λ‹ˆν„°λ§κ³Ό μœ μ§€λ³΄μˆ˜ κ³„νš 수립, ν”„λ‘œμ νŠΈ μ’…λ£Œ λ³΄κ³ μ„œ μž‘μ„±, ν”„λ‘œμ νŠΈ 리뷰

 

빅데이터 뢄석 방법둠

단계(Phase) → ν…ŒμŠ€ν¬(Task) → μŠ€ν…(Step)

 

[뢄석 기획]
뢄석 λͺ©ν‘œ 섀정이 κ°€μž₯ μ€‘μš”ν•¨

  • λΉ„μ¦ˆλ‹ˆμŠ€ 이해 및 λ²”μœ„ μ„€μ •
    κ΄€λ ¨ 데이터 νŒŒμ•…: λΆ„μ„μ˜ 기본이 λ˜λŠ” κ°€μš© 데이터에 λŒ€ν•œ κ³ λ €κ°€ ν•„μš”ν•¨
    • ν”„λ‘œμ νŠΈ λ²”μœ„ μ •μ˜μ„œ(SOW; Statement of Works): ν”„λ‘œμ νŠΈ 관리 λΆ„μ•Όμ—μ„œ μ„œλΉ„μŠ€λ₯Ό 톡해 μ œκ³΅ν•˜κΈ° μœ„ν•œ ν™œλ™, μ‚°μΆœλ¬Ό, μž‘μ—…μ‹œκ°„ 등을 ν¬ν•¨ν•˜λŠ” κΈ°μˆ μ„œ λΉ„μ¦ˆλ‹ˆμŠ€ 이해 및 λ²”μœ„ μ„€μ • ν…ŒμŠ€ν¬μ˜ μ‚°μΆœλ¬Ό
  • λΉ„μ¦ˆλ‹ˆμŠ€ μΌ€μ΄μŠ€ 확보
    뢄석을 톡해 κ°€μΉ˜κ°€ 창좜될 수 μžˆλŠ” μ μ ˆν•œ ν™œμš©λ°©μ•ˆκ³Ό ν™œμš© κ°€λŠ₯ν•œ μœ μ¦ˆμΌ€μ΄μŠ€ 탐색이 ν•„μš”ν•¨
  • 이행 μ €ν•΄ μš”μ†Œ 관리
    뢄석을 μˆ˜ν–‰ν•˜λ©° λ°œμƒν•˜λŠ” μž₯μ•  μš”μ†Œλ“€μ— λŒ€ν•œ 사전 κ³„νš 수립이 ν•„μš”ν•¨
    • 4κ°€μ§€λ‘œ ꡬ뢄해 μœ„ν—˜ 관리 κ³„νšμ„œλ₯Ό μž‘μ„±ν•¨
      νšŒν”Ό(Avoid), 전이(Transfer), μ™„ν™”(Mitigate), 수용(Accept)

 

[데이터 μ€€λΉ„]

  • ν•„μš” 데이터 μ •μ˜
  • 데이터 μŠ€ν† μ–΄ 섀계
  • 데이터 μˆ˜μ§‘ 및 μ •ν•©μ„± κ²€μ •

 

[ν”Όλ“œλ°±]
데이터 뢄석 κ³Όμ •μ—μ„œ μΆ”κ°€ 데이터 확보가 ν•„μš”ν•œ 경우 데이터 μ€€λΉ„ 단계에 ν”Όλ“œλ°±μ„ 보냄

 

[μ‹œμŠ€ν…œ κ΅¬ν˜„]

  • 섀계 및 κ΅¬ν˜„: μ‹œμŠ€ν…œ 섀계 및 κ΅¬ν˜„, ν…ŒμŠ€νŠΈ 및 운영이 μ£Όμš” 고렀사항
    • μ‹œμŠ€ν…œ μ„€κ³„μ„œλ₯Ό λ°”νƒ•μœΌλ‘œ BI νŒ¨ν‚€μ§€λ₯Ό ν™œμš©ν•˜κ±°λ‚˜ μƒˆλ‘­κ²Œ ν”„λ‘œκ·Έλž¨ 코딩을 톡해 μ‹œμŠ€ν…œμ„ ꡬ좕함
λ°˜μ‘ν˜•
LIST