ADsP

ADsP 3κ³Όλͺ© 5-6 μ—°κ΄€ 뢄석 | μ •λ¦¬πŸ“

studyrooom 2024. 10. 2. 17:10
SMALL

연관뢄석

  • μ œν’ˆλ³„ 거래 λΉˆλ„ν‘œλ₯Ό 톡해 κ·œμΉ™μ„ μ°ΎλŠ”λ°μ„œ μ‹œμž‘ν•¨
  • μ‹œμ°¨ 연관뢄석은 μ‹œκ°„μ΄ 지남에 따라 μ–΄λ–€ μ†ŒλΉ„ν˜•νƒœλ₯Ό λ³΄μ΄λŠ”κ°€μ— λŒ€ν•œ λΆ„μ„μœΌλ‘œ
    원인과 결과의 ν˜•νƒœλ‘œ 해석이 κ°€λŠ₯ν•΄μ„œ κ²°κ³Όκ°€ 더 μœ μš©ν•˜κ²Œ μ“°μž„

 

μ—°κ΄€κ·œμΉ™(Association Rule)

  • 쑰건과 λ°˜μ‘μ˜ ν˜•νƒœ(if-then)둜 κ²°κ³Ό 이해 쉬움
  • λͺ©μ λ³€μˆ˜κ°€ μ—†μ–΄ 뢄석 λ°©ν–₯μ΄λ‚˜ λͺ©μ  없이도 적용 κ°€λŠ₯함
  • λ„ˆλ¬΄ μ„ΈλΆ„ν™”λœ ν’ˆλͺ©μ€ μ˜λ―Έμ—†λŠ” κ²°κ³Όλ₯Ό λ„μΆœν•¨
  • μ‹€μ‹œκ°„ μƒν’ˆμΆ”μ²œμ„ ν†΅ν•œ ꡐ차판맀 등에 ν™œμš© κ°€λŠ₯함

μž₯점

  • 뢄석 λ°©ν–₯μ΄λ‚˜ λͺ©μ μ΄ νŠΉλ³„νžˆ μ—†λŠ” 경우 λͺ©μ λ³€μˆ˜κ°€ μ—†μœΌλ―€λ‘œ μœ μš©ν•¨
  • 거래 λ‚΄μš©μ— λŒ€ν•œ 데이터λ₯Ό λ³€ν™˜ 없이 κ·Έ 자체둜 μ΄μš©ν•  수 μžˆλŠ” κ°„λ‹¨ν•œ 자료ꡬ쑰λ₯Ό κ°–λŠ” 뢄석 λ°©λ²•μž„
  • 계산이 간단함
  • 결과이해 쉬움

단점

  • ν’ˆλͺ© μˆ˜κ°€ μ¦κ°€ν•˜λ©΄ 뢄석에 ν•„μš”ν•œ 계산이 κΈ°ν•˜κΈ‰μˆ˜μ μœΌλ‘œ 증가함
  • κ±°λž˜λŸ‰μ΄ 적은 ν’ˆλͺ©μ€ λ‹Ήμ—°νžˆ κ·œμΉ™ λ°œκ²¬μ— μ œμ™Έλ˜κΈ° 쉬움
  • 연관뢄석 κ²°κ³Όλ‘œλŠ” ν’ˆλͺ© κ°„ ꡬ체적인 영ν–₯을 μ•Œ 수 μ—†μŒ

 

μ—°κ΄€κ·œμΉ™μ˜ 츑도

  • 지지도(Support): 전체 거래 쀑 ν’ˆλͺ© A, Bλ₯Ό λ™μ‹œμ— ν¬ν•¨ν•˜λŠ” 거래의 λΉ„μœ¨
    = $\frac{P(A\cap B)}{P(ALL)}$
  • 신뒰도(Confidence): Aλ₯Ό ν¬ν•¨ν•œ 거래 쀑 A, Bκ°€ 같이 ν¬ν•¨λœ ν™•λ₯ μ€ μ–΄λŠ 정도인가λ₯Ό λ‚˜νƒ€λ‚΄μ£ΌλŠ” μ—°κ΄€μ„±μ˜ 정도
    = $P(B|A) = \frac {지지도}{P(A)}$
  • ν–₯상도(Lift): Aκ°€ μ£Όμ–΄μ§€μ§€ μ•Šμ•˜μ„ λ•Œ ν’ˆλͺ© B의 ν™•λ₯ μ— λΉ„ν•΄ Aκ°€ μ£Όμ–΄μ‘Œμ„ λ•Œ ν’ˆλͺ© B의 ν™•λ₯  증가 λΉ„μœ¨
    = $A→B,\ \ \frac {P(B|A)}{P(B)} = \frac {P(A\cap B)}{P(A)P(B)} = \frac {신뒰도}{P(B)}$

 

Apriori μ•Œκ³ λ¦¬μ¦˜

μ΅œμ†Œ 지지도 보닀 큰 λ°˜λ°œν•­λͺ© μ§‘ν•©μ—μ„œ 높은 츑도(신뒰도, ν–₯상도) 값을 κ°–λŠ” μ—°κ΄€κ·œμΉ™μ„ κ΅¬ν•˜λŠ” 방법

  1. μ΅œμ†Œ 지지도λ₯Ό μ„€μ •ν•˜κ³ 
  2. κ°œλ³„ ν’ˆλͺ© 쀑 μ΅œμ†Œ 지지도가 λ„˜λŠ” λͺ¨λ“  ν’ˆλͺ©μ„ 찾음
  3. κ°œλ³„ ν’ˆλͺ©λ§ŒμœΌλ‘œ μ΅œμ†Œ 지지도가 λ„˜λŠ” 2κ°€μ§€ ν’ˆλͺ©μ„ μ°Ύκ³ 
  4. 이것듀을 κ²°ν•©ν•΄ 3κ°€μ§€ ν’ˆλͺ© 집합을 찾으며 λ°˜λ³΅ν•΄ λΉˆλ°œν’ˆλͺ©μ§‘합을 찾음
  • inspect( ): apriori( ) ν•¨μˆ˜λ₯Ό ν™œμš©ν•΄ μƒμ„±ν•œ μ—°κ΄€κ·œμΉ™μ„ 보기 μœ„ν•΄ μ‚¬μš©ν•˜λŠ” ν•¨μˆ˜
λ°˜μ‘ν˜•
LIST