π‘π‘œπ‘‘π‘’π‘π‘œπ‘œπ‘˜

ꡰ집평가 μ§€ν‘œ λ³Έλ¬Έ

λ¨Έμ‹ λŸ¬λ‹ 🦾

ꡰ집평가 μ§€ν‘œ

seoa__ 2025. 1. 24. 22:27

   [ λͺ©μ°¨ ]

     

     

    싀루엣 κ³„μˆ˜

    비지도 ν•™μŠ΅ νŠΉμ„± 상 닡이 없이 λ•Œλ¬Έμ— κ·Έ 평가λ₯Ό ν•˜κΈ΄ 쉽지 μ•ŠμŠ΅λ‹ˆλ‹€. λ‹€λ§Œ, κ΅°μ§‘ν™”κ°€ μž˜λ˜μ–΄ μžˆλ‹€λŠ” 것은 λ‹€λ₯Έ κ΅°μ§‘κ°„μ˜ κ±°λ¦¬λŠ” λ–¨μ–΄μ Έ 있고 λ™μΌν•œ κ΅°μ§‘λΌλ¦¬λŠ” κ°€κΉŒμ΄ μžˆλ‹€λŠ” 것을 μ˜λ―Έν•¨

     

    이λ₯Ό μ •λŸ‰ν™” ν•˜κΈ° μœ„ν•΄ 싀루엣 뢄석(silhouette analysis)μ΄λž€ κ°„ κ΅°μ§‘ κ°„μ˜ 거리가 μ–Όλ§ˆλ‚˜ 효율적으둜 λΆ„λ¦¬λ˜μ–΄ μžˆλŠ”μ§€ μΈ‘μ •ν•©λ‹ˆλ‹€. μˆ˜μ‹μ€ λ‹€μŒκ³Ό κ°™μ§€λ§Œ κ·Έλƒ₯ μ΄ν•΄ν•˜λŠ” μš©λ„λ‘œ !

    • 싀루엣 κ³„μˆ˜

    • $a(i)$ : 데이터 포인트 $i$ κ³Ό 같은 ꡰ집에 μ†ν•œ λ‹€λ₯Έ ν¬μΈνŠΈλ“€κ³Όμ˜ 평균 거리
    • $b(i)$ : 데이터 포인트 $i$ 와 κ°€μž₯ κ°€κΉŒμš΄ λ‹€λ₯Έ κ΅°μ§‘ κ°„μ˜ 평균 거리
    • 해석: 1둜 갈수둝 잘 κ΅°μ§‘ν™” λ˜μ–΄ 있음. -1에 κ°€κΉŒμšΈμˆ˜λ‘ 잘 λͺ» κ΅°μ§‘ν™” λ˜μ–΄ μžˆλ‹€
    μˆ˜μ‹μ„ ν•΄μ„ν•΄λ³΄μžλ©΄ νŠΉμ •ν•œ 데이터 i의 싀루엣 κ³„μˆ˜λŠ” μ–Όλ§ˆλ‚˜ λ–¨μ–΄μ ΈμžˆλŠ”κ°€
    (b($i$)-a($i$))κ°€ 클 수둝 크며, 이λ₯Ό λ‹¨μœ„ μ •κ·œν™”λ₯Ό μœ„ν•΄ a($i$), b($i$) κ°’ 쀑에 큰 κ°’μœΌλ‘œ λ‚˜λˆ”

     

    • 쒋은 κ΅°μ§‘ν™”μ˜ 쑰건
      • 싀루엣 값이 λ†’μ„μˆ˜λ‘(1에 κ°€κΉŒμ›€)
      • κ°œλ³„ κ΅°μ§‘μ˜ 평균 κ°’μ˜ νŽΈμ°¨κ°€ 크지 μ•Šμ•„μ•Ό 함
    • Python 라이브러리
      • sklearn.metrics.sihouette_score : μ „μ œ λ°μ΄ν„°μ˜ μ‹€λ£¨μ—£ κ³„μˆ˜ ν‰κ·  κ°’ λ°˜ν™˜
        • ν•¨μˆ˜ μž…λ ₯ κ°’
          • X : 데이터 μ„ΈνŠΈ
          • labels : λ ˆμ΄λΈ”
          • metrics : μΈ‘μ • κΈ°μ€€ 기본은 euclidean

    (μ‹€μŠ΅)뢓꽃 데이터λ₯Ό μ΄μš©ν•œ κ΅°μ§‘ν™”

    비지도 ν•™μŠ΅μœΌλ‘œ ~!

     

    고객 μ„Έκ·Έλ©˜ν…Œμ΄μ…˜μ˜ μ •μ˜

    비지도 ν•™μŠ΅μ΄ κ°€μž₯ 많이 μ‚¬μš©λ˜λŠ” λΆ„μ•ΌλŠ” 고객 관계 관리(Customer Relationship Management, CRM)λΆ„μ•Ό μž…λ‹ˆλ‹€. 이쀑 고객 μ„Έκ·Έλ©˜ν…Œμ΄μ…˜(Customer Segmentation)은 λ‹€μ–‘ν•œ κΈ°μ€€μœΌλ‘œ 고객을 λΆ„λ₯˜ν•˜λŠ” κΈ°λ²•μž…λ‹ˆλ‹€. 주둜 νƒ€κ²Ÿ λ§ˆμΌ€νŒ…μ΄λΌ λΆˆλ¦¬λŠ” 고객 νŠΉμ„±μ— 맞게 μ„ΈλΆ„ν™” ν•˜μ—¬ μœ ν˜•μ— 따라 λ§žμΆ€ν˜• λ§ˆκ²ŒνŒ…μ΄λ‚˜ μ„œλΉ„μŠ€λ₯Ό μ œκ³΅ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ λ‘‘λ‹ˆλ‹€.

    • RFM의 κ°œλ…
      • Recency(R) κ°€μž₯ 졜근 κ΅¬μž… μΌμ—μ„œ μ˜€λŠ˜κΉŒμ§€μ˜ μ‹œκ°„
      • Frequency(F): μƒν’ˆ ꡬ맀 횟수
      • Monetary value(M): 총 ꡬ맀 κΈˆμ•‘
    EDA → λ°μ΄ν„°μ „μ²˜λ¦¬(결츑치 μ‚­μ œ,확인) → RFM 기반 데이터 가곡 → 고객 μ„Έκ·Έλ©˜ν…Œμ΄μ…˜ → 평가