π‘π‘œπ‘‘π‘’π‘π‘œπ‘œπ‘˜

λ‘œμ§€μŠ€ν‹± νšŒκ·€ λ³Έλ¬Έ

λ¨Έμ‹ λŸ¬λ‹ 🦾

λ‘œμ§€μŠ€ν‹± νšŒκ·€

seoa__ 2025. 1. 20. 20:27

[ λͺ©μ°¨ ]

     

    λ‘œμ§€μŠ€ν‹± νšŒκ·€

    : 데이터가 μ–΄λ–€ 범주에 속할 ν™•λ₯ μ„ 0μ—μ„œ 1μ‚¬μ΄μ˜ κ°’μœΌλ‘œ μ˜ˆμΈ‘ν•œ λ’€ κ·Έ ν™•λ₯ μ— λ”°λΌμ„œ κ°€λŠ₯성이 νŠΉμ • κΈ°μ€€μΉ˜ 이상인 경우 ν•΄λ‹Ή 클래슀둜 λΆ„λ₯˜ν•΄μ£ΌλŠ” 지도 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜

     

    • xκ°€ μ—°μ†ν˜• λ³€μˆ˜μ΄κ³ , yκ°€ νŠΉμ • 값이 될 ν™•λ₯ μ΄λΌκ³  μ„€μ •ν•œλ‹€λ©΄, μ™Όμͺ½ κ·Έλ¦Όκ³Ό 같이 μ„ ν˜•μœΌλ‘œ μ„€λͺ…ν•˜κΈ΄ 쉽지 μ•Šμ•„ 보인닀 ν™•λ₯ μ€ 0κ³Ό 1사인데, 예츑 값이 ν™•λ₯  λ²”μœ„λ₯Ό λ„˜μ–΄ 갈 수 μžˆλŠ” λ¬Έμ œκ°€ μžˆλ‹€
    • ν•˜μ§€λ§Œ 였λ₯Έμͺ½ 그림은 s자 ν˜•νƒœμ˜ ν•¨μˆ˜λ₯Ό μ μš©ν•˜λ©΄ 잘 μ„€λͺ…ν•œλ‹€κ³  ν•  수 μžˆμ„ 것 κ°™λ‹€ 

     

     

    ν•¨μˆ˜

    • μ‹œκ·Έλͺ¨μ΄λ“œ ν•¨μˆ˜ 쀑 ν•˜λ‚˜λ‘œ λ¦½λŸ¬λ‹μ—μ„œ λ‹€μ‹œ ν™œμš© = 값을 κ³„μ‚°ν•˜λ©΄ ν™•λ₯ μ΄ λ„μΆœ ‼️

    • μœ„ 식을 p에 λŒ€ν•΄μ„œ μ •λ¦¬ν•˜μ—¬ λ‹€μŒκ³Ό 같이 ν‘œν˜„ κ°€λŠ₯

     

    πŸŸ’λ‘œμ§“μ˜ μž₯점 : μ–΄λ–€ 값을 κ°€μ Έμ˜€λ”λΌλ„ λ°˜λ“œμ‹œ νŠΉμ • 사건이 일어날 ν™•λ₯ 
         (Y값이 νŠΉμ • 값일 ν™•λ₯ )이 0κ³Ό 1μ•ˆμœΌλ‘œ λ“€μ–΄μ˜€λŠ” νŠΉμ§•μ„ 가짐

     

    • λ‘œμ§“κ³Ό κΈ°μ‘΄ μ„ ν˜•νšŒκ·€μ˜ μš°λ³€μ„ 합쳐 λ‹€μŒκ³Ό 같은 식을 λ„μΆœ

    • 양변에 μžμ—°μ§€μˆ˜ eλ₯Ό μ·¨ν•˜λ©΄

    • 해석 : x값이 $ w_1$만큼 μ¦κ°€ν•˜λ©΄ μ˜€μ¦ˆλΉ„λŠ” $ w_1$​ 만큼 μ¦κ°€ν•œλ‹€

    🟒 λ‘œμ§€μŠ€ν‹±ν•¨μˆ˜λŠ” κ°€μ€‘μΉ˜ 값을 μ•ˆλ‹€λ©΄ x값이 μ£Όμ–΄μ‘Œμ„ λ•Œ ν•΄λ‹Ή 사건이 일어날 수 μžˆλŠ” p의 ν™•λ₯ μ„ 계산할 수 μžˆλ‹€

    μ΄λ•Œ, ν™•λ₯  0.5λ₯Ό κΈ°μ€€μœΌλ‘œ 그보닀 λ†’μœΌλ©΄ 사전이 일어남 (P(Y) = 1),
    그렇지 μ•ŠμœΌλ©΄ 사건이 μΌμ–΄λ‚˜μ§€ μ•ŠμŒ (P(Y) = 0)으둜 νŒλ‹¨ν•˜μ—¬ λΆ„λ₯˜ μ˜ˆμΈ‘μ— μ‚¬μš©

     

    자주 μ“°λŠ” ν•¨μˆ˜

    • sklearn.linear_model.LogisticRegression : λ‘œμ§€μŠ€ν‹±νšŒκ·€ λͺ¨λΈ 클래슀
      • 속성
        • classes_  : 클래슀(Y)의 μ’…λ₯˜
        • n_features_in_ : λ“€μ–΄κ°„ λ…λ¦½λ³€μˆ˜(X) 개수
        • feature_names_in_ : λ“€μ–΄κ°„ λ…λ¦½λ³€μˆ˜(X)의 이름
        • coef_ : κ°€μ€‘μΉ˜
        • intercept_ : λ°”μ΄μ–΄μŠ€
      • λ©”μ†Œλ“œ
        • fit : 데이터 ν•™μŠ΅
        • predict : 데이터 예츑
        • predict_proba : 데이터가 Y = 1일 ν™•λ₯ μ„ 예츑
      • sklearn.metrics.accuracy : 정확도
      • sklearn.metrics.f1_socre : f1_score

    πŸ“Œ 정리

    • μž₯점 : μ—­μ‹œ 직관적이며 μ΄ν•΄ν•˜κΈ° 쉽닀
    • 단점 : λ³΅μž‘ν•œ λΉ„μ„ ν˜• 관계λ₯Ό λͺ¨λΈλ§ν•˜κΈ° μ–΄λ €μšΈ 수 있음
    • Python νŒ¨ν‚€μ§€
      • sklearn.linear_model.LogisticRegresson

    νšŒκ·€, λΆ„λ₯˜ 정리해보기

    • μ„ ν˜•νšŒκ·€μ™€ λ‘œμ§€μŠ€ν‹±νšŒκ·€μ˜ 곡톡점
      1. λͺ¨λΈ 생성이 쉬움
      2. κ°€μ€‘μΉ˜(ν˜Ήμ€ νšŒκ·€κ³„μˆ˜)λ₯Ό ν†΅ν•œ 해석이 μ‰¬μš΄ μž₯점이 있음
      3. Xλ³€μˆ˜μ— λ²”μ£Όν˜•, μˆ˜μΉ˜ν˜• λ³€μˆ˜ λ‘˜ λ‹€ μ‚¬μš© κ°€λŠ₯
    • μ„ ν˜•νšŒκ·€μ™€ λ‘œμ§€μŠ€ν‹± λΆ„λ₯˜ 차이점