λͺ©λ‘μ 체 κΈ (33)
πππ‘πππππ
[ λͺ©μ°¨ ] μνλ§ (sampling): λ¨Έμ λ¬λμμ λ°μ΄ν° λΆκ· ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ λ€μν μνλ§ κΈ°λ²μ μ¬μ© μ’ λ₯ 1οΈβ£ μ€λ²μνλ§ (OverSampling)2οΈβ£ μΈλμνλ§ (UnderSampling)3οΈβ£νΌν© μνλ§ ( Over + Under ) 1οΈβ£ μ€λ²μνλ§ (OverSampling): μμ ν΄λμ€μ λ°μ΄ν°λ₯Ό μ¦κ°μμΌ κ· νμ λ§μΆλ κΈ°λ²(μ : νμλ§€λ¬Όμ΄ μ μ κ²½μ°, νμλ§€λ¬Ό λ°μ΄ν°λ₯Ό μΈμμ μΌλ‘ μμ±) μ£Όμ κΈ°λ²Random OverSampling μμ ν΄λμ€ μνμ λ¨μ 볡μ μ₯μ : μ½κ³ λΉ λ¦λ¨μ : μ€λ³΅ λ°μ΄ν°λ‘ κ³Όμ ν© μνSMOTE (Synthetic Minority Over-sampling Technique)μ΅κ·Όμ μ΄μ(KNN) κΈ°λ°μΌλ‘ μλ‘μ΄ λ°μ΄ν° μμ±λ°μ΄ν° λ€μμ±μ΄ μ¦κ°μ€λ³΅ ..
[ λͺ©μ°¨ ] λλ€ν¬λ μ€νΈμ μ£Όμ νμ΄νΌνλΌλ―Έν°n_estimators : νΈλ¦¬ κ°μλ무 μ μΌλ©΄ κ³Όμμ ν©, λ무 λ§μΌλ©΄ νμ΅ μκ°μ΄ κΈΈμ΄μ§κΈ°λ³Έκ° : 100max_depth : νΈλ¦¬μ μ΅λ κΉμ΄λ무 κΉμΌλ©΄ κ³Όμ ν©, λ무 μμΌλ©΄ κ³Όμμ ν©κΈ°λ³Έκ° : μ ν μμmax_features : μ¬μ©ν μ΅λ λ³μ κ°μλ³μ κ°μ μ νλΆλ₯μμλ sqrtλ³μ κ° μκ΄μ± κ³ λ €min_samples_split : λ Έλ λΆν μ΅μ μν μκΈ°λ³Έ κ° : 2min_samples_leaf : 리ν λ Έλ μ΅μ μν μκΈ°λ³Έ κ° : 1 λ°μ΄ν° λΆλ¦¬λ Όλ¬Έ μ°Έκ³ https://sejong.dcollection.net/public_resource/pdf/200000630803_20250126185853.pdf# μμ μ½λfrom sklearn.model_s..
[ λͺ©μ°¨ ] μ€λ£¨μ£ κ³μ λΉμ§λ νμ΅ νΉμ± μ λ΅μ΄ μμ΄ λλ¬Έμ κ·Έ νκ°λ₯Ό νκΈ΄ μ½μ§ μμ΅λλ€. λ€λ§, κ΅°μ§νκ° μλμ΄ μλ€λ κ²μ λ€λ₯Έ κ΅°μ§κ°μ 거리λ λ¨μ΄μ Έ μκ³ λμΌν κ΅°μ§λΌλ¦¬λ κ°κΉμ΄ μλ€λ κ²μ μλ―Έν¨ μ΄λ₯Ό μ λν νκΈ° μν΄ μ€λ£¨μ£ λΆμ(silhouette analysis)μ΄λ κ° κ΅°μ§ κ°μ κ±°λ¦¬κ° μΌλ§λ ν¨μ¨μ μΌλ‘ λΆλ¦¬λμ΄ μλμ§ μΈ‘μ ν©λλ€. μμμ λ€μκ³Ό κ°μ§λ§ κ·Έλ₯ μ΄ν΄νλ μ©λλ‘ !μ€λ£¨μ£ κ³μ$a(i)$ : λ°μ΄ν° ν¬μΈνΈ $i$ κ³Ό κ°μ κ΅°μ§μ μν λ€λ₯Έ ν¬μΈνΈλ€κ³Όμ νκ· κ±°λ¦¬$b(i)$ : λ°μ΄ν° ν¬μΈνΈ $i$ μ κ°μ₯ κ°κΉμ΄ λ€λ₯Έ κ΅°μ§ κ°μ νκ· κ±°λ¦¬ ν΄μ: 1λ‘ κ°μλ‘ μ κ΅°μ§ν λμ΄ μμ. -1μ κ°κΉμΈμλ‘ μ λͺ» κ΅°μ§ν λμ΄ μλ€ μμμ ν΄μν΄λ³΄μλ©΄ νΉμ ν λ°μ΄ν° iμ μ€λ£¨μ£..
[ λͺ©μ°¨ ] λ¨Έμ λ¬λ μ’ λ₯ 볡μ΅1.μ§λνμ΅: λ¬Έμ (x)μ μ λ΅(y)κ° μ£Όμ΄μ§κ³ λ¬Έμ (x)κ° μ£Όμ΄μ‘μ λ μ λ΅(y)μ λ§μΆλ νμ΅ 2.λΉμ§λνμ΅: λ΅(y)μ μλ €μ£Όμ§ μκ³ λ°μ΄ν° κ° μ μ¬μ±μ μ΄μ©ν΄μ λ΅(y)μ μ§μ νλ λ°©λ² λ¨Έμ λ¬λ κ°μ λΉμ§λ νμ΅ μμκ³ κ° νΉμ±μ λ°λ₯Έ κ·Έλ£Ήνex) ν€λΉμ μ , μΌλ°μ μ ꡬ맀 λ΄μλ³λ‘ λ°μ΄ν° κ·Έλ£Ήνex) μνν ꡬ맀λΉμ§λ νμ΅μ λ°μ΄ν°λ₯Ό κΈ°λ°μΌλ‘ λ μ΄λΈλ§νλ μμ μ΄λΌκ³ νλ©΄ μ λ΅μ΄ μλ λ¬Έμ μ΄κΈ° λλ¬Έμ μ§λ νμ΅λ³΄λ€ μ‘°κΈ μ΄λ ΅κ³ μ£Όκ΄μ μΈ νλ¨μ΄ κ°μ νκ² λλ€ λΉμ§λ νμ΅ k-νκ· μκ³ λ¦¬μ¦k-means clustering μ΄λ‘ 1. kκ° κ΅°μ§ μ μ€μ 2. μμμ μ€μ¬μ μ μ 3. ν΄λΉ μ€μ¬μ κ³Ό κ±°λ¦¬κ° κ°κΉμ΄ λ°μ΄ν°λ₯Ό κ·Έλ£Ή4. λ°μ΄ν°μ κ·Έλ£Ήμ λ¬΄κ² μ€μ¬μΌλ‘ μ€μ¬μ μ μ΄λ5. ..
[ λͺ©μ°¨ ] μ΅κ·Όμ μ΄μ μκ³ λ¦¬μ¦ (KNN): μ£Όλ³μ λ°μ΄ν°λ₯Ό λ³΄κ³ λ΄κ° μκ³ μΆμ λ°μ΄ν°λ₯Ό μμΈ‘νλ λ°©μ k=3 μ΄λΌλ©΄ λ³ 1κ°μ μΈλͺ¨ 2κ°μ΄λ―λ‘ ? λ μΈλͺ¨λ‘ μμΈ‘λ κ²k=7 μ΄λΌλ©΄ λ³ 4κ°μ μΈλͺ¨ 3κ°μ΄λ―λ‘ ? λ λ³λ‘ μμΈ‘λ κ²βοΈ μμ κ°μ΄ νμΌν μ£Όλ³ λ°μ΄ν° kκ°λ₯Ό μ μ νμ 거리 κΈ°μ€μΌλ‘ κ°μ₯ λ§μ κ²μΌλ‘ μμΈ‘νλ κ²μ΄ λ°λ‘ knnμ κΈ°λ³Έ μ리μ΄λ€ κ·ΈλΌ kλ λͺμΌλ‘ μ ν΄μΌ νλ κ±ΈκΉ? λ 거리λ μ΄λ»κ² μΈ‘μ ν΄μΌ νλ κ²μΌκΉ? νμ΄νΌ νμ΄λ―Έν°μ κ°λ νλΌλ―Έν°(Parameter): λ¨Έμ λ¬λ λͺ¨λΈμ΄ νμ΅ κ³Όμ μμ μΆμ νλ λ΄λΆ λ³μμ΄λ©° μλμΌλ‘ κ²°μ λλ κ°ex) μ ννκ·μμ κ°μ€μΉμ νΈν₯ Pythonμμλ ν¨μ μ μμμ ν¨μκ° λ°μ μ μλ μΈμ(μ λ ₯ κ°)λ₯Ό μ§μ νλ κ°λ νμ΄νΌ νλΌλ―Έν°(Hy..
[ λͺ©μ°¨ ] μμ¬κ²°μ λ무 (Decision Tree, DT) : μμ¬κ²°μ κ·μΉμ λ무 κ΅¬μ‘°λ‘ λνλ΄μ΄ μ 체 μλ£λ₯Ό λͺ κ°μ μμ§λ¨μΌλ‘ λΆλ₯νκ±°λ μμΈ‘μ μννλ λΆμ λ°©λ²μ±λ³μ κΈ°μ€μΌλ‘ μμ¬κ²°μ λ무 μκ°ννμ΄λλμ μμμ±λ³μ κΈ°μ€μΌλ‘ μμ¬κ²°μ λ무 μκ°νλͺ μΉ λ£¨νΈ λ Έλ(Root Node): μμ¬κ²°μ λ무μ μμμ . μ΅μ΄μ λΆν 쑰건 리ν λ Έλ(Leaf Node): λ£¨νΈ λ Έλλ‘λΆν° νμλ μ€κ° νΉμ μ΅μ’ λ Έλ λΆλ₯κΈ°μ€(criteria): sexλ μ¬μ±μΈ κ²½μ° 0, λ¨μ±μΈ κ²½μ° 1λ‘ μΈμ½λ©. μ¬μ±μΈ κ²½μ° μ’μΈ‘ λ Έλλ‘, λ¨μ±μΈ κ²½μ° μ°μΈ‘ λ Έλλ‘ λΆλ₯ λΆμλ(impurity) μν(samples): ν΄λΉ λ Έλμ μν κ°μ(891κ°μ κ΄μΈ‘μΉ) κ°(value): Yλ³μμ λν λ°°μ΄. 549λͺ μ΄ μ£½μκ³ (Y = 0..