๋ชฉ๋ก๋ถ๋ฅ ์ ์ฒด๋ณด๊ธฐ (33)
๐๐๐ก๐๐๐๐๐
[ ๋ชฉ์ฐจ ] ์ํ๋ง (sampling): ๋จธ์ ๋ฌ๋์์ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ํ ์ํ๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉ ์ข ๋ฅ 1๏ธโฃ ์ค๋ฒ์ํ๋ง (OverSampling)2๏ธโฃ ์ธ๋์ํ๋ง (UnderSampling)3๏ธโฃํผํฉ ์ํ๋ง ( Over + Under ) 1๏ธโฃ ์ค๋ฒ์ํ๋ง (OverSampling): ์์ ํด๋์ค์ ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐ์์ผ ๊ท ํ์ ๋ง์ถ๋ ๊ธฐ๋ฒ(์ : ํ์๋งค๋ฌผ์ด ์ ์ ๊ฒฝ์ฐ, ํ์๋งค๋ฌผ ๋ฐ์ดํฐ๋ฅผ ์ธ์์ ์ผ๋ก ์์ฑ) ์ฃผ์ ๊ธฐ๋ฒRandom OverSampling ์์ ํด๋์ค ์ํ์ ๋จ์ ๋ณต์ ์ฅ์ : ์ฝ๊ณ ๋น ๋ฆ๋จ์ : ์ค๋ณต ๋ฐ์ดํฐ๋ก ๊ณผ์ ํฉ ์ํSMOTE (Synthetic Minority Over-sampling Technique)์ต๊ทผ์ ์ด์(KNN) ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ๋ฐ์ดํฐ ์์ฑ๋ฐ์ดํฐ ๋ค์์ฑ์ด ์ฆ๊ฐ์ค๋ณต ..

[ ๋ชฉ์ฐจ ] ๋๋คํฌ๋ ์คํธ์ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐn_estimators : ํธ๋ฆฌ ๊ฐ์๋๋ฌด ์ ์ผ๋ฉด ๊ณผ์์ ํฉ, ๋๋ฌด ๋ง์ผ๋ฉด ํ์ต ์๊ฐ์ด ๊ธธ์ด์ง๊ธฐ๋ณธ๊ฐ : 100max_depth : ํธ๋ฆฌ์ ์ต๋ ๊น์ด๋๋ฌด ๊น์ผ๋ฉด ๊ณผ์ ํฉ, ๋๋ฌด ์์ผ๋ฉด ๊ณผ์์ ํฉ๊ธฐ๋ณธ๊ฐ : ์ ํ ์์max_features : ์ฌ์ฉํ ์ต๋ ๋ณ์ ๊ฐ์๋ณ์ ๊ฐ์ ์ ํ๋ถ๋ฅ์์๋ sqrt๋ณ์ ๊ฐ ์๊ด์ฑ ๊ณ ๋ คmin_samples_split : ๋ ธ๋ ๋ถํ ์ต์ ์ํ ์๊ธฐ๋ณธ ๊ฐ : 2min_samples_leaf : ๋ฆฌํ ๋ ธ๋ ์ต์ ์ํ ์๊ธฐ๋ณธ ๊ฐ : 1 ๋ฐ์ดํฐ ๋ถ๋ฆฌ๋ ผ๋ฌธ ์ฐธ๊ณ https://sejong.dcollection.net/public_resource/pdf/200000630803_20250126185853.pdf# ์์ ์ฝ๋from sklearn.model_s..

[ ๋ชฉ์ฐจ ] ์ค๋ฃจ์ฃ ๊ณ์ ๋น์ง๋ ํ์ต ํน์ฑ ์ ๋ต์ด ์์ด ๋๋ฌธ์ ๊ทธ ํ๊ฐ๋ฅผ ํ๊ธด ์ฝ์ง ์์ต๋๋ค. ๋ค๋ง, ๊ตฐ์งํ๊ฐ ์๋์ด ์๋ค๋ ๊ฒ์ ๋ค๋ฅธ ๊ตฐ์ง๊ฐ์ ๊ฑฐ๋ฆฌ๋ ๋จ์ด์ ธ ์๊ณ ๋์ผํ ๊ตฐ์ง๋ผ๋ฆฌ๋ ๊ฐ๊น์ด ์๋ค๋ ๊ฒ์ ์๋ฏธํจ ์ด๋ฅผ ์ ๋ํ ํ๊ธฐ ์ํด ์ค๋ฃจ์ฃ ๋ถ์(silhouette analysis)์ด๋ ๊ฐ ๊ตฐ์ง ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ์ผ๋ง๋ ํจ์จ์ ์ผ๋ก ๋ถ๋ฆฌ๋์ด ์๋์ง ์ธก์ ํฉ๋๋ค. ์์์ ๋ค์๊ณผ ๊ฐ์ง๋ง ๊ทธ๋ฅ ์ดํดํ๋ ์ฉ๋๋ก !์ค๋ฃจ์ฃ ๊ณ์a(i) : ๋ฐ์ดํฐ ํฌ์ธํธ i ๊ณผ ๊ฐ์ ๊ตฐ์ง์ ์ํ ๋ค๋ฅธ ํฌ์ธํธ๋ค๊ณผ์ ํ๊ท ๊ฑฐ๋ฆฌb(i) : ๋ฐ์ดํฐ ํฌ์ธํธ i ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ค๋ฅธ ๊ตฐ์ง ๊ฐ์ ํ๊ท ๊ฑฐ๋ฆฌ ํด์: 1๋ก ๊ฐ์๋ก ์ ๊ตฐ์งํ ๋์ด ์์. -1์ ๊ฐ๊น์ธ์๋ก ์ ๋ชป ๊ตฐ์งํ ๋์ด ์๋ค ์์์ ํด์ํด๋ณด์๋ฉด ํน์ ํ ๋ฐ์ดํฐ i์ ์ค๋ฃจ์ฃ..

[ ๋ชฉ์ฐจ ] ๋จธ์ ๋ฌ๋ ์ข ๋ฅ ๋ณต์ต1.์ง๋ํ์ต: ๋ฌธ์ (x)์ ์ ๋ต(y)๊ฐ ์ฃผ์ด์ง๊ณ ๋ฌธ์ (x)๊ฐ ์ฃผ์ด์ก์ ๋ ์ ๋ต(y)์ ๋ง์ถ๋ ํ์ต 2.๋น์ง๋ํ์ต: ๋ต(y)์ ์๋ ค์ฃผ์ง ์๊ณ ๋ฐ์ดํฐ ๊ฐ ์ ์ฌ์ฑ์ ์ด์ฉํด์ ๋ต(y)์ ์ง์ ํ๋ ๋ฐฉ๋ฒ ๋จธ์ ๋ฌ๋ ๊ฐ์ ๋น์ง๋ ํ์ต ์์๊ณ ๊ฐ ํน์ฑ์ ๋ฐ๋ฅธ ๊ทธ๋ฃนํex) ํค๋น์ ์ , ์ผ๋ฐ์ ์ ๊ตฌ๋งค ๋ด์ญ๋ณ๋ก ๋ฐ์ดํฐ ๊ทธ๋ฃนํex) ์ํํ ๊ตฌ๋งค๋น์ง๋ ํ์ต์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ์ด๋ธ๋งํ๋ ์์ ์ด๋ผ๊ณ ํ๋ฉด ์ ๋ต์ด ์๋ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ ์ง๋ ํ์ต๋ณด๋ค ์กฐ๊ธ ์ด๋ ต๊ณ ์ฃผ๊ด์ ์ธ ํ๋จ์ด ๊ฐ์ ํ๊ฒ ๋๋ค ๋น์ง๋ ํ์ต k-ํ๊ท ์๊ณ ๋ฆฌ์ฆk-means clustering ์ด๋ก 1. k๊ฐ ๊ตฐ์ง ์ ์ค์ 2. ์์์ ์ค์ฌ์ ์ ์ 3. ํด๋น ์ค์ฌ์ ๊ณผ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฃน4. ๋ฐ์ดํฐ์ ๊ทธ๋ฃน์ ๋ฌด๊ฒ ์ค์ฌ์ผ๋ก ์ค์ฌ์ ์ ์ด๋5. ..

[ ๋ชฉ์ฐจ ] ์ต๊ทผ์ ์ด์ ์๊ณ ๋ฆฌ์ฆ (KNN): ์ฃผ๋ณ์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ๋ด๊ฐ ์๊ณ ์ถ์ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ๋ ๋ฐฉ์ k=3 ์ด๋ผ๋ฉด ๋ณ 1๊ฐ์ ์ธ๋ชจ 2๊ฐ์ด๋ฏ๋ก ? ๋ ์ธ๋ชจ๋ก ์์ธก๋ ๊ฒk=7 ์ด๋ผ๋ฉด ๋ณ 4๊ฐ์ ์ธ๋ชจ 3๊ฐ์ด๋ฏ๋ก ? ๋ ๋ณ๋ก ์์ธก๋ ๊ฒโ๏ธ ์์ ๊ฐ์ด ํ์ผํ ์ฃผ๋ณ ๋ฐ์ดํฐ k๊ฐ๋ฅผ ์ ์ ํ์ ๊ฑฐ๋ฆฌ ๊ธฐ์ค์ผ๋ก ๊ฐ์ฅ ๋ง์ ๊ฒ์ผ๋ก ์์ธกํ๋ ๊ฒ์ด ๋ฐ๋ก knn์ ๊ธฐ๋ณธ ์๋ฆฌ์ด๋ค ๊ทธ๋ผ k๋ ๋ช์ผ๋ก ์ ํด์ผ ํ๋ ๊ฑธ๊น? ๋ ๊ฑฐ๋ฆฌ๋ ์ด๋ป๊ฒ ์ธก์ ํด์ผ ํ๋ ๊ฒ์ผ๊น? ํ์ดํผ ํ์ด๋ฏธํฐ์ ๊ฐ๋ ํ๋ผ๋ฏธํฐ(Parameter): ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ด ํ์ต ๊ณผ์ ์์ ์ถ์ ํ๋ ๋ด๋ถ ๋ณ์์ด๋ฉฐ ์๋์ผ๋ก ๊ฒฐ์ ๋๋ ๊ฐex) ์ ํํ๊ท์์ ๊ฐ์ค์น์ ํธํฅ Python์์๋ ํจ์ ์ ์์์ ํจ์๊ฐ ๋ฐ์ ์ ์๋ ์ธ์(์ ๋ ฅ ๊ฐ)๋ฅผ ์ง์ ํ๋ ๊ฐ๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ(Hy..

[ ๋ชฉ์ฐจ ] ์์ฌ๊ฒฐ์ ๋๋ฌด (Decision Tree, DT) : ์์ฌ๊ฒฐ์ ๊ท์น์ ๋๋ฌด ๊ตฌ์กฐ๋ก ๋ํ๋ด์ด ์ ์ฒด ์๋ฃ๋ฅผ ๋ช ๊ฐ์ ์์ง๋จ์ผ๋ก ๋ถ๋ฅํ๊ฑฐ๋ ์์ธก์ ์ํํ๋ ๋ถ์ ๋ฐฉ๋ฒ์ฑ๋ณ์ ๊ธฐ์ค์ผ๋ก ์์ฌ๊ฒฐ์ ๋๋ฌด ์๊ฐํํ์ด๋๋์ ์์์ฑ๋ณ์ ๊ธฐ์ค์ผ๋ก ์์ฌ๊ฒฐ์ ๋๋ฌด ์๊ฐํ๋ช ์นญ ๋ฃจํธ ๋ ธ๋(Root Node): ์์ฌ๊ฒฐ์ ๋๋ฌด์ ์์์ . ์ต์ด์ ๋ถํ ์กฐ๊ฑด ๋ฆฌํ ๋ ธ๋(Leaf Node): ๋ฃจํธ ๋ ธ๋๋ก๋ถํฐ ํ์๋ ์ค๊ฐ ํน์ ์ต์ข ๋ ธ๋ ๋ถ๋ฅ๊ธฐ์ค(criteria): sex๋ ์ฌ์ฑ์ธ ๊ฒฝ์ฐ 0, ๋จ์ฑ์ธ ๊ฒฝ์ฐ 1๋ก ์ธ์ฝ๋ฉ. ์ฌ์ฑ์ธ ๊ฒฝ์ฐ ์ข์ธก ๋ ธ๋๋ก, ๋จ์ฑ์ธ ๊ฒฝ์ฐ ์ฐ์ธก ๋ ธ๋๋ก ๋ถ๋ฅ ๋ถ์๋(impurity) ์ํ(samples): ํด๋น ๋ ธ๋์ ์ํ ๊ฐ์(891๊ฐ์ ๊ด์ธก์น) ๊ฐ(value): Y๋ณ์์ ๋ํ ๋ฐฐ์ด. 549๋ช ์ด ์ฃฝ์๊ณ (Y = 0..