๋ชฉ๋ก๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (33)

๐‘๐‘œ๐‘ก๐‘’๐‘๐‘œ๐‘œ๐‘˜

๋จธ์‹ ๋Ÿฌ๋‹ ์ƒ˜ํ”Œ๋ง

[ ๋ชฉ์ฐจ ]  ์ƒ˜ํ”Œ๋ง (sampling): ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉ ์ข…๋ฅ˜ 1๏ธโƒฃ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง (OverSampling)2๏ธโƒฃ ์–ธ๋”์ƒ˜ํ”Œ๋ง (UnderSampling)3๏ธโƒฃํ˜ผํ•ฉ ์ƒ˜ํ”Œ๋ง ( Over + Under ) 1๏ธโƒฃ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง (OverSampling): ์†Œ์ˆ˜ ํด๋ž˜์Šค์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฆ๊ฐ€์‹œ์ผœ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๊ธฐ๋ฒ•(์˜ˆ : ํ—ˆ์œ„๋งค๋ฌผ์ด ์ ์€ ๊ฒฝ์šฐ, ํ—ˆ์œ„๋งค๋ฌผ ๋ฐ์ดํ„ฐ๋ฅผ ์ธ์œ„์ ์œผ๋กœ ์ƒ์„ฑ) ์ฃผ์š” ๊ธฐ๋ฒ•Random OverSampling ์†Œ์ˆ˜ ํด๋ž˜์Šค ์ƒ˜ํ”Œ์„ ๋‹จ์ˆœ ๋ณต์ œ์žฅ์  : ์‰ฝ๊ณ  ๋น ๋ฆ„๋‹จ์  : ์ค‘๋ณต ๋ฐ์ดํ„ฐ๋กœ ๊ณผ์ ‘ํ•ฉ ์œ„ํ—˜SMOTE (Synthetic Minority Over-sampling Technique)์ตœ๊ทผ์ ‘ ์ด์›ƒ(KNN) ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€์ค‘๋ณต ..

๋žœ๋คํฌ๋ ˆ์ŠคํŠธ(ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ)

[ ๋ชฉ์ฐจ ] ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ์˜ ์ฃผ์š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐn_estimators : ํŠธ๋ฆฌ ๊ฐœ์ˆ˜๋„ˆ๋ฌด ์ ์œผ๋ฉด ๊ณผ์†Œ์ ํ•ฉ, ๋„ˆ๋ฌด ๋งŽ์œผ๋ฉด ํ•™์Šต ์‹œ๊ฐ„์ด ๊ธธ์–ด์ง๊ธฐ๋ณธ๊ฐ’ : 100max_depth : ํŠธ๋ฆฌ์˜ ์ตœ๋Œ€ ๊นŠ์ด๋„ˆ๋ฌด ๊นŠ์œผ๋ฉด ๊ณผ์ ํ•ฉ, ๋„ˆ๋ฌด ์–•์œผ๋ฉด ๊ณผ์†Œ์ ํ•ฉ๊ธฐ๋ณธ๊ฐ’ : ์ œํ•œ ์—†์Œmax_features : ์‚ฌ์šฉํ•  ์ตœ๋Œ€ ๋ณ€์ˆ˜ ๊ฐœ์ˆ˜๋ณ€์ˆ˜ ๊ฐœ์ˆ˜ ์ œํ•œ๋ถ„๋ฅ˜์—์„œ๋Š” sqrt๋ณ€์ˆ˜ ๊ฐ„ ์ƒ๊ด€์„ฑ ๊ณ ๋ คmin_samples_split : ๋…ธ๋“œ ๋ถ„ํ•  ์ตœ์†Œ ์ƒ˜ํ”Œ ์ˆ˜๊ธฐ๋ณธ ๊ฐ’ : 2min_samples_leaf : ๋ฆฌํ”„ ๋…ธ๋“œ ์ตœ์†Œ ์ƒ˜ํ”Œ ์ˆ˜๊ธฐ๋ณธ ๊ฐ’ : 1 ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌ๋…ผ๋ฌธ ์ฐธ๊ณ  https://sejong.dcollection.net/public_resource/pdf/200000630803_20250126185853.pdf# ์˜ˆ์ œ ์ฝ”๋“œfrom sklearn.model_s..

๊ตฐ์ง‘ํ‰๊ฐ€ ์ง€ํ‘œ

[ ๋ชฉ์ฐจ ]  ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜ ๋น„์ง€๋„ ํ•™์Šต ํŠน์„ฑ ์ƒ ๋‹ต์ด ์—†์ด ๋•Œ๋ฌธ์— ๊ทธ ํ‰๊ฐ€๋ฅผ ํ•˜๊ธด ์‰ฝ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ๊ตฐ์ง‘ํ™”๊ฐ€ ์ž˜๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ๋‹ค๋ฅธ ๊ตฐ์ง‘๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋Š” ๋–จ์–ด์ ธ ์žˆ๊ณ  ๋™์ผํ•œ ๊ตฐ์ง‘๋ผ๋ฆฌ๋Š” ๊ฐ€๊นŒ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•จ  ์ด๋ฅผ ์ •๋Ÿ‰ํ™” ํ•˜๊ธฐ ์œ„ํ•ด ์‹ค๋ฃจ์—ฃ ๋ถ„์„(silhouette analysis)์ด๋ž€ ๊ฐ„ ๊ตฐ์ง‘ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์œผ๋กœ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ๋Š”์ง€ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ง€๋งŒ ๊ทธ๋ƒฅ ์ดํ•ดํ•˜๋Š” ์šฉ๋„๋กœ !์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜a(i) : ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ i ๊ณผ ๊ฐ™์€ ๊ตฐ์ง‘์— ์†ํ•œ ๋‹ค๋ฅธ ํฌ์ธํŠธ๋“ค๊ณผ์˜ ํ‰๊ท  ๊ฑฐ๋ฆฌb(i) : ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ i ์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋‹ค๋ฅธ ๊ตฐ์ง‘ ๊ฐ„์˜ ํ‰๊ท  ๊ฑฐ๋ฆฌ ํ•ด์„: 1๋กœ ๊ฐˆ์ˆ˜๋ก ์ž˜ ๊ตฐ์ง‘ํ™” ๋˜์–ด ์žˆ์Œ. -1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ž˜ ๋ชป ๊ตฐ์ง‘ํ™” ๋˜์–ด ์žˆ๋‹ค ์ˆ˜์‹์„ ํ•ด์„ํ•ด๋ณด์ž๋ฉด ํŠน์ •ํ•œ ๋ฐ์ดํ„ฐ i์˜ ์‹ค๋ฃจ์—ฃ..

๋น„์ง€๋„ ํ•™์Šต

[ ๋ชฉ์ฐจ ]  ๋จธ์‹ ๋Ÿฌ๋‹ ์ข…๋ฅ˜ ๋ณต์Šต1.์ง€๋„ํ•™์Šต: ๋ฌธ์ œ (x)์™€ ์ •๋‹ต(y)๊ฐ€ ์ฃผ์–ด์ง€๊ณ  ๋ฌธ์ œ (x)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์ •๋‹ต(y)์„ ๋งž์ถ”๋Š” ํ•™์Šต 2.๋น„์ง€๋„ํ•™์Šต: ๋‹ต(y)์„ ์•Œ๋ ค์ฃผ์ง€ ์•Š๊ณ  ๋ฐ์ดํ„ฐ ๊ฐ„ ์œ ์‚ฌ์„ฑ์„ ์ด์šฉํ•ด์„œ ๋‹ต(y)์„ ์ง€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• ๋จธ์‹ ๋Ÿฌ๋‹ ๊ฐœ์š” ๋น„์ง€๋„ ํ•™์Šต ์˜ˆ์‹œ๊ณ ๊ฐ ํŠน์„ฑ์— ๋”ฐ๋ฅธ ๊ทธ๋ฃนํ™”ex) ํ—ค๋น„์œ ์ €, ์ผ๋ฐ˜์œ ์ €๊ตฌ๋งค ๋‚ด์—ญ๋ณ„๋กœ ๋ฐ์ดํ„ฐ ๊ทธ๋ฃนํ™”ex) ์ƒํ•„ํ’ˆ ๊ตฌ๋งค๋น„์ง€๋„ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ ˆ์ด๋ธ”๋งํ•˜๋Š” ์ž‘์—…์ด๋ผ๊ณ  ํ•˜๋ฉด ์ •๋‹ต์ด ์—†๋Š” ๋ฌธ์ œ์ด๊ธฐ ๋–„๋ฌธ์— ์ง€๋„ ํ•™์Šต๋ณด๋‹ค ์กฐ๊ธˆ ์–ด๋ ต๊ณ  ์ฃผ๊ด€์ ์ธ ํŒ๋‹จ์ด ๊ฐœ์ž…ํ•˜๊ฒŒ ๋œ๋‹ค ๋น„์ง€๋„ ํ•™์Šต k-ํ‰๊ท  ์•Œ๊ณ ๋ฆฌ์ฆ˜k-means clustering ์ด๋ก 1. k๊ฐœ ๊ตฐ์ง‘ ์ˆ˜ ์„ค์ •2. ์ž„์˜์˜ ์ค‘์‹ฌ์„ ์„ ์ •3. ํ•ด๋‹น ์ค‘์‹ฌ์ ๊ณผ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋ฃน4. ๋ฐ์ดํ„ฐ์˜ ๊ทธ๋ฃน์˜ ๋ฌด๊ฒŒ ์ค‘์‹ฌ์œผ๋กœ ์ค‘์‹ฌ์ ์„ ์ด๋™5. ..

์ตœ๊ทผ์ ‘ ์ด์›ƒ

[ ๋ชฉ์ฐจ ] ์ตœ๊ทผ์ ‘ ์ด์›ƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜ (KNN): ์ฃผ๋ณ€์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ณ  ๋‚ด๊ฐ€ ์•Œ๊ณ  ์‹ถ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹ k=3 ์ด๋ผ๋ฉด ๋ณ„ 1๊ฐœ์™€ ์„ธ๋ชจ 2๊ฐœ์ด๋ฏ€๋กœ ? ๋Š” ์„ธ๋ชจ๋กœ ์˜ˆ์ธก๋  ๊ฒƒk=7 ์ด๋ผ๋ฉด ๋ณ„ 4๊ฐœ์™€ ์„ธ๋ชจ 3๊ฐœ์ด๋ฏ€๋กœ ? ๋Š” ๋ณ„๋กœ ์˜ˆ์ธก๋  ๊ฒƒโœ”๏ธ ์œ„์™€ ๊ฐ™์ด ํ™•์ผํ•  ์ฃผ๋ณ€ ๋ฐ์ดํ„ฐ k๊ฐœ๋ฅผ ์„ ์ • ํ›„์— ๊ฑฐ๋ฆฌ ๊ธฐ์ค€์œผ๋กœ ๊ฐ€์žฅ ๋งŽ์€ ๊ฒƒ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋กœ knn์˜ ๊ธฐ๋ณธ ์›๋ฆฌ์ด๋‹ค ๊ทธ๋Ÿผ k๋Š” ๋ช‡์œผ๋กœ ์ •ํ•ด์•ผ ํ•˜๋Š” ๊ฑธ๊นŒ? ๋˜ ๊ฑฐ๋ฆฌ๋Š” ์–ด๋–ป๊ฒŒ ์ธก์ • ํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ผ๊นŒ? ํ•˜์ดํผ ํŒŒ์ด๋ฏธํ„ฐ์˜ ๊ฐœ๋… ํŒŒ๋ผ๋ฏธํ„ฐ(Parameter): ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ํ•™์Šต ๊ณผ์ •์—์„œ ์ถ”์ •ํ•˜๋Š” ๋‚ด๋ถ€ ๋ณ€์ˆ˜์ด๋ฉฐ ์ž๋™์œผ๋กœ ๊ฒฐ์ • ๋˜๋Š” ๊ฐ’ex) ์„ ํ˜•ํšŒ๊ท€์—์„œ ๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ Python์—์„œ๋Š” ํ•จ์ˆ˜ ์ •์˜์—์„œ ํ•จ์ˆ˜๊ฐ€ ๋ฐ›์„ ์ˆ˜ ์žˆ๋Š” ์ธ์ž(์ž…๋ ฅ ๊ฐ’)๋ฅผ ์ง€์ •ํ•˜๋Š” ๊ฐœ๋… ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ(Hy..

์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด, ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ

[ ๋ชฉ์ฐจ ]  ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด (Decision Tree, DT) : ์˜์‚ฌ๊ฒฐ์ •๊ทœ์น™์„ ๋‚˜๋ฌด ๊ตฌ์กฐ๋กœ ๋‚˜ํƒ€๋‚ด์–ด ์ „์ฒด ์ž๋ฃŒ๋ฅผ ๋ช‡ ๊ฐœ์˜ ์†Œ์ง‘๋‹จ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ฑฐ๋‚˜ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ถ„์„ ๋ฐฉ๋ฒ•์„ฑ๋ณ„์˜ ๊ธฐ์ค€์œผ๋กœ ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด ์‹œ๊ฐํ™”ํƒ€์ด๋‚˜๋‹‰์˜ ์˜ˆ์‹œ์„ฑ๋ณ„์˜ ๊ธฐ์ค€์œผ๋กœ ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด ์‹œ๊ฐํ™”๋ช…์นญ ๋ฃจํŠธ ๋…ธ๋“œ(Root Node): ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด์˜ ์‹œ์ž‘์ . ์ตœ์ดˆ์˜ ๋ถ„ํ• ์กฐ๊ฑด ๋ฆฌํ”„ ๋…ธ๋“œ(Leaf Node): ๋ฃจํŠธ ๋…ธ๋“œ๋กœ๋ถ€ํ„ฐ ํŒŒ์ƒ๋œ ์ค‘๊ฐ„ ํ˜น์€ ์ตœ์ข… ๋…ธ๋“œ ๋ถ„๋ฅ˜๊ธฐ์ค€(criteria): sex๋Š” ์—ฌ์„ฑ์ธ ๊ฒฝ์šฐ 0, ๋‚จ์„ฑ์ธ ๊ฒฝ์šฐ 1๋กœ ์ธ์ฝ”๋”ฉ. ์—ฌ์„ฑ์ธ ๊ฒฝ์šฐ ์ขŒ์ธก ๋…ธ๋“œ๋กœ, ๋‚จ์„ฑ์ธ ๊ฒฝ์šฐ ์šฐ์ธก ๋…ธ๋“œ๋กœ ๋ถ„๋ฅ˜ ๋ถˆ์ˆœ๋„(impurity) ์ƒ˜ํ”Œ(samples): ํ•ด๋‹น ๋…ธ๋“œ์˜ ์ƒ˜ํ”Œ ๊ฐœ์ˆ˜(891๊ฐœ์˜ ๊ด€์ธก์น˜) ๊ฐ’(value): Y๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ฐฐ์—ด. 549๋ช…์ด ์ฃฝ์—ˆ๊ณ (Y = 0..