๐‘๐‘œ๐‘ก๐‘’๐‘๐‘œ๐‘œ๐‘˜

๋น„์ง€๋„ ํ•™์Šต ๋ณธ๋ฌธ

๋จธ์‹ ๋Ÿฌ๋‹ ๐Ÿฆพ

๋น„์ง€๋„ ํ•™์Šต

seoa__ 2025. 1. 23. 20:39

[ ๋ชฉ์ฐจ ]

     

     

    ๋จธ์‹ ๋Ÿฌ๋‹ ์ข…๋ฅ˜ ๋ณต์Šต

    1.์ง€๋„ํ•™์Šต

    : ๋ฌธ์ œ (x)์™€ ์ •๋‹ต(y)๊ฐ€ ์ฃผ์–ด์ง€๊ณ  ๋ฌธ์ œ (x)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์ •๋‹ต(y)์„ ๋งž์ถ”๋Š” ํ•™์Šต

     

    2.๋น„์ง€๋„ํ•™์Šต

    : ๋‹ต(y)์„ ์•Œ๋ ค์ฃผ์ง€ ์•Š๊ณ  ๋ฐ์ดํ„ฐ ๊ฐ„ ์œ ์‚ฌ์„ฑ์„ ์ด์šฉํ•ด์„œ ๋‹ต(y)์„ ์ง€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•

     

    • ๋จธ์‹ ๋Ÿฌ๋‹ ๊ฐœ์š”

     

    • ๋น„์ง€๋„ ํ•™์Šต ์˜ˆ์‹œ
      • ๊ณ ๊ฐ ํŠน์„ฑ์— ๋”ฐ๋ฅธ ๊ทธ๋ฃนํ™”
        • ex) ํ—ค๋น„์œ ์ €, ์ผ๋ฐ˜์œ ์ €
      • ๊ตฌ๋งค ๋‚ด์—ญ๋ณ„๋กœ ๋ฐ์ดํ„ฐ ๊ทธ๋ฃนํ™”
        • ex) ์ƒํ•„ํ’ˆ ๊ตฌ๋งค
    ๋น„์ง€๋„ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ ˆ์ด๋ธ”๋งํ•˜๋Š” ์ž‘์—…์ด๋ผ๊ณ  ํ•˜๋ฉด ์ •๋‹ต์ด ์—†๋Š” ๋ฌธ์ œ์ด๊ธฐ ๋–„๋ฌธ์— ์ง€๋„ ํ•™์Šต๋ณด๋‹ค ์กฐ๊ธˆ ์–ด๋ ต๊ณ  ์ฃผ๊ด€์ ์ธ ํŒ๋‹จ์ด ๊ฐœ์ž…ํ•˜๊ฒŒ ๋œ๋‹ค

     

    ๋น„์ง€๋„ ํ•™์Šต k-ํ‰๊ท  ์•Œ๊ณ ๋ฆฌ์ฆ˜

    • k-means clustering ์ด๋ก 

    1. k๊ฐœ ๊ตฐ์ง‘ ์ˆ˜ ์„ค์ •

    2. ์ž„์˜์˜ ์ค‘์‹ฌ์„ ์„ ์ •

    3. ํ•ด๋‹น ์ค‘์‹ฌ์ ๊ณผ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋ฃน

    4. ๋ฐ์ดํ„ฐ์˜ ๊ทธ๋ฃน์˜ ๋ฌด๊ฒŒ ์ค‘์‹ฌ์œผ๋กœ ์ค‘์‹ฌ์ ์„ ์ด๋™

    5. ์ค‘์‹ฌ์ ์„ ์ด๋™ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์‹œ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋ฃนํ™” (3~5๋ฒˆ ๋ฐ˜๋ณต)

     

    ์ •๋ฆฌ

    • ์žฅ์  
      • ์ผ๋ฐ˜์ ์ด๊ณ  ์ ์šฉํ•˜๊ธฐ ์‰ฌ์›€
    • ๋‹จ์ 
      • ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ€๊นŒ์›€์„ ์ธก์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ฐจ์›์ด ๋งŽ์„์ˆ˜๋ก ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์ง
      • ๋ฐ˜๋ณต ํšŸ์ˆ˜๊ฐ€ ๋งŒ์„์ˆ˜๋ก ์‹œ๊ฐ„์ด ๋Š๋ ค์ง
      • ๋ช‡ ๊ฐœ์˜ ๊ตฐ์ง‘(k)์„ ์„ ์ •ํ• ์ง€ ์ฃผ๊ด€์ ์ž„
      • ํ‰๊ท ์„ ์ด์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์—(์ค‘์‹ฌ์ ) ์ด์ƒ์น˜์— ์ทจ์•ฝํ•จ

    Python ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ

    • sklearn.cluster.KMeans
    • ํ•จ์ˆ˜ ์ž…๋ ฅ ๊ฐ’
      • n_cluster: ๊ตฐ์ง‘ํ™” ๊ฐฏ์ˆ˜
      • max_iter: ์ตœ๋Œ€ ๋ฐ˜๋ณต ํšŸ์ˆ˜
    • ๋ฉ”์†Œ๋“œ
      • labels_: ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ์†ํ•œ ๊ตฐ์ง‘ ์ค‘์‹ฌ์  ๋ ˆ์ด๋ธ”
      • cluster_centers: ๊ฐ ๊ตฐ์ง‘ ์ค‘์‹ฌ์ ์˜ ์ขŒํ‘œ