๐๐๐ก๐๐๐๐๐
ํต๊ณํ ๊ธฐ์ด 2 ๋ณธ๋ฌธ
[ ๋ชฉ์ฐจ ]
๋ชจ์ง๋จ
: ๊ถ๊ทน์ ์ผ๋ก ๊ด์ฌ์๋ ์ง๋จ, ๋ชจ์ง๋จ์ ํน์ง์ ๋ชจ์๋ผ ํจ
ex) ์ธ๊ตฌ ์ด์กฐ์ฌ
ํ์ค ์ง๋จ
: ๋ชจ์ง๋จ์์ ํน์ ํ ๋ฐฉ๋ฒ์ ์ด์ฉํ์ฌ ๋ฝ์๋ธ ์์์ ์ง๋จ, ํน์ง๋ค์ ํต๊ณ๋์ด๋ผ ํจ
ex) ๋ฏธ๊ตญ๋์ ์ถ๊ตฌ์กฐ์ฌ
- ๋ชจ์ง๋จ์ ๋ชจ๋ ์ ์์กฐ์ฌํ์ฌ ๊ธฐ์ ํต๊ณ๋ฅผ ํ๋ฉด ์ ํํ ๊ฐ์ ์ป์ ์ ์์ง๋ง ๋น์ฉ์ ํ๊ณ๋ก ์ํํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ์ "๋ํ์ฑ"์๋ ์ํ์ ์ถ์ถํ์ฌ ์ด๋ฅผ ์ถ๋ก ํ๋ ๊ฒ์ด ๋ชฉ์
ํ๋ณธ ์ถ์ถ์ ์ค์์ฑ
- ์ํ๋ง ํธํฅ(Sampling bias) : ๋ถ์ ๋์์ด ํ๋ณธ์ ์ ํํ ๋ ๊ณผ๋ํ๊ฒ ๋ํ๋๊ฑฐ๋ ๋ฐ๋์ ๊ฒฝ์ฐ
- 1936๋
๋ฏธ๊ตญ๋์ ๋น์ ๋ฏผ์ฃผ๋น ๋ฃจ์ฆ๋ฒจํธ vs ๊ณตํ๋น ๋๋์ ๊ฒฝ์
- 1000๋ง๋ช ์ด ๋๋ ์ฌ๋์ผ๋ก๋ถํฐ ๋์ ์ค๋ฌธ ์กฐ์ฌ ์งํ → ๊ณตํ๋น ๋๋ ์น๋ฆฌ ์์ธก
- ๊ฐค๋ฝ์ ๊ฒจ์ฐ 2000๋ช
์ ๋์์ผ๋ก ๊ฒฉ์ฃผ๋ก ์ฌ๋ก ์กฐ์ฌ ์ค์ → ๋ฏผ์ฃผ๋น ๋ฃจ์ฆ๋ฒจํธ ์น๋ฆฌ ์์
- why ?
- ๋ค์ด์ ์คํธ ์ฌ : ์๋์ฐจ์ ์ ํ๋ฒํธ์ ๊ธฐ๋ก์ผ๋ก ์ค๋ฌธ์กฐ์ฌ ์งํ
→ ์ค์ ๋ก ๋ ์ ํ์ ๋ถ์ ์ธต(์ฆ ๊ณตํ๋น ์ง์ง์๋ค ๋ค์)์ ์์ ๋ฌผ - ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ค์ด์ ์คํธ์ฌ๋ ๋งํ๊ณ ๊ฐค๋ฝ์ด ์ฌ๋ก ์กฐ์ฌ์ ๋ํ ํ์ฌ๋ก ์๋ฆฌ๋งค๊น
- ๋ค์ด์ ์คํธ ์ฌ : ์๋์ฐจ์ ์ ํ๋ฒํธ์ ๊ธฐ๋ก์ผ๋ก ์ค๋ฌธ์กฐ์ฌ ์งํ
์ด์ฒ๋ผ ํธํฅ์ ์์ ๊ธฐ ์ํ ๋ค์ํ ํ๋ณธ์ถ์ถ ๋ฐฉ๋ฒ์ด ์๋ค
https://brunch.co.kr/@hjkim0892/204
ํ๋ณธ์ถ์ถ๋ฐฉ๋ฒ_1. ํ๋ฅ ํ๋ณธ ์ถ์ถ
๊ณ ๊ฐ๋ง์กฑ๋ ์กฐ์ฌ ๋์ ์ถ์ถ ๋ฐฉ๋ฒ | ๊ณ ๊ฐ๋ง์กฑ๋๋ฅผ ์กฐ์ฌํด์ผ ํ๋ ๊ฒฝ์ฐ ๋ชจ๋ ๋ชจ์๋ฅผ ์ธก์ ํ ์ ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ๊ฒฝ์ ์ , ์๊ฐ์ ์ฝ ๋ฑ์ ์ด๋ ค์์ผ๋ก ์ธํด ์ผ๋ถ ์ํ์ ํ๋ณธ์ผ๋ก ์ถ์ถํ์ฌ ์กฐ
brunch.co.kr
์ ๊ท๋ถํฌ์ ์ค์์ฑ
- ๋ฐ์ดํฐ ๋ถ์์ ๋ํ ํผ๋ผ๋ฏธ๋
- ํต๊ณํ์ ๋ํ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ 1๏ธโฃ๊ธฐ์ ํต๊ณ์ 2๏ธโฃ์ถ๋ก ํต๊ณ
- ๊ธฐ์ ํต๊ณ๊ฐ ๋ฐ์ดํฐ์ ํน์ง์ ์๋ชจ์กฐ๋ชจ๋ณด๋ ๊ณผ์ ์ด๋ผ๋ฉด, ์ถ๋ก ํต๊ณ๋ ํ๋ณธ์ผ๋ก๋ถํฐ ๋ชจ์ง๋จ์ ์ถ์ ํ๋ ๊ณผ์
- ์ด ์ถ๋ก ํต๊ณ๋ฅผ ํ๋ ค๋ฉด ๊ธฐ๋ฐ์ด ์์ด์ผ ํ๋๋ฐ ์ด๊ฒ์ด ๋ฐ๋ก ๋ถํฌ ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ๊ธฐ๋ฐ์ ๋ง์ด ๋๋ ๊ฒ์ด ์ ๊ท๋ถํฌ
๋ถํฌ
: ๋ฐ์ดํฐ๊ฐ ํน์ ๊ฐ ์ค์ฌ์ผ๋ก ํฉ์ด์ง ํํ๋ฅผ ๋ํ๋ด๋ ํต๊ณ์ ๊ฐ๋
์ด๋ฉฐ ๊ฒฝํ์ ์ธ ๋ฐ์ดํฐ์ ํํ
1. ์ด์ฐํ๋ฅ ๋ถํฌ
2. ์ฐ์ํ๋ฅ ๋ถํฌ
- ์ฅ์
- ๋ฐ์ดํฐ์ ์์ฝ(์ค์๊ฐ, ํ๊ท , ๋ถ์ฐ)๋ฑ์ ๋ํ ์์ ํํ ๊ฐ๋ฅ
- ๋ชจ์ง๋จ์ ์ถ์ ํ๋ ๊ฐ์ค์ ๊ธฐ๋ฐ
- ๊ฐ ๋ถํฌ๋ ํน์ ํ๋ฅ ํจ์๋ฅผ ๊ฐ์ง๋ฉฐ ์ด๋ฅผ ํตํด ์์ธก์ด ๊ฐ๋ฅ
- ๋ถํฌ๋ฅผ ํํ ํ์์ ๋ชจ๋ธ๋งํ ์ ์์
( ๋ชจ๋ธ๋ง : ํ์ค ์ธ๊ณ๋ฅผ ์ถ์ํ, ๋จ์ํ, ๋ช ํํํ๋ ๋ฐฉ๋ฒ)
๋ฒ ๋ฅด๋์ด ๋ถํฌ
: ํ๋ฅ ๋ณ์๊ฐ ์ทจํ ์ ์๋ ๊ฒฝ์ฐ๊ฐ 2๊ฐ์ง์ธ ๊ฒฝ์ฐ ( ex:๋์ ๋์ง๊ธฐ, ํด๋ฆญ ๋ฑ )
( ํ๋ฅ : 0๊ณผ 1์ฌ์ด ๊ฐ์ด๋ฉฐ ๋ชจ๋ ๊ฒฝ์ฐ ํ๋ฅ ์ ํฉ์ 1
ํ๋ฅ ๋ณ์ : ๋ณ์๊ฐ ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ์ ์๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ)
- ์ด๋ค ์ ์ ๊ฐ ์นํ์ด์ง๋ฅผ ๋ฐฉ๋ฌธํ์ฌ ๋ฒํผ์ ํด๋ฆญํ ๊ฒฝ์ฐ๊ฐ 1, ์๋ ๊ฒฝ์ฐ๊ฐ 0๊ฐ ๋๋ฑํ๋ค๊ณ ์๊ฐํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ํํ
- ์ผ๋ฐํ ์์
์ดํญ ๋ถํฌ
- ์ฌ๋ฌ ์ ์ ๊ฐ ์ ์ฅํ๋ ๊ฒฝ์ฐ๋ ์ด๋ป๊ฒ ํํํ ์ ์์๊น? ์ด๋ ๋ฑ์ฅํ๋ ๊ฒ์ด ์ฌ๊ฑด(๊ฒฝ์ฐ์ ์)
- ๋ฒ ๋ฅด๋์ด ๋ถํฌ์ n๋ฒ ํ์ฅ ๋ฒ์
ex) ์ ์ 3๋ช ์ด ์นํ์ด์ง๋ฅผ ๋ฐฉ๋ฌธํ์ ๋ 2๋ช ์ด ๋ฒํผ์ ํด๋ฆญํ ๊ฒฝ์ฐ๋ - ์ดํญ๋ถํฌ ํํ์
- ์ดํญ๋ถํฌ ์์
- 3๋ช
์ ์ ์ ๊ฐ ๋ฒํผ์ ํด๋ฆญํ ํ๋ฅ ์ด 1/2์ผ ๋, 2๋ช
์ ์ ์ ๊ฐ ํด๋ฆญํ ํ๋ฅ ์
- n = 3, k = 2, p = 1/2
๋ง์ฝ n์ด ์ปค์ง๋ฉด ์ด๋ป๊ฒ ๋ ๊น? ์์ฐ์ค๋ฝ๊ฒ ์ ๊ท๋ถํฌ์ ๋ชจ์๊ณผ ๋น์ทํด์ง
์ผ๋ฐ์ ์ผ๋ก np>5 ์ด๋ฉด์ n(1-p) >5์ธ ๊ฒฝ์ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ "๊ฒฝํ์ "์ผ๋ก ์๋ ค์ง
- n = 3, k = 2, p = 1/2
- ์ด๋ฅผ ์์์ผ๋ก ํํํ๋ค๋ฉด
==
๊ท ๋ฑ ๋ถํฌ
: ๋ชจ๋ x์ ๋ํด์ ํ๋ฅ ์ด ๋์ผํ ๋ถํฌ
- ์ฐ์ํ๋ฅ ๋ถํฌ ์ค ํ๋
์ด๋ก ์ ์ผ๋ก ์ฃผ์ฌ์๋ ๊ท ๋ฑ ๋ถํฌ์ ์ ์ฌํ ์ฌ๋ก๊ธดํ์ง๋ง, ์ด์ฐํ๋ฅ ์ด๊ธฐ ๋๋ฌธ์ ์ ํํ ๋น์ ๋ ๋ชป ๋ฉ๋๋ค์
์ ๊ท๋ถํฌ
: ํ๊ท ์ ๊ธฐ์ค์ผ๋ก ์ข์ฐ ๋์นญ์ด๋ฉฐ, ์ข ๋ชจ์์ผ๋ก ๋ด์ฐ๋ฆฌ๊ฐ 1๊ฐ์ธ ์ฐ์ํ๋ฅ ๋ถํฌ
- ์ ๊ท๋ถํฌ์ ์ฅ์ ์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ์๊ณ ์์ผ๋ฉด ์ ์ฒด ๋ฐ์ดํฐ์ ๋ช % ํฌํจ๋๋์ง ์ ์ ์๋ค
- ์ ๊ท๋ถํฌ ํํ์
- : ์ ์ฒด ๋ฐ์ดํฐ์ 68%
- : ์ ์ฒด ๋ฐ์ดํฐ์ 95%
- : ์ ์ฒด ๋ฐ์ดํฐ์ 99.7%
ex) 20๋ ๋จ์์ ํค ๋ถํฌ
20๋์ ๊ฒฝ์ฐ์๋ :
- ์ ๊ท๋ถํฌ ํํ์
์๋์ ์ฒจ๋
์๋ : ํ๋ฅ ์ ๋น๋์นญ ์ ๋๋ฅผ ๋ํ๋๋ ์ธก๋
- ๊ธด๊ผฌ๋ฆฌ ๋ถํฌ๋ผ๊ณ ๋ ํ๋ฉฐ ๋ณดํต ๊ฒฐ์ ๊ธ์ก, ์๊ธ๊ณผ ๊ฐ์ ์์น๊ฐ right skewness ํน์ฑ์ ๋
์ฒจ๋ : ์ข ๋ชจ์์ ๋พฐ์กฑํ ์ ๋๋ฅผ ๋ํ๋ด๋ ์ธก๋ - ์ฒจ๋๊ฐ ์ ๊ท๋ถํฌ๋ณด๋ค ๋ฎ์ผ๋ฉด ๋ญํนํ ๋ชจ์์ผ๋ก ์ด์์น๊ฐ ์ ์ผ๋ฉฐ
- ์ฒจ๋๊ฐ ์ ๊ท๋ถํฌ๋ณด๋ค ๋์ผ๋ฉด ๊ผฌ๋ฆฌ๊ฐ ๊ธธ๊ณ ์ด์์น๊ฐ ๋ง๋ค
ํ์ค์ ๊ท๋ถํฌ
๋งค๋ฒ ๋ค๋ฅธ ์ธก์ ๊ฐ๋ค (๋ชธ๋ฌด๊ฒ, ํค, ๋ฐ ์ฌ์ด์ฆ) ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ๋ณด๋ค๋ ์ผ๊ด๋ ํ๋์ ๋ถํฌ๋ก ๊ณ์ฐํ๊ธธ ์ํ๋ค ์ด๋ ๋ฑ์ฅํ ๊ฒ์ด ํ์ค์ ๊ท๋ถํฌ์ด๊ณ , ํต๊ณํ์๋ค์ ํ์ค์ ๊ท๋ถํฌ๋ฅผ ๋ง๋ ๋ค ๋ชจ๋ ํ๋ฅ ์ ๋ํด์ ๊ณ์ฐํด๋์์
- ํ์ค์ ๊ท๋ถํฌ: $\mu = 0,\sigma = 1 $ ์ธ ์ ๊ท๋ถํฌ
- ๋ฌ์ฑํ๊ธฐ ์ํ์ฌ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด์ "์ ๊ทํ"๋ฅผ ์ํ
→ ์ ๊ทํ๋ ์ด๋ค ๋์์ ๊ท์น์ด๋ ๊ธฐ์ค์ ๋ฐ๋ฅธ ์ํ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ
์ถ๋ก ํต๊ณ์์๋ "๋ชจ๋ ๋ฐ์ดํฐ์์ ํ๊ท ์ ๋นผ๊ณ ํ์คํธ์ฐจ๋ฅผ ๋๋๋ ๋ฐฉ๋ฒ"์ ๋งํจ
- ๋ฌ์ฑํ๊ธฐ ์ํ์ฌ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด์ "์ ๊ทํ"๋ฅผ ์ํ
- ๋ํ ๋ชจ๋ z ๊ฐ์ ๋ํด์ ๊ณ์ฐํด๋์ ํ๊ฐ ์กด์ฌํ๋๋ฐ ์ด๋ฅผ ํ์ค์ ๊ท๋ถํฌํ ๋ผ๊ณ ํจ
- ํ๊ธฐ ํ๋ z๊ฐ์ ์ผ์ชฝ ๋ ( ) ๋ถํฐ ํด๋นํ๋ z ๊ฐ๊น์ง "๋์ ๋ ํ๋ฅ ๊ฐ" ์ ์ ๊ณต
โ
Scipy ๋ชจ๋
: Scipy ๋ Science + Python์ ์๋ฏธ๋ก ๋ง ๊ทธ๋๋ก ๊ณตํ, ์ฌํ๊ณผํ ๋ฑ์ ์์ฃผ ์ฌ์ฉํ๋ ๊ธฐ์ดํต๊ณ ๋ชจ๋๊ณผ ํจ์๋ฅผ ๋ชจ์ ๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ์์ฃผ ์ด๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
scipy
โ
โโโ stats # ํต๊ณ ๋ถ์๊ณผ ํ๋ฅ ๋ถํฌ ๊ด๋ จ ํจ์ ์ ๊ณต
โ โโโ norm # ์ ๊ท๋ถํฌ ๊ด๋ จ ํจ์ (PDF, CDF, ๋๋ค ์ํ๋ง ๋ฑ)
| |โโ uniform # ๊ท ๋ฑ๋ถํฌ
| |โโ bernoulli # ๋ฒ ๋ฅด๋์ด ๋ถํฌ
| |โโ binom # ์ดํญ๋ถํฌ
โ โโโ ttest_ind # ๋
๋ฆฝ ๋ ํ๋ณธ์ ๋ํ t-๊ฒ์
โ โโโ ttest_rel # ๋์ํ๋ณธ t-๊ฒ์
โ โโโ mannwhitneyu # Mann-Whitney U ๋น๋ชจ์ ๊ฒ์
โ โโโ chi2_contingency # ์นด์ด์ ๊ณฑ ๋
๋ฆฝ์ฑ ๊ฒ์
โ โโโ shapiro # Shapiro-Wilk ์ ๊ท์ฑ ๊ฒ์
โ โโโ kstest # Kolmogorov-Smirnov ๊ฒ์ (๋ถํฌ ์ ํฉ์ฑ ๊ฒ์ )
โ โโโ probplot # Q-Q plot ์์ฑ (์ ๊ท์ฑ ์๊ฐํ)
โ โโโ pearsonr # Pearson ์๊ด๊ณ์ ๊ณ์ฐ
โ โโโ spearmanr # Spearman ์์ ์๊ด๊ณ์ ๊ณ์ฐ
โ โโโ describe # ๊ธฐ์ ํต๊ณ๋ ์ ๊ณต (ํ๊ท , ํ์คํธ์ฐจ ๋ฑ)
- ๋๋ถ๋ถ stats ๋ชจ๋์ชฝ์ ๋ถํฌ๊ด๋ จ๋ ํจ์๋ค์ด ์กด์ฌ
- ์ผ๋ฐ์ ์ผ๋ก ๊ฒฝ๋ก๋ scipy.stats.(๋ถํฌ์ด๋ฆ).(๋ฉ์๋) ์ ๊ท์น์ ๋ฐ๋ฆ
'ํต๊ณํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๊ฐ์ค๊ฒ์ ์ ์ฃผ์์ (0) | 2025.01.13 |
---|---|
์๊ด๊ด๊ณ (1) | 2025.01.13 |
์ ์์ฑ๊ฒ์ (0) | 2025.01.10 |
ํต๊ณํ ๊ธฐ์ด (2) | 2025.01.10 |