๐๐๐ก๐๐๐๐๐
1. ๋ฐ์ดํฐ ๋ถ์์ ๋ํ์ฌ ๋ณธ๋ฌธ
๋ฐ์ดํฐ ๋ถ์๊ฐ
: ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๊ณ ๋น์ฆ๋์ค ์์ฌ ๊ฒฐ์ ์ ์ํฅ์ ์ฃผ๋ ๊ธฐํ์ ์ฑํฅ ์ง๋ฌด
๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ
: ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐ์ดํฐ ๋ถ์ ๋ชจ๋ธ(๋ฅ๋๋ง / ๋จธ์ ๋ฌ๋)์ ๋ง๋๋ ์ฐ๊ตฌ์ ์ฑํฅ ์ง๋ฌด
๋ฐ์ดํฐ ์์ง๋์ด
: ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ๋ถ์์ ์ํ ๋ฐ์ดํฐ ํ์ดํ ๋ผ์ธ์ ๊ตฌ์ถํ๋ ๊ฐ๋ฐ์ ์ฑํฅ ์ง๋ฌด
๋ฐ์ดํฐ ์์ง๋์ด ( ํฅ๋ฏธ๊ฐ ์๊ฒจ ์กฐ์ฌ )
๋ฐ์ดํฐ๋ฅผ " ์ฝ๊ฒ " ํ์ฉํ ์ ์๋ ํ๊ฒฝ์ ๋ง๋ค์ด์ฃผ๋ ์ฌ๋
ํ๋ ์ผ
๋ฐ์ดํฐ ์์ง, ๊ฐ๊ณต, ์ ์ฌํ๋ ์ ๋ฌด์ธ ETL์ ํ ์ ์๋ ๋ฐ์ดํฐ ํ์ดํ ๋ผ์ธ์ ๊ตฌ์ถ
๐ค ETL์ด๋ ?
: ์ถ์ถใExtractใ, ๋ณํใTransformใ, ๋ก๋ใLoadใ๋ฅผ ๋ํ๋ด๋ฉฐ ๊ธฐ์ ์ด ์ ์ธ๊ณ ๋ชจ๋ ๊ณณ์ ์๋ง์ ํ์์ ๊ด๋ฆฌํ๋ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์ ๊ตฌ์กฐํ๋์ง ์์ ๋ฐ์ดํฐ๋ฅผ ๋น๋กฏํ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ ๋น์ฆ๋์ค ๋ชฉ์ ์ ์ค์ง์ ์ผ๋ก ์ ์ฉํ ์ํ๋ก ๋ณํํ๋ ์๋ ํฌ ์๋ ํ๋ก์ธ์ค๋ฅผ ์๋ฏธํจ
์ถ์ถใExtractใ
๋ฐ์ดํฐ ์ถ์ถ(์์ง)ํ๋ ๊ณผ์
๊ธฐ๋ณธ์ ์ธ ๋ฐ์ดํฐ ํํ (excel, csv, json) ๋ฑ์ ์ง์ ๋ฐ์์ค๊ฑฐ๋ ์น (web), ์ฑ(application)์ ๋ก๊ทธ(log)๋ฅผ ์ถ์ถ ( ๋ก๊ทธ : ์จ๋ผ์ธ ์์์ ๋ฐ์ํ๋ ๋ชจ๋ ์ํฉ(ํด๋ฆญ์๊ฐ, ์ ์์ ๋ณด, ์ ์ํ ์ฝํ
์ธ ๋ฑ)์ ๋ํ ๊ธฐ๋ก
๋ณํใTransformใ
๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ธฐ ์ฌ์ด ๋ฐ์ดํฐ๋ก ๋ณํํ๋ ๊ณผ์
extract์ ๊ณผ์ ์์ ๋ค์ํ ํํ(json, csv ๋ฑ)์ ๋ฐ์ดํฐ๋ค์ด ์์ง๋๋๋ฐ, ์ด๋ฌํ ๋ฐ์ดํฐ๋ค์ ๊ทธ๋ฅ ์ ์ฅํ๊ฑฐ๋ ๋ถ์ํ๊ธฐ์๋ ์ ํฉํ ํํ๊ฐ ์๋๊ธฐ ๋๋ฌธ์ row์ colimn์ ํํ๋ก ๋ณํํ์ฌ SQL ๋ฑ์ผ๋ก ํ์ฉํ ์ ์๋ ๊ณผ์
๋ก๋ใLoadใ
๋ฐ์ดํฐ๋ฅผ ์ ์ฅ ๋๋ ๋ถ๋ฌ์ค๋ ๊ณผ์
๋ณํํ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ดํฐ ๋ ์ดํฌ(data lake) ๋๋ ์จ์ดํ์ฐ์ค(warehouse)์ ์ ์ฅ