머신러닝 샘플링

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

𝑁𝑜𝑡𝑒𝑏𝑜𝑜𝑘

머신러닝 샘플링 본문

프로젝트🏠

머신러닝 샘플링

seoa__ 2025. 1. 31. 21:10

[ 목차 ]

샘플링 (sampling)

: 머신러닝에서 데이터 불균형 문제를 해결하기 위해 다양한 샘플링 기법을 사용

종류

1️⃣ 오버샘플링 (OverSampling)

2️⃣ 언더샘플링 (UnderSampling)

3️⃣혼합 샘플링 ( Over + Under )

1️⃣ 오버샘플링 (OverSampling)

: 소수 클래스의 데이터를 증가시켜 균형을 맞추는 기법

(예 : 허위매물이 적은 경우, 허위매물 데이터를 인위적으로 생성)

주요 기법

Random OverSampling
- 소수 클래스 샘플을 단순 복제
  - 장점 : 쉽고 빠름
  - 단점 : 중복 데이터로 과접합 위험
SMOTE (Synthetic Minority Over-sampling Technique)
- 최근접 이웃(KNN) 기반으로 새로운 데이터 생성
  - 데이터 다양성이 증가
  - 중복 데이터로 과접합 위험
ADASYN (Adaptive Synthetic Sampling)
- SMOTE에서 샘플링 비율을 조정하여 극단저긍로 부족한 클래스에 집중
  - 장점 : 학습 성능 향상 가능
  - 노이즈가 추가 될 위험

📌 오버샘플링 코드 예시 (ADASYN)

from imblearn.over_sampling import ADASYN

adasyn = ADASYN(random_state=42)
X_train_resampled, y_train_resampled = adasyn.fit_resample(X_train, y_train)

2️⃣ 언더샘플링 (UnderSampling)

: 다수 클래스의 데이터를 줄여서 균형을 맞추는 기법

( ex : 정상 매물 데이터가 너무 많으면 일부를 제거 )

주요 기법

Random UnderSampling
- 다수 클래스 샘플을 무작위로 제거
  - 장점 : 간단하고 빠름
  - 단점 : 중요한 데이터가 사라질 위험
Tomek Links
- 경계 데이터(Tomek link)를 제거하여 샘플 균형 조정
  - 장점 : 모델 성능 향상 가능
  - 단점 : 데이터 손실 가능성
NearMiss
- 가장 가까운 데이터 포인트만 남기고 나머지를 제거
  - 장점 : 학습 데이터 수 줄이면서도 성능 유지
  - 단점 : 데이터 손실 및 정보 부족 가능

📌 언더샘플링 코드 예시 (NearMiss)

from imblearn.under_sampling import NearMiss

nearmiss = NearMiss()
X_train_resampled, y_train_resampled = nearmiss.fit_resample(X_train, y_train)

3️⃣혼합 샘플링 ( Over + Under )

: 오버샘플링과 언더샘플링을 함께 적용하여 균형을 맞추는 방법

( ex : smote + tomek links 사용)

주요 기법

SMOTE + Tomek Links
- SMOTE로 소수 클래스 증가 후, Tomek Links로 다수 클래스 정리
  - 장점 : 데이터 균형 + 노이즈 감소
  - 연산량 증가
SMOTE + Edited Nearest Neighbors (ENN)
- SMOTE 후 ENN으로 노이즈 제거
  - 장점 : 성능 향상 가능
  - 단점 : 데이터 손실 위험

📌 혼합 샘플링 코드 예시 (SMOTE + Tomek)

from imblearn.combine import SMOTETomek

smote_tomek = SMOTETomek(random_state=42)
X_train_resampled, y_train_resampled = smote_tomek.fit_resample(X_train, y_train)

🙆🏻‍♀️ 결론

1️⃣ 오버샘플링 (OverSampling)

smote 또는 adasyn(오버샘플링) 추천
데이터 소실 없이 보강 가능

2️⃣ 언더샘플링 (UnderSampling)

random undersamlping 또는 tomek links 추천
연산 속도를 빠르게 하면서도 균형 유지

3️⃣혼합 샘플링 ( Over + Under )

smote + tomek (혼한 샘플링)cncjs
균형 유지 + 노이즈 감소

'프로젝트🏠' 카테고리의 다른 글

랜덤포레스트(하이퍼파라미터) (2)	2025.01.27

'프로젝트🏠' Related Articles

랜덤포레스트(하이퍼파라미터) 2025.01.27

𝑁𝑜𝑡𝑒𝑏𝑜𝑜𝑘

머신러닝 샘플링 본문

머신러닝 샘플링

샘플링 (sampling)

종류

1️⃣ 오버샘플링 (OverSampling)

주요 기법

2️⃣ 언더샘플링 (UnderSampling)

주요 기법

3️⃣혼합 샘플링 ( Over + Under )

주요 기법

🙆🏻‍♀️ 결론

'프로젝트🏠' 카테고리의 다른 글

티스토리툴바