반응형
EDA
- 왜 해야 할까요?
- 데이터를 다양한 각도에서 관찰하고 이해를 위해서이다
- 데이터를 잘 이해한다는 개념은 생각보다 중요하다. 그래서 도메인을 이해하는 것이 중요한 이유기도 하다. 데이터 접근에 대한 첫 시작을 잘못하면 그 데이터를 가지고 해결하려는 문제 알고리즘도 모두 쓸모가 없어진다
- 이때 다양한 분석을 통해서 가설을 도출할 수도 있다
- 필요한 것은 데이터를 잘 읽고 잘 듣는 능력 = 이해관계자의 말을 이해하는 능력 → 무의식적인 너무 주관적인 판단은 배제한다
- exploratory data analysis의 약어이다. 탐색적으로 데이터 분석한다는 의미이다.
Scaling
- 머신 러닝을 위한 데이터 세트를 정제할 때 스케일이 다르다면?
- 머신러닝은 데이터 기반으로 패턴을 인식하기 때문에 편향이 생길 수 있다.
- 그래서 중요한 건?*
- 비슷한 분포 내에 위치시키는 것이다.
- 우리는 이것을 데이터 스케일링 작업이라고 부르기로 했다.
- 종류
- 표준화
- 평균은 0 분산은 1로 정규분포로 만드는 것이다.
- 그렇다면 왜 정규 분포로 만드는 것일까?
- 정규화
- 값들을 가지고 특정 범주로 스케일링하는 것이다. 가장 큰 값이 1 작은 값이 0인 것이다.
- 표준화
- 방법
- StandardScaler - 이상치에 민감하고, 분류에 유용하다.
- Min-MixScaler - 이상치에 민감하고 회귀에 유용하다.
- RobustScaler은 중간값과 사분위 값을 사용하는데 이상치의 영향을 최소화한다.
Normalization
- Nomarlizer 열의 통계치, 한 행의 모든 특성 사이의 유클리드 거리가 1이 되도록 스케일링, 보통은 전처리가 아니라 모델 학습 내 벡터에 적용된다
- local minimum나 feature가 비대해지는 것을 방지한다.
Model Selection
- 공동의 목표는 잘 예측하는 것이다.
- 훈련을 시키는 것부터 구축해나가는 것까지 모두 시간이자 비용이다. 그런데 잘못된 선택을 한다면? 그것도 모두 비용이라고 할 수 있다.
- 우리의 목표는 모델 평가가 아니라는 것을 기억해야 한다. 즉 목적에 맞게 잘 설정해야 한다.
- 왜 우리는 모델의 예측 성능을 평가해야 할까?*
- 모델이 미래 데이터에 대해 예측 성능 일반화 정확도를 알기 위해서이다.
- 가설 공간 안에서 가장 좋은 모델을 골라서 성능을 끝까지 높이기 위해서 이다.
- 문제 해결에 적합한 모델을 찾고 싶기 때문이다.
- 왜 모델 성능 평가가 어려울까?*
- 모든 샘플은 확률분포에 독립적이기 때문이다 → 그런데 일시적 데이터나 시계열 데이터는 독립적이지 않다. 따라서 분류 문제로 생각한다.
- 손실과 예측 정확도
- 목적을 잊지 말자
- 예측 성능을 최대화하거나 반대로 예측 오류를 최소화하는 것이 목표이다.
- 예측 편향
- 모델의 예측값과 실제값 간의 차이를 나타낸다. 그러나 이 예측 편향을 훈련 세트로 추정하는 것은 종종 지나치게 낙관적인 결과를 초래할 수 있다.
- 분산
- 예측값과 예측 평균 간의 차이의 제곱을 나타낸다. 모델의 예측이 데이터 변화에 민감할수록 분산은 커진다.
- 하이퍼파라미터
- 하이퍼파라미터는 머신러닝 알고리즘을 조정하는 매개변수이다.
- 회귀분석의 경우 **평균 제곱 오차(MSE)를** 비용함수로 사용하거나, L2 손실을 제곱하여 적용할 수 있다.
- 하이퍼파라미터
- 예측값과 예측 평균 간의 차이의 제곱을 나타낸다. 모델의 예측이 데이터 변화에 민감할수록 분산은 커진다.
- 테스트
- 모델을 훈련하기 위해 훈련 데이터를 사용하고, 검증 데이터 세트에서 레이블을 예측하여 잘못된 예측 수를 측정하여 다양한 지표로 모델을 평가한 후, 하이퍼파라미터를 조정하여 마지막으로 테스트 데이터에서 모델을 평가한다.
- 홀드아웃(Hold-out)
- 훈련 데이터와 테스트 데이터로 데이터를 나누어 모델을 학습시키고 테스트 데이터의 레이블을 예측한다.
- 재치환 평가는 같은 훈련 데이터 세트로 모델을 여러 번 평가하여 신뢰할 수 없는 결과를 초래할 수 있다.
- 랜덤 샘플링
- 데이터를 훈련과 테스트 세트로 분할하여 샘플링한다.
- 편향이 발생할 수 있으며, 비 계층적 방식으로 랜덤 샘플링하거나 K-fold Cross Validation을 통해 이를 보완할 수 있다.
- 비관적인 편향
- 훈련 세트와 테스트 세트로 데이터를 분할할 때 발생할 수 있는 문제로, 독립성이 위반되거나 서브 샘플링으로 인한 클래스 비율 편향이 발생할 수 있다.
- 모델의 평가
- 모델의 변동성과 안정성을 평가한다.
- 교차 검증을 수행할 수 있다.
- 목적을 잊지 말자
다른 내용도 냠냠
2024.01.15 - [AI] - Train Once, Test Anywhere : Zero-Shot Learning for Text Classification
2024.01.15 - [AI] - 머신러닝 요약(ML Summary)
2024.01.15 - [AI] - 분류 모델의 종류(classification model)
반응형
'AI' 카테고리의 다른 글
A Review of Generalized Zero-Shot Learning Methods (0) | 2024.01.16 |
---|---|
Seq2Seq(시퀀스 투 시퀀스) (0) | 2024.01.15 |
Transformer - Encoder(어텐션 메커니즘) (0) | 2024.01.15 |
머신러닝 요약(ML Summary) (0) | 2024.01.15 |
분류 모델의 종류(classification model) (0) | 2024.01.15 |