본문 바로가기

AI

EDA를 왜 해야 할까?

반응형


EDA
  • 왜 해야 할까요?
    • 데이터를 다양한 각도에서 관찰하고 이해를 위해서이다
    • 데이터를 잘 이해한다는 개념은 생각보다 중요하다. 그래서 도메인을 이해하는 것이 중요한 이유기도 하다. 데이터 접근에 대한 첫 시작을 잘못하면 그 데이터를 가지고 해결하려는 문제 알고리즘도 모두 쓸모가 없어진다
    • 이때 다양한 분석을 통해서 가설을 도출할 수도 있다
    • 필요한 것은 데이터를 잘 읽고 잘 듣는 능력 = 이해관계자의 말을 이해하는 능력 → 무의식적인 너무 주관적인 판단은 배제한다
  • exploratory data analysis의 약어이다. 탐색적으로 데이터 분석한다는 의미이다.
Scaling
  • 머신 러닝을 위한 데이터 세트를 정제할 때 스케일이 다르다면?
    • 머신러닝은 데이터 기반으로 패턴을 인식하기 때문에 편향이 생길 수 있다.
  • 그래서 중요한 건?*
    • 비슷한 분포 내에 위치시키는 것이다.
    • 우리는 이것을 데이터 스케일링 작업이라고 부르기로 했다.
  • 종류
    • 표준화
      • 평균은 0 분산은 1로 정규분포로 만드는 것이다.
      • 그렇다면 왜 정규 분포로 만드는 것일까? 
    • 정규화
      • 값들을 가지고 특정 범주로 스케일링하는 것이다. 가장 큰 값이 1 작은 값이 0인 것이다.
  • 방법
    • StandardScaler -  이상치에 민감하고, 분류에 유용하다.
    • Min-MixScaler - 이상치에 민감하고 회귀에 유용하다.
    • RobustScaler은 중간값과 사분위 값을 사용하는데 이상치의 영향을 최소화한다.
Normalization
  • Nomarlizer 열의 통계치, 한 행의 모든 특성 사이의 유클리드 거리가 1이 되도록 스케일링, 보통은 전처리가 아니라 모델 학습 내 벡터에 적용된다
  • local minimum나 feature가 비대해지는 것을 방지한다.
Model Selection
  • 공동의 목표는 잘 예측하는 것이다.
  • 훈련을 시키는 것부터 구축해나가는 것까지 모두 시간이자 비용이다. 그런데 잘못된 선택을 한다면? 그것도 모두 비용이라고 할 수 있다.
  • 우리의 목표는 모델 평가가 아니라는 것을 기억해야 한다. 즉 목적에 맞게 잘 설정해야 한다.
  • 왜 우리는 모델의 예측 성능을 평가해야 할까?*
    • 모델이 미래 데이터에 대해 예측 성능 일반화 정확도를 알기 위해서이다.
    • 가설 공간 안에서 가장 좋은 모델을 골라서 성능을 끝까지 높이기 위해서 이다.
    • 문제 해결에 적합한 모델을 찾고 싶기 때문이다.
  • 왜 모델 성능 평가가 어려울까?*
    • 모든 샘플은 확률분포에 독립적이기 때문이다 → 그런데 일시적 데이터나 시계열 데이터는 독립적이지 않다. 따라서 분류 문제로 생각한다.
  • 손실과 예측 정확도
    • 목적을 잊지 말자
      •  예측 성능을 최대화하거나 반대로 예측 오류를 최소화하는 것이 목표이다.
    • 예측 편향
      • 모델의 예측값과 실제값 간의 차이를 나타낸다. 그러나 이 예측 편향을 훈련 세트로 추정하는 것은 종종 지나치게 낙관적인 결과를 초래할 수 있다.
    • 분산
      • 예측값과 예측 평균 간의 차이의 제곱을 나타낸다. 모델의 예측이 데이터 변화에 민감할수록 분산은 커진다.
        • 하이퍼파라미터
          • 하이퍼파라미터는 머신러닝 알고리즘을 조정하는 매개변수이다.
          • 회귀분석의 경우 **평균 제곱 오차(MSE)를** 비용함수로 사용하거나, L2 손실을 제곱하여 적용할 수 있다.
    • 테스트
      • 모델을 훈련하기 위해 훈련 데이터를 사용하고, 검증 데이터 세트에서 레이블을 예측하여 잘못된 예측 수를 측정하여 다양한 지표로 모델을 평가한 후, 하이퍼파라미터를 조정하여 마지막으로 테스트 데이터에서 모델을 평가한다.
    • 홀드아웃(Hold-out)
      • 훈련 데이터와 테스트 데이터로 데이터를 나누어 모델을 학습시키고 테스트 데이터의 레이블을 예측한다.
      • 재치환 평가는 같은 훈련 데이터 세트로 모델을 여러 번 평가하여 신뢰할 수 없는 결과를 초래할 수 있다.
    • 랜덤 샘플링
      • 데이터를 훈련과 테스트 세트로 분할하여 샘플링한다.
      • 편향이 발생할 수 있으며, 비 계층적 방식으로 랜덤 샘플링하거나 K-fold Cross Validation을 통해 이를 보완할 수 있다.
    • 비관적인 편향
      • 훈련 세트와 테스트 세트로 데이터를 분할할 때 발생할 수 있는 문제로, 독립성이 위반되거나 서브 샘플링으로 인한 클래스 비율 편향이 발생할 수 있다.
    • 모델의 평가
      • 모델의 변동성과 안정성을 평가한다.
      • 교차 검증을 수행할 수 있다.
      더 나아가서, 리샘플링 방법을 적용하면 MSE와 같은 예측 정확도 메트릭 대신 에러를 적용할 수 있다. 또한, 편향과 분산 사이의 트레이드오프를 고려하여 적절한 절충점을 찾아야 한다. 이러한 문제에 대한 고민을 통해 일반화 성능의 추정을 개선할 수 있다.

다른 내용도 냠냠

2024.01.15 - [AI] - Train Once, Test Anywhere : Zero-Shot Learning for Text Classification

 

Train Once, Test Anywhere : Zero-Shot Learning for Text Classification

지도학습과 비지도 학습 등 최근에는 다양한 인공지능 학습 방법에 대한 연구가 이뤄지고 있다. 그중에서도 Zero shot learning이라는 학습 방법에 대해 궁금해서 관련 논문으로 개념을 알아보려 한

love-eating.tistory.com

2024.01.15 - [AI] - 머신러닝 요약(ML Summary)

2024.01.15 - [AI] - 분류 모델의 종류(classification model)

 

분류 모델의 종류(classification model)

로지스틱 회귀 (Logistic Regression) 개념: 선형 결정 경계를 통해 이진 분류를 수행하는 모델. 목적: 데이터의 특성을 학습하여 새로운 데이터를 분류. 원리: 선형 결정 경계를 찾아내기 위해 최적의

love-eating.tistory.com

 

반응형