본문 바로가기

AI

머신러닝 요약(ML Summary)

반응형

 머신러닝 개요

  • 머신러닝 (Machine Learning): 컴퓨터가 데이터로부터 학습하고 패턴을 찾아 예측하거나 결정을 내리는 기술.
  • 지도학습 (Supervised Learning): 입력과 출력 간의 대응을 학습하여 예측 모델을 생성.
  • 비지도 학습 (Unsupervised Learning): 레이블 없는 데이터의 구조나 패턴을 찾는 학습.
  • 강화학습 (Reinforcement Learning): 에이전트가 환경과 상호작용하여 보상을 최대화하도록 학습.

2. 주요 알고리즘:

  • 선형 회귀 (Linear Regression): 종속 변수와 독립 변수 간의 선형 관계를 모델링.
  • 로지스틱 회귀 (Logistic Regression): 이진 분류 문제에 사용되는 알고리즘.
  • 결정 트리 (Decision Tree): 데이터를 분할하여 의사 결정 규칙을 생성.
  • 무작위 포레스트 (Random Forest): 다수의 결정 트리를 앙상블 한 모델.
  • SVM (Support Vector Machine): 분류와 회귀에 사용되는 알고리즘.

3. 평가 지표:

  • 정확도 (Accuracy): 정확히 예측한 샘플의 비율.
  • 정밀도 (Precision): 양성으로 예측한 샘플 중 실제 양성의 비율.
  • 재현율 (Recall): 실제 양성 샘플 중 양성으로 예측한 비율.
  • F1 점수 (F1 Score): 정밀도와 재현율의 조화 평균.

4. 과적합과 일반화:

  • 과적합 (Overfitting): 모델이 훈련 데이터에 너무 적합하여 새로운 데이터에서 성능이 떨어지는 현상.
  • 일반화 (Generalization): 모델이 훈련 데이터에서 학습한 패턴을 새로운 데이터에 적용하는 능력.

5. 교차 검증 (Cross Validation):

  • 훈련-검증-테스트 데이터 세트 나누기: 훈련 데이터로 모델을 학습하고 검증 데이터로 모델 성능을 평가하여 하이퍼파라미터 조정 후, 테스트 데이터로 최종 성능 평가.
  • K-Fold 교차 검증: 데이터를 K개의 부분으로 나눠 K번 검증을 수행하여 평균 성능을 계산.

6. 공분산과 상관관계:

  • 공분산 (Covariance): 두 변수 간의 관계를 나타내는 값. 양수면 함께 증가, 음수면 하나 증가하면 다른 하나는 감소.
  • 상관관계 (Correlation): 두 변수 간의 관련 정도를 나타내는 값. -1부터 1 사이의 범위.

7. 차원 축소:

  • PCA (Principal Component Analysis): 고차원 데이터를 저차원 공간으로 변환하여 데이터의 분산을 최대한 보존하는 기법.
  • LDA (Linear Discriminant Analysis): 클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하여 데이터를 차원 축소.

8. 하이퍼파라미터 튜닝:

  • 그리드서지 (Grid Search): 가능한 모든 조합을 시도하여 최적의 하이퍼파라미터 조합을 찾는 방법.
  • 랜덤서치 (Random Search): 랜덤한 하이퍼파라미터 조합을 시도하여 최적의 조합을 찾는 방법.

9. 앙상블 모델:

  • 배깅 (Bagging): 데이터를 부트스트래핑하여 복수의 모델을 학습하고 결과를 앙상블 하는 방식 (무작위 포레스트).
  • 부스팅 (Boosting): 약한 모델을 순차적으로 학습하여 결과를 누적하는 방식 (AdaBoost, Gradient Boosting, Xgboost).

10. 딥러닝:

  • 신경망 (Neural Network): 생물학적 뉴런의 작동 원리를 모방한 학습 모델.
  • CNN (Convolutional Neural Network): 이미지 분석에 특화된 신경망 구조.
  • RNN (Recurrent Neural Network): 시계열 데이터와 순차적 데이터를 다루는 신경망 구조.
  • LSTM (Long Short-Term Memory): RNN의 장기 의존성 문제를 해결한 신경망 구조.
반응형