[강의] ML/DL 핵심 개념 정리
본문 바로가기

Deep Learning

[강의] ML/DL 핵심 개념 정리

원티드 프리온보딩 6월 챌린지 AI 세션 3일차

발표자 : 김도현 대표님

날짜 : 2024-06-10

시간 : 19:00-21:00 (2h)

 

[목차]

- 머신러닝 핵심개념 정리

- 딥러닝 핵심개념 정리


머신러닝

더보기
  • 데이터 전처리 
  • Raw Data의 특징
    • 잡음 Noise 
    • 결측값 Missing Value 
    • 이상값 Outlier 
    • 불일관성
  • 데이터의 노이즈, 결측치, 이상값 발생 원인
    • 입력 오류
    • 측정 오류
    • 실험 오류
    • 표본추출 오류
    • 자연적 이상값
  • 데이터 전처리 기술
    • 데이터 유형 변환
      • 평활화 (Smoothing)
      • 집계 (Aggregation)
      • 정규화 (Normalization) : 각 데이터 (특성)을 같은 Scale이 되도록 값을 변환하는 작업
        • 일반적으로 Min-max scaling 많이 사용
      • 일반화, 표준화 (Standardization) : 각 데이터를 표준정규분포의 속성을 갖도록 재조정하는 것
        • 표준정규분포 (가우시안분포) : 평균=0, 분산=1인 분포
      • 속성 생성 (Feature construction)
    • 데이터 여과 (Filtering)
    • 데이터 정제 (Cleansing)
      • 결측치 처리 기술
        • 해당 레코드 무시
        • 통계값, 추정치 또는 특정 값으로 대체
      • 이상치 처리 기술
        • 단순삭제
        • 통계값 대체
        • 변수화
        • 리샘플링
        • 케이스 분리
      • 잡음 처리 기술
        • 구간화
        • 회귀값 적용
        • 군집화
      • 데이터 통합 기술
      • 데이터 축소 기술
      • 데이터 세분화
    • 예측 (Prediction)
    • 머신러닝
      • 클러스터링
      • 시각화와 차원 축소
      • 지도 학습 : 정답이 있는 데이터 학습
        • 회귀
        • 분류
      • 비지도 학습 : 정답이 없는 데이터 학습
      • 강화 학습 : 데이터는 없지만, 규칙과 보상이 있는 환경에서 학습
    • 로지스틱 회귀 (Logistic Regression)
    • 베이즈 규칙
    • 나이브 베이즈
      • 베이즈 정리에 기반한 확률 분류기로, 주로 텍스트 분류에 많이 이용
      • 각각의 사건들은 독립이라는 순진한 (Naive) 가정 필요
    • K-nearest neighbor (KNN)
    • SVM (Support Vector Machine)
      • SVM의 목표 : support vector들로 이루어진 margin을 최대화하기
    • Decision Tree

딥러닝

더보기
  • 퍼셉트론
  • Multi Layer Perceptron (MLP)
  • 순전파 (Feedforward)
  • Activation Function (활성화 함수)
  • 손실 함수 (Loss function)
  • Mean Squared Error (MSE, 평균 제곱 오차)
  • Cross Entropy Error (CSE, 교차 엔트로피 오차)
  • Backpropagation (역전파)
  • Gradient descent (경사 하강법)
  • Optimization (최적화)
  • Batch Learning (= Epoch Learning) : 전체 훈련 데이터 사용
  • Mini-batch (미니배치)
  • Epoch, Batch size, Iteration (step)
  • 회귀식의 정도 (precision)
  • 결정계수 (Coefficient of determination) - 1과 가까울수록 좋음
  • 혼동행렬 (Confusion matrix)
  • 분류 모델의 평가지표
    • 정확도 Accuracy
    • 정밀도 Precision : F가 좀 나와도 되는데 최대한 많이 맞혀야 하는 상황 ex) 해시태그 추천
    • Negative Predictive Value
    • 민감도, 재현율 (Sensitivity, Recall, True Positive Rate) : T를 최대한 잘 맞추는 상황에 사용 ex) 암환자 진단 
    • 특이도 (Specificity)
    • F1-score
    • ROC Curve, AUC
    • Specificity