원티드 프리온보딩 6월 챌린지 AI 세션 2일차
발표자 : 김도현 대표님
날짜 : 2024-06-05
시간 : 19:00~21:00 (2h)
[목차]
- 확률통계 핵심개념 정리
- 선형대수 핵심개념 정리
- 컴퓨터공학 핵심개념 정리
확률통계
더보기
- 확률 (Probability)
- 확률변수와 확률분포
- 표본공간
- 확률변수
- 확률분포
- 우도 (Likelihood) ⭐
- 확률과 우도의 차이 💡
- 최대우도 추정법 (Maximum Likelihood Estimation) ⭐
- 중심극한정리 (Central Limit Theorem)와 큰수의 법칙 (Law of Large Numbers)
- 평균, 분산, 표준편차 계산법
- 모분산, (...)
- 이산형 확률분포
- 연속형 확률분포, 확률밀도함수 (PDF)
- 정규분포
- 표준화 (Standardization) ⭐
- 표준정규분포 ⭐
- 가설 검정 ⭐
- 귀무가설 (Null Hypothesis, H0)
- 대립가설 (Alternative Hypothesis, H1) = 연구가설
- 양측검정, 단측검정
- 가설 검정의 절차
- 확증적 데이터 분석 (Confirmatory Data Analysis, CDA)
- 가설 설정 > 데이터 수집 > 통계 분석 > 가설 검증
- 데이터 정제가 잘 되어있고, 내가 원하는게 뭔지 알 때 사용하변 좋은 방법
- 양적 자료 (Quantitative Data) 와 질적 자료 (Qualitative Data)
- 일변량 양적 자료의 분석
- 표, 히스토그램, 상자 그림, 기술통계량, 분포의 모양
- 일변량 질적 자료의 분석
- 표, 백분율, 막대그래프, 원 그래프, 기타 다른 시각화 기법들
- 탐색적 데이터 분석 (Explanatory Data Analysis, EDA)
- 데이터 수집 > 시각화 탐색 > 패턴 도출 > 인사이트 발견
- 데이터를 뜯어보는 방법, 상관 관계, 인과 관계 등을 도출
- 기술통계량 (Descriptive statistics) - 어떻게 구하는지 알기
- 회귀 분석 (Regression Analysis) ⭐ ⭐
- 실무에서는 단순 선형 회귀를 제일 많이 함
- scikit learn 쓰지만 원리는 알고 있어야 함. 어떨 때 어떻게 돌아가는지, input, output이 뭔지는 알고 있어야 함
- 단순 선형회귀 (Simple Linear Regression)
- 최소제곱법 (OLS. Ordinary Least Squares)
- Cross Entroy Loss와 같은 의미
- 얼마나 잘 하는지에 대한 지표도 알아야 함
- 순서통계량
- 가설 검정 구체적 방법
- 모평균 추정, 모분선 추정, 신뢰 구간
- 베이지안 ⭐
- 사전 확률, 사후 확률의 차이
선형대수
더보기
- 행렬 (Matrix) : 수 또는 다항식 등을 행과 열로 배열한 것
- 벡터 (Vector) : 크기와 방향을 함께 가지는 물리량. 시점과 끝점을 연결하는 화살표로 표시
- 덧셈, 뺄셈, 내적, 외적 등 벡터 간 연산 가능
- -> 유사도 측정 가능
- cf. 스칼라 (Scalar) : 크기만 가지는 물리량
- 덧셈, 뺄셈, 내적, 외적 등 벡터 간 연산 가능
(AI Researcher 직무 필요 개념, 대학원 면접 질문)
- 생성(Span) 과 기저(Basis)
- 선형 독립 (Linearly Independent)
- 행렬식 (Determinant)
- 고유값과 고유벡터
- 계수 (Rank)
- matrix factorization?
- 차원의 저주 (The curse of dimensionality) : 데이터 학습을 위해 차원이 증가하면서 상대적으로 데이터가 Sparse해지고 모델의 성능이 떨어지는 현상
- 이 때문에 적절한 피쳐 개수를 유지해주는게 중요하다
- 차원 축소 (Dimensional Reduction)
- Feature Selection :
- 통계적 방법으로 피쳐 중요도 순위 결정
- 상관분석, 전/후진선택 등
- Feature Extraction
- 저차원의 피쳐를 새로 생성
- PCA, LDA
- Feature Selection :
- PCA (Principal Component Analysis, 주성분 분석)과 LDA (Linear Discriminant Analysis, 선형판별분석)
컴퓨터공학
더보기
- 객체지향 프로그래밍
- Class 간 Input, Output 정의 및 상호작용
- 절차적 프로그래밍
- 관계형 데이터베이스 (RDBMS)와 SQL
- 기본 자료구조 - 배열, 링크드 리스트, 스택, 큐, 해시 테이블, 트리, 그래프
- 기본 알고리즘 - 정렬 알고리즘, 탐색 알고리즘, 동적 프로그래밍
- GitHub
(Backend)
- 컴퓨터 구조 (고급 상식)
- 웹 서버
- Rest API
- CRUD Operation
- Restful
- 클라우드 서비스
- 클라우드 컴퓨팅, IaaS, PaaS, SaaS, 가상화, 컨테이너화