Math for AI 과정 - 서울대학교 AI 기업 교육 센터

** ACTA Mathematics for AI (Math4AI) 과정

* 6주 프로그램, 총 60시간

(1주일 10시간: 주중 야간줌수업 3시간씩 2회, 토 4시간 대면수업)

PartA: ML관점에서의 확률통계 (3주 프로그램, 총 30시간)

1. 확률 이론 (Probability Theory)

머신러닝의 핵심 기초 이론으로 다양한 알고리즘의 기반이 됨

확률적 분류기(예: Naive Bayes)는 입력 데이터의 확률 정보를 활용해 예측 수행

Naive Bayes는 조건부 확률을 바탕으로 단순하고 빠른 분류 알고리즘을 구현

입력 특성에 따른 사후 확률(posterior probability)을 계산하여 최적의 클래스를 선택

불확실성(uncertainty)을 정량화하여 모델의 신뢰도 분석에 활용 가능

2. 랜덤변수와 확률분포(Random Variables and Probability Distributions)

데이터의 특성과 행동 양식을 수학적으로 표현하는 데 필수적인 개념

데이터 분포를 모델링함으로써 상황에 맞는 알고리즘 선택 가능

환경 변화나 조건 변화에 따른 데이터 반응을 예측 가능

확률 기반으로 불확실성을 정량화하여 분석의 신뢰도 향상

이상치 탐지, 예측 모델링, 샘플링 등 다양한 AI·데이터 분야에 활용

3. 기술 통계 (Descriptive Statistics)

탐색적 데이터 분석(EDA)의 출발점으로 데이터 요약에 필수적

평균, 중앙값, 최빈값 등을 통해 데이터의 중심 경향 파악

분산, 표준편차, 범위 등을 통해 데이터의 분포와 변동성 이해

이상치 및 특이값 탐지를 통해 데이터 정제 방향 제시

전처리 전략 수립 및 모델링 전 데이터 이해에 핵심적으로 활용

4. 베이지안 추론 (Bayesian Inference)

동적 시스템에서 새로운 데이터가 들어올 때마다 예측을 업데이트하는 데 활용

Recursive Bayesian Estimation은 반복적으로 확률 분포를 갱신하며 연속적인 예측 수행

데이터에 내재된 불확실성을 확률적으로 반영하여 더 유연한 분석 가능

시계열 예측, 센서 융합, 칼만 필터(Kalman Filter) 등 실시간 시스템에 효과적

환경 변화에 따라 모델의 적응성과 정밀도를 향상시켜 줌

5. 가설 검정 (Hypothesis Testing)

데이터에 대한 가설(예: 평균 차이 존재 여부)을 통계적으로 검증하는 절차

p-value를 통해 귀무가설 기각 여부를 판단하고 통계적 유의성을 평가

데이터가 특정 분포나 조건을 만족하는지 검토 가능

모델 간 성능 차이 비교, 변수 선택, 실험 결과 검증 등에 활용

분석 결과의 신뢰도와 해석 가능성을 높이는 데 기여

6. 최대우도추정 (Maximum Likelihood Estimation, MLE)

관측된 데이터가 주어졌을 때, 그 데이터를 가장 잘 설명하는 파라미터를 추정

모델의 파라미터를 조정하여 관측 데이터의 발생 확률(우도)을 극대화

확률 기반 예측 모델의 정밀도와 신뢰도 향상에 기여

지도학습에서 선형회귀, 로지스틱 회귀 등 다양한 모델의 학습 과정에 활용

통계모델과 머신러닝 모델의 기반 기법으로 널리 사용됨

7. 정보 이론 (Information Theory)

모델 구축 과정에서 핵심적인 특성(feature)을 선택하는 데 활용됨

엔트로피(Entropy)를 통해 각 특성이 제공하는 정보량을 정량화

상호정보량(Mutual Information)을 이용해 입력 변수 간의 상관 관계를 평가

불필요한 특성을 제거하고, 모델 복잡도는 줄이면서 성능은 유지 또는 향상

특성 선택, 분류기 설계, 데이터 압축 등 다양한 데이터 분석 작업에 기여

8. 샘플링 기법 (Sampling Methods)

대용량 데이터셋 처리 시 전체 데이터를 사용하지 않고도 효과적인 학습 가능

교차 검증(Cross-Validation)에서 학습/검증 데이터셋을 나누는 데 필수

데이터의 대표성을 유지하면서 계산 비용과 학습 시간을 절감

훈련용, 검증용, 테스트용 데이터셋 구성에 기본적으로 사용됨

무작위 샘플링, 계층 샘플링 등 다양한 전략이 존재하며, 상황에 따라 선택 가능

9. 공분산과 상관계수 (Covariance and Correlation)

변수 간 선형 관계의 방향성과 강도를 파악하는 데 필수적인 통계 지표

특성 선택 시 상관성이 높은 변수 간 중복을 줄여 모델 단순화 가능

공분산은 변수 간 증감 방향, 상관계수는 그 강도를 수치로 표현

다중공선성(multicollinearity) 문제를 사전에 식별하여 회귀 모델의 안정성 확보

변수 간 상관 구조를 이해함으로써 예측 모델의 해석력 및 성능 개선에 기여

PartB: ML관점에서의 선형대수 (3주 프로그램, 총 30시간)

1. 행렬 곱셈(Matrix Multiplication)은 머신러닝과 데이터 분석에서 다음과 같은 핵심 상황에 활용

특성 변환 (Feature Transformation): 입력 데이터를 선형 변환하거나 여러 특성을 결합할 때 사용

선형 모델 (Linear Models): 선형 회귀 및 신경망에서 입력과 가중치 간 계산을 수행

주성분 분석 (PCA): 데이터 행렬과 고유벡터의 곱을 통해 주요 성분(Principal Components)을 추출

추천 시스템 (Recommendation Systems): 사용자–아이템 간 관계를 행렬 형태로 모델링하고 계산

상태 전이 (State Transition): 마르코프 체인에서 상태 간 전이 확률 계산에 활용

2. 벡터 내적(Vector Inner Product)은 머신러닝과 데이터 분석에서 다음과 같은 상황에 활용

유사도 측정: 코사인 유사도 계산을 통해 벡터 간 방향성 및 관계 분석

벡터 투영 (Projection): 한 벡터를 다른 벡터 방향으로 정량적으로 투영

선형 모델 (Linear Models): 회귀 및 분류 모델에서 입력과 가중치의 곱으로 예측값 계산

그래디언트 계산: 최적화 문제에서 경사 하강법을 위한 방향 및 크기 계산에 사용

신경망 계산 (Neural Networks): 뉴런의 입력값과 가중치의 내적으로 활성화 값을 도출

3. 행렬식(Matrix Determinant)은 머신러닝과 데이터 분석에서 다음과 같은 상황에 활용

선형 독립성 판별: 행렬식이 0이 아니라면 열 벡터들은 선형적으로 독립임을 의미

선형 시스템 해 존재 여부 판단: Ax=b 형태의 방정식에서 해의 존재성과 유일성을 평가

행렬 안정성 분석: 공분산 행렬의 안정성이나 데이터 분산의 특성을 판단하는 데 사용

다변량 정규분포 계산 (Multivariate Gaussian): 확률 밀도 함수 계산 시 정규화 상수로 활용

행렬의 성질 평가: 행렬의 가역성 여부나 데이터 구조의 특성을 파악하는 데 활용

4. 역행렬(Inverse Matrix)은 머신러닝과 데이터 분석에서 다음과 같은 상황에 활용

선형 회귀 계수 계산: 데이터를 가장 잘 설명하는 직선의 기울기와 절편을 추정하는 과정계수를 도출

Ridge 회귀: 정규화 항을 포함한 역행렬 계산을 통해 다중공선성 문제를 완화

가우시안 프로세스 (Gaussian Processes): 공분산 행렬의 역행렬을 사용해 조건부 확률 계산

최적화 문제 해결: 이차 최적화에서 해세 행렬(Hessian Matrix)의 역행렬로 방향 및 해 계산

유사 역행렬 (Pseudo-Inverse): 정칙이 아닌 행렬에 대해 Moore-Penrose 역행렬을 활용하여 해를 근사

5. LU 분해(LU Decomposition)는 머신러닝과 데이터 분석에서 다음과 같은 상황에 활용됩니다:

선형 방정식 풀이: Ax=b 문제를 전방/후방 대입 방식으로 빠르고 안정적으로 해결

역행렬 계산: 직접적인 계산 대신 LU 분해를 통해 간접적으로 역행렬을 효율적으로 구함

행렬식 계산: 상삼각 행렬 U의 대각 원소 곱으로 행렬식(determinant)을 빠르게 산출

최적화 문제 해결: 해세 행렬(Hessian)의 분해를 통해 뉴턴 방식 등에서 계산 효율 개선

희소 행렬 연산: 비영(稀疎) 행렬에 대해 메모리와 연산을 절약하며 효과적으로 적용 가능

시스템 해석 및 구조 분석: 시스템의 안정성 분석이나 데이터 구조 이해를 위한 기반 도구로 활용

6. 고유벡터와 고유값 분해(Eigenvector & Eigen Decomposition)는 머신러닝과 데이터 분석에서 다음과 같은 상황에 활용

PCA (주성분 분석): 고유벡터를 이용해 데이터의 주요 방향(주성분)을 추출하고 차원을 축소

스펙트럴 클러스터링 (Spectral Clustering): 고유값 분해를 통해 데이터의 비선형 구조와 군집 경계 분석

추천 시스템: 사용자–아이템 행렬을 분해하여 잠재 요인(Latent Factors)을 추출

그래프 분석: 인접행렬이나 라플라시안 행렬의 고유벡터로 중요한 노드나 커뮤니티 구조 식별

최적화 문제: 해세 행렬(Hessian)의 고유값을 분석하여 함수의 안정성 및 볼록성(convexity) 평가

공분산 분석: 고유값 분해를 통해 데이터의 분산 방향과 상관 구조 파악

핵심 방향 요약: 고차원 데이터에서 정보가 밀집된 방향을 파악하고 시각화 또는 전처리에 활용

7. 주성분 분석(PCA)은 머신러닝과 데이터 분석에서 다음과 같은 상황에 활용

차원 축소: 데이터의 주요 변동성을 유지하면서 불필요한 차원을 제거

데이터 시각화: 고차원 데이터를 2D 또는 3D로 투영하여 패턴과 군집 구조를 시각적으로 분석

노이즈 제거: 작은 고유값에 해당하는 성분을 제거하여 데이터에서 불필요한 잡음을 제거

특성 선택 (Feature Selection): 핵심 정보를 담고 있는 주성분만을 선택하여 모델 성능 향상

데이터 압축: 정보를 유지한 채로 데이터 크기를 줄여 저장 공간 절약 및 효율적 표현 가능

8. 특이값 분해(SVD)는 머신러닝과 데이터 분석에서 다음과 같은 상황에 활용됩니다:

추천 시스템: 사용자–아이템 간 희소 행렬을 분해하여 잠재 요인(Latent Factors)을 추출

텍스트 분석 (LSA): 잠재 의미 분석(Latent Semantic Analysis)을 통해 문서 간 의미 기반 유사성을 파악

이미지 압축: 작고 중요하지 않은 특이값을 제거하여 이미지 용량을 줄이고 압축 효과 달성

유사 역행렬 계산: 정칙이 아닌 행렬에 대해 Moore-Penrose 유사 역행렬을 효과적으로 생성

차원 축소: 고차원 데이터를 저차원 공간에 효율적으로 표현하여 계산량 감소 및 시각화 용이