Data Engineering for AI 과정 - 서울대학교 AI 기업교육 센터

ACTA Data Engineering for AI

** 7주 프로그램, 총 70시간

(1주일 10시간: 주중 야간줌수업 3시간씩 2회, 토 4시간 대면수업)

강사 풀: 이상원, 정형수, 김형주

Week 1: 데이터 엔지니어링 개요 및 SQL 최적화

이론 1 (3시간: 야간 비대면): SQL 및 관계형 DBMS 개요

* SQL 복습 (JOIN, GROUP BY, Window Functions)

* Conventional DBMS Architecture (OLTP, OLAP, HTAP 개념)
* Shared-Disk vs. Shared-Nothing 구조

이론 2 (3시간: 야간 비대면): 데이터 저장 및 스토리지 구조

* Storage Layout (Row Store vs. Column Store)
* 파일 포맷 (Parquet, ORC) 및 성능 비교
* 데이터 압축 및 인코딩 기법 (Dictionary, Run-Length Encoding)

실습 (토요일: 4시간 대면수업)
* PostgreSQL & MySQL을 활용한 SQL 최적화
* Parquet & ORC 파일 저장 및 성능 비교

Week 2: Data Preprocessing with Python

이론 3 (3시간: 야간 비대면): 데이터 클리닝 및 테이블 통합
* Data Cleaning (결측치 및 이상치 처리)
* Missing Values 처리 기법 (Mean, Median, Mode, Interpolation)
* Outlier Detection (IQR, Z-score,Isolation Forest)
* Table Integration (테이블 통합)
* Inner/Outer Joins, Merge, Concatenation

이론 4 (3시간: 야간 비대면): 데이터 통합 및 변환
* Table Integration (테이블 통합 계속)
* Schema Mapping 및 Data Type 변환
* Data Transformation (데이터 변환)
* Feature Scaling (Standardization, Normalization)
* Log Transformation, Box-Cox Transformation

이론 5 (토요일: 4시간 대면수업): 데이터 축소 및 이산화
* Data Reduction & Resampling (데이터 축소 및 리샘플링)
* Row & Column Reduction (Feature Selection, PCA)
* Imbalanced Data 처리 (Over/Under Sampling, SMOTE)
* Data Discretization (데이터 이산화)
* Binning (Equal-width, Equal-frequency)
* Encoding 기법 (One-Hot, Label Encoding, Target Encoding)

Week 3: 다양한 인덱싱 기법 (B-tree, Hash, Vector Index)

이론 6 (3시간: 비대면): 전통적인 인덱싱 기법 (B-tree, Hash Index)
* B-tree & B+tree 개념 및 DBMS 적용
* Hash Index 구조 및 활용
* LSM-tree 기반 인덱싱 (RocksDB, LevelDB)

이론 7 (3시간: 비대면): 벡터 검색 및 ANN (Approximate Nearest Neighbor) 인덱싱
* Vector Index 개념 및 AI/ML 응용
* HNSW (Hierarchical Navigable Small World)
* ScaNN (Scalable Nearest Neighbors)
* FAISS, Weaviate 등 오픈소스 기술 비교

실습 (토요일: 4시간 대면수업)
* PostgreSQL/MySQL에서 B-tree & Hash Index 생성 및 성능 테스트
* FAISS 및 ScaNN을 활용한 벡터 검색 실습

Week 4: HTAP 및 Cloud-scale OLAP

이론 8 (3시간: 야간 비대면): HTAP (Hybrid Trans‘n and Analytical Processing) 개념
* OLTP vs. OLAP vs. HTAP 비교
* 대표적인 HTAP 솔루션: TiDB, SingleStore, SAP HANA
* HTAP의 주요 활용 사례

이론 9 (3시간: 야간 비대면): Cloud-scale OLAP 엔진 (BigQuery, Redshift, ClickHouse)
* Google BigQuery 아키텍처 및 특징
* Amazon Redshift (Columnar Storage, Distribution Keys)
* ClickHouse의 OLAP 특화 설계 및 성능 비교

실습 (토요일: 4시간 대면수업)
* BigQuery, Redshift, ClickHouse 환경에서 쿼리 실행 및 성능 비교
* 실시간 분석 및 최적화 실습

Week 5: 스트리밍 데이터 처리 (Kafka & Flink)

이론 10 (3시간: 야간 비대면): 스트리밍 데이터 개념 및 아키텍처
* Kafka 기본 개념 및 구조 (Producer, Consumer, Broker, Topic)
* Kafka Streams vs. Flink 비교

이론 11 (3시간: 야간 비대면): Change Data Capture (CDC) 및 이벤트 처리
* Event Sourcing & CDC 개념
* Lambda & Kappa Architecture

실습 (토요일: 4시간 대면수업)
* Kafka & Flink를 활용한 실시간 데이터 처리
* Change Data Capture (CDC) 시뮬레이션

Week 6: 최신 데이터 처리 플랫폼 기술

이론 12 (3시간: 야간 비대면): 최신 데이터 플랫폼 개요
* Hadoop3 HDFS & Spark SQL 개념
* Snowflake, Databricks Delta Lake, Palantir Foundry 개요
* Dataframe API 활용

이론 13 (3시간: 야간 비대면): 대규모 데이터 파이프라인 구축
* Apache Airflow & ETL Best Practices (Zero-ETL)
* Spark + Kafka 데이터 파이프라인 설계

실습 (토요일: 4시간 대면수업)
* Spark + Kafka 데이터 파이프라인 구축 실습
* Airflow를 활용한 ETL 파이프라인 실행

Week 7: OpenAI API 및 FAISS 기반 RAG

이론 14 (3시간: 야간 비대면): OpenAI API 및 Embedding 활용
* OpenAI API 개요 및 Embedding이란 무엇인가? (벡터화, 의미적 유사도)
* AI 검색과 전통적인 DB 검색의 차이
* Text Embedding을 위한 OpenAI API 호출
* Embedding을 활용한 문서 검색

이론 15 (3시간: 야간 비대면): SQL+Spark+Kafka+OpenAI+FAISS 데이터 파이프라인 구조
* FAISS 개념, 벡터 검색 엔진의 원리 및 성능 최적화
* LLM 기반 Retrieval-Augmented Generation (RAG) 개념
* 데이터 수집 및 실시간 처리 (Kafka + Spark)
* 텍스트 Embedding 생성 (OpenAI API), 벡터 인덱싱 및 검색 (FAISS),데이터 분석 및 저장 (SQL + Spark) 파이프라인 개념

실습 (토요일: 4시간 대면수업)
* OpenAI API를 사용한 Embedding 생성 실습
* FAISS를 활용한 벡터 검색 파이프라인 시스템 구축
* SQL+Spark+Kafka+OpenAI+FAISS 기반 RAG 데이터 파이프라인 구축