ACTA Data Engineering for AI

 

** 7주 프로그램, 총 70시간

 

(1주일 10시간: 주중 야간줌수업 3시간씩 2회, 토 4시간 대면수업)

강사 풀: 이상원, 정형수, 김형주

 

 Week 1: 데이터 엔지니어링 개요 및 SQL 최적화

 

이론 1 (3시간: 야간 비대면): SQL 및 관계형 DBMS 개요

  * SQL 복습 (JOIN, GROUP BY, Window Functions)

  * Conventional DBMS Architecture (OLTP, OLAP, HTAP 개념)
  * Shared-Disk vs. Shared-Nothing 구조

 

이론 2 (3시간: 야간 비대면): 데이터 저장 및 스토리지 구조

  * Storage Layout (Row Store vs. Column Store)
  * 파일 포맷 (Parquet, ORC) 및 성능 비교
  * 데이터 압축 및 인코딩 기법 (Dictionary, Run-Length Encoding)

 

실습 (토요일: 4시간 대면수업)
  * PostgreSQL & MySQL을 활용한 SQL 최적화
  * Parquet & ORC 파일 저장 및 성능 비교

 

 

Week 2: Data Preprocessing with Python

 

이론 3 (3시간: 야간 비대면): 데이터 클리닝 및 테이블 통합
  * Data Cleaning (결측치 및 이상치 처리)
    * Missing Values 처리 기법 (Mean, Median, Mode, Interpolation)
    * Outlier Detection (IQR, Z-score,Isolation Forest)
  * Table Integration (테이블 통합)
    * Inner/Outer Joins, Merge, Concatenation

 

이론 4 (3시간: 야간 비대면): 데이터 통합 및 변환
  * Table Integration (테이블 통합 계속)
    * Schema Mapping 및 Data Type 변환
  * Data Transformation (데이터 변환)
    * Feature Scaling (Standardization, Normalization)
    * Log Transformation, Box-Cox Transformation

 

이론 5 (토요일: 4시간 대면수업): 데이터 축소 및 이산화
  * Data Reduction & Resampling (데이터 축소 및 리샘플링)
    * Row & Column Reduction (Feature Selection, PCA)
    * Imbalanced Data 처리 (Over/Under Sampling, SMOTE)
  * Data Discretization (데이터 이산화)
    * Binning (Equal-width, Equal-frequency)
    * Encoding 기법 (One-Hot, Label Encoding, Target Encoding)

 

 

Week 3: 다양한 인덱싱 기법 (B-tree, Hash, Vector Index)

 

이론 6 (3시간: 비대면): 전통적인 인덱싱 기법 (B-tree, Hash Index)
  * B-tree & B+tree 개념 및 DBMS 적용
  * Hash Index 구조 및 활용
  * LSM-tree 기반 인덱싱 (RocksDB, LevelDB)

 

이론 7 (3시간: 비대면): 벡터 검색 및 ANN (Approximate Nearest Neighbor) 인덱싱
  * Vector Index 개념 및 AI/ML 응용
  * HNSW (Hierarchical Navigable Small World)
  * ScaNN (Scalable Nearest Neighbors)
  * FAISS, Weaviate 등 오픈소스 기술 비교

 

실습 (토요일: 4시간 대면수업)
  * PostgreSQL/MySQL에서 B-tree & Hash Index 생성 및 성능 테스트
  * FAISS 및 ScaNN을 활용한 벡터 검색 실습

 

 

Week 4: HTAP 및 Cloud-scale OLAP

 

이론 8 (3시간: 야간 비대면): HTAP (Hybrid Trans‘n and Analytical Processing) 개념
  * OLTP vs. OLAP vs. HTAP 비교
  * 대표적인 HTAP 솔루션: TiDB, SingleStore, SAP HANA
  * HTAP의 주요 활용 사례

 

이론 9 (3시간: 야간 비대면): Cloud-scale OLAP 엔진 (BigQuery, Redshift, ClickHouse)
  * Google BigQuery 아키텍처 및 특징
  * Amazon Redshift (Columnar Storage, Distribution Keys)
  * ClickHouse의 OLAP 특화 설계 및 성능 비교

실습 (토요일: 4시간 대면수업)

  * BigQuery, Redshift, ClickHouse 환경에서 쿼리 실행 및 성능 비교
  * 실시간 분석 및 최적화 실습

 

 

Week 5: 스트리밍 데이터 처리 (Kafka & Flink)

 

이론 10 (3시간: 야간 비대면): 스트리밍 데이터 개념 및 아키텍처
  * Kafka 기본 개념 및 구조 (Producer, Consumer, Broker, Topic)
  * Kafka Streams vs. Flink 비교

 

이론 11 (3시간: 야간 비대면): Change Data Capture (CDC) 및 이벤트 처리
  * Event Sourcing & CDC 개념
  * Lambda & Kappa Architecture

 

실습 (토요일: 4시간 대면수업)
  * Kafka & Flink를 활용한 실시간 데이터 처리
  * Change Data Capture (CDC) 시뮬레이션

 

 

Week 6: 최신 데이터 처리 플랫폼 기술

 

이론 12 (3시간: 야간 비대면): 최신 데이터 플랫폼 개요
  * Hadoop3 HDFS & Spark SQL 개념
  * Snowflake, Databricks Delta Lake, Palantir Foundry 개요
  * Dataframe API 활용

 

이론 13 (3시간: 야간 비대면): 대규모 데이터 파이프라인 구축
  * Apache Airflow & ETL Best Practices (Zero-ETL)
  * Spark + Kafka 데이터 파이프라인 설계

 

실습 (토요일: 4시간 대면수업)
  * Spark + Kafka 데이터 파이프라인 구축 실습
  * Airflow를 활용한 ETL 파이프라인 실행

 

 

Week 7: OpenAI API 및 FAISS 기반 RAG

 

이론 14 (3시간: 야간 비대면): OpenAI API 및 Embedding 활용
  * OpenAI API 개요 및 Embedding이란 무엇인가? (벡터화, 의미적 유사도)
  * AI 검색과 전통적인 DB 검색의 차이
  * Text Embedding을 위한 OpenAI API 호출
  * Embedding을 활용한 문서 검색

 

이론 15 (3시간: 야간 비대면): SQL+Spark+Kafka+OpenAI+FAISS 데이터 파이프라인 구조
  * FAISS 개념, 벡터 검색 엔진의 원리 및 성능 최적화
  * LLM 기반 Retrieval-Augmented Generation (RAG) 개념
  * 데이터 수집 및 실시간 처리 (Kafka + Spark)
  * 텍스트 Embedding 생성 (OpenAI API), 벡터 인덱싱 및 검색 (FAISS),데이터 분석 및 저장 (SQL + Spark) 파이프라인 개념

 

실습 (토요일: 4시간 대면수업)
  * OpenAI API를 사용한 Embedding 생성 실습
  * FAISS를 활용한 벡터 검색 파이프라인 시스템 구축
  * SQL+Spark+Kafka+OpenAI+FAISS 기반 RAG 데이터 파이프라인 구축