생성형AI의 응용개발을 위한 데이터 전처리 - 서울대학교 AI 기업 교육 센터

ACTA 생성형AI의 응용개발을 위한 데이터 전처리 (총 40시간)

(4주, 매주10시간: 주중 야간 줌수업 3시간씩 2회 , 토 4시간 대면수업 )

대상: 본과정은 생성형AI를 기업에 적용하려는 엔지니어들이 생성형AI의 FineTuning을 위한 데이터전처리가술을 단기간에 훈련하는 과정

** PartA: LLM FineTuning관련 데이터 전처리 (20시간)

1. 텍스트 정제 (Text Cleaning)

불필요한 특수문자, HTML 태그, 이모지 제거

중복 문장 제거 및 줄 바꿈 정리

OCR 등에서 생성된 오류 교정

2. 정규화 (Normalization)

단어 표기 통일 (예: “AI”, “A.I.” → “AI”)

소문자화, 단위 통일 (예: “100 dollars” → “$100”)

3. 문장 단위 분할 (Sentence Segmentation)

문서 내 문장을 의미 단위로 나눠 토큰화에 유리하도록 구성

4. 토크나이징 (Tokenization)

LLM에 맞는 토크나이저 사용 (예: GPT류는 BPE 계열 사용)

최대 토큰 수를 초과하지 않도록 슬라이딩 윈도우 전략 적용 가능

5. 라벨링 및 포맷 구성

Supervised fine-tuning 시 Prompt-Completion 구조 정의

(예: {“prompt”: “Translate to English: 고양이”, “completion”: “cat”})

Instruction tuning 시 사용자 명령과 응답 구조로 조립

6. 포맷 변환

JSON, JSONL 등 학습에 맞는 구조로 파일 정리

multi-turn dialogue일 경우 role 기반 포맷 (user/assistant)

7. 데이터 품질 검증

노이즈 데이터 제거, 잘못된 label 확인

샘플링을 통해 의미 일관성 점검

8. 데이터 밸런싱

특정 도메인 혹은 스타일에 데이터가 치우치지 않도록 균형 확보

과소표현된 클래스나 주제를 의도적으로 보강

9. Contextual Window 고려

LLM의 컨텍스트 길이에 맞게 문서 분할 전략 수립

문맥 단절 방지를 위한 인접 데이터 중첩 처리

10. In-Context Learning Format 대응

few-shot learning이 가능한 구조로 예제 삽입

프롬프트 안에 instruction, input, output 구조 포함

11. Pretrain-safe Content Filtering

성적/폭력적/정치적 민감 콘텐츠 필터링 (especially for open-domain 모델)

개인정보 및 저작권 문제 제거

** PartB: Image생성모델 FineTuning관련 데이터 전처리 (20시간)

— 이 과정은 텍스트–이미지 페어(text-image pairs)를 기반으로 특정 스타일, 도메인, 또는 객체에 특화된 이미지를 생성하도록 모델을 조정

— 이미지 생성 모델에서 Fine-tuning 가능한 예

– Stable Diffusion: DreamBooth, LoRA, Textual Inversion 방식으로 개인화/도메인 특화 가능

– DALL·E: 기업 내부에서 fine-tuning 가능한 API 제공

– StyleGAN: 특정 얼굴 스타일, 아트 스타일 등에 맞춰 fine-tuning 가능

1. 데이터 페어링 (Text-Image Pairing)

텍스트 프롬프트와 이미지의 의미가 일치하도록 정렬

이미지 1장당 하나 이상의 고품질 설명(prompt)을 작성 (ex: “a cat wearing sunglasses in space”)

2. 텍스트 전처리

오탈자 제거 및 자연어 정제

텍스트 길이 제한 (모델별 max token 고려)

단어 분산을 위해 다양한 표현 활용 (동의어, 문장 변형)

3. 이미지 전처리

크기 조정: 대부분의 모델은 고정된 입력 사이즈 필요 (예: 512×512 픽셀)

포맷 통일: JPEG, PNG 등 모델이 처리 가능한 포맷으로 변환

정규화: 픽셀 값을 01 또는 -11 범위로 스케일링

색상 일관성 유지: RGB 채널 고정

4. 데이터 증강 (Data Augmentation)

Flip, Rotate, Color jitter 등은 학습 다양성 확보에 유리

다만 style이나 object identity를 보존해야 하므로 주의 필요

5. 노이즈 제거 및 품질 필터링

저해상도, 흐릿한 이미지 제외

텍스트 설명과 시각적 내용이 불일치하는 샘플 제거

6. 클래스 또는 스타일 라벨링 (선택적)

class-conditioning을 지원하는 모델의 경우 레이블 부착

(예: “style: anime”, “object: cat”, “background: forest” 등)

7. 학습 포맷 구성

JSON, CSV, or WebDataset 등 모델 구조에 맞는 데이터셋 구성 필요

예: {“image_path”: “cat1.jpg”, “text”: “a cat with blue eyes sitting on a sofa”}

✅특수한 Fine-tuning 기법

DreamBooth: 소량 이미지(3~5장)로 특정 인물/대상에 특화

LoRA: 파라미터 효율적 학습, 작은 GPU 자원에서도 적용 가능

Textual Inversion: 특정 개념을 새로운 단어로 학습 (예: <custom_dog>)