LLMOps 5강 - RAG - Chunking과 Embedding의 원리

00:00 Self-Attention의 숨겨진 비용 — O(n²)
01:31 Context Window
02:54 Chunking
04:54 Transformer - 벡터 연산의 세계
09:09 Embedding

✅ Self-Attention의 숨겨진 비용
• 모든 토큰이 모든 토큰을 본다 = O(n²)
• 토큰 수가 늘면 계산량이 제곱으로 폭발
• 그래서 Context Window 상한이 존재 — GPT-4 128K(약 200페이지), Claude 200K(약 300페이지)
• 가장 큰 Gemini 2.5 Pro도 200만 토큰(~3,000페이지)이지만 비용·속도 부담은 그대로

✅ 해법 1: Chunking
• 1,250페이지 문서를 의미 단위로 잘라 미리 저장
• 질문이 들어오면 관련 2~3 chunk만 Context Window에 투입
• "반품 절차" 질문 → 고객 응대 가이드의 반품 페이지만 꺼낸다

✅ 해법 2: Embedding (벡터 변환)
• Transformer 내부는 텍스트가 아니라 벡터 연산
• 벡터 = 숫자를 나열한 것 (위·경도 좌표처럼)
• 핵심 원리: 의미가 비슷하면 벡터도 가깝다
• "반품"과 "물건 돌려보내기"는 글자가 달라도 벡터는 거의 같다

✅ Embedding 모델은 어떻게 그걸 알까?
• Embedding 모델도 Transformer, 그리고 학습한다
• 인터넷의 방대한 텍스트에서 "비슷한 맥락에서 같이 나오는 표현"을 본다
• 수십억 번 반복 → "이 표현들은 같은 뜻이구나"가 파라미터에 저장된다
• 컴퓨터가 의미를 이해한 게 아니라, 같은 맥락의 표현을 가까운 숫자로 바꾸도록 조정된 것

✅ 한 줄로 정리
• Chunking으로 문서를 의미 단위로 자르고, Embedding으로 벡터로 바꿔두면
• 어떤 질문이 들어와도 의미가 가장 가까운 chunk를 찾을 수 있다
• 이게 RAG의 검색이 실제로 작동하는 방식

🎯 이런 분들께 추천합니다:
- RAG는 들어봤는데 chunking·embedding이 정확히 뭔지 모르는 분
- "왜 LLM은 1,000페이지짜리 매뉴얼을 통째로 못 읽나?" 궁금한 분

----------

소형 LLM(Qwen 3.5-2B)을 합성 데이터로 SFT → 평가 → 양자화 → 배포 → Agentic RAG까지 한 번에 체험할 수 있는 이 강의의 실습 Repository: https://github.com/akfmdl/llmops-workshop

Видео LLMOps 5강 - RAG - Chunking과 Embedding의 원리 канала 코딩하는초롱