[AI]디퓨전 모델의 발전 ( 2022–2025 )
1. 코어 아키텍처와 개념
- Checkpoint: 모델 가중치 파일, 스타일·품질·도메인 결정.
- VAE: 이미지 ↔ 잠재공간 인코딩/디코딩, 색감과 디테일에 큰 영향.
- 텍스트 인코더(CLIP/OpenCLIP): 프롬프트를 의미 벡터로 변환. SDXL 이후는 듀얼 인코더.
- UNet/트랜스포머: 노이즈 제거 네트워크. 초기엔 UNet, Flux 이후는 트랜스포머 구조.
- CFG (Classifier-Free Guidance): 조건부/무조건부 예측 차이를 증폭해 프롬프트 충실도 향상.
2. 오픈소스 모델군
Stable Diffusion
- SD 1.x (2022): 512px, 대중화의 시작. 수많은 파생모델, 웹UI 등장.
- SDXL (2023): 1024px 기본, 듀얼 텍스트 인코더, Refiner로 디테일 보강.
- SDXL Turbo (2023): Adversarial Diffusion Distillation, 1~4스텝 초저지연 생성.
- SD 3.x / 3.5 (2024–2025): 트랜스포머 아키텍처(MMDiT). Large/Medium/ Large-Turbo 라인업. 품질·속도·자원 균형.
주요 파생 체크포인트
- Pony Diffusion v6 XL: 애니/캐릭터 특화, 태깅 데이터 기반.
- Illustrious XL / HassakuXL: 애니 일러스트 특화, 텍스트 해석 강화.
- Realistic Vision, DreamShaper: 사실적 인물·광원 특화.
Flux (Black Forest Labs, 2024)
- Flux 1 Pro: 최고 품질, 상용 API.
- Flux 1 Dev: 120억 파라미터, 오픈 가중치(비상업).
- Flux 1 Schnell: Apache 2.0 완전 오픈, 1~4스텝 저지연 고품질.
- Flux Tools: Fill/Depth/Canny/Redux 등 편집·제어 모듈.
- Flux Kontext: 이미지+텍스트 인컨텍스트 생성·편집.
- Flux Krea: 스타일 다양화, 사실감 보강(커뮤니티 협업 튜닝).
Qwen (Alibaba, 2025)
- Qwen-Image (20B): 이중언어(중국어/영어) 텍스트 삽입 강점, Apache-2.0.
- Qwen-Image-Edit: 멀티태스크 편집(마스크·영역 지정·다단계). 상업적 이용 가능.
3. 폐쇄형/서비스형 모델군
Midjourney
- 장점: 초보자 친화, 일관된 미학적 품질.
- 제약: 모델 내부·튜닝 불가, 세밀한 제어 부족.
- 포지션: 빠른 프로토타입/아트워크 시안에 최적.
Google Nano Banana (Gemini 2.5 Flash Image, 2025)
- 특징: 이미지 생성+편집 통합, 다중 이미지 합성, 캐릭터 일관성.
- 구조: Gemini가 지시/맥락 이해, Imagen 4를 백엔드로 호출.
- 포지션: “멀티모달 어시스턴트+프로 편집기”.
OpenAI Sora (GPT Sora, 2024~)
- 정체성: 텍스트→비디오 생성.
- 기술: Diffusion Transformer, spacetime patches 기반.
- 강점: 최대 1분 영상, 객체 일관성 유지, Remix/Re-cut/Blend 편집 기능.
- 한계: 물리/인과 오류, 좌우 혼동, 정책적 제약.
- 포지션: Wan/Runway/Pika 같은 비디오 모델과 경쟁, 폐쇄형 서비스.
4. 편집·컨트롤·튜닝 기술
- ControlNet: 포즈/스케치/깊이 지도 기반 제어.
- LoRA: 경량 파인튜닝으로 스타일/캐릭터 삽입.
- IP-Adapter: 참조 이미지 기반 가이드.
- Refiner·업스케일러: 후처리 디테일 보강.
- Qwen-Image-Edit, Flux Kontext/Tools: 텍스트/이미지 기반 편집 통합.
- Sora: 영상 편집(Re-cut, Blend, Loop 등) 기능 제공.
5. 비디오 생성 모델군
- Stable Video Diffusion (2023): SD 파생 영상 생성 베이스라인.
- Wan 2.x / 2.2 (2024–2025): 오픈소스 텍스트·이미지→비디오. Mixture-of-Experts 구조, Apache-2.0.
- Runway Gen-2 / Pika (2023~): 상용 서비스, 편의성 강조.
- OpenAI Sora (2024~): 최첨단 폐쇄형, 연속성·일관성·편집 기능 집중.
6. 연표 요약
- 2022: Stable Diffusion 1.x 공개, Midjourney V4, DALL·E 2, Google Imagen.
- 2023: ControlNet·LoRA, SDXL, SDXL Turbo, Pony/Illustrious, Stable Video Diffusion.
- 2024: Flux 1 (Pro/Dev/Schnell), Flux Tools/Kontext/Krea, Midjourney V6, Wan 2.1.
- 2025 상반기: Qwen-Image, Qwen-Image-Edit, Flux Krea, Wan 2.2.
- 2025 하반기: Google Nano Banana, Stable Diffusion 3.5, OpenAI Sora.
7. 적용 가이드
- 게임 아트/에셋 제작:
- 포토리얼: SD 3.5 Large / Flux Dev + Refiner.
- 애니/캐릭터: Illustrious XL + LoRA + ControlNet.
- 시안/프리뷰: SDXL Turbo, Flux Schnell.
- 편집/리라이트: Qwen-Image-Edit, Flux Kontext.
- 서비스형 활용: Midjourney(시안), Nano Banana(협업 편집), Sora(영상).