[AI]디퓨전 모델의 발전 ( 2022–2025 )

Photo by Jackson Sophat / Unsplash

1. 코어 아키텍처와 개념

Checkpoint: 모델 가중치 파일, 스타일·품질·도메인 결정.
VAE: 이미지 ↔ 잠재공간 인코딩/디코딩, 색감과 디테일에 큰 영향.
텍스트 인코더(CLIP/OpenCLIP): 프롬프트를 의미 벡터로 변환. SDXL 이후는 듀얼 인코더.
UNet/트랜스포머: 노이즈 제거 네트워크. 초기엔 UNet, Flux 이후는 트랜스포머 구조.
CFG (Classifier-Free Guidance): 조건부/무조건부 예측 차이를 증폭해 프롬프트 충실도 향상.

2. 오픈소스 모델군

Stable Diffusion

SD 1.x (2022): 512px, 대중화의 시작. 수많은 파생모델, 웹UI 등장.
SDXL (2023): 1024px 기본, 듀얼 텍스트 인코더, Refiner로 디테일 보강.
SDXL Turbo (2023): Adversarial Diffusion Distillation, 1~4스텝 초저지연 생성.
SD 3.x / 3.5 (2024–2025): 트랜스포머 아키텍처(MMDiT). Large/Medium/ Large-Turbo 라인업. 품질·속도·자원 균형.

주요 파생 체크포인트

Pony Diffusion v6 XL: 애니/캐릭터 특화, 태깅 데이터 기반.
Illustrious XL / HassakuXL: 애니 일러스트 특화, 텍스트 해석 강화.
Realistic Vision, DreamShaper: 사실적 인물·광원 특화.

Flux (Black Forest Labs, 2024)

Flux 1 Pro: 최고 품질, 상용 API.
Flux 1 Dev: 120억 파라미터, 오픈 가중치(비상업).
Flux 1 Schnell: Apache 2.0 완전 오픈, 1~4스텝 저지연 고품질.
Flux Tools: Fill/Depth/Canny/Redux 등 편집·제어 모듈.
Flux Kontext: 이미지+텍스트 인컨텍스트 생성·편집.
Flux Krea: 스타일 다양화, 사실감 보강(커뮤니티 협업 튜닝).

Qwen (Alibaba, 2025)

Qwen-Image (20B): 이중언어(중국어/영어) 텍스트 삽입 강점, Apache-2.0.
Qwen-Image-Edit: 멀티태스크 편집(마스크·영역 지정·다단계). 상업적 이용 가능.

3. 폐쇄형/서비스형 모델군

Midjourney

장점: 초보자 친화, 일관된 미학적 품질.
제약: 모델 내부·튜닝 불가, 세밀한 제어 부족.
포지션: 빠른 프로토타입/아트워크 시안에 최적.

Google Nano Banana (Gemini 2.5 Flash Image, 2025)

특징: 이미지 생성+편집 통합, 다중 이미지 합성, 캐릭터 일관성.
구조: Gemini가 지시/맥락 이해, Imagen 4를 백엔드로 호출.
포지션: “멀티모달 어시스턴트+프로 편집기”.

OpenAI Sora (GPT Sora, 2024~)

정체성: 텍스트→비디오 생성.
기술: Diffusion Transformer, spacetime patches 기반.
강점: 최대 1분 영상, 객체 일관성 유지, Remix/Re-cut/Blend 편집 기능.
한계: 물리/인과 오류, 좌우 혼동, 정책적 제약.
포지션: Wan/Runway/Pika 같은 비디오 모델과 경쟁, 폐쇄형 서비스.

4. 편집·컨트롤·튜닝 기술

ControlNet: 포즈/스케치/깊이 지도 기반 제어.
LoRA: 경량 파인튜닝으로 스타일/캐릭터 삽입.
IP-Adapter: 참조 이미지 기반 가이드.
Refiner·업스케일러: 후처리 디테일 보강.
Qwen-Image-Edit, Flux Kontext/Tools: 텍스트/이미지 기반 편집 통합.
Sora: 영상 편집(Re-cut, Blend, Loop 등) 기능 제공.

5. 비디오 생성 모델군

Stable Video Diffusion (2023): SD 파생 영상 생성 베이스라인.
Wan 2.x / 2.2 (2024–2025): 오픈소스 텍스트·이미지→비디오. Mixture-of-Experts 구조, Apache-2.0.
Runway Gen-2 / Pika (2023~): 상용 서비스, 편의성 강조.
OpenAI Sora (2024~): 최첨단 폐쇄형, 연속성·일관성·편집 기능 집중.

6. 연표 요약

2022: Stable Diffusion 1.x 공개, Midjourney V4, DALL·E 2, Google Imagen.
2023: ControlNet·LoRA, SDXL, SDXL Turbo, Pony/Illustrious, Stable Video Diffusion.
2024: Flux 1 (Pro/Dev/Schnell), Flux Tools/Kontext/Krea, Midjourney V6, Wan 2.1.
2025 상반기: Qwen-Image, Qwen-Image-Edit, Flux Krea, Wan 2.2.
2025 하반기: Google Nano Banana, Stable Diffusion 3.5, OpenAI Sora.

7. 적용 가이드

게임 아트/에셋 제작:
- 포토리얼: SD 3.5 Large / Flux Dev + Refiner.
- 애니/캐릭터: Illustrious XL + LoRA + ControlNet.
시안/프리뷰: SDXL Turbo, Flux Schnell.
편집/리라이트: Qwen-Image-Edit, Flux Kontext.
서비스형 활용: Midjourney(시안), Nano Banana(협업 편집), Sora(영상).