[AI]디퓨전 모델의 발전 ( 2022–2025 )

[AI]디퓨전 모델의 발전 ( 2022–2025 )
Photo by Jackson Sophat / Unsplash

1. 코어 아키텍처와 개념

  • Checkpoint: 모델 가중치 파일, 스타일·품질·도메인 결정.
  • VAE: 이미지 ↔ 잠재공간 인코딩/디코딩, 색감과 디테일에 큰 영향.
  • 텍스트 인코더(CLIP/OpenCLIP): 프롬프트를 의미 벡터로 변환. SDXL 이후는 듀얼 인코더.
  • UNet/트랜스포머: 노이즈 제거 네트워크. 초기엔 UNet, Flux 이후는 트랜스포머 구조.
  • CFG (Classifier-Free Guidance): 조건부/무조건부 예측 차이를 증폭해 프롬프트 충실도 향상.

2. 오픈소스 모델군

Stable Diffusion

  • SD 1.x (2022): 512px, 대중화의 시작. 수많은 파생모델, 웹UI 등장.
  • SDXL (2023): 1024px 기본, 듀얼 텍스트 인코더, Refiner로 디테일 보강.
  • SDXL Turbo (2023): Adversarial Diffusion Distillation, 1~4스텝 초저지연 생성.
  • SD 3.x / 3.5 (2024–2025): 트랜스포머 아키텍처(MMDiT). Large/Medium/ Large-Turbo 라인업. 품질·속도·자원 균형.

주요 파생 체크포인트

  • Pony Diffusion v6 XL: 애니/캐릭터 특화, 태깅 데이터 기반.
  • Illustrious XL / HassakuXL: 애니 일러스트 특화, 텍스트 해석 강화.
  • Realistic Vision, DreamShaper: 사실적 인물·광원 특화.

Flux (Black Forest Labs, 2024)

  • Flux 1 Pro: 최고 품질, 상용 API.
  • Flux 1 Dev: 120억 파라미터, 오픈 가중치(비상업).
  • Flux 1 Schnell: Apache 2.0 완전 오픈, 1~4스텝 저지연 고품질.
  • Flux Tools: Fill/Depth/Canny/Redux 등 편집·제어 모듈.
  • Flux Kontext: 이미지+텍스트 인컨텍스트 생성·편집.
  • Flux Krea: 스타일 다양화, 사실감 보강(커뮤니티 협업 튜닝).

Qwen (Alibaba, 2025)

  • Qwen-Image (20B): 이중언어(중국어/영어) 텍스트 삽입 강점, Apache-2.0.
  • Qwen-Image-Edit: 멀티태스크 편집(마스크·영역 지정·다단계). 상업적 이용 가능.

3. 폐쇄형/서비스형 모델군

Midjourney

  • 장점: 초보자 친화, 일관된 미학적 품질.
  • 제약: 모델 내부·튜닝 불가, 세밀한 제어 부족.
  • 포지션: 빠른 프로토타입/아트워크 시안에 최적.

Google Nano Banana (Gemini 2.5 Flash Image, 2025)

  • 특징: 이미지 생성+편집 통합, 다중 이미지 합성, 캐릭터 일관성.
  • 구조: Gemini가 지시/맥락 이해, Imagen 4를 백엔드로 호출.
  • 포지션: “멀티모달 어시스턴트+프로 편집기”.

OpenAI Sora (GPT Sora, 2024~)

  • 정체성: 텍스트→비디오 생성.
  • 기술: Diffusion Transformer, spacetime patches 기반.
  • 강점: 최대 1분 영상, 객체 일관성 유지, Remix/Re-cut/Blend 편집 기능.
  • 한계: 물리/인과 오류, 좌우 혼동, 정책적 제약.
  • 포지션: Wan/Runway/Pika 같은 비디오 모델과 경쟁, 폐쇄형 서비스.

4. 편집·컨트롤·튜닝 기술

  • ControlNet: 포즈/스케치/깊이 지도 기반 제어.
  • LoRA: 경량 파인튜닝으로 스타일/캐릭터 삽입.
  • IP-Adapter: 참조 이미지 기반 가이드.
  • Refiner·업스케일러: 후처리 디테일 보강.
  • Qwen-Image-Edit, Flux Kontext/Tools: 텍스트/이미지 기반 편집 통합.
  • Sora: 영상 편집(Re-cut, Blend, Loop 등) 기능 제공.

5. 비디오 생성 모델군

  • Stable Video Diffusion (2023): SD 파생 영상 생성 베이스라인.
  • Wan 2.x / 2.2 (2024–2025): 오픈소스 텍스트·이미지→비디오. Mixture-of-Experts 구조, Apache-2.0.
  • Runway Gen-2 / Pika (2023~): 상용 서비스, 편의성 강조.
  • OpenAI Sora (2024~): 최첨단 폐쇄형, 연속성·일관성·편집 기능 집중.

6. 연표 요약

  • 2022: Stable Diffusion 1.x 공개, Midjourney V4, DALL·E 2, Google Imagen.
  • 2023: ControlNet·LoRA, SDXL, SDXL Turbo, Pony/Illustrious, Stable Video Diffusion.
  • 2024: Flux 1 (Pro/Dev/Schnell), Flux Tools/Kontext/Krea, Midjourney V6, Wan 2.1.
  • 2025 상반기: Qwen-Image, Qwen-Image-Edit, Flux Krea, Wan 2.2.
  • 2025 하반기: Google Nano Banana, Stable Diffusion 3.5, OpenAI Sora.

7. 적용 가이드

  • 게임 아트/에셋 제작:
    • 포토리얼: SD 3.5 Large / Flux Dev + Refiner.
    • 애니/캐릭터: Illustrious XL + LoRA + ControlNet.
  • 시안/프리뷰: SDXL Turbo, Flux Schnell.
  • 편집/리라이트: Qwen-Image-Edit, Flux Kontext.
  • 서비스형 활용: Midjourney(시안), Nano Banana(협업 편집), Sora(영상).