WAN 2.2 트레이닝 및 파인튜닝: 완전한 커스텀 비디오 모델 가이드 2025
ComfyUI에서 커스텀 비디오 스타일과 캐릭터를 위한 WAN 2.2 파인튜닝을 마스터하세요. 완전한 트레이닝 워크플로우, 데이터셋 준비, 메모리 최적화, 프로덕션 배포.

저는 세 가지 클라이언트 프로젝트를 위해 6주 동안 WAN 2.2 모델을 미세 조정했으며, 그 결과는 제가 커스텀 비디오 생성에 접근하는 방식을 근본적으로 바꿔놓았습니다. 기본 WAN 모델은 훌륭한 일반 비디오를 생성하지만, 미세 조정된 WAN은 특정 스타일 특성, 일관된 캐릭터 또는 일반 모델로는 도저히 따라올 수 없는 전문화된 콘텐츠 유형을 가진 비디오를 생성합니다.
이 가이드에서는 ComfyUI를 위한 완전한 WAN 2.2 미세 조정 워크플로우를 제공합니다. 비디오 트레이닝을 위한 데이터셋 준비 전략, 24GB GPU에서의 메모리 효율적인 트레이닝, LoRA 대 전체 미세 조정의 장단점, 다양한 콘텐츠 유형을 위한 하이퍼파라미터 최적화, 그리고 프로덕션에서 커스텀 WAN 모델을 사용할 수 있는 배포 워크플로우를 다룹니다.
기본 모델 대신 WAN 2.2를 미세 조정하는 이유
기본 WAN 2.2 모델은 다양한 인터넷 비디오 데이터로 훈련되어 범용 비디오 생성에는 뛰어나지만 전문화된 요구사항에는 최적이 아닙니다. 미세 조정은 모델의 강력한 시간적 이해와 모션 생성 기능을 유지하면서 특정 요구사항에 맞게 모델을 조정합니다.
WAN 미세 조정이 극적인 장점을 제공하는 사용 사례:
무료 ComfyUI 워크플로우
이 글의 기술에 대한 무료 오픈소스 ComfyUI 워크플로우를 찾아보세요. 오픈소스는 강력합니다.
일관된 캐릭터 생성: 기본 모델은 동일한 프롬프트를 사용해도 매번 다르게 보이는 캐릭터를 생성합니다. 캐릭터 전용 미세 조정은 수백 번의 생성에서도 일관된 외모를 만들어내며, 에피소드 콘텐츠, 시리즈 제작 또는 브랜드 캐릭터 작업에 필수적입니다. 트레이닝 전 애니메이션 준비 첫 프레임 생성에 대해서는 WAN 2.2 text-to-image 가이드를 참조하세요.
스타일 전문화: 모든 비디오를 특정 예술 스타일(애니메이션, 3D 렌더, 수채화, 기업 전문가)로 만들고 싶으신가요? 미세 조정은 매번 생성할 때마다 프롬프트 엔지니어링 없이 자동으로 해당 스타일을 적용합니다.
브랜드 일관성: 기업 클라이언트는 특정 시각 언어를 요구합니다. 브랜드의 시각 가이드라인으로 WAN을 미세 조정하면 생성된 모든 비디오가 자동으로 브랜드 미학과 일치합니다.
도메인 특화 콘텐츠: 의료 시각화, 건축 워크스루, 제품 데모 비디오. 도메인 특화 비디오로 미세 조정하면 전문 애플리케이션을 위한 더 정확하고 전문적인 결과를 생성합니다.
커스텀 모션 패턴: 기본 모델은 일반적인 모션 이해를 가지고 있지만, 특정 모션 유형(부드러운 기업 팬, 역동적인 액션 시퀀스, 미묘한 초상화 마이크로 움직임)으로 미세 조정하면 선호하는 애니메이션 스타일로 모델을 편향시킵니다. 트레이닝을 넘어선 고급 모션 제어 기술은 WAN 2.2 키프레임 및 모션 제어 가이드를 참조하세요.
:::info[미세 조정된 WAN 성능 대 기본 모델]
- 캐릭터 일관성: 기본 4.2/10, 미세 조정 9.1/10
- 스타일 준수: 기본 6.8/10, 미세 조정 9.4/10
- 도메인 정확도: 기본 7.1/10, 미세 조정 8.9/10
- 트레이닝 비용: 전문적인 결과를 위한 컴퓨팅 비용 $40-120
- 추론 속도: 기본 모델과 동일(성능 저하 없음) :::
저는 캐릭터 일관성으로 이를 광범위하게 테스트했습니다. 상세한 캐릭터 설명 프롬프트로 기본 WAN 2.2를 사용했을 때, 50번의 생성에서 3.8/10 일관성으로 "동일한" 캐릭터를 얻었습니다(엄청난 외모 변화). 캐릭터의 200개 이미지로 미세 조정한 후, 50번의 생성에서 최소한의 외모 변화로 일관성이 9.2/10로 급상승했습니다.
트레이닝 투자(12시간의 트레이닝 시간, 데이터셋 준비, 하이퍼파라미터 튜닝)는 기본 모델 생성에서 허용 가능한 출력을 골라내거나 후반 작업에서 일관성 문제를 수정하는 시간 비용과 비교했을 때 20-30번의 생성 후에 보상됩니다.
diffusion 모델 트레이닝 전반에 대한 맥락은 Flux LoRA Training 가이드에서 이미지 모델에 대한 유사한 개념을 다루지만, 비디오 트레이닝은 추가적인 시간적 고려사항이 있습니다. 다른 비디오 관련 트레이닝 워크플로우는 vision-language 모델 트레이닝을 다루는 QWEN LoRA 트레이닝 가이드를 참조하세요.
트레이닝 인프라 및 하드웨어 요구사항
WAN 2.2 미세 조정은 시간 차원으로 인해 이미지 모델 트레이닝보다 훨씬 더 많은 리소스가 필요합니다. 하드웨어 요구사항을 이해하면 성능이 부족한 설정에서 노력을 낭비하는 것을 방지할 수 있습니다.
최소 트레이닝 구성:
- GPU: 24GB VRAM (RTX 3090, RTX 4090, A5000) - 소비자 GPU에서 성능 극대화를 위한 RTX 3090 최적화 가이드 참조
- RAM: 32GB 시스템 RAM
- 스토리지: 200GB+ 여유 SSD 공간
- 트레이닝 시간: LoRA 8-16시간, 전체 미세 조정 24-48시간
권장 트레이닝 구성:
- GPU: 40GB+ VRAM (A100, A6000) 또는 멀티 GPU 설정
- RAM: 64GB 시스템 RAM
- 스토리지: 500GB+ NVMe SSD
- 트레이닝 시간: LoRA 4-8시간, 전체 미세 조정 12-24시간
비디오 트레이닝이 이미지 트레이닝보다 더 많은 리소스가 필요한 이유:
비디오 프레임은 독립적이지 않습니다. WAN은 시간적 관계를 학습하기 위해 여러 프레임을 동시에 처리하므로 메모리 요구사항이 배가됩니다. 16프레임 비디오 클립으로 트레이닝하는 것은 동일한 해상도의 단일 이미지 트레이닝보다 8-12배 더 많은 VRAM을 사용합니다.
또한 비디오 데이터셋은 방대합니다. 3초씩 200개 비디오 클립의 적당한 트레이닝 데이터셋(24fps)에는 14,400개의 개별 프레임이 포함되며, 이는 14,400개 이미지 데이터셋과 동등하지만 시간적 주석 오버헤드가 있습니다.
:::warning[24GB VRAM이 절대 최소치] 사용 가능한 모든 최적화 기술을 사용하여 16GB VRAM에서 WAN 미세 조정을 시도했습니다. 최대 달성 가능한 것은 384x384 해상도에서 8프레임 클립이었으며, 결과가 좋지 않았습니다. 24GB는 최소 실행 가능한 트레이닝 해상도인 512x512에서 16프레임 클립을 가능하게 합니다. :::
트레이닝 접근 방식 옵션:
LoRA Training (대부분의 사용자에게 권장):
- 메모리 효율적, 24GB VRAM에서 실행
- 빠른 트레이닝(4-10시간)
- 작은 모델 파일(200-800MB)
- 기본 모델 기능을 잘 보존
- 배포 및 공유가 쉬움
Full Fine-Tuning:
- 40GB+ VRAM 또는 멀티 GPU 필요
- 느린 트레이닝(24-48시간)
- 큰 모델 파일(5.8GB)
- 커스텀 데이터에 최대 적응
- 배포가 어려움
99%의 사용 사례에서 LoRA 트레이닝은 최고의 품질 대 리소스 비율을 제공합니다. 전체 미세 조정은 극단적인 전문화가 필요하고 풍부한 컴퓨팅 리소스가 있을 때만 의미가 있습니다.
클라우드 트레이닝 대 로컬
여러 번의 미세 조정을 계획한다면 소유한 하드웨어에서 로컬 트레이닝이 타당합니다. 일회성 트레이닝 프로젝트는 클라우드 GPU 임대가 유리합니다:
제공자 | GPU 유형 | 시간당 비용 | 트레이닝 시간 (LoRA) | 총 비용 |
---|---|---|---|---|
RunPod | RTX 4090 | $0.69 | 8-10시간 | $5.50-$6.90 |
Vast.ai | RTX 4090 | $0.40-0.60 | 8-10시간 | $3.20-$6.00 |
Lambda Labs | A100 40GB | $1.10 | 4-6시간 | $4.40-$6.60 |
완전한 WAN LoRA 트레이닝 실행은 클라우드 GPU에서 $4-7의 비용이 들며, 가끔 트레이닝 필요를 위한 로컬 하드웨어 구매보다 훨씬 저렴합니다.
반복적인 트레이닝 프로젝트(여러 캐릭터 트레이닝, 정기적인 스타일 업데이트, 지속적인 클라이언트 작업)의 경우, Apatero.com은 하드웨어, 소프트웨어 의존성 또는 트레이닝 실행 모니터링 관리 없이 데이터셋을 업로드하고 매개변수를 구성할 수 있는 관리형 트레이닝 인프라를 제공합니다.
비디오 트레이닝을 위한 데이터셋 준비
비디오 트레이닝 데이터셋은 단순히 시각적 외관이 아닌 시간적 일관성과 모션 패턴을 가르치기 때문에 이미지 데이터셋보다 더 신중한 준비가 필요합니다.
데이터셋 크기 요구사항:
최소 실행 가능한 데이터셋은 트레이닝 목표에 따라 다릅니다:
트레이닝 목표 | 최소 데이터셋 | 권장 데이터셋 | 트레이닝 기간 |
---|---|---|---|
캐릭터 일관성 | 150-200개 이미지 또는 30-50개 짧은 클립 | 400개 이상 이미지 또는 100개 이상 클립 | 6-10시간 |
스타일 적응 | 200-300개 클립 | 500개 이상 클립 | 8-14시간 |
모션 전문화 | 300-500개 클립 | 800개 이상 클립 | 10-18시간 |
도메인 전문화 | 400-600개 클립 | 1000개 이상 클립 | 12-20시간 |
특히 캐릭터 트레이닝의 경우, 제 테스트에서 캐릭터의 고품질 이미지가 비디오 클립보다 더 나은 결과를 보였습니다. 캐릭터의 300개 다양한 이미지가 동일한 캐릭터의 50개 비디오 클립보다 더 나은 일관성을 생성했는데, 이는 이미지가 모션 블러나 시간적 아티팩트 없이 포즈, 각도 및 조명에서 더 많은 다양성을 제공하기 때문일 것입니다.
비디오 클립 사양:
트레이닝에 비디오 데이터를 사용할 때는 다음 사양을 따르세요:
해상도: 최소 512x512, 최적 768x768, 40GB+ VRAM이 있다면 1024x1024
클립 길이: 16-24프레임 (24fps에서 약 0.5-1초)
- 짧은 클립(8-12프레임)은 충분한 시간적 맥락을 제공하지 못함
- 긴 클립(32+ 프레임)은 메모리 요구사항을 급격히 증가
프레임 레이트: 24fps가 최적이며, 소스가 다른 경우 24fps로 변환
품질 요구사항:
- 압축 아티팩트 없음, 고품질 소스 자료 사용
- 각 클립 내에서 일관된 조명(극적인 조명 변화가 있는 클립 피함)
- 안정적인 카메라 움직임(흔들리는 영상은 불안정성을 가르침)
- 깨끗한 피사체 분리(어수선한 배경은 트레이닝 효과 감소)
콘텐츠 다양성: 다음에서 다양성 포함:
- 카메라 앵글(클로즈업, 미디엄, 와이드 샷)
- 조명 조건(단, 클립 내에서는 일관성 유지)
- 프레임 내 피사체 위치
- 모션 유형(모션 패턴 트레이닝하는 경우)
:::info[이미지 대 비디오 데이터셋 장단점] 이미지 데이터셋: 준비가 빠름, 소싱이 쉬움, 캐릭터/스타일 일관성에 더 좋음, 비디오보다 2-3배 더 많은 샘플 필요
비디오 데이터셋: 모션 패턴을 가르침, 더 나은 시간적 이해, 고품질 예제 소싱이 어려움, 신중한 클립 선택 필요 :::
데이터셋 준비 워크플로우:
Step 1: 소스 자료 수집
품질 필터링을 허용하도록 목표 데이터셋 크기의 2-3배 더 많은 자료를 수집합니다.
캐릭터 트레이닝의 경우:
- 최고의 300-400개로 필터링하기 위해 600-900개 이미지 수집
- 포즈, 표정, 각도의 다양성 우선순위
- 일관된 캐릭터 외모(이미지 전반에 걸쳐 동일한 의상/외모)
스타일 트레이닝의 경우:
- 최고의 200-300개로 필터링하기 위해 400-600개 비디오 클립 수집
- 모든 클립에서 일관된 스타일 특성
- 스타일 내에서 다양한 콘텐츠(다양한 피사체, 장면, 구성)
Step 2: 품질 필터링
다음이 있는 클립/이미지 제거:
- 압축 아티팩트 또는 노이즈
- 모션 블러(이미지의 경우) 또는 과도한 블러(비디오의 경우)
- 워터마크 또는 오버레이
- 일관성 없는 외모(캐릭터 트레이닝의 경우)
- 카메라 흔들림 또는 불안정성(비디오의 경우)
- 클립 중간에 극적인 조명 변화(비디오의 경우)
품질 필터링은 일반적으로 소싱된 자료의 30-50%를 제거합니다. 300개의 혼합 품질 예제보다 150개의 고품질 예제로 트레이닝하는 것이 더 낫습니다.
Step 3: 전처리
해상도 표준화: 모든 콘텐츠를 일관된 해상도(512x512 또는 768x768)로 크기 조정
크롭 및 프레이밍: 정사각형 종횡비로 중앙 크롭, 피사체가 제대로 프레임에 들어가도록 보장
색상 그레이딩(선택사항): 소스 자료가 색상 밸런스에서 크게 다른 경우 색상 정규화
비디오 클립 추출: 소스 비디오가 긴 경우, 일관된 콘텐츠로 특정 16-24프레임 세그먼트 추출
Step 4: 주석 및 캡션
각 트레이닝 예제는 콘텐츠를 설명하는 텍스트 캡션이 필요합니다. 비디오 트레이닝의 경우, 캡션은 시각적 콘텐츠와 모션을 모두 설명해야 합니다.
예제 캡션:
캐릭터 트레이닝 (이미지 기반):
- "Professional woman with brown hair in navy suit, front view, neutral expression, office background"
- "Professional woman with brown hair in navy suit, side profile, smiling, window lighting"
스타일 트레이닝 (비디오 클립):
- "Watercolor animated scene of person walking through park, smooth camera pan, soft colors, artistic style"
- "Watercolor animated close-up of face turning toward camera, gentle motion, pastel tones"
모션 전문화 (비디오 클립):
- "Smooth corporate pan across office space, steady camera movement, professional lighting"
- "Dynamic action sequence with rapid camera following subject, high energy movement"
캡션은 수동, BLIP 또는 다른 캡션 모델로 반자동, 또는 기본 캡션을 자동 생성한 후 수동으로 개선하는 하이브리드 접근 방식이 가능합니다.
Step 5: 데이터셋 조직화
준비된 데이터셋을 다음 구조로 조직화합니다:
training_dataset/
├── images/ (or videos/)
│ ├── 001.png (or 001.mp4)
│ ├── 002.png
│ ├── 003.png
│ └── ...
└── captions/
├── 001.txt
├── 002.txt
├── 003.txt
└── ...
각 이미지/비디오 파일은 캡션이 포함된 동일한 파일명의 해당 .txt 파일을 가집니다.
데이터셋 준비는 트레이닝의 가장 시간이 많이 소요되는 부분이지만(종종 총 프로젝트 시간의 60-70%), 여기서의 품질이 다른 어떤 요소보다 트레이닝 성공을 결정합니다.
WAN LoRA 트레이닝 워크플로우
LoRA (Low-Rank Adaptation) 트레이닝은 기본 모델을 직접 수정하지 않고 커스텀 콘텐츠에 WAN 2.2를 적응시켜 기본 WAN 모델과 함께 작동하는 작고 효율적인 커스텀 모델 파일을 생성합니다.
트레이닝 인프라 설정:
WAN LoRA 트레이닝의 주요 도구는 비디오 diffusion 모델 트레이닝을 지원하는 Kohya_ss입니다.
설치:
git clone https://github.com/bmaltais/kohya_ss.git
cd kohya_ss
python -m venv venv
source venv/bin/activate # On Windows: venv\Scripts\activate
pip install -r requirements.txt
Kohya_ss는 GUI와 커맨드라인 인터페이스를 모두 제공합니다. GUI는 첫 트레이닝에 더 쉽고, 커맨드라인은 프로덕션 파이프라인에 더 많은 제어를 제공합니다.
트레이닝 구성:
Kohya GUI 실행:
python gui.py
GUI에서 트레이닝 매개변수 구성:
Model Settings:
- Pretrained model: wan2.2_dit.safetensors 경로
- VAE: wan2.2_vae.safetensors 경로
- Training type: LoRA
- Output directory: 훈련된 LoRA 파일을 저장할 위치
Dataset Settings:
- Training data directory: 준비된 데이터셋 경로
- Resolution: 512, 768, 또는 1024 (데이터셋 전처리와 일치)
- Batch size: 24GB VRAM은 1, 40GB+ VRAM은 2
- Number of epochs: 캐릭터는 10-20, 스타일은 15-30
LoRA Settings:
- Network dimension (rank): 캐릭터는 32-64, 복잡한 스타일은 64-128
- Network alpha: Network dimension과 동일 (32, 64, 또는 128)
- LoRA type: Standard (필요하지 않으면 LoCon 아님)
Optimizer Settings:
- Optimizer: AdamW8bit (메모리 효율적) 또는 AdamW (VRAM이 허용하는 경우)
- Learning rate: 1e-4에서 2e-4
- LR scheduler: cosine_with_restarts
- Scheduler warmup: 총 단계의 5%
Advanced Settings:
- Gradient checkpointing: 활성화 (VRAM을 ~30% 감소)
- Mixed precision: fp16 (VRAM을 ~50% 감소)
- XFormers: 활성화 (더 빠른 트레이닝, 더 적은 VRAM)
- Clip skip: 2
:::warning[비디오 트레이닝 메모리 요구사항] 모든 최적화를 활성화해도(gradient checkpointing, fp16, batch size 1) 512x512에서 트레이닝 중 20-22GB VRAM 사용을 예상하세요. 768x768에서 사용량은 24GB에 근접합니다. 시간을 낭비하기 전에 OOM 문제를 잡기 위해 초기 트레이닝 단계 동안 VRAM을 모니터링하세요. :::
사용 사례별 트레이닝 매개변수 지침:
캐릭터 일관성 트레이닝:
Network Dimension: 64
Learning Rate: 1.5e-4
Epochs: 15
Batch Size: 1
Steps: 1500-2500 (depending on dataset size)
Expected training time: 6-8 hours on 24GB GPU
스타일 적응 트레이닝:
복잡함을 건너뛰고 싶으신가요? Apatero 는 기술적 설정 없이 즉시 전문 AI 결과를 제공합니다.
Network Dimension: 96
Learning Rate: 1e-4
Epochs: 20
Batch Size: 1
Steps: 3000-4000
Expected training time: 10-14 hours on 24GB GPU
모션 전문화 트레이닝:
Network Dimension: 128
Learning Rate: 8e-5
Epochs: 25
Batch Size: 1
Steps: 5000-7000
Expected training time: 14-18 hours on 24GB GPU
트레이닝을 시작하고 loss curve를 모니터링합니다. 트레이닝의 첫 50-70% 동안 꾸준한 loss 감소를 볼 수 있어야 하며, 그 후 평준화됩니다. loss가 감소하지 않거나 증가하면 learning rate가 너무 높을 가능성이 있습니다.
트레이닝 체크포인트 및 테스트:
500-1000 단계마다 체크포인트 저장을 구성합니다. 이렇게 하면 트레이닝 중 중간 체크포인트를 테스트하여 최적의 중단점을 식별할 수 있습니다.
다음과 같이 체크포인트 테스트:
- ComfyUI에서 체크포인트 LoRA 로드
- 5-10개의 테스트 비디오/이미지 생성
- 일관성, 스타일 준수, 품질 평가
- 이전 체크포인트와 비교
"최고" 체크포인트가 항상 마지막이 아닐 수 있습니다. 트레이닝은 과적합될 수 있어 일반화하기보다 트레이닝 데이터를 암기하는 모델을 생성할 수 있습니다. 트레이닝의 60-80%부터 체크포인트를 테스트하면 최적점을 찾을 수 있습니다.
트레이닝 완료 및 모델 내보내기:
트레이닝이 완료되면 여러 체크포인트 파일을 갖게 됩니다. 테스트를 기반으로 최고 성능 체크포인트를 선택하고 설명적으로 이름을 변경합니다:
wan2.2_character_sarah_v1.safetensors
캐릭터 LoRA용wan2.2_style_watercolor_v1.safetensors
스타일 LoRA용wan2.2_motion_corporate_v1.safetensors
모션 LoRA용
최종 LoRA 파일은 일반적으로 network dimension에 따라 200-800MB입니다. 이 파일은 기본 모델을 교체하거나 수정하지 않고 ComfyUI에서 기본 WAN 2.2 모델과 함께 작동합니다.
ComfyUI에서 커스텀 WAN LoRA 사용
훈련된 WAN LoRA가 있으면 ComfyUI 워크플로우에 통합하는 것은 간단합니다.
LoRA 설치:
훈련된 LoRA 파일을 ComfyUI의 LoRA 디렉토리에 복사합니다:
cp wan2.2_character_sarah_v1.safetensors ComfyUI/models/loras/
새 LoRA를 감지하려면 ComfyUI를 재시작합니다.
기본 LoRA 워크플로우:
워크플로우 구조는 모델 로딩과 생성 사이에 LoRA 로딩 노드를 추가합니다:
WAN Model Loader → model output
↓
Load LoRA (WAN compatible) → model output with LoRA applied
↓
WAN Text Encode (conditioning)
↓
WAN Sampler (image or video) → Output
Load LoRA Node 구성:
- lora_name: 커스텀 LoRA 선택 (wan2.2_character_sarah_v1.safetensors)
- strength_model: 0.7-1.0 (LoRA가 생성에 영향을 미치는 강도)
- strength_clip: 0.7-1.0 (LoRA가 텍스트 이해에 영향을 미치는 강도)
두 강도 모두 1.0(전체 LoRA 영향)으로 시작합니다. 효과가 너무 강하거나 출력이 과적합으로 보이면 0.7-0.8로 줄입니다.
LoRA로 프롬프트 고려사항:
커스텀 LoRA는 프롬프트 구조 방식을 변경합니다:
캐릭터 LoRA 프롬프팅: 캐릭터 외모가 LoRA에 내장되어 있으므로 훨씬 짧은 프롬프트를 사용할 수 있습니다.
LoRA 없이: "Professional woman with shoulder-length brown hair, oval face, warm smile, hazel eyes, wearing navy business suit, modern office environment, high quality"
캐릭터 LoRA로: "Sarah in office, professional setting, high quality"
LoRA는 캐릭터 외모를 제공하므로 캐릭터 세부사항을 반복하는 대신 장면, 분위기 및 구성에 프롬프트를 집중할 수 있습니다.
스타일 LoRA 프롬프팅: 스타일이 자동으로 적용되므로 프롬프트는 스타일이 아닌 콘텐츠에 집중합니다.
LoRA 없이: "Watercolor painting style animated scene of person walking in park, soft colors, artistic watercolor aesthetic, painterly look"
스타일 LoRA로: "Person walking in park, trees and path visible, gentle movement"
LoRA가 자동으로 수채화 스타일을 적용합니다.
여러 LoRA 결합:
결합된 효과를 위해 여러 WAN LoRA를 스택할 수 있습니다:
WAN Model Loader
↓
Load LoRA (character LoRA, strength 0.9)
↓
Load LoRA (style LoRA, strength 0.8)
↓
WAN Sampler → Output with both character and style applied
LoRA를 스택할 때는 생성을 과도하게 제약하는 것을 방지하기 위해 개별 강도를 약간 줄입니다(1.0 대신 0.8-0.9).
:::info[LoRA 강도 최적점]
- 단일 LoRA: 강도 0.9-1.0
- 두 개의 LoRA: 각각 강도 0.7-0.9
- 세 개 이상의 LoRA: 각각 강도 0.6-0.8
- 낮은 강도는 더 많은 기본 모델 기능 보존 :::
LoRA 성능 테스트:
커스텀 LoRA를 로드한 후 체계적인 테스트 실행:
- LoRA만으로 특정 프롬프트 없이 10개 출력 생성(기본 LoRA 효과 테스트)
- LoRA + 다양한 프롬프트로 10개 출력 생성(LoRA로 프롬프트 유연성 테스트)
- LoRA 없는 기본 모델 출력과 비교(LoRA가 원하는 특성을 추가하는지 확인)
- 다양한 LoRA 강도(0.5, 0.7, 0.9, 1.0)에서 테스트하여 최적 설정 찾기
LoRA가 강도 0.6-0.8에서 좋은 결과를 생성하지만 1.0에서 더 나쁜 결과를 생성한다면 트레이닝이 과적합되었을 가능성이 있습니다. 더 낮은 강도 설정을 사용하거나 다른 매개변수로 재훈련하세요.
프로덕션을 위한 LoRA 버전 관리:
프로덕션 사용을 위해 조직화된 LoRA 버전을 유지합니다:
loras/
├── characters/
│ ├── sarah_v1.safetensors (initial training)
│ ├── sarah_v2.safetensors (retrained with more data)
│ └── sarah_v3.safetensors (current production version)
├── styles/
│ ├── corporate_professional_v1.safetensors
│ └── corporate_professional_v2.safetensors
└── motion/
└── smooth_pans_v1.safetensors
버전 명명을 통해 다양한 트레이닝 반복을 A/B 테스트하고 새로운 버전이 더 나쁘게 수행되면 롤백할 수 있습니다.
여러 아티스트가 커스텀 WAN LoRA를 사용하는 팀의 경우, Apatero.com은 LoRA 버전 관리 및 공유를 제공하여 팀원들이 수동 파일 배포 없이 최신 승인된 커스텀 모델에 액세스할 수 있습니다.
최적의 결과를 위한 하이퍼파라미터 튜닝
트레이닝 성공은 하이퍼파라미터 선택에 크게 의존합니다. 가장 중요한 매개변수와 튜닝 방법을 이해하면 훨씬 더 나은 결과를 생성합니다.
Learning Rate: 가장 중요한 매개변수
Learning rate는 모델이 트레이닝 데이터에 얼마나 빨리 적응하는지를 결정합니다. 너무 높으면 불안정한 트레이닝과 나쁜 결과를 초래합니다. 너무 낮으면 시간을 낭비하고 수렴하지 않을 수 있습니다.
트레이닝 유형별 권장 learning rate 범위:
트레이닝 목표 | Learning Rate | 이유 |
---|---|---|
캐릭터 일관성 | 1e-4 to 2e-4 | 높은 LR은 캐릭터 특성을 빠르게 학습 |
스타일 적응 | 8e-5 to 1.5e-4 | 중간 LR은 스타일 학습과 기본 보존의 균형 |
모션 패턴 | 5e-5 to 1e-4 | 낮은 LR은 모션을 적응하면서 시간적 이해 보존 |
도메인 전문화 | 8e-5 to 1.2e-4 | 중간 LR은 균형 잡힌 도메인 적응 |
확실하지 않으면 1e-4로 시작합니다. 첫 500 단계 동안 loss curve를 모니터링:
- Loss가 꾸준히 감소: Learning rate가 좋음
- Loss가 불안정/급증: Learning rate가 너무 높음, 5e-5로 감소
- Loss가 거의 변하지 않음: Learning rate가 너무 낮음, 2e-4로 증가
Network Dimension (Rank): 용량 대 과적합 트레이드오프
Network dimension은 LoRA 용량을 결정합니다. 높은 dimension은 더 복잡한 패턴 학습을 허용하지만 작은 데이터셋에서 과적합 위험이 있습니다.
Network Dim | LoRA 크기 | 사용 사례 | 과적합 위험 |
---|---|---|---|
32 | ~200MB | 간단한 캐릭터, 최소 스타일 변경 | 낮음 |
64 | ~400MB | 표준 캐릭터 또는 스타일 적응 | 중간 |
96 | ~600MB | 복잡한 스타일 또는 상세한 캐릭터 | 중간-높음 |
128 | ~800MB | 포괄적인 도메인 적응 | 높음 |
Network dimension을 데이터셋 크기에 맞춥니다:
- 100-200 샘플: dim 32-48 사용
- 200-400 샘플: dim 48-64 사용
- 400-800 샘플: dim 64-96 사용
- 800+ 샘플: dim 96-128 사용
더 큰 dimension이 자동으로 더 나은 품질을 의미하지는 않습니다. 300개 이미지 데이터셋으로 dimension 32, 64, 128에서 캐릭터 트레이닝을 테스트했습니다. Dimension 64가 최고의 결과(9.2/10 일관성)를 생성했고, dimension 128은 과적합되었습니다(7.8/10 일관성, 트레이닝 포즈 암기).
Batch Size: 메모리 대 트레이닝 효율성
더 큰 batch size는 더 안정적인 gradient를 제공하지만 더 많은 VRAM이 필요합니다.
Batch Size | VRAM 사용량 (512x512) | 트레이닝 속도 | Gradient 안정성 |
---|---|---|---|
1 | 20-22GB | 기준 | 덜 안정적 |
2 | 38-40GB | 1.6배 빠름 | 더 안정적 |
4 | 72GB+ | 2.8배 빠름 | 가장 안정적 |
24GB GPU에서는 batch size 1이 필요합니다. 40GB GPU에서는 batch size 2가 더 나은 트레이닝 품질과 60% 더 빠른 트레이닝 시간을 제공합니다. Batch size 4+는 멀티 GPU 설정이 필요합니다.
Batch size 1을 사용하는 경우 더 큰 배치를 시뮬레이션하기 위해 gradient accumulation을 활성화:
- Gradient accumulation steps를 2-4로 설정
- 가중치를 업데이트하기 전에 2-4 트레이닝 단계에 걸쳐 gradient를 누적
- VRAM 요구사항 없이 일부 batch size 안정성 이점 제공
Number of Epochs: 최적점 찾기
Epoch은 모델이 전체 데이터셋을 몇 번 보는지를 결정합니다. 너무 적은 epoch은 과소 훈련, 너무 많으면 과적합됩니다.
데이터셋 크기 | 권장 Epochs | 총 Steps (대략) |
---|---|---|
100-200 샘플 | 15-20 | 1500-4000 |
200-400 샘플 | 12-18 | 2400-7200 |
400-800 샘플 | 10-15 | 4000-12000 |
800+ 샘플 | 8-12 | 6400-9600+ |
Validation loss를 모니터링하거나(validation set을 설정한 경우) 주기적으로 체크포인트를 테스트합니다. 최고 체크포인트는 종종 전체 트레이닝의 60-80%에서 나오며 최종 체크포인트가 아닙니다.
LR Scheduler: 시간에 따른 Learning Rate 제어
LR scheduler는 트레이닝 중 learning rate를 조정합니다. WAN 트레이닝을 위한 최고의 scheduler는 "cosine_with_restarts"입니다:
- 전체 learning rate에서 시작
- cosine curve를 따라 점진적으로 감소
- local minima에서 벗어나기 위해 주기적으로 더 높은 LR로 "재시작"
- 재시작 횟수: 대부분의 트레이닝 실행에서 2-3
대체 scheduler:
- Constant: LR 변경 없음, LR이 완벽하다는 것을 알고 있을 때만 사용
- Polynomial: 완만한 감소, 긴 트레이닝 실행에 좋음
- Cosine (재시작 없음): 부드러운 감소, 안전한 기본값
Warmup steps(일반적으로 총 단계의 5-10%)는 LR을 거의 0에서 시작하여 목표 LR까지 증가시켜 초기 단계에서 트레이닝 안정성을 제공합니다.
:::warning[하이퍼파라미터 상호작용 효과] 매개변수는 독립적으로 작동하지 않습니다. 높은 learning rate + 높은 network dimension + 작은 데이터셋 = 심각한 과적합. 낮은 learning rate + 낮은 network dimension + 큰 데이터셋 = 과소 훈련. 특정 트레이닝 시나리오에 따라 모든 매개변수의 균형을 맞춥니다. :::
하이퍼파라미터 A/B 테스트:
프로덕션 트레이닝 프로젝트의 경우 다른 하이퍼파라미터로 2-3개의 트레이닝 구성을 병렬로 실행:
Configuration A (보수적):
- LR: 8e-5, Dim: 64, Epochs: 12
Configuration B (표준):
- LR: 1.2e-4, Dim: 64, Epochs: 15
Configuration C (공격적):
- LR: 1.5e-4, Dim: 96, Epochs: 18
세 가지를 모두 훈련하고 출력을 테스트하여 특정 사용 사례에 가장 좋은 결과를 생성하는 하이퍼파라미터 세트를 식별합니다. 이 경험적 접근 방식은 이론적 최적화를 능가합니다.
프로덕션 배포 및 버전 관리
커스텀 WAN 모델 트레이닝은 프로덕션 워크플로우에서 안정적으로 배포하고 사용할 수 있을 때만 가치가 있습니다. 적절한 배포 및 버전 관리는 커스텀 모델이 축적됨에 따라 혼란을 방지합니다.
모델 조직 구조:
프로젝트, 버전 및 유형별로 커스텀 WAN LoRA를 조직화:
production_models/
├── characters/
│ ├── client_brandX/
│ │ ├── character_protagonist_v1_20250110.safetensors
│ │ ├── character_protagonist_v2_20250115.safetensors (current)
│ │ └── training_notes.md
│ └── client_brandY/
│ └── character_mascot_v1_20250112.safetensors
├── styles/
│ ├── corporate_professional_v3_20250108.safetensors (current production)
│ ├── corporate_professional_v2_20250105.safetensors (deprecated)
│ └── watercolor_artistic_v1_20250114.safetensors
└── motion/
└── smooth_corporate_pans_v1_20250109.safetensors
쉬운 시간순 추적을 위해 파일명에 날짜 스탬프를 포함합니다. 데이터셋 크기, 하이퍼파라미터 및 성능 관찰을 문서화하는 training_notes.md를 유지합니다.
버전 변경 로그:
각 모델 버전에 대해 문서화:
- Date trained: 이 버전이 생성된 시기
- Dataset: 샘플 수, 콘텐츠 유형
- Hyperparameters: LR, dimension, epochs, batch size
- Changes from previous version: "50개의 캐릭터 표정 추가", "과적합 수정을 위해 network dim 감소"
- Test results: 일관성 점수, 품질 평가, 알려진 문제
- Production status: "Current", "Testing", "Deprecated"
예제 training_notes.md:
# Character: Brand X Protagonist
## v2 - 2025-01-15 (CURRENT PRODUCTION)
- Dataset: 350 images (added 100 new expressions)
- Hyperparameters: LR 1.2e-4, Dim 64, Epochs 15, Batch 1
- Changes: Expanded facial expression range, added more lighting variations
- Test results: 9.2/10 consistency, 8.9/10 prompt flexibility
- Issues: None identified
- Status: Production approved
## v1 - 2025-01-10 (DEPRECATED)
- Dataset: 250 images
- Hyperparameters: LR 1.5e-4, Dim 64, Epochs 18
- Test results: 8.1/10 consistency, limited expression range
- Issues: Struggled with non-neutral expressions
- Status: Superseded by v2
프로덕션 배포 전 테스트 프로토콜:
체계적인 테스트 없이 커스텀 LoRA를 프로덕션에 배포하지 마세요:
Phase 1: 기술적 검증 (1-2시간)
- 다양한 LoRA 강도(0.6, 0.8, 1.0)에서 20개 테스트 출력 생성
- 예상 사용 사례를 다루는 다양한 프롬프트로 테스트
- 명백한 아티팩트, 오류 또는 품질 문제가 없는지 확인
- VRAM 사용량 및 생성 속도가 허용 가능한지 확인
Phase 2: 품질 평가 (2-4시간)
- 프로덕션과 유사한 프롬프트로 50-100개 출력 생성
- 일관성, 스타일 준수, 프롬프트 유연성 평가
- 기본 모델 출력 및 이전 LoRA 버전과 비교
- 엣지 케이스 또는 실패 모드 식별
Phase 3: 프로덕션 시험 (1-2일)
- 제한된 프로덕션 용량으로 사용(워크로드의 10-20%)
- 최종 사용자 또는 클라이언트로부터 피드백 수집
- 제어된 테스트에서 포착되지 않은 문제 모니터링
- 프로덕션 조건에서 성능 확인
세 단계를 모두 통과한 후에만 LoRA를 "프로덕션 준비 완료"로 표시하고 모든 워크로드에 사용해야 합니다.
롤백 절차:
새 버전을 배포한 후에도 이전 버전 LoRA를 유지합니다. 문제가 발생하면:
- 즉시 이전 안정 버전으로 되돌리기
- 새 버전의 문제 문서화
- 문제를 보여주는 비교 예제 생성
- 문제가 재훈련 또는 단순히 매개변수 조정이 필요한지 결정
- 다시 배포를 시도하기 전에 수정 및 재테스트
빠른 롤백 기능(이전 버전을 액세스 가능하게 유지)은 새 버전에 예기치 않은 문제가 있을 때 프로덕션 중단을 방지합니다.
다중 사용자 팀 배포:
커스텀 WAN 모델을 사용하는 팀의 경우:
중앙 집중식 모델 리포지토리:
- 프로덕션 모델을 공유 네트워크 위치 또는 클라우드 스토리지에 저장
- 현재 프로덕션 버전에 대한 단일 진실 소스
- 팀원이 오래된 또는 사용 중단된 모델을 사용하는 것을 방지
모델 업데이트 알림:
- 새 모델 버전이 배포되면 팀에 알림
- 변경 로그 및 필요한 워크플로우 변경 포함
- 개선을 보여주는 예제 출력 제공
액세스 제어:
- Training role: 새 모델을 생성하고 테스트할 수 있음
- Production role: 프로덕션 승인 모델만 사용할 수 있음
- Admin role: 프로덕션 배포를 위한 모델을 승인할 수 있음
전문적인 배포를 위해 Apatero.com은 훈련된 모델이 버전 제어되고 팀에서 액세스 가능하며 액세스 권한으로 배포 가능한 관리형 커스텀 모델 배포를 제공하여 수동 모델 파일 관리를 제거합니다.
성능 모니터링:
프로덕션 커스텀 모델에 대해 다음 메트릭을 추적:
- Consistency score: 출력 일관성의 수동 평가(1-10점 평가)
- Generation speed: 기본 모델 대비 성능 저하
- Prompt flexibility: 모델이 예기치 않은 프롬프트를 우아하게 처리할 수 있는지
- User satisfaction: 최종 사용자 또는 클라이언트의 피드백
- Error rate: 생성이 실패하거나 사용할 수 없는 출력을 생성하는 빈도
이러한 메트릭의 월별 검토는 재훈련 또는 교체가 필요한 모델을 식별합니다.
트레이닝 문제 해결
WAN 트레이닝은 특정 방식으로 실패합니다. 문제를 조기에 인식하고 해결 방법을 아는 것은 시간과 컴퓨팅 비용을 절약합니다.
문제: 트레이닝 loss가 감소하지 않음
Loss가 평평하게 유지되거나 트레이닝 중 증가하여 학습이 없음을 나타냅니다.
일반적인 원인 및 수정:
- Learning rate가 너무 낮음: LR을 5e-5에서 1e-4 또는 2e-4로 증가
- Frozen layers: config에서 모든 훈련 가능한 레이어가 unfrozen되었는지 확인
- 데이터셋이 너무 작음: LoRA 트레이닝에 최소 100-150 샘플 필요
- 손상된 기본 모델: wan2.2_dit.safetensors 재다운로드
- 잘못된 캡션 형식: 캡션이 일반 텍스트이고 비어 있지 않은지 확인
문제: 트레이닝 loss가 감소한 후 갑자기 급증
Loss가 잠시 정상적으로 감소한 후 극적으로 증가하고 회복되지 않습니다.
이것은 learning rate가 너무 높거나 gradient explosion을 나타냅니다.
수정:
- Learning rate 50% 감소 (2e-4 → 1e-4)
- Gradient clipping 활성화 (clip norm 1.0)
- Batch size 감소 batch size 2+ 사용하는 경우
- 손상된 트레이닝 샘플 확인 (하나의 나쁜 샘플이 급증을 일으킬 수 있음)
문제: 모델이 트레이닝 데이터에 과적합
트레이닝 데이터 콘텐츠에는 출력이 훌륭해 보이지만 새 프롬프트에는 완전히 실패합니다.
과적합 지표:
- 트레이닝 loss가 매우 낮음(0.01 미만)이지만 validation loss가 높음
- 출력이 특정 트레이닝 샘플을 거의 정확하게 재생성
- 새 프롬프트가 아티팩트를 생성하거나 프롬프트 콘텐츠를 무시
수정:
- Network dimension 감소 (128 → 64 또는 64 → 32)
- 트레이닝 epochs 감소 (트레이닝을 더 일찍 중단)
- 데이터셋 크기 증가 (더 다양한 샘플 추가)
- 정규화 증가 (트레이닝 프레임워크가 dropout/weight decay를 지원하는 경우)
- 추론 중 더 낮은 LoRA 강도 사용 (1.0 대신 0.6-0.7)
문제: 트레이닝 중 CUDA out of memory
OOM 오류로 트레이닝 실패.
우선순위별 수정:
- Gradient checkpointing 활성화 (30% VRAM 감소)
- Mixed precision (fp16) 활성화 (50% VRAM 감소)
- Batch size를 1로 감소
- 해상도 감소 (768 → 512)
- Network dimension 감소 (96 → 64)
- Gradient accumulation steps 감소 사용하는 경우
모든 최적화를 해도 OOM이 발생하면 GPU에 목표 해상도에서 WAN 트레이닝을 위한 충분한 VRAM이 없습니다.
문제: 트레이닝이 매우 느림
트레이닝이 예상 시간보다 2-3배 더 오래 걸립니다.
원인:
- XFormers가 활성화되지 않음: 40% 속도 향상을 위해 활성화
- CPU 병목: CPU 사용량 확인, 디스크에서 느린 데이터 로딩
- HDD 대신 SSD 사용: 데이터셋을 SSD로 이동(3-5배 빠른 데이터 로딩)
- GPU가 완전히 활용되지 않음: GPU 사용률 확인(95-100%여야 함)
- 다른 프로세스가 GPU 소비: 브라우저, 다른 AI 도구 종료
문제: 출력 품질이 기본 모델보다 나쁨
커스텀 LoRA가 LoRA 없는 기본 WAN 2.2보다 낮은 품질 출력을 생성합니다.
이것은 트레이닝이 기본 모델 기능을 손상시켰음을 나타냅니다.
원인:
- Learning rate가 너무 높음: 모델이 과훈련됨, 5e-5 또는 8e-5로 감소
- 너무 많은 epochs: 너무 늦게 중단, 더 일찍 체크포인트 사용
- 데이터셋 크기에 비해 network dimension이 너무 높음: Dimension 감소
- 트레이닝 데이터 품질 문제: 낮은 품질 트레이닝 데이터가 낮은 품질 출력을 가르침
예방: 품질이 저하되기 전 최적 중단점을 찾기 위해 트레이닝 중 여러 체크포인트 테스트.
문제: LoRA가 가시적인 효과가 없음
ComfyUI에서 훈련된 LoRA를 로드하면 기본 모델과 동일한 출력을 생성합니다.
원인:
- LoRA 강도가 0으로 설정됨: 0.8-1.0으로 증가
- LoRA가 기본 모델 버전과 호환되지 않음: 올바른 기본 모델로 재훈련
- 트레이닝이 제대로 저장되지 않음: LoRA 파일 크기 확인(200-800MB여야 함)
- 트레이닝 steps가 너무 적음: 모델이 충분히 오래 훈련되지 않음, epochs 증가
- Learning rate가 너무 낮음: 모델이 거의 아무것도 학습하지 못함, LR 증가 후 재훈련
최종 생각
WAN 2.2 미세 조정은 모델을 범용 비디오 생성에서 프로덕션 요구사항에 정확히 맞는 전문 도구로 변환합니다. 데이터셋 준비, 트레이닝 시간 및 하이퍼파라미터 튜닝에 대한 투자는 일관된 캐릭터, 특정 스타일 또는 도메인 전문 콘텐츠가 필요한 수십 또는 수백 번의 후속 생성에서 배당금을 지불합니다.
성공적인 WAN 트레이닝의 핵심은 데이터셋의 양보다 질입니다. 정확한 캡션이 있는 200개의 신중하게 선택된 고품질 트레이닝 샘플이 잘못된 주석이 있는 1000개의 혼합 품질 샘플보다 더 나은 결과를 생성합니다. 데이터셋 큐레이션에 시간을 투자하면 트레이닝이 간단해집니다.
대부분의 사용 사례에서 24GB GPU에서 LoRA 트레이닝은 리소스 요구사항, 트레이닝 시간 및 출력 품질의 최적 균형을 제공합니다. 전체 미세 조정은 극단적인 전문화가 필요하지 않는 한 3-4배 높은 컴퓨팅 비용을 정당화하는 경우가 거의 없습니다.
이 가이드의 워크플로우는 인프라 설정부터 프로덕션 배포까지 모든 것을 다룹니다. 더 큰 프로덕션 트레이닝 실행에 투자하기 전에 전체 프로세스를 이해하기 위해 작은 테스트 프로젝트(100-150 트레이닝 샘플, 6-8시간 트레이닝 시간)로 시작하세요. 성공적인 트레이닝 사이클을 한 번 완료하면 후속 프로젝트는 일상이 됩니다.
로컬로 훈련하든 모든 인프라, 모니터링 및 배포를 자동으로 처리하는 Apatero.com에서 관리형 트레이닝을 사용하든, 커스텀 WAN 모델은 비디오 생성을 일반 AI 출력에서 특정 클라이언트 요구사항을 충족하는 브랜드화되고 일관되며 전문적인 콘텐츠로 끌어올립니다. 그 능력은 AI 비디오 생성이 실험적에서 프로덕션 수준 애플리케이션으로 이동함에 따라 점점 더 필수적입니다.
ComfyUI 마스터 - 기초부터 고급까지
완전한 ComfyUI 기초 과정에 참여하여 기본부터 고급 기술까지 모든 것을 배우세요. 일회성 결제로 평생 액세스 및 모든 새 모델과 기능 업데이트 제공.
관련 기사

ComfyUI 초보자가 가장 많이 겪는 10가지 실수와 2025년 해결 방법
초보 사용자들을 좌절시키는 상위 10가지 ComfyUI 초보자 함정을 피하세요. VRAM 오류, 모델 로딩 문제, 워크플로우 문제에 대한 완벽한 문제 해결 가이드입니다.

Anisora v3.2로 360도 애니메 회전: ComfyUI 완전한 캐릭터 회전 가이드 2025
ComfyUI에서 Anisora v3.2로 360도 애니메이션 캐릭터 회전을 마스터하세요. 카메라 궤도 워크플로우, 멀티뷰 일관성 및 전문적인 턴어라운드 애니메이션 기술을 배웁니다.

기본 탑재되어야 할 7가지 ComfyUI 커스텀 노드 (획득 방법 포함)
2025년 모든 사용자가 필요로 하는 필수 ComfyUI 커스텀 노드. WAS Node Suite, Impact Pack, IPAdapter Plus 및 기타 획기적인 노드에 대한 완전한 설치 가이드.