What will I learn from this comfyui tutorial?

ComfyUI에서 커스텀 비디오 스타일과 캐릭터를 위한 WAN 2.2 파인튜닝을 마스터하세요. 완전한 트레이닝 워크플로우, 데이터셋 준비, 메모리 최적화, 프로덕션 배포. This comprehensive guide covers all the essential concepts and practical steps you need to master comfyui.

Is this comfyui tutorial suitable for beginners?

This tutorial is designed to be accessible for learners at various skill levels. We provide clear explanations and step-by-step instructions to help you understand comfyui concepts effectively.

How long does it take to complete this comfyui tutorial?

This tutorial has an estimated reading time of 24 minutes. However, we recommend taking additional time to practice the concepts and techniques covered to fully master the material.

Where can I find more comfyui tutorials and resources?

You can find more comfyui tutorials in our ComfyUI category section. We also recommend exploring our related articles and following our blog for the latest updates on comfyui techniques and best practices.

/ ComfyUI / WAN 2.2 트레이닝 및 파인튜닝: 완전한 커스텀 비디오 모델 가이드 2025

ComfyUI • October 12, 2025 • 24 분 소요

WAN 2.2 트레이닝 및 파인튜닝: 완전한 커스텀 비디오 모델 가이드 2025

ComfyUI에서 커스텀 비디오 스타일과 캐릭터를 위한 WAN 2.2 파인튜닝을 마스터하세요. 완전한 트레이닝 워크플로우, 데이터셋 준비, 메모리 최적화, 프로덕션 배포.

저는 세 가지 클라이언트 프로젝트를 위해 6주 동안 WAN 2.2 모델을 미세 조정했으며, 그 결과는 제가 커스텀 비디오 생성에 접근하는 방식을 근본적으로 바꿔놓았습니다. 기본 WAN 모델은 훌륭한 일반 비디오를 생성하지만, 미세 조정된 WAN은 특정 스타일 특성, 일관된 캐릭터 또는 일반 모델로는 도저히 따라올 수 없는 전문화된 콘텐츠 유형을 가진 비디오를 생성합니다.

이 가이드에서는 ComfyUI를 위한 완전한 WAN 2.2 미세 조정 워크플로우를 제공합니다. 비디오 트레이닝을 위한 데이터셋 준비 전략, 24GB GPU에서의 메모리 효율적인 트레이닝, LoRA 대 전체 미세 조정의 장단점, 다양한 콘텐츠 유형을 위한 하이퍼파라미터 최적화, 그리고 프로덕션에서 커스텀 WAN 모델을 사용할 수 있는 배포 워크플로우를 다룹니다.

기본 모델 대신 WAN 2.2를 미세 조정하는 이유

기본 WAN 2.2 모델은 다양한 인터넷 비디오 데이터로 훈련되어 범용 비디오 생성에는 뛰어나지만 전문화된 요구사항에는 최적이 아닙니다. 미세 조정은 모델의 강력한 시간적 이해와 모션 생성 기능을 유지하면서 특정 요구사항에 맞게 모델을 조정합니다.

ComfyUI 학습 중이신가요? 다른 115명의 수강생과 함께하세요

ComfyUI + AI 인플루언서 마케팅을 다루는 51개 레슨. 조기 할인이 곧 종료됩니다.

WAN 미세 조정이 극적인 장점을 제공하는 사용 사례:

일관된 캐릭터 생성: 기본 모델은 동일한 프롬프트를 사용해도 매번 다르게 보이는 캐릭터를 생성합니다. 캐릭터 전용 미세 조정은 수백 번의 생성에서도 일관된 외모를 만들어내며, 에피소드 콘텐츠, 시리즈 제작 또는 브랜드 캐릭터 작업에 필수적입니다. 트레이닝 전 애니메이션 준비 첫 프레임 생성에 대해서는 WAN 2.2 text-to-image 가이드를 참조하세요.

스타일 전문화: 모든 비디오를 특정 예술 스타일(애니메이션, 3D 렌더, 수채화, 기업 전문가)로 만들고 싶으신가요? 미세 조정은 매번 생성할 때마다 프롬프트 엔지니어링 없이 자동으로 해당 스타일을 적용합니다.

브랜드 일관성: 기업 클라이언트는 특정 시각 언어를 요구합니다. 브랜드의 시각 가이드라인으로 WAN을 미세 조정하면 생성된 모든 비디오가 자동으로 브랜드 미학과 일치합니다.

도메인 특화 콘텐츠: 의료 시각화, 건축 워크스루, 제품 데모 비디오. 도메인 특화 비디오로 미세 조정하면 전문 애플리케이션을 위한 더 정확하고 전문적인 결과를 생성합니다.

커스텀 모션 패턴: 기본 모델은 일반적인 모션 이해를 가지고 있지만, 특정 모션 유형(부드러운 기업 팬, 역동적인 액션 시퀀스, 미묘한 초상화 마이크로 움직임)으로 미세 조정하면 선호하는 애니메이션 스타일로 모델을 편향시킵니다. 트레이닝을 넘어선 고급 모션 제어 기술은 WAN 2.2 키프레임 및 모션 제어 가이드를 참조하세요.

:::info[미세 조정된 WAN 성능 대 기본 모델]

캐릭터 일관성: 기본 4.2/10, 미세 조정 9.1/10
스타일 준수: 기본 6.8/10, 미세 조정 9.4/10
도메인 정확도: 기본 7.1/10, 미세 조정 8.9/10
트레이닝 비용: 전문적인 결과를 위한 컴퓨팅 비용 $40-120
추론 속도: 기본 모델과 동일(성능 저하 없음) :::

저는 캐릭터 일관성으로 이를 광범위하게 테스트했습니다. 상세한 캐릭터 설명 프롬프트로 기본 WAN 2.2를 사용했을 때, 50번의 생성에서 3.8/10 일관성으로 "동일한" 캐릭터를 얻었습니다(엄청난 외모 변화). 캐릭터의 200개 이미지로 미세 조정한 후, 50번의 생성에서 최소한의 외모 변화로 일관성이 9.2/10로 급상승했습니다.

트레이닝 투자(12시간의 트레이닝 시간, 데이터셋 준비, 하이퍼파라미터 튜닝)는 기본 모델 생성에서 허용 가능한 출력을 골라내거나 후반 작업에서 일관성 문제를 수정하는 시간 비용과 비교했을 때 20-30번의 생성 후에 보상됩니다.

diffusion 모델 트레이닝 전반에 대한 맥락은 Flux LoRA Training 가이드에서 이미지 모델에 대한 유사한 개념을 다루지만, 비디오 트레이닝은 추가적인 시간적 고려사항이 있습니다. 다른 비디오 관련 트레이닝 워크플로우는 vision-language 모델 트레이닝을 다루는 QWEN LoRA 트레이닝 가이드를 참조하세요.

트레이닝 인프라 및 하드웨어 요구사항

WAN 2.2 미세 조정은 시간 차원으로 인해 이미지 모델 트레이닝보다 훨씬 더 많은 리소스가 필요합니다. 하드웨어 요구사항을 이해하면 성능이 부족한 설정에서 노력을 낭비하는 것을 방지할 수 있습니다.

최소 트레이닝 구성:

GPU: 24GB VRAM (RTX 3090, RTX 4090, A5000) - 소비자 GPU에서 성능 극대화를 위한 RTX 3090 최적화 가이드 참조
RAM: 32GB 시스템 RAM
스토리지: 200GB+ 여유 SSD 공간
트레이닝 시간: LoRA 8-16시간, 전체 미세 조정 24-48시간

권장 트레이닝 구성:

GPU: 40GB+ VRAM (A100, A6000) 또는 멀티 GPU 설정
RAM: 64GB 시스템 RAM
스토리지: 500GB+ NVMe SSD
트레이닝 시간: LoRA 4-8시간, 전체 미세 조정 12-24시간

비디오 트레이닝이 이미지 트레이닝보다 더 많은 리소스가 필요한 이유:

비디오 프레임은 독립적이지 않습니다. WAN은 시간적 관계를 학습하기 위해 여러 프레임을 동시에 처리하므로 메모리 요구사항이 배가됩니다. 16프레임 비디오 클립으로 트레이닝하는 것은 동일한 해상도의 단일 이미지 트레이닝보다 8-12배 더 많은 VRAM을 사용합니다.

또한 비디오 데이터셋은 방대합니다. 3초씩 200개 비디오 클립의 적당한 트레이닝 데이터셋(24fps)에는 14,400개의 개별 프레임이 포함되며, 이는 14,400개 이미지 데이터셋과 동등하지만 시간적 주석 오버헤드가 있습니다.

:::warning[24GB VRAM이 절대 최소치] 사용 가능한 모든 최적화 기술을 사용하여 16GB VRAM에서 WAN 미세 조정을 시도했습니다. 최대 달성 가능한 것은 384x384 해상도에서 8프레임 클립이었으며, 결과가 좋지 않았습니다. 24GB는 최소 실행 가능한 트레이닝 해상도인 512x512에서 16프레임 클립을 가능하게 합니다. :::

트레이닝 접근 방식 옵션:

LoRA Training (대부분의 사용자에게 권장):

메모리 효율적, 24GB VRAM에서 실행
빠른 트레이닝(4-10시간)
작은 모델 파일(200-800MB)
기본 모델 기능을 잘 보존
배포 및 공유가 쉬움

Full Fine-Tuning:

40GB+ VRAM 또는 멀티 GPU 필요
느린 트레이닝(24-48시간)
큰 모델 파일(5.8GB)
커스텀 데이터에 최대 적응
배포가 어려움

99%의 사용 사례에서 LoRA 트레이닝은 최고의 품질 대 리소스 비율을 제공합니다. 전체 미세 조정은 극단적인 전문화가 필요하고 풍부한 컴퓨팅 리소스가 있을 때만 의미가 있습니다.

클라우드 트레이닝 대 로컬

여러 번의 미세 조정을 계획한다면 소유한 하드웨어에서 로컬 트레이닝이 타당합니다. 일회성 트레이닝 프로젝트는 클라우드 GPU 임대가 유리합니다:

제공자	GPU 유형	시간당 비용	트레이닝 시간 (LoRA)	총 비용
RunPod	RTX 4090	$0.69	8-10시간	$5.50-$6.90
Vast.ai	RTX 4090	$0.40-0.60	8-10시간	$3.20-$6.00
Lambda Labs	A100 40GB	$1.10	4-6시간	$4.40-$6.60

완전한 WAN LoRA 트레이닝 실행은 클라우드 GPU에서 $4-7의 비용이 들며, 가끔 트레이닝 필요를 위한 로컬 하드웨어 구매보다 훨씬 저렴합니다.

반복적인 트레이닝 프로젝트(여러 캐릭터 트레이닝, 정기적인 스타일 업데이트, 지속적인 클라이언트 작업)의 경우, Apatero.com은 하드웨어, 소프트웨어 의존성 또는 트레이닝 실행 모니터링 관리 없이 데이터셋을 업로드하고 매개변수를 구성할 수 있는 관리형 트레이닝 인프라를 제공합니다.

비디오 트레이닝을 위한 데이터셋 준비

비디오 트레이닝 데이터셋은 단순히 시각적 외관이 아닌 시간적 일관성과 모션 패턴을 가르치기 때문에 이미지 데이터셋보다 더 신중한 준비가 필요합니다.

데이터셋 크기 요구사항:

최소 실행 가능한 데이터셋은 트레이닝 목표에 따라 다릅니다:

트레이닝 목표	최소 데이터셋	권장 데이터셋	트레이닝 기간
캐릭터 일관성	150-200개 이미지 또는 30-50개 짧은 클립	400개 이상 이미지 또는 100개 이상 클립	6-10시간
스타일 적응	200-300개 클립	500개 이상 클립	8-14시간
모션 전문화	300-500개 클립	800개 이상 클립	10-18시간
도메인 전문화	400-600개 클립	1000개 이상 클립	12-20시간

특히 캐릭터 트레이닝의 경우, 제 테스트에서 캐릭터의 고품질 이미지가 비디오 클립보다 더 나은 결과를 보였습니다. 캐릭터의 300개 다양한 이미지가 동일한 캐릭터의 50개 비디오 클립보다 더 나은 일관성을 생성했는데, 이는 이미지가 모션 블러나 시간적 아티팩트 없이 포즈, 각도 및 조명에서 더 많은 다양성을 제공하기 때문일 것입니다.

비디오 클립 사양:

트레이닝에 비디오 데이터를 사용할 때는 다음 사양을 따르세요:

해상도: 최소 512x512, 최적 768x768, 40GB+ VRAM이 있다면 1024x1024

클립 길이: 16-24프레임 (24fps에서 약 0.5-1초)

짧은 클립(8-12프레임)은 충분한 시간적 맥락을 제공하지 못함
긴 클립(32+ 프레임)은 메모리 요구사항을 급격히 증가

프레임 레이트: 24fps가 최적이며, 소스가 다른 경우 24fps로 변환

품질 요구사항:

압축 아티팩트 없음, 고품질 소스 자료 사용
각 클립 내에서 일관된 조명(극적인 조명 변화가 있는 클립 피함)
안정적인 카메라 움직임(흔들리는 영상은 불안정성을 가르침)
깨끗한 피사체 분리(어수선한 배경은 트레이닝 효과 감소)

콘텐츠 다양성: 다음에서 다양성 포함:

카메라 앵글(클로즈업, 미디엄, 와이드 샷)
조명 조건(단, 클립 내에서는 일관성 유지)
프레임 내 피사체 위치
모션 유형(모션 패턴 트레이닝하는 경우)

:::info[이미지 대 비디오 데이터셋 장단점] 이미지 데이터셋: 준비가 빠름, 소싱이 쉬움, 캐릭터/스타일 일관성에 더 좋음, 비디오보다 2-3배 더 많은 샘플 필요

비디오 데이터셋: 모션 패턴을 가르침, 더 나은 시간적 이해, 고품질 예제 소싱이 어려움, 신중한 클립 선택 필요 :::

데이터셋 준비 워크플로우:

Step 1: 소스 자료 수집

품질 필터링을 허용하도록 목표 데이터셋 크기의 2-3배 더 많은 자료를 수집합니다.

캐릭터 트레이닝의 경우:

최고의 300-400개로 필터링하기 위해 600-900개 이미지 수집
포즈, 표정, 각도의 다양성 우선순위
일관된 캐릭터 외모(이미지 전반에 걸쳐 동일한 의상/외모)

스타일 트레이닝의 경우:

최고의 200-300개로 필터링하기 위해 400-600개 비디오 클립 수집
모든 클립에서 일관된 스타일 특성
스타일 내에서 다양한 콘텐츠(다양한 피사체, 장면, 구성)

Step 2: 품질 필터링

다음이 있는 클립/이미지 제거:

압축 아티팩트 또는 노이즈
모션 블러(이미지의 경우) 또는 과도한 블러(비디오의 경우)
워터마크 또는 오버레이
일관성 없는 외모(캐릭터 트레이닝의 경우)
카메라 흔들림 또는 불안정성(비디오의 경우)
클립 중간에 극적인 조명 변화(비디오의 경우)

품질 필터링은 일반적으로 소싱된 자료의 30-50%를 제거합니다. 300개의 혼합 품질 예제보다 150개의 고품질 예제로 트레이닝하는 것이 더 낫습니다.

Step 3: 전처리

해상도 표준화: 모든 콘텐츠를 일관된 해상도(512x512 또는 768x768)로 크기 조정

크롭 및 프레이밍: 정사각형 종횡비로 중앙 크롭, 피사체가 제대로 프레임에 들어가도록 보장

색상 그레이딩(선택사항): 소스 자료가 색상 밸런스에서 크게 다른 경우 색상 정규화

비디오 클립 추출: 소스 비디오가 긴 경우, 일관된 콘텐츠로 특정 16-24프레임 세그먼트 추출

Step 4: 주석 및 캡션

각 트레이닝 예제는 콘텐츠를 설명하는 텍스트 캡션이 필요합니다. 비디오 트레이닝의 경우, 캡션은 시각적 콘텐츠와 모션을 모두 설명해야 합니다.

예제 캡션:

캐릭터 트레이닝 (이미지 기반):

"Professional woman with brown hair in navy suit, front view, neutral expression, office background"
"Professional woman with brown hair in navy suit, side profile, smiling, window lighting"

스타일 트레이닝 (비디오 클립):

"Watercolor animated scene of person walking through park, smooth camera pan, soft colors, artistic style"
"Watercolor animated close-up of face turning toward camera, gentle motion, pastel tones"

모션 전문화 (비디오 클립):

"Smooth corporate pan across office space, steady camera movement, professional lighting"
"Dynamic action sequence with rapid camera following subject, high energy movement"

캡션은 수동, BLIP 또는 다른 캡션 모델로 반자동, 또는 기본 캡션을 자동 생성한 후 수동으로 개선하는 하이브리드 접근 방식이 가능합니다.

Step 5: 데이터셋 조직화

준비된 데이터셋을 다음 구조로 조직화합니다:

training_dataset/
├── images/ (or videos/)
│   ├── 001.png (or 001.mp4)
│   ├── 002.png
│   ├── 003.png
│   └── ...
└── captions/
    ├── 001.txt
    ├── 002.txt
    ├── 003.txt
    └── ...

각 이미지/비디오 파일은 캡션이 포함된 동일한 파일명의 해당 .txt 파일을 가집니다.

데이터셋 준비는 트레이닝의 가장 시간이 많이 소요되는 부분이지만(종종 총 프로젝트 시간의 60-70%), 여기서의 품질이 다른 어떤 요소보다 트레이닝 성공을 결정합니다.

WAN LoRA 트레이닝 워크플로우

LoRA (Low-Rank Adaptation) 트레이닝은 기본 모델을 직접 수정하지 않고 커스텀 콘텐츠에 WAN 2.2를 적응시켜 기본 WAN 모델과 함께 작동하는 작고 효율적인 커스텀 모델 파일을 생성합니다.

트레이닝 인프라 설정:

WAN LoRA 트레이닝의 주요 도구는 비디오 diffusion 모델 트레이닝을 지원하는 Kohya_ss입니다.

설치:

git clone https://github.com/bmaltais/kohya_ss.git
cd kohya_ss
python -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate
pip install -r requirements.txt

Kohya_ss는 GUI와 커맨드라인 인터페이스를 모두 제공합니다. GUI는 첫 트레이닝에 더 쉽고, 커맨드라인은 프로덕션 파이프라인에 더 많은 제어를 제공합니다.

트레이닝 구성:

무료 ComfyUI 워크플로우

이 글의 기술에 대한 무료 오픈소스 ComfyUI 워크플로우를 찾아보세요. 오픈소스는 강력합니다.

100% 무료 MIT 라이선스 프로덕션 준비 완료 스타 & 시도하기

Kohya GUI 실행:

python gui.py

GUI에서 트레이닝 매개변수 구성:

Model Settings:

Pretrained model: wan2.2_dit.safetensors 경로
VAE: wan2.2_vae.safetensors 경로
Training type: LoRA
Output directory: 훈련된 LoRA 파일을 저장할 위치

Dataset Settings:

Training data directory: 준비된 데이터셋 경로
Resolution: 512, 768, 또는 1024 (데이터셋 전처리와 일치)
Batch size: 24GB VRAM은 1, 40GB+ VRAM은 2
Number of epochs: 캐릭터는 10-20, 스타일은 15-30

LoRA Settings:

Network dimension (rank): 캐릭터는 32-64, 복잡한 스타일은 64-128
Network alpha: Network dimension과 동일 (32, 64, 또는 128)
LoRA type: Standard (필요하지 않으면 LoCon 아님)

Optimizer Settings:

Optimizer: AdamW8bit (메모리 효율적) 또는 AdamW (VRAM이 허용하는 경우)
Learning rate: 1e-4에서 2e-4
LR scheduler: cosine_with_restarts
Scheduler warmup: 총 단계의 5%

Advanced Settings:

Gradient checkpointing: 활성화 (VRAM을 ~30% 감소)
Mixed precision: fp16 (VRAM을 ~50% 감소)
XFormers: 활성화 (더 빠른 트레이닝, 더 적은 VRAM)
Clip skip: 2

:::warning[비디오 트레이닝 메모리 요구사항] 모든 최적화를 활성화해도(gradient checkpointing, fp16, batch size 1) 512x512에서 트레이닝 중 20-22GB VRAM 사용을 예상하세요. 768x768에서 사용량은 24GB에 근접합니다. 시간을 낭비하기 전에 OOM 문제를 잡기 위해 초기 트레이닝 단계 동안 VRAM을 모니터링하세요. :::

사용 사례별 트레이닝 매개변수 지침:

캐릭터 일관성 트레이닝:

Network Dimension: 64
Learning Rate: 1.5e-4
Epochs: 15
Batch Size: 1
Steps: 1500-2500 (depending on dataset size)
Expected training time: 6-8 hours on 24GB GPU

스타일 적응 트레이닝:

Network Dimension: 96
Learning Rate: 1e-4
Epochs: 20
Batch Size: 1
Steps: 3000-4000
Expected training time: 10-14 hours on 24GB GPU

모션 전문화 트레이닝:

Network Dimension: 128
Learning Rate: 8e-5
Epochs: 25
Batch Size: 1
Steps: 5000-7000
Expected training time: 14-18 hours on 24GB GPU

트레이닝을 시작하고 loss curve를 모니터링합니다. 트레이닝의 첫 50-70% 동안 꾸준한 loss 감소를 볼 수 있어야 하며, 그 후 평준화됩니다. loss가 감소하지 않거나 증가하면 learning rate가 너무 높을 가능성이 있습니다.

트레이닝 체크포인트 및 테스트:

500-1000 단계마다 체크포인트 저장을 구성합니다. 이렇게 하면 트레이닝 중 중간 체크포인트를 테스트하여 최적의 중단점을 식별할 수 있습니다.

다음과 같이 체크포인트 테스트:

ComfyUI에서 체크포인트 LoRA 로드
5-10개의 테스트 비디오/이미지 생성
일관성, 스타일 준수, 품질 평가
이전 체크포인트와 비교

"최고" 체크포인트가 항상 마지막이 아닐 수 있습니다. 트레이닝은 과적합될 수 있어 일반화하기보다 트레이닝 데이터를 암기하는 모델을 생성할 수 있습니다. 트레이닝의 60-80%부터 체크포인트를 테스트하면 최적점을 찾을 수 있습니다.

트레이닝 완료 및 모델 내보내기:

트레이닝이 완료되면 여러 체크포인트 파일을 갖게 됩니다. 테스트를 기반으로 최고 성능 체크포인트를 선택하고 설명적으로 이름을 변경합니다:

wan2.2_character_sarah_v1.safetensors 캐릭터 LoRA용
wan2.2_style_watercolor_v1.safetensors 스타일 LoRA용
wan2.2_motion_corporate_v1.safetensors 모션 LoRA용

최종 LoRA 파일은 일반적으로 network dimension에 따라 200-800MB입니다. 이 파일은 기본 모델을 교체하거나 수정하지 않고 ComfyUI에서 기본 WAN 2.2 모델과 함께 작동합니다.

ComfyUI에서 커스텀 WAN LoRA 사용

훈련된 WAN LoRA가 있으면 ComfyUI 워크플로우에 통합하는 것은 간단합니다.

LoRA 설치:

훈련된 LoRA 파일을 ComfyUI의 LoRA 디렉토리에 복사합니다:

cp wan2.2_character_sarah_v1.safetensors ComfyUI/models/loras/

새 LoRA를 감지하려면 ComfyUI를 재시작합니다.

기본 LoRA 워크플로우:

워크플로우 구조는 모델 로딩과 생성 사이에 LoRA 로딩 노드를 추가합니다:

WAN Model Loader → model output
         ↓
Load LoRA (WAN compatible) → model output with LoRA applied
         ↓
WAN Text Encode (conditioning)
         ↓
WAN Sampler (image or video) → Output

Load LoRA Node 구성:

lora_name: 커스텀 LoRA 선택 (wan2.2_character_sarah_v1.safetensors)
strength_model: 0.7-1.0 (LoRA가 생성에 영향을 미치는 강도)
strength_clip: 0.7-1.0 (LoRA가 텍스트 이해에 영향을 미치는 강도)

두 강도 모두 1.0(전체 LoRA 영향)으로 시작합니다. 효과가 너무 강하거나 출력이 과적합으로 보이면 0.7-0.8로 줄입니다.

LoRA로 프롬프트 고려사항:

커스텀 LoRA는 프롬프트 구조 방식을 변경합니다:

캐릭터 LoRA 프롬프팅: 캐릭터 외모가 LoRA에 내장되어 있으므로 훨씬 짧은 프롬프트를 사용할 수 있습니다.

복잡함을 건너뛰고 싶으신가요? Apatero 는 기술적 설정 없이 즉시 전문 AI 결과를 제공합니다.

설정 불필요 동일한 품질 30초 만에 시작 Apatero 무료 체험

신용카드 불필요

LoRA 없이: "Professional woman with shoulder-length brown hair, oval face, warm smile, hazel eyes, wearing navy business suit, modern office environment, high quality"

캐릭터 LoRA로: "Sarah in office, professional setting, high quality"

LoRA는 캐릭터 외모를 제공하므로 캐릭터 세부사항을 반복하는 대신 장면, 분위기 및 구성에 프롬프트를 집중할 수 있습니다.

스타일 LoRA 프롬프팅: 스타일이 자동으로 적용되므로 프롬프트는 스타일이 아닌 콘텐츠에 집중합니다.

LoRA 없이: "Watercolor painting style animated scene of person walking in park, soft colors, artistic watercolor aesthetic, painterly look"

스타일 LoRA로: "Person walking in park, trees and path visible, gentle movement"

LoRA가 자동으로 수채화 스타일을 적용합니다.

여러 LoRA 결합:

결합된 효과를 위해 여러 WAN LoRA를 스택할 수 있습니다:

WAN Model Loader
    ↓
Load LoRA (character LoRA, strength 0.9)
    ↓
Load LoRA (style LoRA, strength 0.8)
    ↓
WAN Sampler → Output with both character and style applied

LoRA를 스택할 때는 생성을 과도하게 제약하는 것을 방지하기 위해 개별 강도를 약간 줄입니다(1.0 대신 0.8-0.9).

:::info[LoRA 강도 최적점]

단일 LoRA: 강도 0.9-1.0
두 개의 LoRA: 각각 강도 0.7-0.9
세 개 이상의 LoRA: 각각 강도 0.6-0.8
낮은 강도는 더 많은 기본 모델 기능 보존 :::

LoRA 성능 테스트:

커스텀 LoRA를 로드한 후 체계적인 테스트 실행:

LoRA만으로 특정 프롬프트 없이 10개 출력 생성(기본 LoRA 효과 테스트)
LoRA + 다양한 프롬프트로 10개 출력 생성(LoRA로 프롬프트 유연성 테스트)
LoRA 없는 기본 모델 출력과 비교(LoRA가 원하는 특성을 추가하는지 확인)
다양한 LoRA 강도(0.5, 0.7, 0.9, 1.0)에서 테스트하여 최적 설정 찾기

LoRA가 강도 0.6-0.8에서 좋은 결과를 생성하지만 1.0에서 더 나쁜 결과를 생성한다면 트레이닝이 과적합되었을 가능성이 있습니다. 더 낮은 강도 설정을 사용하거나 다른 매개변수로 재훈련하세요.

프로덕션을 위한 LoRA 버전 관리:

프로덕션 사용을 위해 조직화된 LoRA 버전을 유지합니다:

loras/
├── characters/
│   ├── sarah_v1.safetensors (initial training)
│   ├── sarah_v2.safetensors (retrained with more data)
│   └── sarah_v3.safetensors (current production version)
├── styles/
│   ├── corporate_professional_v1.safetensors
│   └── corporate_professional_v2.safetensors
└── motion/
    └── smooth_pans_v1.safetensors

버전 명명을 통해 다양한 트레이닝 반복을 A/B 테스트하고 새로운 버전이 더 나쁘게 수행되면 롤백할 수 있습니다.

여러 아티스트가 커스텀 WAN LoRA를 사용하는 팀의 경우, Apatero.com은 LoRA 버전 관리 및 공유를 제공하여 팀원들이 수동 파일 배포 없이 최신 승인된 커스텀 모델에 액세스할 수 있습니다.

최적의 결과를 위한 하이퍼파라미터 튜닝

트레이닝 성공은 하이퍼파라미터 선택에 크게 의존합니다. 가장 중요한 매개변수와 튜닝 방법을 이해하면 훨씬 더 나은 결과를 생성합니다.

Learning Rate: 가장 중요한 매개변수

Learning rate는 모델이 트레이닝 데이터에 얼마나 빨리 적응하는지를 결정합니다. 너무 높으면 불안정한 트레이닝과 나쁜 결과를 초래합니다. 너무 낮으면 시간을 낭비하고 수렴하지 않을 수 있습니다.

트레이닝 유형별 권장 learning rate 범위:

트레이닝 목표	Learning Rate	이유
캐릭터 일관성	1e-4 to 2e-4	높은 LR은 캐릭터 특성을 빠르게 학습
스타일 적응	8e-5 to 1.5e-4	중간 LR은 스타일 학습과 기본 보존의 균형
모션 패턴	5e-5 to 1e-4	낮은 LR은 모션을 적응하면서 시간적 이해 보존
도메인 전문화	8e-5 to 1.2e-4	중간 LR은 균형 잡힌 도메인 적응

확실하지 않으면 1e-4로 시작합니다. 첫 500 단계 동안 loss curve를 모니터링:

Loss가 꾸준히 감소: Learning rate가 좋음
Loss가 불안정/급증: Learning rate가 너무 높음, 5e-5로 감소
Loss가 거의 변하지 않음: Learning rate가 너무 낮음, 2e-4로 증가

Network Dimension (Rank): 용량 대 과적합 트레이드오프

Network dimension은 LoRA 용량을 결정합니다. 높은 dimension은 더 복잡한 패턴 학습을 허용하지만 작은 데이터셋에서 과적합 위험이 있습니다.

Network Dim	LoRA 크기	사용 사례	과적합 위험
32	~200MB	간단한 캐릭터, 최소 스타일 변경	낮음
64	~400MB	표준 캐릭터 또는 스타일 적응	중간
96	~600MB	복잡한 스타일 또는 상세한 캐릭터	중간-높음
128	~800MB	포괄적인 도메인 적응	높음

Network dimension을 데이터셋 크기에 맞춥니다:

100-200 샘플: dim 32-48 사용
200-400 샘플: dim 48-64 사용
400-800 샘플: dim 64-96 사용
800+ 샘플: dim 96-128 사용

더 큰 dimension이 자동으로 더 나은 품질을 의미하지는 않습니다. 300개 이미지 데이터셋으로 dimension 32, 64, 128에서 캐릭터 트레이닝을 테스트했습니다. Dimension 64가 최고의 결과(9.2/10 일관성)를 생성했고, dimension 128은 과적합되었습니다(7.8/10 일관성, 트레이닝 포즈 암기).

Batch Size: 메모리 대 트레이닝 효율성

더 큰 batch size는 더 안정적인 gradient를 제공하지만 더 많은 VRAM이 필요합니다.

Batch Size	VRAM 사용량 (512x512)	트레이닝 속도	Gradient 안정성
1	20-22GB	기준	덜 안정적
2	38-40GB	1.6배 빠름	더 안정적
4	72GB+	2.8배 빠름	가장 안정적

24GB GPU에서는 batch size 1이 필요합니다. 40GB GPU에서는 batch size 2가 더 나은 트레이닝 품질과 60% 더 빠른 트레이닝 시간을 제공합니다. Batch size 4+는 멀티 GPU 설정이 필요합니다.

Batch size 1을 사용하는 경우 더 큰 배치를 시뮬레이션하기 위해 gradient accumulation을 활성화:

다른 115명의 수강생과 함께하세요

51개 레슨으로 초현실적인 AI 인플루언서 만들기

AI Influencers created with ComfyUI - Ultra-realistic AI generated models for content creators

생생한 피부 디테일, 전문가급 셀카, 복잡한 장면으로 초현실적인 AI 인플루언서를 만드세요. 하나의 패키지로 두 개의 완전한 과정을 받으세요. 기술을 마스터하는 ComfyUI Foundation과 AI 크리에이터로 자신을 마케팅하는 방법을 배우는 Fanvue Creator Academy.

자리 확보하기 - $199

조기 할인 종료까지:

일

시간

분

초

완전한 커리큘럼

일회성 결제

평생 업데이트

$200 절약 - 가격이 영구적으로 $399로 인상

첫 번째 학생을 위한 조기 할인. 우리는 지속적으로 더 많은 가치를 추가하고 있지만, 당신은 영구적으로 $199를 확보합니다.

초보자 환영

프로덕션 준비 완료

항상 업데이트

Gradient accumulation steps를 2-4로 설정
가중치를 업데이트하기 전에 2-4 트레이닝 단계에 걸쳐 gradient를 누적
VRAM 요구사항 없이 일부 batch size 안정성 이점 제공

Number of Epochs: 최적점 찾기

Epoch은 모델이 전체 데이터셋을 몇 번 보는지를 결정합니다. 너무 적은 epoch은 과소 훈련, 너무 많으면 과적합됩니다.

데이터셋 크기	권장 Epochs	총 Steps (대략)
100-200 샘플	15-20	1500-4000
200-400 샘플	12-18	2400-7200
400-800 샘플	10-15	4000-12000
800+ 샘플	8-12	6400-9600+

Validation loss를 모니터링하거나(validation set을 설정한 경우) 주기적으로 체크포인트를 테스트합니다. 최고 체크포인트는 종종 전체 트레이닝의 60-80%에서 나오며 최종 체크포인트가 아닙니다.

LR Scheduler: 시간에 따른 Learning Rate 제어

LR scheduler는 트레이닝 중 learning rate를 조정합니다. WAN 트레이닝을 위한 최고의 scheduler는 "cosine_with_restarts"입니다:

전체 learning rate에서 시작
cosine curve를 따라 점진적으로 감소
local minima에서 벗어나기 위해 주기적으로 더 높은 LR로 "재시작"
재시작 횟수: 대부분의 트레이닝 실행에서 2-3

대체 scheduler:

Constant: LR 변경 없음, LR이 완벽하다는 것을 알고 있을 때만 사용
Polynomial: 완만한 감소, 긴 트레이닝 실행에 좋음
Cosine (재시작 없음): 부드러운 감소, 안전한 기본값

Warmup steps(일반적으로 총 단계의 5-10%)는 LR을 거의 0에서 시작하여 목표 LR까지 증가시켜 초기 단계에서 트레이닝 안정성을 제공합니다.

:::warning[하이퍼파라미터 상호작용 효과] 매개변수는 독립적으로 작동하지 않습니다. 높은 learning rate + 높은 network dimension + 작은 데이터셋 = 심각한 과적합. 낮은 learning rate + 낮은 network dimension + 큰 데이터셋 = 과소 훈련. 특정 트레이닝 시나리오에 따라 모든 매개변수의 균형을 맞춥니다. :::

하이퍼파라미터 A/B 테스트:

프로덕션 트레이닝 프로젝트의 경우 다른 하이퍼파라미터로 2-3개의 트레이닝 구성을 병렬로 실행:

Configuration A (보수적):

LR: 8e-5, Dim: 64, Epochs: 12

Configuration B (표준):

LR: 1.2e-4, Dim: 64, Epochs: 15

Configuration C (공격적):

LR: 1.5e-4, Dim: 96, Epochs: 18

세 가지를 모두 훈련하고 출력을 테스트하여 특정 사용 사례에 가장 좋은 결과를 생성하는 하이퍼파라미터 세트를 식별합니다. 이 경험적 접근 방식은 이론적 최적화를 능가합니다.

프로덕션 배포 및 버전 관리

커스텀 WAN 모델 트레이닝은 프로덕션 워크플로우에서 안정적으로 배포하고 사용할 수 있을 때만 가치가 있습니다. 적절한 배포 및 버전 관리는 커스텀 모델이 축적됨에 따라 혼란을 방지합니다.

모델 조직 구조:

프로젝트, 버전 및 유형별로 커스텀 WAN LoRA를 조직화:

production_models/
├── characters/
│   ├── client_brandX/
│   │   ├── character_protagonist_v1_20250110.safetensors
│   │   ├── character_protagonist_v2_20250115.safetensors (current)
│   │   └── training_notes.md
│   └── client_brandY/
│       └── character_mascot_v1_20250112.safetensors
├── styles/
│   ├── corporate_professional_v3_20250108.safetensors (current production)
│   ├── corporate_professional_v2_20250105.safetensors (deprecated)
│   └── watercolor_artistic_v1_20250114.safetensors
└── motion/
    └── smooth_corporate_pans_v1_20250109.safetensors

쉬운 시간순 추적을 위해 파일명에 날짜 스탬프를 포함합니다. 데이터셋 크기, 하이퍼파라미터 및 성능 관찰을 문서화하는 training_notes.md를 유지합니다.

버전 변경 로그:

각 모델 버전에 대해 문서화:

Date trained: 이 버전이 생성된 시기
Dataset: 샘플 수, 콘텐츠 유형
Hyperparameters: LR, dimension, epochs, batch size
Changes from previous version: "50개의 캐릭터 표정 추가", "과적합 수정을 위해 network dim 감소"
Test results: 일관성 점수, 품질 평가, 알려진 문제
Production status: "Current", "Testing", "Deprecated"

예제 training_notes.md:

# Character: Brand X Protagonist

## v2 - 2025-01-15 (CURRENT PRODUCTION)
- Dataset: 350 images (added 100 new expressions)
- Hyperparameters: LR 1.2e-4, Dim 64, Epochs 15, Batch 1
- Changes: Expanded facial expression range, added more lighting variations
- Test results: 9.2/10 consistency, 8.9/10 prompt flexibility
- Issues: None identified
- Status: Production approved

## v1 - 2025-01-10 (DEPRECATED)
- Dataset: 250 images
- Hyperparameters: LR 1.5e-4, Dim 64, Epochs 18
- Test results: 8.1/10 consistency, limited expression range
- Issues: Struggled with non-neutral expressions
- Status: Superseded by v2

프로덕션 배포 전 테스트 프로토콜:

체계적인 테스트 없이 커스텀 LoRA를 프로덕션에 배포하지 마세요:

Phase 1: 기술적 검증 (1-2시간)

다양한 LoRA 강도(0.6, 0.8, 1.0)에서 20개 테스트 출력 생성
예상 사용 사례를 다루는 다양한 프롬프트로 테스트
명백한 아티팩트, 오류 또는 품질 문제가 없는지 확인
VRAM 사용량 및 생성 속도가 허용 가능한지 확인

Phase 2: 품질 평가 (2-4시간)

프로덕션과 유사한 프롬프트로 50-100개 출력 생성
일관성, 스타일 준수, 프롬프트 유연성 평가
기본 모델 출력 및 이전 LoRA 버전과 비교
엣지 케이스 또는 실패 모드 식별

Phase 3: 프로덕션 시험 (1-2일)

제한된 프로덕션 용량으로 사용(워크로드의 10-20%)
최종 사용자 또는 클라이언트로부터 피드백 수집
제어된 테스트에서 포착되지 않은 문제 모니터링
프로덕션 조건에서 성능 확인

세 단계를 모두 통과한 후에만 LoRA를 "프로덕션 준비 완료"로 표시하고 모든 워크로드에 사용해야 합니다.

롤백 절차:

새 버전을 배포한 후에도 이전 버전 LoRA를 유지합니다. 문제가 발생하면:

즉시 이전 안정 버전으로 되돌리기
새 버전의 문제 문서화
문제를 보여주는 비교 예제 생성
문제가 재훈련 또는 단순히 매개변수 조정이 필요한지 결정
다시 배포를 시도하기 전에 수정 및 재테스트

빠른 롤백 기능(이전 버전을 액세스 가능하게 유지)은 새 버전에 예기치 않은 문제가 있을 때 프로덕션 중단을 방지합니다.

다중 사용자 팀 배포:

커스텀 WAN 모델을 사용하는 팀의 경우:

중앙 집중식 모델 리포지토리:

프로덕션 모델을 공유 네트워크 위치 또는 클라우드 스토리지에 저장
현재 프로덕션 버전에 대한 단일 진실 소스
팀원이 오래된 또는 사용 중단된 모델을 사용하는 것을 방지

모델 업데이트 알림:

새 모델 버전이 배포되면 팀에 알림
변경 로그 및 필요한 워크플로우 변경 포함
개선을 보여주는 예제 출력 제공

액세스 제어:

Training role: 새 모델을 생성하고 테스트할 수 있음
Production role: 프로덕션 승인 모델만 사용할 수 있음
Admin role: 프로덕션 배포를 위한 모델을 승인할 수 있음

전문적인 배포를 위해 Apatero.com은 훈련된 모델이 버전 제어되고 팀에서 액세스 가능하며 액세스 권한으로 배포 가능한 관리형 커스텀 모델 배포를 제공하여 수동 모델 파일 관리를 제거합니다.

성능 모니터링:

프로덕션 커스텀 모델에 대해 다음 메트릭을 추적:

Consistency score: 출력 일관성의 수동 평가(1-10점 평가)
Generation speed: 기본 모델 대비 성능 저하
Prompt flexibility: 모델이 예기치 않은 프롬프트를 우아하게 처리할 수 있는지
User satisfaction: 최종 사용자 또는 클라이언트의 피드백
Error rate: 생성이 실패하거나 사용할 수 없는 출력을 생성하는 빈도

이러한 메트릭의 월별 검토는 재훈련 또는 교체가 필요한 모델을 식별합니다.

트레이닝 문제 해결

WAN 트레이닝은 특정 방식으로 실패합니다. 문제를 조기에 인식하고 해결 방법을 아는 것은 시간과 컴퓨팅 비용을 절약합니다.

문제: 트레이닝 loss가 감소하지 않음

Loss가 평평하게 유지되거나 트레이닝 중 증가하여 학습이 없음을 나타냅니다.

일반적인 원인 및 수정:

Learning rate가 너무 낮음: LR을 5e-5에서 1e-4 또는 2e-4로 증가
Frozen layers: config에서 모든 훈련 가능한 레이어가 unfrozen되었는지 확인
데이터셋이 너무 작음: LoRA 트레이닝에 최소 100-150 샘플 필요
손상된 기본 모델: wan2.2_dit.safetensors 재다운로드
잘못된 캡션 형식: 캡션이 일반 텍스트이고 비어 있지 않은지 확인

문제: 트레이닝 loss가 감소한 후 갑자기 급증

Loss가 잠시 정상적으로 감소한 후 극적으로 증가하고 회복되지 않습니다.

이것은 learning rate가 너무 높거나 gradient explosion을 나타냅니다.

수정:

Learning rate 50% 감소 (2e-4 → 1e-4)
Gradient clipping 활성화 (clip norm 1.0)
Batch size 감소 batch size 2+ 사용하는 경우
손상된 트레이닝 샘플 확인 (하나의 나쁜 샘플이 급증을 일으킬 수 있음)

문제: 모델이 트레이닝 데이터에 과적합

트레이닝 데이터 콘텐츠에는 출력이 훌륭해 보이지만 새 프롬프트에는 완전히 실패합니다.

과적합 지표:

트레이닝 loss가 매우 낮음(0.01 미만)이지만 validation loss가 높음
출력이 특정 트레이닝 샘플을 거의 정확하게 재생성
새 프롬프트가 아티팩트를 생성하거나 프롬프트 콘텐츠를 무시

수정:

Network dimension 감소 (128 → 64 또는 64 → 32)
트레이닝 epochs 감소 (트레이닝을 더 일찍 중단)
데이터셋 크기 증가 (더 다양한 샘플 추가)
정규화 증가 (트레이닝 프레임워크가 dropout/weight decay를 지원하는 경우)
추론 중 더 낮은 LoRA 강도 사용 (1.0 대신 0.6-0.7)

문제: 트레이닝 중 CUDA out of memory

OOM 오류로 트레이닝 실패.

우선순위별 수정:

Gradient checkpointing 활성화 (30% VRAM 감소)
Mixed precision (fp16) 활성화 (50% VRAM 감소)
Batch size를 1로 감소
해상도 감소 (768 → 512)
Network dimension 감소 (96 → 64)
Gradient accumulation steps 감소 사용하는 경우

모든 최적화를 해도 OOM이 발생하면 GPU에 목표 해상도에서 WAN 트레이닝을 위한 충분한 VRAM이 없습니다.

문제: 트레이닝이 매우 느림

트레이닝이 예상 시간보다 2-3배 더 오래 걸립니다.

원인:

XFormers가 활성화되지 않음: 40% 속도 향상을 위해 활성화
CPU 병목: CPU 사용량 확인, 디스크에서 느린 데이터 로딩
HDD 대신 SSD 사용: 데이터셋을 SSD로 이동(3-5배 빠른 데이터 로딩)
GPU가 완전히 활용되지 않음: GPU 사용률 확인(95-100%여야 함)
다른 프로세스가 GPU 소비: 브라우저, 다른 AI 도구 종료

문제: 출력 품질이 기본 모델보다 나쁨

커스텀 LoRA가 LoRA 없는 기본 WAN 2.2보다 낮은 품질 출력을 생성합니다.

이것은 트레이닝이 기본 모델 기능을 손상시켰음을 나타냅니다.

원인:

Learning rate가 너무 높음: 모델이 과훈련됨, 5e-5 또는 8e-5로 감소
너무 많은 epochs: 너무 늦게 중단, 더 일찍 체크포인트 사용
데이터셋 크기에 비해 network dimension이 너무 높음: Dimension 감소
트레이닝 데이터 품질 문제: 낮은 품질 트레이닝 데이터가 낮은 품질 출력을 가르침

예방: 품질이 저하되기 전 최적 중단점을 찾기 위해 트레이닝 중 여러 체크포인트 테스트.

문제: LoRA가 가시적인 효과가 없음

ComfyUI에서 훈련된 LoRA를 로드하면 기본 모델과 동일한 출력을 생성합니다.

원인:

LoRA 강도가 0으로 설정됨: 0.8-1.0으로 증가
LoRA가 기본 모델 버전과 호환되지 않음: 올바른 기본 모델로 재훈련
트레이닝이 제대로 저장되지 않음: LoRA 파일 크기 확인(200-800MB여야 함)
트레이닝 steps가 너무 적음: 모델이 충분히 오래 훈련되지 않음, epochs 증가
Learning rate가 너무 낮음: 모델이 거의 아무것도 학습하지 못함, LR 증가 후 재훈련

최종 생각

WAN 2.2 미세 조정은 모델을 범용 비디오 생성에서 프로덕션 요구사항에 정확히 맞는 전문 도구로 변환합니다. 데이터셋 준비, 트레이닝 시간 및 하이퍼파라미터 튜닝에 대한 투자는 일관된 캐릭터, 특정 스타일 또는 도메인 전문 콘텐츠가 필요한 수십 또는 수백 번의 후속 생성에서 배당금을 지불합니다.

성공적인 WAN 트레이닝의 핵심은 데이터셋의 양보다 질입니다. 정확한 캡션이 있는 200개의 신중하게 선택된 고품질 트레이닝 샘플이 잘못된 주석이 있는 1000개의 혼합 품질 샘플보다 더 나은 결과를 생성합니다. 데이터셋 큐레이션에 시간을 투자하면 트레이닝이 간단해집니다.

대부분의 사용 사례에서 24GB GPU에서 LoRA 트레이닝은 리소스 요구사항, 트레이닝 시간 및 출력 품질의 최적 균형을 제공합니다. 전체 미세 조정은 극단적인 전문화가 필요하지 않는 한 3-4배 높은 컴퓨팅 비용을 정당화하는 경우가 거의 없습니다.

이 가이드의 워크플로우는 인프라 설정부터 프로덕션 배포까지 모든 것을 다룹니다. 더 큰 프로덕션 트레이닝 실행에 투자하기 전에 전체 프로세스를 이해하기 위해 작은 테스트 프로젝트(100-150 트레이닝 샘플, 6-8시간 트레이닝 시간)로 시작하세요. 성공적인 트레이닝 사이클을 한 번 완료하면 후속 프로젝트는 일상이 됩니다.

로컬로 훈련하든 모든 인프라, 모니터링 및 배포를 자동으로 처리하는 Apatero.com에서 관리형 트레이닝을 사용하든, 커스텀 WAN 모델은 비디오 생성을 일반 AI 출력에서 특정 클라이언트 요구사항을 충족하는 브랜드화되고 일관되며 전문적인 콘텐츠로 끌어올립니다. 그 능력은 AI 비디오 생성이 실험적에서 프로덕션 수준 애플리케이션으로 이동함에 따라 점점 더 필수적입니다.