Flux LoRA Training in ComfyUI: Zero to Hero Guide 2025
Complete Flux LoRA training tutorial for ComfyUI. Learn dataset preparation, training settings for faces and styles, 12GB VRAM workflows, and professional optimization techniques from scratch.

다른 사람들의 LoRA 모델을 사용해서 Flux로 이미지를 생성하며 괜찮은 결과를 얻고 계셨을 것입니다. 하지만 존재하지 않는 특정한 무언가가 필요합니다. 특정 예술 스타일, 마케팅하는 제품, 게임을 위한 캐릭터 디자인 등. Civitai와 Hugging Face를 검색해도 정확히 필요한 것을 찾을 수 없습니다.
자신만의 Flux LoRA를 학습시키면 이 문제가 영구적으로 해결됩니다. 사전 학습된 모델이 제공하지 않는 정확한 스타일, 특정 피사체 또는 독특한 컨셉을 생성하는 커스텀 모델을 만들 수 있습니다. 더 좋은 점은 Flux LoRA 학습이 소비자용 하드웨어에서 작동한다는 것입니다. 이 가이드가 가르치는 기술을 이해하면 12GB GPU로도 전문가 수준의 결과를 얻을 수 있습니다.
- Flux 아키텍처 이해와 SDXL LoRA 학습과의 차이점
- ComfyUI 워크플로우에서 Flux 학습을 위한 Kohya_ss 설정
- 전문적인 데이터셋 준비 및 캡션 작성 기술
- 얼굴, 객체, 예술 스타일을 위한 최적의 학습 매개변수
- 12GB VRAM 최적화 전략 및 메모리 관리
- 고급 품질 관리 및 과적합 방지
- ComfyUI 통합 및 테스트 워크플로우
Flux LoRA 학습이 SDXL과 다른 이유
실제 학습에 뛰어들기 전에 Flux의 아키텍처 차이점을 이해해야 합니다. 이 지식은 좌절스러운 실수와 낭비되는 학습 시간을 방지합니다.
Flux의 독특한 아키텍처
Flux는 SDXL 및 SD1.5 모델과 비교하여 다른 transformer 아키텍처를 사용합니다. Black Forest Labs의 연구에 따르면, Flux는 전통적인 diffusion 대신 flow-matching을 사용하고, 병렬 attention layer와 다른 text encoder 구성을 채택했습니다.
무료 ComfyUI 워크플로우
이 글의 기술에 대한 무료 오픈소스 ComfyUI 워크플로우를 찾아보세요. 오픈소스는 강력합니다.
이러한 아키텍처 변경은 SDXL LoRA에서 훌륭하게 작동하는 학습 매개변수가 Flux에서는 종종 좋지 않은 결과를 생성한다는 것을 의미합니다. learning rate는 조정이 필요합니다. network dimension은 재고려가 필요합니다. 학습 시간이 극적으로 변경됩니다.
주요 아키텍처 차이점:
Feature | SDXL | Flux | Training Impact |
---|---|---|---|
Base Architecture | Diffusion UNet | Flow Matching Transformer | Different loss curves |
Attention Mechanism | Cross-attention | Parallel attention | Network rank requirements |
Text Encoder | CLIP L+G | T5-XXL | Caption strategy changes |
Parameter Count | 2.6B | 12B | VRAM requirements |
Training Convergence | Moderate | Fast | Reduced training time |
Flux는 더 큰 크기에도 불구하고 SDXL보다 빠르게 학습됩니다. 왜냐하면 flow-matching이 diffusion 학습보다 더 효율적으로 수렴하기 때문입니다. SDXL의 일반적인 3000-5000 step 대신 500-1000 step에서 사용 가능한 결과를 얻을 수 있습니다.
학습 리소스 요구사항 비교
SDXL LoRA 학습:
- 12GB VRAM (빡빡하지만 관리 가능)
- 3-6시간의 일반적인 학습 시간
- 16-32 network rank 표준
- 20-50개의 학습 이미지 일반적인 데이터셋
Flux LoRA 학습:
- 12GB VRAM (최적화 필요)
- 2-4시간의 일반적인 학습 시간
- 32-64 network rank 권장
- 15-40개의 학습 이미지로 충분
Flux는 품질 결과를 위해 더 높은 network rank가 필요하지만 전반적으로 더 빠르게 학습됩니다. 더 큰 모델이 복잡한 컨셉을 더 쉽게 포착하므로 적절히 준비된 경우 더 작은 데이터셋으로도 잘 작동합니다. 일반적인 AI 학습 접근 방식은 DreamBooth vs LoRA 방법과 비교해보세요.
학습 도구 설치 및 구성
Flux 학습을 위한 Kohya_ss 설치
Kohya_ss는 포괄적인 매개변수 제어와 최적화 옵션을 제공하여 Flux LoRA 학습의 표준으로 남아 있습니다.
설치 프로세스:
- 터미널을 열고 학습 도구를 위한 디렉토리로 이동
- git clone https://github.com/kohya-ss/sd-scripts로 Kohya 저장소 클론
- sd-scripts 디렉토리로 이동
- python -m venv venv로 Python 가상 환경 생성
- 환경 활성화 (Linux/Mac에서 source venv/bin/activate, Windows에서 venv\Scripts\activate)
- pip install -r requirements.txt로 요구사항 설치
- pip install accelerate safetensors omegaconf로 Flux 전용 종속성 설치
python -c "import kohya_ss; print('Success')"를 실행하여 오류 없이 설치를 확인하세요.
대안: LoRA 학습 GUI
명령줄 학습이 부담스럽다면 Flux를 지원하는 몇 가지 GUI 옵션이 있습니다:
- Kohya GUI: Kohya 스크립트를 위한 사용자 친화적 인터페이스
- AI-Toolkit: 사전 설정 구성으로 간소화된 학습
- OneTrainer: 여러 아키텍처를 지원하는 올인원 학습 솔루션
이러한 도구는 내부적으로 Kohya 스크립트를 사용하지만 시각적 구성을 제공합니다. 결과는 동일하므로 명령줄 인터페이스에 대한 편안함 수준에 따라 선택하세요.
Flux Base 모델 다운로드
LoRA 학습은 커스텀 학습의 기반으로 base Flux 모델이 필요합니다.
Flux 모델 변형:
Flux.1-Dev (학습에 권장):
- Black Forest Labs의 Hugging Face에서 다운로드
- ComfyUI/models/checkpoints/에 배치
- 크기는 약 23.8GB
- 품질과 학습 호환성의 최고 균형
- 비상업적 사용은 무료
Flux.1-Schnell (더 빠른 대안):
- 품질보다 속도에 최적화
- 더 작은 파일 크기 (22.1GB)
- 더 빠른 학습이지만 잠재적으로 낮은 품질 결과
- 본격적인 학습 전에 워크플로우 테스트를 위해 고려
이 가이드에서는 Flux.1-Dev만 다운로드하세요. Schnell은 빠른 테스트에는 작동하지만 Dev는 진지한 프로젝트를 위해 우수한 결과를 생성합니다. 모델 관리가 지루하게 느껴진다면, Apatero.com은 대용량 모델 파일 다운로드 없이 Flux 생성에 즉시 액세스할 수 있습니다.
학습 환경 구성
디렉토리 구조 설정:
효율적인 학습 워크플로우를 위한 조직화된 디렉토리 생성:
- flux_training/
- datasets/ (학습 이미지 세트)
- outputs/ (학습된 LoRA 파일)
- config/ (학습 구성 파일)
- logs/ (학습 진행 로그)
환경 변수:
터미널에서 이것들을 설정하거나 shell 구성에 추가:
- HF_HOME을 Hugging Face 캐시 디렉토리로 지정
- PYTORCH_CUDA_ALLOC_CONF를 max_split_size_mb 512로 설정하여 메모리 최적화
- CUDA_VISIBLE_DEVICES를 GPU 번호로 설정 (단일 GPU의 경우 0)
이러한 설정은 정확히 12GB VRAM이 있는 시스템에서 학습 충돌을 일으키는 메모리 단편화 문제를 방지합니다.
Flux LoRA를 위한 데이터셋 준비
데이터셋 품질이 최종 LoRA 품질의 80%를 결정합니다. 적절한 준비가 완벽한 학습 매개변수보다 더 중요합니다.
이미지 수집 가이드라인
얼굴 및 캐릭터 학습:
- 최소 15-25개의 고해상도 이미지
- 여러 각도 (정면, 3/4, 프로필, 다양한 시점)
- 다양한 표정 (중립, 미소, 진지함, 다양한 감정)
- 다른 조명 조건 (자연광, 스튜디오, 드라마틱, 부드러움)
- 과적합 방지를 위한 다양한 배경
- 극적인 외관 변화 없이 일관된 피사체
예술 스타일 학습:
- 스타일을 포괄적으로 나타내는 25-40개의 이미지
- 스타일 내 다양한 피사체 (모든 초상화나 모든 풍경이 아님)
- 이미지 전체에서 일관된 예술적 기법
- 고품질 스캔 또는 작품 사진
- 모델에 학습될 수 있는 워터마크 및 서명 제거
제품 또는 객체 학습:
- 여러 각도에서 15-30개의 이미지
- 형태와 질감을 보여주는 다양한 조명 설정
- 다른 맥락과 배경
- 다른 객체와의 스케일 참조 포함
- 이미지 전체에서 일관된 제품 정체성
이미지 요구사항 및 전처리
기술 요구사항:
- 최소 해상도 512x512 (Flux의 경우 1024x1024 권장)
- JPG 또는 PNG 형식 (품질을 위해 PNG 선호)
- 극단적인 압축 아티팩트 없음
- 데이터셋 내에서 일관된 종횡비
- 번아웃 하이라이트나 찌그러진 그림자 없이 잘 노출된 이미지
전처리 단계:
해상도 표준화:
- 모든 이미지를 일관된 해상도 버킷으로 크기 조정
- Flux는 여러 종횡비를 처리하지만 일관성은 학습에 도움
- 1024x1024를 기준으로, 768x768에서 1536x1536 범위 허용
품질 향상:
- 품질 업스케일러를 사용하여 저해상도 이미지 업스케일
- 사진 편집 소프트웨어에서 노출 문제 수정
- 가능한 경우 명백한 압축 아티팩트 제거
- 주요 피사체 외부의 산만한 요소를 제거하기 위해 자르기
증강 고려사항:
- Flux는 SDXL보다 적은 증강이 필요
- 대칭 피사체에 대해서만 수평으로 뒤집기
- 피사체 정체성을 변경하는 공격적인 증강 피하기
- 학습 프로세스가 변형 생성을 처리하도록 하기
전처리 도구:
- BIRME: 여러 해상도로 일괄 크기 조정
- XnConvert: 일괄 형식 변환 및 기본 조정
- Real-ESRGAN: 저해상도 이미지 업스케일링
- PhotoPea (웹 기반) 또는 GIMP: 개별 이미지 수정
전문적인 캡션 작성 전략
Flux의 T5-XXL text encoder는 정교한 자연어 이해를 가능하게 하여 학습 성공을 위한 캡션 품질을 중요하게 만듭니다.
캡션 작성 접근법:
상세한 자연어 (권장): 피사체, 스타일, 맥락 및 중요한 세부 사항을 포착하는 완전한 문장 설명을 작성합니다.
예시: "A professional photograph of a young woman with shoulder-length brown hair, wearing a blue sweater, smiling warmly at the camera in natural daylight with a blurred outdoor background"
구조화된 태그 (대안): 논리적 순서로 쉼표로 구분된 설명 태그를 사용합니다.
예시: "woman, 25 years old, brown hair, blue sweater, genuine smile, outdoor portrait, natural lighting, shallow depth of field, professional photography"
수동 vs 자동 캡션 작성:
수동 캡션 작성 (최고 품질):
- 각 이미지에 대해 직접 설명 작성
- 자동 도구가 놓치는 뉘앙스 포착
- 시간 집약적 (이미지당 5-10분)
- 작은 데이터셋 (20개 이미지 미만)에 가치 있음
- 일관성과 정확성 보장
검토가 포함된 자동 캡션 작성:
- 초기 캡션을 위해 BLIP, WD14 Tagger 또는 GPT-Vision 사용
- 각 생성된 캡션을 검토하고 편집
- 오류 수정 및 누락된 세부 정보 추가
- 더 큰 데이터셋 (30개 이상 이미지)을 위한 가장 빠른 접근법
- 속도와 품질의 균형
Flux 학습을 위한 캡션 형식: 이미지와 동일한 이름의 .txt 파일로 캡션을 저장:
- image001.jpg → image001.txt
- portrait_front.png → portrait_front.txt
- 캡션 파일을 이미지와 동일한 디렉토리에 배치
트리거 단어 전략:
학습된 컨셉을 활성화하기 위해 모든 캡션에 고유한 트리거 단어를 포함합니다.
흔하지 않지만 기억하기 쉬운 것을 선택:
- 얼굴/캐릭터는 "ohwx person" 또는 "sks person" 사용
- 스타일은 "artwork in [stylename] style" 사용
- 객체는 "[uniquename] product" 사용
트리거가 포함된 캡션 예시: "A portrait of ohwx person wearing formal attire, professional headshot with studio lighting and neutral gray background"
트리거 단어는 모든 생성에 적용되지 않고 LoRA를 정확하게 활성화할 수 있게 합니다. checkpoint 병합에도 관심이 있다면 ComfyUI checkpoint 병합 가이드를 참조하세요.
다양한 사용 사례를 위한 최적의 학습 매개변수
학습 매개변수는 결과에 극적으로 영향을 미칩니다. 이 입증된 구성은 특정 사용 사례에 작동합니다.
얼굴 및 캐릭터 학습 매개변수
얼굴 학습은 정체성 보존과 생성 유연성의 균형이 필요합니다.
입증된 얼굴 학습 구성:
Parameter | Value | Reasoning |
---|---|---|
Network Dimension (Rank) | 64 | Captures facial detail complexity |
Network Alpha | 32 | Half of rank prevents overfitting |
Learning Rate | 1e-4 | Conservative for stable identity learning |
Text Encoder LR | 5e-5 | Lower rate preserves base model concept understanding |
Training Steps | 800-1200 | Convergence without memorization |
Batch Size | 1 | Maximum quality on 12GB VRAM |
Epochs | 8-12 | Multiple passes reinforce identity |
Optimizer | AdamW8bit | Memory efficient, stable |
LR Scheduler | Cosine with warmup | Smooth convergence |
이러한 설정이 작동하는 이유:
Rank 64는 과적합을 일으키는 과도한 매개변수 없이 자세한 얼굴 특징, 표정 및 일관된 정체성을 위한 충분한 용량을 제공합니다. 보수적인 learning rate는 특정 얼굴을 학습하는 동안 모델이 일반적인 이미지 생성 능력을 잃는 catastrophic forgetting을 방지합니다.
낮은 비율의 text encoder 학습은 균형을 유지합니다. base Flux 모델은 일반적으로 얼굴을 이해합니다. 당신은 특정 얼굴을 가르치는 것이지 얼굴이 무엇인지 다시 배우는 것이 아닙니다. 낮은 text encoder LR은 그 근본적인 이해를 보존합니다.
예술 스타일 학습 매개변수
스타일 학습은 특정 피사체보다는 더 넓은 패턴과 예술적 기법을 강조합니다.
입증된 스타일 학습 구성:
Parameter | Value | Reasoning |
---|---|---|
Network Dimension (Rank) | 32 | Style patterns need less capacity |
Network Alpha | 16 | Prevents style bleeding |
Learning Rate | 8e-5 | Moderate rate for pattern learning |
Text Encoder LR | 4e-5 | Helps associate text with style |
Training Steps | 1500-2500 | Longer training captures style consistency |
Batch Size | 2 | Increased batch helps style generalization |
Epochs | 15-25 | Multiple epochs reinforce style patterns |
Optimizer | Lion | Often superior for style training |
LR Scheduler | Cosine | Smooth style application |
스타일 학습 고려사항:
예술 스타일은 얼굴 학습과 다른 접근이 필요합니다. 다양한 피사체에 걸쳐 예술적 기법, 색상 팔레트, 붓놀림 패턴 및 구성 접근법의 일관된 적용을 가르치고 있습니다.
낮은 rank (32)는 학습 이미지의 특정 피사체에 과적합하는 것을 방지합니다. 목표는 특정 이미지를 암기하는 것이 아니라 스타일 적용을 배우는 것입니다. 학습 이미지를 복제하는 것이 아니라 인상주의 붓놀림을 모든 피사체에 적용하기를 원합니다.
적당한 learning rate와 더 높은 epoch 수는 개별 학습 이미지의 암기를 방지하면서 스타일 패턴을 추출할 시간을 모델에 제공합니다.
제품 및 객체 학습 매개변수
상업적 응용을 위한 특정 제품이나 객체를 학습하는 것은 세부 사항 보존과 유연성이 필요합니다.
입증된 객체 학습 구성:
복잡함을 건너뛰고 싶으신가요? Apatero 는 기술적 설정 없이 즉시 전문 AI 결과를 제공합니다.
Parameter | Value | Reasoning |
---|---|---|
Network Dimension (Rank) | 48 | Balance of detail and flexibility |
Network Alpha | 24 | Moderate regularization |
Learning Rate | 1.2e-4 | Slightly higher for object features |
Text Encoder LR | 6e-5 | Helps text association |
Training Steps | 1000-1500 | Object recognition sweet spot |
Batch Size | 1-2 | Memory dependent |
Epochs | 10-15 | Sufficient for object identity |
Optimizer | AdamW8bit | Reliable for object training |
LR Scheduler | Cosine with warmup | Stable convergence |
객체 학습 전략:
제품은 다른 맥락, 각도 및 조명에 대해 유연하게 유지하면서 인식 가능한 정체성이 필요합니다. Rank 48은 그 균형을 제공합니다.
얼굴 학습에 비해 약간 높은 learning rate는 모델이 구별되는 객체 특징을 빠르게 학습하는 데 도움이 됩니다. 객체는 일반적으로 미묘한 얼굴 정체성 차이보다 더 명확한 정의 특성을 가지고 있습니다.
다양한 각도와 맥락을 보여주는 더 많은 학습 이미지는 제품 사진에서 흔한 특정 관점이나 배경에 과적합하는 것을 방지합니다.
12GB VRAM 최적화 전략
정확히 12GB VRAM에서 Flux LoRA를 학습하는 것은 신중한 최적화가 필요합니다. 이러한 기술은 소비자 GPU에서 전문적인 학습을 가능하게 합니다.
필수 메모리 최적화 설정
Gradient Checkpointing: 학습 구성에서 이것을 활성화하여 계산 시간을 메모리 사용으로 교환합니다. ~15% 속도 페널티로 VRAM 소비를 30-40% 줄입니다. 12GB 카드에서 가치가 있습니다.
Mixed Precision Training: 메모리 효율성과 학습 안정성을 위해 bf16 (bfloat16) mixed precision을 사용합니다. Flux는 네이티브로 bf16으로 학습되어 LoRA 학습에도 이상적입니다.
8-bit Optimizer: 표준 AdamW optimizer 대신 AdamW8bit을 사용합니다. 최소한의 품질 영향으로 2-3GB VRAM을 절약합니다. 12GB 학습에 필수적입니다.
Reduced Batch Size: Batch size 1은 12GB 학습의 표준입니다. 더 큰 배치가 이론적으로 학습을 개선하지만 메모리 제약으로 batch size 1이 필요하며 여전히 우수한 결과를 생성합니다.
고급 메모리 관리
Model Offloading: 특정 학습 단계 동안 비활성 학습 구성 요소를 시스템 RAM으로 이동하도록 공격적인 모델 offloading을 구성합니다. 빠른 시스템 RAM (32GB+ 권장)이 필요하지만 VRAM만으로는 맞지 않는 학습을 가능하게 합니다.
Gradient Accumulation: batch size 1에서 학습 품질이 저하되면 gradient accumulation을 사용합니다. 업데이트를 적용하기 전에 여러 단계에 걸쳐 gradient를 축적하여 증가된 VRAM 없이 더 큰 유효 batch size를 시뮬레이션합니다.
12GB VRAM으로 유효 batch size 4를 위한 구성 예:
- 실제 batch size를 1로 설정
- Gradient accumulation step을 4로 설정
- 축적된 gradient를 사용하여 4번째 step마다 모델 업데이트
Cache Latents: 학습이 시작되기 전에 학습 이미지에서 VAE latent를 미리 계산합니다. 캐싱은 학습 중 반복되는 VAE 인코딩을 제거하여 상당한 VRAM을 절약하고 학습 속도를 20-30% 향상시킵니다.
Resolution Optimization:
Training Resolution | VRAM Usage | Quality | Speed |
---|---|---|---|
768x768 | 9-10GB | Good | 1.5x faster |
1024x1024 | 11-12GB | Excellent | Baseline |
1280x1280 | 14-16GB | Maximum | 0.7x slower |
12GB 카드에서 표준 품질 결과를 위해 1024x1024에서 학습합니다. 다른 최적화에도 불구하고 메모리 부족 오류가 발생하는 경우에만 해상도를 줄이세요.
메모리 모니터링 및 문제 해결
실시간 모니터링: 학습 중 VRAM 사용을 감시하기 위해 nvidia-smi 또는 gpustat을 사용합니다. 사용량이 12GB 한계에 가까워지면 충돌하기 전에 학습을 중지하고 매개변수를 조정합니다.
일반적인 OOM (Out of Memory) 수정:
- network rank를 64에서 48 또는 32로 줄이기
- 아직 활성화되지 않은 경우 gradient checkpointing 활성화
- 학습 해상도를 일시적으로 768x768로 낮추기
- 캡션 길이 줄이기 (매우 긴 캡션은 메모리 증가)
- GPU를 사용하는 다른 모든 응용 프로그램 닫기
학습 충돌에서 복구: 학습이 중간에 충돌하면 Kohya는 자동으로 checkpoint를 저장합니다. 처음부터 시작하는 대신 마지막으로 저장된 checkpoint에서 학습을 재개합니다. checkpoint 저장을 비활성화하지 않는 한 진행 상황이 손실되지 않습니다.
메모리 관리를 완전히 피하고 싶은 사용자는 Apatero.com이 모든 학습 인프라를 처리한다는 것을 기억하세요. 데이터셋을 업로드하면 VRAM 제약이나 최적화 번거로움 없이 학습된 LoRA를 받습니다.
단계별 학습 워크플로우
이제 이론과 구성을 이해했으므로 처음부터 끝까지 첫 번째 Flux LoRA를 학습시켜 보겠습니다.
완전한 학습 프로세스
Step 1: 데이터셋 준비
- 데이터셋 섹션의 가이드라인에 따라 15-25개의 이미지 수집
- 일관된 해상도로 이미지 크기 조정 (1024x1024 권장)
- 트리거 단어를 포함한 각 이미지에 대한 캡션 생성
- flux_training/datasets/your_project_name/에 정리
Step 2: 학습 구성 생성
- Kohya_ss 디렉토리로 이동
- Flux를 위한 예제 구성 파일 복사
- 사용 사례에 대한 입증된 구성에 따라 매개변수 편집
- 데이터셋, 출력 디렉토리 및 base 모델에 대한 경로 지정
- 구성을 your_project_name_config.toml로 저장
Step 3: 학습 시작
- Python 환경 활성화
- python train_network.py --config your_project_name_config.toml로 학습 스크립트 실행
- 구성 오류에 대한 초기 출력 모니터링
- GPU 사용률을 감시하여 학습이 성공적으로 시작되었는지 확인
Step 4: 학습 진행 모니터링
- step에 걸쳐 학습 loss가 감소하는지 확인
- 좋은 학습을 위해 loss는 ~0.15에서 ~0.08로 떨어져야 함
- 품질을 확인하기 위해 200-300 step마다 샘플 이미지 생성
- 과적합 징후를 감시 (loss가 감소를 멈추거나 증가)
Step 5: 학습 결과 평가
- 학습은 몇 백 step마다 자동으로 checkpoint를 저장
- 다양한 프롬프트로 ComfyUI에서 최종 LoRA 테스트
- 트리거 단어가 컨셉을 효과적으로 활성화하는지 확인
- 모델이 학습 이미지를 넘어 일반화하는지 확인
일반적인 학습 타임라인:
- 데이터셋 준비 (얼굴): 1-2시간
- 구성 설정: 15-30분
- 실제 학습 시간: GPU 및 설정에 따라 2-4시간
- 테스트 및 평가: 30분에서 1시간
- 총 프로젝트 시간: 첫 프로젝트의 경우 4-8시간
템플릿이 있고 워크플로우를 이해하면 후속 프로젝트는 더 빨라집니다. 더 많은 ComfyUI 워크플로우 최적화는 필수 ComfyUI 커스텀 노드를 탐색하세요.
샘플 학습 구성 파일
다음은 12GB VRAM에서 얼굴 학습을 위한 완전한 작동 구성입니다:
[model_arguments]
pretrained_model_name_or_path = "path/to/flux.1-dev.safetensors"
vae = "path/to/ae.safetensors"
[dataset_arguments]
train_data_dir = "path/to/your/dataset"
resolution = "1024,1024"
batch_size = 1
enable_bucket = true
[training_arguments]
output_dir = "path/to/output"
max_train_steps = 1000
learning_rate = 1e-4
text_encoder_lr = 5e-5
lr_scheduler = "cosine"
lr_warmup_steps = 100
optimizer_type = "AdamW8bit"
mixed_precision = "bf16"
gradient_checkpointing = true
network_dim = 64
network_alpha = 32
save_every_n_epochs = 2
특정 프로젝트에 맞게 경로와 매개변수를 조정하세요. .toml 파일로 저장하고 학습을 시작할 때 참조하세요.
Flux LoRA 테스트 및 개선
학습이 완료된 후 체계적인 테스트를 통해 품질을 드러내고 개선을 안내합니다.
ComfyUI에서 LoRA 로딩
- 출력 디렉토리에서 학습된 LoRA 파일 복사
- ComfyUI/models/loras/에 배치
- 새 LoRA를 인식하도록 ComfyUI 재시작
- ComfyUI 워크플로우에서 Flux base 모델 로드
- 모델에 연결하는 "Load LoRA" 노드 추가
- 테스트를 위해 LoRA 강도를 0.8-1.0으로 설정
체계적인 품질 테스트
정체성/컨셉 인식 테스트: 다양한 프롬프트로 트리거 단어를 사용하여 10-15개의 이미지를 생성합니다. 학습된 컨셉의 일관된 활성화를 확인합니다. 얼굴 LoRA는 생성 전체에서 같은 사람을 보여야 합니다. 스타일 LoRA는 일관된 예술적 기법을 적용해야 합니다.
일반화 테스트: 학습 데이터에 없는 시나리오를 포함하는 프롬프트를 사용합니다. 캐주얼 사진으로 학습된 얼굴 LoRA는 "ohwx person as a medieval knight" 또는 "ohwx person in business attire"에서도 작동해야 합니다. 스타일 LoRA는 학습 이미지에 없는 피사체에 적용되어야 합니다.
강도 민감도 테스트: 0.4, 0.6, 0.8 및 1.0의 LoRA 강도에서 동일한 프롬프트를 생성합니다. 각 수준에서 컨셉이 얼마나 강하게 적용되는지 관찰합니다. 잘 학습된 LoRA는 전부 아니면 전무 행동보다는 점진적인 강도 스케일링을 보여줍니다.
Negative Prompt 상호작용: negative prompt가 LoRA의 출력을 효과적으로 수정하는지 테스트합니다. "ohwx person, sad expression"은 대부분 미소 짓는 사진으로 학습된 LoRA를 재정의해야 합니다. 제어력 상실은 과적합을 시사합니다.
학습 문제 식별
과적합 증상:
- LoRA가 정확한 학습 이미지만 복제
- 학습 이미지의 배경 요소가 모든 생성에 나타남
- 유연성 및 프롬프트 반응성 상실
- LoRA 강도 1.0에서만 작동, 낮은 강도에서는 작동 안 함
과소적합 증상:
- 트리거 단어가 컨셉을 일관되게 활성화하지 않음
- 학습된 스타일/정체성의 약하거나 일관되지 않은 적용
- base 모델 생성과 거의 다르지 않게 보임
- 눈에 띄는 효과를 위해 1.0 이상의 LoRA 강도가 필요
품질 문제:
- base 모델과 비교하여 아티팩트 또는 시각적 저하
- 색상 변화 또는 스타일 오염
- Flux의 특징적인 디테일 및 품질 손실
- base 모델보다 나쁜 프롬프트 준수
반복적 개선 전략
과적합된 경우:
- 학습 step을 25-30% 줄이기
- learning rate를 20% 낮추기
- 더 많은 정규화를 위해 network alpha 증가
- 데이터셋에 더 다양한 이미지 추가
과소적합된 경우:
- 학습 step을 30-50% 증가
- learning rate를 15-20% 올리기
- 캡션이 컨셉을 적절히 설명하는지 확인
- network rank 증가 고려
품질 문제가 있는 경우:
- 학습 데이터셋에서 손상된 이미지 확인
- base 모델 파일 무결성 확인
- 데이터셋 전체에서 일관된 캡션 작성 보장
- 다른 optimizer 또는 learning rate scheduler 시도
대부분의 문제는 데이터셋 개선이나 매개변수 조정으로 해결됩니다. 학습 프로세스 자체가 결함이 있는 경우는 거의 없습니다. 사용 사례에 적합한 데이터셋 품질과 적절한 매개변수에 집중하세요.
고급 기술 및 전문가 팁
기본 학습에 익숙해지면 이러한 고급 기술은 더 나은 결과를 생성합니다.
다중 컨셉 LoRA 학습
여러 관련 컨셉을 포함하는 단일 LoRA를 학습합니다 (같은 시리즈의 여러 캐릭터, 관련 예술 스타일, 제품 라인 변형).
다중 컨셉 전략:
- 데이터셋 폴더 내에 각 컨셉에 대한 별도의 하위 디렉토리 생성
- 각 컨셉에 대한 캡션에서 다른 트리거 단어 사용
- 이미지 수 균형 (컨셉당 유사한 수는 편향 방지)
- network rank를 약간 증가 (64 대신 80-96 사용)
- 더 오래 학습 (일반적인 step 수의 1.5배)
이것은 다른 컨셉에 대해 다른 트리거 단어로 활성화 가능한 단일 LoRA 파일을 생성합니다. 공통 속성을 공유하는 관련 컨셉에 편리합니다.
Pivotal Tuning 통합
향상된 결과를 위해 text inversion embedding을 LoRA 학습과 결합합니다. embedding은 거친 컨셉 표현을 캡처하고 LoRA는 세부 사항을 개선합니다.
Pivotal Tuning 프로세스:
- 먼저 text inversion embedding 학습 (500-1000 step)
- LoRA 학습 중 캡션에서 embedding 사용
- LoRA 학습이 embedding 기반 위에 구축
- ComfyUI에서 embedding과 LoRA를 함께 배포
이 하이브리드 접근법은 순수 LoRA가 어려워하는 복잡한 컨셉이나 도전적인 피사체에 대해 종종 우수한 결과를 생성합니다.
여러 Checkpoint를 통한 스타일 강도 제어
다양한 스타일 강도 수준을 가진 LoRA를 생성하기 위해 다른 간격으로 학습 checkpoint를 저장합니다.
다중 강도 기술:
- 200-300 step마다 checkpoint 저장 활성화
- 학습 후 다른 학습 단계의 checkpoint 테스트
- 초기 checkpoint (400-600 step)는 미묘한 스타일 영향 적용
- 중간 checkpoint (800-1000 step)는 균형 잡힌 적용 제공
- 후기 checkpoint (1200-1500 step)는 강한 스타일 적용 제공
- 다른 강도 수준을 제공하는 여러 checkpoint 유지
이것은 LoRA weight 슬라이더를 지속적으로 조정할 필요 없이 내장 강도 변형을 제공합니다. 원하는 강도와 일치하는 checkpoint를 선택하세요.
극한 메모리 효율성을 위한 QLoRA
Quantized LoRA (QLoRA)는 4비트 양자화를 통해 더 제한된 하드웨어에서도 학습을 가능하게 합니다.
QLoRA 이점:
- 12GB 요구사항 대신 8-10GB VRAM에서 학습
- 약간 더 긴 학습 시간 (20-30% 느림)
- 전체 정밀도 학습의 90-95% 품질
- 예산 하드웨어를 가진 더 많은 사용자에게 학습 개방
QLoRA는 제한된 VRAM에서 절대적으로 학습해야 하거나 전체 정밀도로 맞지 않을 더 높은 rank (128+)를 학습하려는 경우 의미가 있습니다. 대부분의 사용자에게는 12GB 카드의 표준 bf16 mixed precision이 최적의 균형을 제공합니다. 일반적인 low VRAM ComfyUI 최적화 학습은 완전한 가이드를 확인하세요.
일반적인 학습 문제 해결
적절한 설정으로도 특정 문제가 발생할 것입니다. 이러한 솔루션은 가장 일반적인 문제를 해결합니다.
학습이 시작되지 않거나 즉시 충돌
증상: 학습 스크립트가 즉시 오류를 발생시키거나 처음 몇 step 내에 충돌합니다.
솔루션:
- 구성의 모든 파일 경로가 정확하고 절대 경로인지 확인 (상대 경로 아님)
- CUDA 설치 및 GPU 드라이버가 최신인지 확인
- base Flux 모델 파일이 손상되지 않았는지 확인 (필요한 경우 재다운로드)
- 모든 필수 Python 패키지가 올바르게 설치되었는지 확인
- 학습 명령에서 --lowvram 플래그로 실행 시도
- 데이터셋에 최소 필요한 이미지가 포함되어 있는지 확인
여전히 작동하지 않음: 자세한 오류 메시지를 얻기 위해 --debug 플래그로 학습을 실행합니다. Kohya_ss GitHub 이슈에서 정확한 오류 메시지를 검색하세요. 커뮤니티가 특정 문제를 해결했을 가능성이 높습니다.
Loss가 감소하지 않거나 불규칙한 Loss 곡선
증상: 학습 loss가 학습 전체에서 높게 유지되거나 (0.12 이상) step 간에 심하게 튑니다.
솔루션:
- learning rate를 30-50% 낮추기 (1e-4 대신 5e-5 시도)
- learning rate warmup step을 총 step의 10%로 증가
- 데이터셋에서 손상된 이미지 확인 (제거 및 재테스트)
- 캡션이 실제로 이미지 내용을 정확하게 설명하는지 확인
- 다른 optimizer 시도 (AdamW8bit과 Lion 간 전환)
불규칙한 loss는 종종 learning rate가 너무 높거나 데이터셋 품질 문제를 나타냅니다. 부드럽고 점진적으로 감소하는 loss 곡선이 목표입니다.
LoRA가 아티팩트를 생성하거나 품질을 저하
증상: LoRA로 생성된 이미지가 시각적 아티팩트, 흐림 또는 base Flux 모델만 사용할 때보다 나쁜 품질을 보입니다.
솔루션:
- network rank 줄이기 (64 대신 32 시도)
- 과도한 학습을 방지하기 위해 learning rate 낮추기
- 학습 데이터셋에서 이미지 해상도 불일치 확인
- base 모델 파일이 올바른 Flux.1-Dev 버전인지 확인
- 낮은 LoRA 강도 (0.8 미만)에서 문제가 나타나는지 테스트
품질 저하는 일반적으로 너무 공격적인 학습 매개변수 또는 불량한 데이터셋 품질을 의미합니다. 보수적인 학습은 이 문제를 방지합니다.
트리거 단어가 컨셉을 안정적으로 활성화하지 않음
증상: 프롬프트에서 트리거 단어를 사용해도 학습된 컨셉을 일관되게 활성화하지 않습니다. 때로는 작동하고 때로는 작동하지 않습니다.
솔루션:
- 모든 학습 이미지 캡션에 트리거 단어가 나타나는지 확인
- 트리거 단어가 모델이 이미 알고 있는 일반적인 구문이 아닌지 확인
- 테스트 중 프롬프트의 시작 부분에 트리거 단어 배치
- LoRA 강도를 1.0 이상으로 증가
- 더 오래 학습 (step을 30-50% 증가)
- 더 독특한 트리거 단어 사용 고려
일관되지 않은 활성화는 과소 학습 또는 잘못된 트리거 단어 선택을 시사합니다. 단어는 모델이 컨셉과 강하게 연관시킬 수 있을 만큼 충분히 독특해야 합니다.
실제 응용 프로그램 및 사례 연구
실제 응용 프로그램을 이해하면 Flux LoRA 학습이 실제 문제를 어떻게 해결하는지 알 수 있습니다.
콘텐츠 제작자 캐릭터 일관성
문제: YouTube 제작자가 모든 변형에 대해 일러스트레이터를 고용하지 않고 비디오 썸네일 및 채널 아트를 위한 일관된 캐릭터 일러스트를 원합니다.
솔루션:
- 마스코트의 20개 커미션 일러스트를 사용하여 캐릭터 LoRA 학습
- 여러 포즈, 표정 및 맥락 포함
- Network rank 64, 1000 학습 step
- 결과는 주문형 브랜드 캐릭터 아트 생성
- 일러스트 커미션으로 연간 10,000달러 이상 절약
주요 성공 요인: 전문 일러스트레이터의 고품질 학습 이미지는 깨끗하고 일관된 스타일을 보장합니다. 포괄적인 캡션 설명은 LoRA가 특정 포즈나 표정을 적용할 시기와 유연한 해석을 이해하는 데 도움이 됩니다.
전자상거래 제품 사진
문제: 소규모 비즈니스는 다양한 설정과 스타일의 제품 사진이 필요하지만 광범위한 사진 촬영 예산이 부족합니다.
솔루션:
- 전문 조명으로 25개 각도에서 제품 촬영
- 구별되는 특징을 식별하는 제품 LoRA 학습
- 라이프스타일 설정, 다른 배경, 다양한 맥락에서 제품 생성
- 단일 학습 세션에서 수백 개의 마케팅 이미지 생성
- 브랜드 일관성을 유지하면서 사진 비용 75% 절감
구현 세부사항: 학습은 다양한 맥락에 대한 유연성을 유지하면서 제품 정체성에 초점을 맞췄습니다. 낮은 학습 강도 (0.6-0.7)는 구성을 압도하지 않고 생성된 장면에 자연스럽게 통합할 수 있습니다.
인디 게임 개발 자산
문제: 솔로 게임 개발자는 수백 개의 게임 자산에 걸쳐 일관된 아트 스타일이 필요하지만 제한된 예술적 기술과 예산을 가지고 있습니다.
솔루션:
- 원하는 게임 미학을 확립하는 30개의 참조 작품 커미션
- 색상 팔레트, 렌더링 기법, 구성을 포착하는 예술 스타일 LoRA 학습
- 스타일을 유지하는 캐릭터 컨셉, 환경 아트, 아이템 일러스트 생성
- 몇 달 대신 몇 주 만에 전체 게임 아트 바이블 생성
- 풀타임 아티스트 예산 없이 전문적이고 일관된 결과
학습 접근법: 스타일 학습은 특정 피사체보다 예술적 기법을 강조했습니다. 다양한 학습 이미지 (캐릭터, 환경, 객체)는 LoRA가 특정 콘텐츠를 암기하는 것이 아니라 스타일 적용을 광범위하게 학습하는 데 도움이 되었습니다.
마케팅 에이전시 브랜드 스타일 라이브러리
문제: 에이전시는 여러 클라이언트에게 서비스를 제공하며, 각 클라이언트는 일관된 이미지가 필요한 고유한 시각적 브랜드 정체성을 가지고 있습니다.
솔루션:
- 각 주요 클라이언트의 브랜드 미학을 위한 스타일 LoRA 생성
- 15개 이상의 브랜드별 LoRA 라이브러리는 빠른 자산 생성 가능
- 크리에이티브 브리프에서 최종 결과물까지의 시간을 60% 단축
- 참조 파일 검색 없이 완벽한 브랜드 일관성 유지
- 비례적인 팀 확장 없이 크리에이티브 출력 확장
조직 전략: 각 브랜드에 대한 문서화된 매개변수가 있는 표준화된 학습 프로세스. 브랜드 가이드라인이 진화함에 따라 정기적인 재학습. 시스템은 주니어 디자이너가 시니어 디자이너 출력과 일치하는 브랜드 온 브랜드 작업을 생성할 수 있게 합니다.
여러 LoRA 프로젝트와 워크플로우를 관리하는 것이 압도적으로 느껴진다면, Apatero.com은 LoRA 라이브러리나 재학습 일정을 유지하지 않고 주문형 생성을 가능하게 한다는 것을 고려하세요. 인프라 관리 대신 크리에이티브 작업에 집중하세요.
전문적인 결과를 위한 모범 사례
이러한 입증된 관행은 아마추어와 전문 Flux LoRA 학습 결과를 구분합니다.
문서화 및 버전 관리
프로젝트 문서화: 다음을 포함한 모든 LoRA 프로젝트에 대한 학습 로그 유지:
- 원본 데이터셋 소스 및 이미지 수
- 사용된 캡션 전략 및 트리거 단어
- 정확한 학습 매개변수 및 구성 파일
- 학습 타임라인 및 checkpoint 평가 노트
- 품질 테스트 결과 및 식별된 문제
이 문서는 유사한 컨셉을 학습하거나 문제를 해결할 때 매우 가치가 있습니다. 무엇이 효과가 있었는지 기억하고 실패한 접근법을 반복하지 않습니다.
버전 관리: 설명적인 이름으로 여러 학습 checkpoint를 저장:
- character_face_v1_1000steps.safetensors
- character_face_v2_refined_800steps.safetensors
- style_painterly_v3_final_1200steps.safetensors
명확한 이름 지정은 여러 LoRA 및 반복을 관리할 때 혼란을 방지합니다. 쉬운 참조를 위해 버전 번호와 step 수를 포함하세요.
품질 보증 테스트
릴리스 전 테스트 체크리스트:
- ☐ 학습 피사체를 넘어 20개 이상의 다양한 프롬프트로 테스트
- ☐ 트리거 단어가 일관되게 작동하는지 확인
- ☐ LoRA가 활성화되었을 때 품질이 저하되지 않는지 확인
- ☐ 여러 강도 수준에서 테스트 (0.4, 0.6, 0.8, 1.0)
- ☐ 호환성을 위해 다른 인기 LoRA와 결합
- ☐ 다른 종횡비 및 해상도에서 생성
- ☐ negative prompt가 적절히 작동하는지 확인
- ☐ base Flux 모델과 품질 비교
포괄적인 테스트를 통과한 LoRA만 배포하세요. 평판은 품질 관리에 달려 있습니다.
데이터셋 윤리 및 권리 관리
윤리적 고려사항:
- 학습할 권리가 있는 이미지만 사용
- 개인의 초상권에 대해서는 명시적 허가 받기
- 허가 없이 저작권이 있는 작품으로 학습하지 않기
- 원본 아티스트에 대한 스타일 LoRA의 영향 고려
- 공유할 때 AI 생성 콘텐츠에 대해 투명하게
라이선싱 모범 사례: 학습 데이터셋에 대한 이미지 소스 및 사용 권한을 문서화합니다. 상업용 LoRA는 모든 학습 이미지에 대한 상업적 사용 권한이 필요합니다. 개인 프로젝트는 향후 문제를 피하기 위해 적절한 권한 관리로 여전히 이익을 얻습니다.
지속적인 학습 및 커뮤니티 참여
최신 상태 유지:
- Flux 업데이트를 위해 Black Forest Labs 블로그 팔로우
- 새로운 기능 및 개선 사항을 위해 Kohya_ss GitHub 모니터링
- AI 학습 토론에 초점을 맞춘 Discord 서버 가입
- 결과를 공유하고 커뮤니티 피드백에서 배우기
Flux 학습 기술은 빠르게 발전합니다. 적극적인 커뮤니티 참여는 기술을 최신 상태로 유지하고 독립적으로 발견하지 못할 창의적인 접근 방식에 노출됩니다.
첫 번째 성공적인 LoRA 이후의 다음 단계
첫 번째 Flux LoRA를 성공적으로 학습했고, 워크플로우를 이해했으며, 기대에 부응하는 품질 결과를 얻었습니다. 다음은 무엇입니까?
권장 진행:
- 이해를 굳히기 위해 3-5가지 다른 컨셉 유형 (얼굴, 스타일, 객체) 학습
- 다중 컨셉 학습과 같은 고급 기술 실험
- 일반적인 요구 사항을 위한 LoRA 라이브러리 구축
- 단일 생성에서 여러 LoRA를 결합하는 탐색
- 피드백을 위해 커뮤니티와 성공적인 LoRA 공유
고급 학습 리소스:
- Kohya_ss Documentation 매개변수 참조
- Black Forest Labs Research Flux 기술 세부사항
- CivitAI Tutorials 학습 기술
- 실시간 문제 해결을 위한 커뮤니티 Discord 서버
- 로컬에서 학습하는 경우: 커스텀 컨셉이 자주 필요하고, 적합한 하드웨어 (12GB+ VRAM)가 있으며, 학습 프로세스에 대한 완전한 제어를 원하고, 기술적 워크플로우를 즐기는 경우
- Apatero.com을 사용하는 경우: 기술 설정 없이 전문적인 결과가 필요하고, 관리형 학습 인프라를 선호하며, 로컬 GPU 요구사항 없이 즉시 액세스를 원하거나, 클라이언트 작업을 위한 신뢰할 수 있는 출력 품질이 필요한 경우
Flux LoRA 학습은 커스텀 컨셉 생성을 직접 손에 넣습니다. 일관된 캐릭터를 만들거나, 독특한 예술 스타일을 개발하거나, 제품 마케팅 자산을 생성하거나, 브랜드 정체성 시스템을 구축하든, 학습된 LoRA는 사전 학습된 모델이 해결하지 못하는 문제를 해결합니다.
학습 프로세스는 워크플로우를 이해하는 데 시간을 투자하려는 누구나 접근할 수 있습니다. 12GB 소비자 GPU는 이 가이드가 가르치는 기술을 적용할 때 전문적인 결과에 충분합니다. 유일한 제한은 창의성과 실험 의지입니다.
다음 커스텀 Flux LoRA가 학습되기를 기다리고 있습니다. 오늘 데이터셋 수집을 시작하세요.
ComfyUI 마스터 - 기초부터 고급까지
완전한 ComfyUI 기초 과정에 참여하여 기본부터 고급 기술까지 모든 것을 배우세요. 일회성 결제로 평생 액세스 및 모든 새 모델과 기능 업데이트 제공.
관련 기사

ComfyUI 초보자가 가장 많이 겪는 10가지 실수와 2025년 해결 방법
초보 사용자들을 좌절시키는 상위 10가지 ComfyUI 초보자 함정을 피하세요. VRAM 오류, 모델 로딩 문제, 워크플로우 문제에 대한 완벽한 문제 해결 가이드입니다.

Anisora v3.2로 360도 애니메 회전: ComfyUI 완전한 캐릭터 회전 가이드 2025
ComfyUI에서 Anisora v3.2로 360도 애니메이션 캐릭터 회전을 마스터하세요. 카메라 궤도 워크플로우, 멀티뷰 일관성 및 전문적인 턴어라운드 애니메이션 기술을 배웁니다.

기본 탑재되어야 할 7가지 ComfyUI 커스텀 노드 (획득 방법 포함)
2025년 모든 사용자가 필요로 하는 필수 ComfyUI 커스텀 노드. WAS Node Suite, Impact Pack, IPAdapter Plus 및 기타 획기적인 노드에 대한 완전한 설치 가이드.