/ AI 이미지 생성 / SD 3.5 Large LoRA 로컬 트레이닝 - 완전 가이드
AI 이미지 생성 8 분 소요

SD 3.5 Large LoRA 로컬 트레이닝 - 완전 가이드

소비자용 GPU에 최적화된 설정으로 로컬 하드웨어에서 Stable Diffusion 3.5 Large LoRA를 트레이닝하여 전문가 수준의 결과 얻기

SD 3.5 Large LoRA 로컬 트레이닝 - 완전 가이드 - Complete AI 이미지 생성 guide and tutorial

Stable Diffusion 3.5 Large용 LoRA를 트레이닝하고 싶지만 모델 크기로 인해 소비자용 하드웨어에서는 어려움이 있습니다. SDXL 대비 개선된 아키텍처는 매력적이지만, 트레이닝에는 전문 GPU가 필요한 것처럼 보입니다. 올바른 설정으로 RTX 4090 및 유사한 카드에서 고품질 SD 3.5 Large LoRA를 트레이닝할 수 있습니다.

빠른 답변: SD 3.5 Large LoRA 로컬 트레이닝은 그래디언트 체크포인팅, 혼합 정밀도 BF16, 8비트 옵티마이저, 512x512 트레이닝 해상도를 포함한 적극적인 메모리 최적화가 필요합니다. 24GB VRAM의 RTX 4090에서는 배치 크기 1과 그래디언트 누적, 네트워크 랭크 16-32, 캐릭터의 경우 약 1500-2500 스텝, 스타일의 경우 3000-4000 스텝을 사용합니다. 데이터셋과 설정에 따라 트레이닝은 1-3시간이 소요됩니다.

핵심 포인트:
  • 그래디언트 체크포인팅은 SD 3.5 Large를 사용하는 24GB 카드에 필수
  • 512x512 해상도는 1024x1024 대비 메모리를 크게 절감
  • BF16 혼합 정밀도는 잘 작동하며 메모리 요구사항을 절반으로 감소
  • 네트워크 랭크 16-32는 대부분의 사용 사례에 좋은 결과 제공
  • 8비트 Adam 옵티마이저는 옵티마이저 상태 메모리를 50% 감소

SD 3.5 Large는 SDXL과 다른 아키텍처를 사용하며 여러 텍스트 인코더와 더 큰 DiT 백본을 갖추고 있습니다. 이 개선된 아키텍처는 더 나은 결과를 생성하지만 트레이닝 하드웨어에 대한 요구가 높아집니다. 소비자용 GPU에서 작동하는 트레이닝을 설정해 봅시다.

SD 3.5 Large 트레이닝의 차별점은?

아키텍처를 이해하면 트레이닝을 최적화할 수 있습니다.

모델 아키텍처

SD 3.5 Large는 SDXL의 2개가 아닌 3개의 텍스트 인코더를 사용합니다. CLIP-L, CLIP-G, T5-XXL이 텍스트 이해를 제공합니다.

T5-XXL 인코더만으로도 이전 세대 전체 모델보다 큽니다. 트레이닝 중 세 개의 인코더를 모두 로드하면 상당한 VRAM을 소비합니다.

디퓨전 백본은 SDXL의 UNet보다 더 많은 파라미터를 가진 DiT 아키텍처를 사용합니다. 이는 품질 이점을 제공하지만 트레이닝 메모리 요구사항을 증가시킵니다.

메모리 요구사항

최적화 없이 전체 정밀도에서 SD 3.5 Large 트레이닝은 50GB+ VRAM이 필요합니다. 이는 모든 소비자용 카드를 초과합니다.

최적화를 통해 24GB가 가능해지지만 사용 가능한 모든 메모리 절약 기술이 필요합니다.

여러 텍스트 인코더는 텍스트 인코딩에만 필요하고 메인 트레이닝 루프에는 필요하지 않으므로 트레이닝 중에 오프로드할 수 있습니다.

트레이닝 다이나믹스

SD 3.5의 아키텍처는 SDXL과 다르게 하이퍼파라미터에 반응할 수 있습니다. SDXL에서 작동했던 학습률과 스텝 수는 조정이 필요합니다.

정류 플로우 트레이닝 목표도 이전 디퓨전 목표와 다릅니다. 이는 수렴 동작에 영향을 줄 수 있습니다.

24GB VRAM용 트레이닝을 어떻게 설정하나요?

이 설정들은 RTX 4090 및 유사한 카드에서 트레이닝을 가능하게 합니다.

필수 메모리 최적화

그래디언트 체크포인팅을 활성화해야 합니다. 이는 백워드 패스 중에 활성화를 재계산하여 계산을 메모리와 교환합니다.

BF16 혼합 정밀도는 모델과 활성화 메모리를 절반으로 줄입니다. SD 3.5는 BF16에서 잘 트레이닝됩니다.

8비트 Adam 옵티마이저는 FP32 대신 INT8을 옵티마이저 상태에 사용합니다. 이는 옵티마이저 메모리의 50%를 절약합니다.

텍스트 인코더 오프로딩은 인코딩 후 T5-XXL을 CPU로 이동합니다. 트레이닝 시작 시에만 필요합니다.

이 모든 것을 함께 사용하면 메모리 요구사항이 24GB 범위 내로 들어옵니다.

해상도 설정

편안한 메모리 사용을 위해 512x512에서 트레이닝합니다. 이는 SD 3.5의 네이티브 1024x1024보다 낮지만 좋은 LoRA를 생성합니다.

768x768과 같은 더 높은 해상도는 매우 적극적인 최적화로 맞출 수 있지만 불안정성의 위험이 있습니다.

낮은 해상도에서 트레이닝된 LoRA는 더 높은 생성 해상도에서 작동합니다. 더 작게 트레이닝해도 개념은 전달됩니다.

배치와 누적

최대 메모리 효율을 위해 배치 크기를 1로 설정합니다. 그래디언트 누적을 사용하여 효과적으로 더 큰 배치를 달성합니다.

4-8의 그래디언트 누적은 메모리에 1개의 샘플만 유지하면서 4-8의 효과적인 배치 크기를 제공합니다.

이는 실제 배칭의 메모리 비용 없이 안정적인 트레이닝 다이나믹스를 제공합니다.

네트워크 설정

네트워크 랭크 16-32는 대부분의 SD 3.5 LoRA에 잘 작동합니다. 더 높은 랭크는 더 많은 디테일을 캡처할 수 있지만 더 많은 메모리와 더 많은 트레이닝 데이터가 필요합니다.

네트워크 알파는 랭크와 같거나 랭크의 절반으로 설정할 수 있습니다. 둘 다 시도해 보고 사용 사례에 맞는 것을 확인하세요.

SD 3.5의 아키텍처는 SDXL과 다른 랭크 값을 선호할 수 있습니다. 무엇이 작동하는지 실험해 보세요.

옵티마이저 설정

bitsandbytes의 AdamW8bit 옵티마이저를 사용합니다. 이는 8비트 옵티마이저 상태 메모리 절약을 제공합니다.

학습률 1e-4는 합리적인 시작점입니다. 수렴 동작에 따라 조정하세요.

일정한 학습률은 LoRA 트레이닝에서 스케줄러보다 더 잘 작동하는 경우가 많습니다. 처음에는 단순하게 유지하세요.

어떤 데이터셋 준비가 필요한가요?

고품질 트레이닝 데이터는 고품질 결과를 생성합니다.

이미지 선택

캐릭터의 경우 10-20장, 스타일의 경우 50-200장의 이미지. 양보다 품질이 중요합니다.

조명, 각도, 표정, 배경의 다양성을 포함하세요. LoRA는 다양성에서 배웁니다.

중복과 거의 중복을 피하세요. 각 이미지는 고유한 정보를 제공해야 합니다.

해상도와 포맷

이미지를 트레이닝 해상도 또는 약간 그 이상으로 리사이즈합니다. 512x512에서 트레이닝하는 것은 4K 소스 이미지의 이점을 받지 않습니다.

무료 ComfyUI 워크플로우

이 글의 기술에 대한 무료 오픈소스 ComfyUI 워크플로우를 찾아보세요. 오픈소스는 강력합니다.

100% 무료 MIT 라이선스 프로덕션 준비 완료 스타 & 시도하기

PNG 또는 고품질 JPEG 포맷이 잘 작동합니다. 심하게 압축된 이미지는 피하세요.

일관된 종횡비를 유지하거나 트레이닝 도구가 지원하는 경우 버켓팅을 사용합니다.

캡셔닝

상세한 캡션은 LoRA 품질을 크게 향상시킵니다. SD 3.5는 개선된 텍스트 이해에서 이점을 얻습니다.

태그 목록보다 자연어 설명을 사용합니다. "woman, red hair, forest"보다 "A woman with long red hair standing in a forest".

모든 캡션에 트리거 워드를 포함합니다. "A photo of [trigger] wearing a blue dress"는 LoRA에 트리거가 무엇을 나타내는지 가르칩니다.

BLIP, CogVLM 또는 수동 캡셔닝과 같은 도구가 모두 작동합니다. 자동 캡션의 수동 개선이 결과를 향상시킵니다.

데이터셋 구조

해당 캡션 파일과 함께 폴더에 이미지를 정리합니다. 일반적인 포맷은 캡션을 포함하는 image.txt와 함께 image.png입니다.

트레이닝 도구는 특정 폴더 구조를 기대합니다. 도구의 요구사항에 맞추세요.

어떤 트레이닝 프로세스를 따라야 하나요?

최상의 결과를 위해 체계적으로 트레이닝을 진행합니다.

도구 선택

Kohya SS는 GUI 설정과 함께 포괄적인 SD 3.5 LoRA 트레이닝 지원을 제공합니다.

SimpleTuner는 좋은 기본값을 갖춘 간소화된 대안을 제공합니다.

커스텀 스크립트는 diffusers 라이브러리를 사용하여 고급 사용자에게 최대 제어를 제공합니다.

설정 복잡성에 대한 편안함에 따라 선택하세요.

초기 설정

확실히 작동할 보수적인 설정으로 시작합니다.

512x512 해상도, 배치 크기 1, 그래디언트 누적 4, 랭크 16, 1000 스텝.

복잡함을 건너뛰고 싶으신가요? Apatero 는 기술적 설정 없이 즉시 전문 AI 결과를 제공합니다.

설정 불필요 동일한 품질 30초 만에 시작 Apatero 무료 체험
신용카드 불필요

이는 최적화 전에 평가할 수 있는 작동하는 LoRA를 생성합니다.

샘플 생성

트레이닝 중 샘플 생성을 활성화합니다. 100-200 스텝마다 테스트 이미지를 생성합니다.

샘플은 학습 진행을 보여줍니다. 트리거 워드가 활성화되고 대상이 나타나는 것을 볼 수 있습니다.

샘플이 좋아 보이지만 과적합으로 인해 품질이 저하되기 전에 트레이닝을 중지합니다.

모니터링

트레이닝 중 손실 값을 관찰합니다. 감소한 후 안정화되어야 합니다.

갑작스러운 증가는 문제를 나타냅니다. 학습률이 너무 높거나 데이터 문제가 이를 유발합니다.

트레이닝 시간 추정은 계획에 도움이 됩니다. 4090에서 2500 스텝 실행은 대략 1-2시간이 소요됩니다.

평가

트레이닝 후 다양한 프롬프트와 시나리오에서 LoRA를 테스트합니다.

다양한 스타일, 포즈, 컨텍스트를 시도하여 LoRA가 얼마나 잘 일반화하는지 확인합니다.

결과가 약하면 더 많은 트레이닝 스텝, 다른 학습률 또는 더 많은 트레이닝 데이터를 고려하세요.

SD 3.5 LoRA 성능은 SDXL과 어떻게 비교되나요?

차이점을 이해하면 기대치를 설정하는 데 도움이 됩니다.

품질 잠재력

SD 3.5는 충분한 트레이닝으로 SDXL보다 더 나은 결과를 생성할 수 있습니다. 아키텍처 개선은 더 많은 용량을 제공합니다.

하지만 이 잠재력을 실현하려면 적절한 트레이닝이 필요합니다. 잘못 트레이닝된 SD 3.5 LoRA는 잘 트레이닝된 SDXL LoRA를 이길 수 없습니다.

트레이닝 효율성

SD 3.5는 동등한 결과를 위해 SDXL과 비슷하거나 약간 더 많은 스텝이 필요할 수 있습니다. 더 큰 아키텍처는 더 많이 배워야 합니다.

동등한 설정에 대한 메모리 요구사항이 더 높습니다. 더 나은 잠재력을 얻지만 더 많은 리소스가 필요합니다.

다른 115명의 수강생과 함께하세요

51개 레슨으로 초현실적인 AI 인플루언서 만들기

생생한 피부 디테일, 전문가급 셀카, 복잡한 장면으로 초현실적인 AI 인플루언서를 만드세요. 하나의 패키지로 두 개의 완전한 과정을 받으세요. 기술을 마스터하는 ComfyUI Foundation과 AI 크리에이터로 자신을 마케팅하는 방법을 배우는 Fanvue Creator Academy.

조기 할인 종료까지:
--
:
--
시간
:
--
:
--
완전한 커리큘럼
일회성 결제
평생 업데이트
$200 절약 - 가격이 영구적으로 $399로 인상
첫 번째 학생을 위한 조기 할인. 우리는 지속적으로 더 많은 가치를 추가하고 있지만, 당신은 영구적으로 $199를 확보합니다.
초보자 환영
프로덕션 준비 완료
항상 업데이트

생태계 성숙도

SDXL은 트레이닝에 대한 수년간의 커뮤니티 지식이 있습니다. SD 3.5 모범 사례는 아직 개발 중입니다.

최적 설정에 대한 확실성이 적다는 것은 더 많은 실험이 필요하다는 것을 의미합니다. 이것은 새로운 모델에서 정상입니다.

생성 품질

잘 트레이닝된 SD 3.5 LoRA는 생성 시 우수한 결과를 생성합니다. 기본 모델의 장점이 전달됩니다.

텍스트 렌더링, 구성, 디테일 모두 SD 3.5의 개선 사항에서 이점을 얻습니다.

하드웨어 제약 없이 SD 3.5 LoRA 트레이닝을 원하는 사용자를 위해 Apatero.com은 전문 GPU를 사용한 클라우드 기반 트레이닝을 제공합니다. 플랫폼이 메모리 최적화와 하드웨어 관리를 처리하는 동안 트레이닝 작업을 설정합니다.

주의해야 할 일반적인 문제는?

SD 3.5 LoRA 트레이닝의 일반적인 문제와 해결책.

메모리 부족 오류

OOM이 발생하면 모든 메모리 최적화가 활성화되어 있는지 확인합니다. 그래디언트 체크포인팅과 혼합 정밀도는 필수입니다.

더 높은 해상도를 시도했다면 512x512로 해상도를 낮추세요. 모든 픽셀은 메모리 비용이 있습니다.

텍스트 인코더 오프로딩이 작동하는지 확인합니다. VRAM에 T5-XXL이 남아 있으면 너무 많이 사용합니다.

학습 불량

LoRA가 생성에 영향을 미치지 않으면 더 높은 학습률이나 더 많은 스텝을 시도하세요.

캡션에 트리거 워드가 일관되게 포함되어 있는지 확인합니다. 트리거가 누락되면 LoRA는 무엇을 활성화할지 배우지 못합니다.

트레이닝 이미지에 가르치려는 것이 실제로 포함되어 있는지 확인합니다.

과적합

LoRA가 일반화하지 않고 트레이닝 이미지만 생성하면 트레이닝 스텝을 줄입니다.

더 낮은 학습률도 과적합 경향을 줄일 수 있습니다.

더 많은 트레이닝 다양성을 추가하세요. LoRA는 일반화하기 위해 다양성을 봐야 합니다.

스타일 블리딩

대상만 가르치려 했는데 LoRA가 전체 이미지 스타일을 변경하면 더 보수적인 설정을 사용하세요.

더 낮은 랭크와 더 적은 스텝은 LoRA가 모델을 변경하는 정도를 줄입니다.

대상을 제외한 모든 것을 설명하는 더 나은 캡션이 학습되는 것을 분리하는 데 도움이 됩니다.

자주 묻는 질문

24GB VRAM은 SD 3.5 Large LoRA 트레이닝에 충분한가요?

네, 모든 메모리 최적화가 활성화되면 가능합니다. 그래디언트 체크포인팅, BF16, 8비트 옵티마이저, 512x512 해상도로 가능해집니다.

RTX 4090에서 트레이닝은 얼마나 걸리나요?

2000 스텝의 일반적인 캐릭터 LoRA의 경우 대략 1-2시간. 4000 스텝이 필요한 스타일 LoRA는 더 오래 걸립니다.

1024x1024 해상도에서 트레이닝할 수 있나요?

24GB에서는 실용적이지 않습니다. 메모리 요구사항이 너무 높습니다. 512x512에서 트레이닝하고 1024x1024에서 생성하세요.

어떤 네트워크 랭크를 사용해야 하나요?

캐릭터의 경우 16, 스타일의 경우 32로 시작하세요. 결과가 약하면 증가시키고, 과적합하면 감소시키세요.

SD 3.5는 SDXL과 다른 학습률이 필요한가요?

비슷한 범위가 작동하지만 최적 값은 다를 수 있습니다. 1e-4에서 시작하고 수렴에 따라 조정하세요.

세 개의 텍스트 인코더를 모두 트레이닝해야 하나요, 일부를 동결해야 하나요?

LoRA 트레이닝의 경우 일반적으로 디퓨전 백본만 트레이닝합니다. 텍스트 인코더는 사용되지만 트레이닝되지 않습니다.

몇 장의 이미지가 필요한가요?

다양성이 있는 캐릭터의 경우 10-20장. 스타일의 경우 50-200장. 양보다 품질과 다양성이 중요합니다.

SDXL LoRA를 SD 3.5와 함께 사용할 수 있나요?

아니요, 호환되지 않는 아키텍처입니다. SD 3.5 전용 LoRA가 필요합니다.

SD 3.5 Medium은 Large보다 트레이닝하기 쉬운가요?

네, 메모리 요구사항이 더 낮습니다. Large가 너무 까다로우면 Medium이 유효한 대안입니다.

SD 3.5 LoRA가 미래 버전에서 작동하나요?

직접적으로는 아닐 가능성이 높습니다. 새로운 모델 버전은 일반적으로 LoRA 재트레이닝이 필요합니다.

결론

소비자용 하드웨어에서의 SD 3.5 Large LoRA 트레이닝은 신중한 최적화가 필요하지만 우수한 결과를 생성합니다. SDXL 대비 아키텍처 개선은 더 잘 트레이닝된 LoRA로 이어집니다.

모든 메모리 최적화를 설정하세요. 그래디언트 체크포인팅, BF16, 8비트 옵티마이저, 512x512 해상도로 24GB 트레이닝이 가능해집니다.

상세한 캡션을 포함한 고품질 트레이닝 데이터를 준비하세요. SD 3.5의 텍스트 이해는 자연어 설명에서 이점을 얻습니다.

샘플로 트레이닝을 모니터링하고 과적합 전에 중지하세요. 최고의 LoRA는 새로운 컨텍스트로 일반화하면서 대상을 캡처합니다.

하드웨어 제약 없는 트레이닝의 경우 클라우드 서비스가 더 큰 GPU에 대한 액세스를 제공합니다. 이를 통해 더 높은 해상도나 더 빠른 트레이닝 시간이 가능합니다.

적절한 설정으로 SD 3.5 Large LoRA 트레이닝은 커스텀 개념과 스타일에 대한 모델의 아키텍처 장점을 제공합니다.

AI 인플루언서를 만들 준비가 되셨나요?

완전한 51레슨 과정에서 ComfyUI와 AI 인플루언서 마케팅을 마스터하는 115명의 학생들과 함께하세요.

조기 할인 종료까지:
--
:
--
시간
:
--
:
--
자리 확보하기 - $199
$200 절약 - 가격이 영구적으로 $399로 인상