SD 3.5 Large LoRAのローカルトレーニング - 完全ガイド
コンシューマーGPU向けに最適化された設定で、ローカルハードウェア上でStable Diffusion 3.5 Large LoRAをトレーニングし、プロ品質の結果を得る方法
Stable Diffusion 3.5 LargeのLoRAをトレーニングしたいが、モデルのサイズによりコンシューマーハードウェアでは困難です。SDXLよりも改善されたアーキテクチャは魅力的ですが、トレーニングにはプロ仕様のGPUが必要なように見えます。適切な設定を行えば、RTX 4090などのカードで高品質なSD 3.5 Large LoRAをトレーニングできます。
クイックアンサー: SD 3.5 Large LoRAのローカルトレーニングには、グラディエントチェックポイント、混合精度BF16、8ビットオプティマイザー、512x512のトレーニング解像度を含む積極的なメモリ最適化が必要です。24GB VRAMのRTX 4090では、バッチサイズ1とグラディエントアキュムレーション、ネットワークランク16-32、キャラクターで約1500-2500ステップ、スタイルで3000-4000ステップを使用します。データセットと設定によって、トレーニングには1-3時間かかります。
- グラディエントチェックポイントはSD 3.5 Largeの24GBカードに必須
- 512x512解像度は1024x1024と比較してメモリを大幅に削減
- BF16混合精度は良好に機能し、メモリ要件を半減
- ネットワークランク16-32はほとんどのユースケースに適した結果を提供
- 8ビットAdamオプティマイザーはオプティマイザー状態のメモリを50%削減
SD 3.5 Largeは、SDXLとは異なるアーキテクチャを使用し、複数のテキストエンコーダーとより大きなDiTバックボーンを備えています。この改善されたアーキテクチャはより良い結果を生み出しますが、トレーニングハードウェアに対する要求が高くなります。コンシューマーGPUで動作するトレーニングを設定しましょう。
SD 3.5 Largeのトレーニングは何が違うのか?
アーキテクチャを理解することで、トレーニングを最適化できます。
モデルアーキテクチャ
SD 3.5 LargeはSDXLの2つではなく、3つのテキストエンコーダーを使用します。CLIP-L、CLIP-G、T5-XXLがテキスト理解を提供します。
T5-XXLエンコーダーだけで、以前の世代のモデル全体よりも大きいです。トレーニング中に3つのエンコーダーすべてをロードすると、かなりのVRAMを消費します。
拡散バックボーンは、SDXLのUNetよりも多くのパラメーターを持つDiTアーキテクチャを使用します。これにより品質が向上しますが、トレーニングメモリ要件が増加します。
メモリ要件
最適化なしのフル精度では、SD 3.5 Largeのトレーニングには50GB以上のVRAMが必要です。これはすべてのコンシューマーカードを超えています。
最適化により、24GBが可能になりますが、利用可能なすべてのメモリ節約技術が必要です。
複数のテキストエンコーダーは、テキストエンコーディングにのみ必要であり、メイントレーニングループには必要ないため、トレーニング中にオフロードできます。
トレーニングダイナミクス
SD 3.5のアーキテクチャは、SDXLとは異なるハイパーパラメーターへの応答を示す可能性があります。SDXLで機能した学習率とステップ数には調整が必要です。
整流フロートレーニング目標も以前の拡散目標とは異なります。これにより収束動作が影響を受ける可能性があります。
24GB VRAMでトレーニングをどのように設定するか?
これらの設定により、RTX 4090などのカードでのトレーニングが可能になります。
必須のメモリ最適化
グラディエントチェックポイントを有効にする必要があります。これはバックワードパス中にアクティベーションを再計算することで、計算をメモリと交換します。
BF16混合精度はモデルとアクティベーションのメモリを半分に削減します。SD 3.5はBF16で良好にトレーニングされます。
8ビットAdamオプティマイザーはFP32の代わりにINT8をオプティマイザー状態に使用します。これによりオプティマイザーメモリが50%節約されます。
テキストエンコーダーオフローディングはエンコーディング後にT5-XXLをCPUに移動します。トレーニング開始時にのみ必要です。
これらすべてを組み合わせることで、メモリ要件が24GB範囲内になります。
解像度設定
快適なメモリ使用のために512x512でトレーニングします。これはSD 3.5のネイティブ1024x1024より低いですが、良好なLoRAを生成します。
768x768などの高解像度は非常に積極的な最適化で収まる可能性がありますが、不安定になるリスクがあります。
低解像度でトレーニングされたLoRAは、高い生成解像度で機能します。より小さくトレーニングされても概念は転送されます。
バッチとアキュムレーション
最大メモリ効率のためにバッチサイズを1に設定します。グラディエントアキュムレーションを使用して、効果的により大きなバッチを実現します。
4-8のグラディエントアキュムレーションは、メモリに1サンプルのみを保持しながら、4-8の実効バッチサイズを提供します。
これにより、真のバッチングのメモリコストなしに安定したトレーニングダイナミクスが提供されます。
ネットワーク設定
ネットワークランク16-32はほとんどのSD 3.5 LoRAに適しています。高いランクはより多くの詳細をキャプチャできますが、より多くのメモリとより多くのトレーニングデータが必要です。
ネットワークアルファはランクと等しいか、ランクの半分に設定できます。両方を試して、ユースケースに適したものを確認してください。
SD 3.5のアーキテクチャは、SDXLとは異なるランク値を好む可能性があります。実験して何が機能するかを見つけてください。
オプティマイザー設定
bitsandbytesのAdamW8bitオプティマイザーを使用します。これにより8ビットオプティマイザー状態のメモリ節約が提供されます。
学習率1e-4は合理的な出発点です。収束動作に基づいて調整してください。
一定の学習率はLoRAトレーニングではスケジューラーよりも良好に機能することが多いです。最初はシンプルに保ってください。
どのようなデータセット準備が必要か?
高品質なトレーニングデータが高品質な結果を生み出します。
画像選択
キャラクターには10-20枚、スタイルには50-200枚の画像。量より質が重要です。
照明、角度、表情、背景のバリエーションを含めます。LoRAはバリエーションから学習します。
重複や類似重複を避けてください。各画像はユニークな情報を提供する必要があります。
解像度とフォーマット
画像をトレーニング解像度またはそれよりわずかに上にリサイズします。512x512でのトレーニングは4Kソース画像の恩恵を受けません。
無料のComfyUIワークフロー
この記事のテクニックに関する無料のオープンソースComfyUIワークフローを見つけてください。 オープンソースは強力です。
PNGまたは高品質JPEGフォーマットが適しています。高圧縮画像は避けてください。
一貫したアスペクト比を維持するか、トレーニングツールがサポートしている場合はバケッティングを使用します。
キャプション付け
詳細なキャプションはLoRAの品質を大幅に向上させます。SD 3.5は改善されたテキスト理解から恩恵を受けます。
タグリストよりも自然言語の説明を使用します。「woman, red hair, forest」ではなく「A woman with long red hair standing in a forest」。
すべてのキャプションにトリガーワードを含めます。「A photo of [trigger] wearing a blue dress」はLoRAにトリガーが何を表すかを教えます。
BLIP、CogVLM、または手動キャプション付けのツールがすべて機能します。自動キャプションの手動調整が結果を改善します。
データセット構造
画像を対応するキャプションファイルと一緒にフォルダーに整理します。一般的なフォーマットは、キャプションを含むimage.txtを持つimage.pngです。
トレーニングツールは特定のフォルダー構造を期待しています。ツールの要件に合わせてください。
どのようなトレーニングプロセスに従うべきか?
最良の結果を得るために、体系的にトレーニングを進めます。
ツール選択
Kohya SSは、GUI設定による包括的なSD 3.5 LoRAトレーニングサポートを提供します。
SimpleTunerは、良好なデフォルトを持つ合理化された代替手段を提供します。
カスタムスクリプトは、diffusersライブラリを使用して、上級ユーザーに最大の制御を提供します。
設定の複雑さに対する快適さに基づいて選択してください。
初期設定
確実に機能する保守的な設定から始めます。
512x512解像度、バッチサイズ1、グラディエントアキュムレーション4、ランク16、1000ステップ。
複雑さをスキップしたいですか? Apatero は、技術的なセットアップなしでプロフェッショナルなAI結果を即座に提供します。
これにより、最適化の前に評価できる動作するLoRAが生成されます。
サンプル生成
トレーニング中にサンプル生成を有効にします。100-200ステップごとにテスト画像を生成します。
サンプルは学習の進行を示します。トリガーワードがアクティブになり、被写体が現れるのがわかります。
サンプルが良好に見えるが、オーバーフィットによる品質低下が始まる前にトレーニングを停止します。
モニタリング
トレーニング中の損失値を監視します。減少してから安定するはずです。
突然の増加は問題を示します。学習率が高すぎるかデータの問題がこれを引き起こします。
トレーニング時間の見積もりは計画に役立ちます。4090での2500ステップの実行には約1-2時間かかります。
評価
トレーニング後、さまざまなプロンプトとシナリオでLoRAをテストします。
異なるスタイル、ポーズ、コンテキストを試して、LoRAがどれだけ一般化するかを確認します。
結果が弱い場合は、より多くのトレーニングステップ、異なる学習率、またはより多くのトレーニングデータを検討してください。
SD 3.5 LoRAのパフォーマンスはSDXLと比較してどうか?
違いを理解することで期待値を設定できます。
品質のポテンシャル
SD 3.5は十分なトレーニングがあればSDXLよりも良い結果を生み出すことができます。アーキテクチャの改善により、より多くの容量が提供されます。
しかし、このポテンシャルを実現するには適切なトレーニングが必要です。不十分にトレーニングされたSD 3.5 LoRAは、良好にトレーニングされたSDXL LoRAに勝てません。
トレーニング効率
SD 3.5は同等の結果を得るためにSDXLと同様またはやや多くのステップが必要になる場合があります。より大きなアーキテクチャはより多くを学ぶ必要があります。
同等の設定でのメモリ要件は高くなります。より良いポテンシャルを得ますが、より多くのリソースが必要です。
他の115人の受講生に参加
51レッスンで超リアルなAIインフルエンサーを作成
リアルな肌の質感、プロレベルのセルフィー、複雑なシーンを持つ超リアルなAIインフルエンサーを作成。1つのパッケージで2つの完全なコースを取得。技術をマスターするComfyUI Foundationと、AIクリエイターとして自分を売り込む方法を学ぶFanvue Creator Academy。
エコシステムの成熟度
SDXLにはトレーニングに関する何年ものコミュニティ知識があります。SD 3.5のベストプラクティスはまだ発展中です。
最適な設定に関する確実性が低いということは、より多くの実験が必要であることを意味します。これは新しいモデルには正常です。
生成品質
良好にトレーニングされたSD 3.5 LoRAは生成時に優れた結果を生み出します。ベースモデルの利点が引き継がれます。
テキストレンダリング、構成、ディテールはすべてSD 3.5の改善から恩恵を受けます。
ハードウェアの制約なしにSD 3.5 LoRAトレーニングを希望するユーザーのために、Apatero.comはプロフェッショナルGPUによるクラウドベースのトレーニングを提供しています。プラットフォームがメモリ最適化とハードウェア管理を処理しながら、トレーニングジョブを設定できます。
注意すべき一般的な問題は何か?
SD 3.5 LoRAトレーニングの典型的な問題と解決策。
メモリ不足エラー
OOMが発生した場合、すべてのメモリ最適化が有効になっていることを確認します。グラディエントチェックポイントと混合精度は必須です。
より高い解像度を試した場合は、512x512に解像度を下げてください。すべてのピクセルにメモリコストがかかります。
テキストエンコーダーオフローディングが機能していることを確認します。T5-XXLがVRAMに残ると使用量が多すぎます。
学習が不十分
LoRAが生成に影響しない場合は、より高い学習率またはより多くのステップを試してください。
キャプションに一貫してトリガーワードが含まれていることを確認します。トリガーが欠落していると、LoRAは何をアクティブにするかを学習しません。
トレーニング画像に実際に教えようとしているものが含まれていることを確認します。
オーバーフィット
LoRAが一般化するのではなくトレーニング画像のみを生成する場合、トレーニングステップを減らします。
学習率を下げることでもオーバーフィット傾向を減らすことができます。
より多くのトレーニングバリエーションを追加します。LoRAは一般化するためにバリエーションを見る必要があります。
スタイルブリーディング
被写体のみを教えたいのにLoRAが全体的な画像スタイルを変更する場合、より保守的な設定を使用します。
低いランクと少ないステップで、LoRAがモデルを変更する量を減らします。
被写体以外のすべてを説明するより良いキャプションが、学習されるものを分離するのに役立ちます。
よくある質問
24GB VRAMはSD 3.5 Large LoRAトレーニングに十分ですか?
はい、すべてのメモリ最適化を有効にすれば可能です。グラディエントチェックポイント、BF16、8ビットオプティマイザー、512x512解像度で可能になります。
RTX 4090でのトレーニングにはどのくらい時間がかかりますか?
2000ステップの典型的なキャラクターLoRAで約1-2時間。4000ステップが必要なスタイルLoRAはより長くかかります。
1024x1024解像度でトレーニングできますか?
24GBでは実用的ではありません。メモリ要件が高すぎます。512x512でトレーニングし、1024x1024で生成してください。
どのネットワークランクを使用すべきですか?
キャラクターには16、スタイルには32から始めます。結果が弱い場合は増やし、オーバーフィットしている場合は減らします。
SD 3.5はSDXLとは異なる学習率が必要ですか?
同様の範囲が機能しますが、最適な値は異なる場合があります。1e-4から始めて、収束に基づいて調整します。
3つすべてのテキストエンコーダーをトレーニングすべきですか、それとも一部をフリーズすべきですか?
LoRAトレーニングでは、通常は拡散バックボーンのみをトレーニングします。テキストエンコーダーは使用されますが、トレーニングされません。
何枚の画像が必要ですか?
バリエーションのあるキャラクターには10-20枚。スタイルには50-200枚。量より質とバリエーションが重要です。
SDXL LoRAをSD 3.5で使用できますか?
いいえ、互換性のないアーキテクチャです。SD 3.5専用のLoRAが必要です。
SD 3.5 MediumはLargeよりトレーニングしやすいですか?
はい、メモリ要件が低くなります。Largeが要求が厳しすぎる場合、Mediumは有効な代替手段です。
SD 3.5 LoRAは将来のバージョンで動作しますか?
直接は機能しない可能性が高いです。新しいモデルバージョンでは通常、LoRAの再トレーニングが必要です。
結論
コンシューマーハードウェアでのSD 3.5 Large LoRAトレーニングには慎重な最適化が必要ですが、優れた結果を生み出します。SDXLに対するアーキテクチャの改善は、より良いトレーニング済みLoRAに反映されます。
すべてのメモリ最適化を設定します。グラディエントチェックポイント、BF16、8ビットオプティマイザー、512x512解像度により、24GBトレーニングが実現可能になります。
詳細なキャプションを持つ高品質のトレーニングデータを準備します。SD 3.5のテキスト理解は自然言語の説明から恩恵を受けます。
サンプルでトレーニングを監視し、オーバーフィットの前に停止します。最良のLoRAは、新しいコンテキストに一般化しながら被写体をキャプチャします。
ハードウェアの制約なしのトレーニングには、クラウドサービスがより大きなGPUへのアクセスを提供します。これにより、より高い解像度またはより速いトレーニング時間が可能になります。
適切な設定により、SD 3.5 Large LoRAトレーニングは、カスタムコンセプトとスタイルに対するモデルのアーキテクチャ上の利点を実現します。
AIインフルエンサーを作成する準備はできましたか?
115人の学生とともに、51レッスンの完全なコースでComfyUIとAIインフルエンサーマーケティングをマスター。
関連記事
AI不動産写真:住宅販売を加速するバーチャルステージング
AI バーチャルステージングと写真加工で物件リスティングを変革します。1枚0.03ドルのツールから完全なビジュアル改造まで、市場滞在日数を73%削減する方法をご紹介します。
2025年版 Fluxで建築を正確に生成する最良の方法
構造精度、スタイル制御、フォトリアリスティックな建築生成のための実証済みのテクニックを使用して、建築レンダリング用のFlux AIをマスターしましょう。Dev、Schnell、ControlNetメソッドを活用します。
複数の参考画像からインテリアデザインを生成する最適なモデル 2025年版
複数の参考画像を使用してインテリアデザインを行うための最適なAIモデルを解説します。IP-Adapter、ControlNet、SDXL、Fluxワークフローを活用したプロフェッショナルな結果を実現する方法をご紹介します。