/ Pembuatan Gambar AI / Pelatihan LoRA SD 3.5 Large Secara Lokal - Panduan Lengkap
Pembuatan Gambar AI 10 menit baca

Pelatihan LoRA SD 3.5 Large Secara Lokal - Panduan Lengkap

Latih LoRA Stable Diffusion 3.5 Large pada perangkat keras lokal dengan pengaturan yang dioptimalkan untuk GPU konsumen dan hasil berkualitas profesional

Pelatihan LoRA SD 3.5 Large Secara Lokal - Panduan Lengkap - Complete Pembuatan Gambar AI guide and tutorial

Anda ingin melatih LoRA untuk Stable Diffusion 3.5 Large tetapi ukuran model membuatnya menantang pada perangkat keras konsumen. Arsitektur yang ditingkatkan dari SDXL menarik, tetapi pelatihan tampaknya memerlukan GPU profesional. Dengan konfigurasi yang tepat, Anda dapat melatih LoRA SD 3.5 Large berkualitas pada RTX 4090 dan kartu serupa.

Jawaban Cepat: Pelatihan LoRA SD 3.5 Large secara lokal memerlukan optimasi memori agresif termasuk gradient checkpointing, presisi campuran BF16, optimizer 8-bit, dan resolusi pelatihan 512x512. Pada RTX 4090 dengan 24GB VRAM, gunakan ukuran batch 1 dengan akumulasi gradien, network rank 16-32, dan sekitar 1500-2500 langkah untuk karakter atau 3000-4000 untuk gaya. Pelatihan memakan waktu 1-3 jam tergantung dataset dan pengaturan.

Poin Utama:
  • Gradient checkpointing sangat penting untuk kartu 24GB dengan SD 3.5 Large
  • Resolusi 512x512 secara dramatis mengurangi memori dibandingkan 1024x1024
  • Presisi campuran BF16 bekerja dengan baik dan mengurangi setengah kebutuhan memori
  • Network rank 16-32 memberikan hasil yang baik untuk sebagian besar kasus penggunaan
  • Optimizer Adam 8-bit mengurangi memori state optimizer sebesar 50%

SD 3.5 Large menggunakan arsitektur berbeda dari SDXL dengan beberapa encoder teks dan backbone DiT yang lebih besar. Arsitektur yang ditingkatkan ini menghasilkan hasil yang lebih baik tetapi menuntut lebih dari perangkat keras pelatihan. Mari kita konfigurasi pelatihan yang bekerja pada GPU konsumen.

Apa yang Membuat Pelatihan SD 3.5 Large Berbeda?

Memahami arsitektur membantu Anda mengoptimalkan pelatihan.

Arsitektur Model

SD 3.5 Large menggunakan tiga encoder teks alih-alih dua milik SDXL. CLIP-L, CLIP-G, dan T5-XXL menyediakan pemahaman teks.

Encoder T5-XXL saja lebih besar dari seluruh model generasi sebelumnya. Memuat ketiga encoder selama pelatihan mengonsumsi VRAM yang signifikan.

Backbone difusi menggunakan arsitektur DiT dengan parameter lebih banyak dari UNet SDXL. Ini memberikan keuntungan kualitas tetapi meningkatkan kebutuhan memori pelatihan.

Kebutuhan Memori

Pada presisi penuh tanpa optimasi, pelatihan SD 3.5 Large membutuhkan 50GB+ VRAM. Itu melebihi semua kartu konsumen.

Dengan optimasi, 24GB menjadi mungkin tetapi memerlukan setiap teknik penghematan memori yang tersedia.

Beberapa encoder teks dapat di-offload selama pelatihan karena hanya diperlukan untuk encoding teks, bukan loop pelatihan utama.

Dinamika Pelatihan

Arsitektur SD 3.5 mungkin merespons hyperparameter secara berbeda dari SDXL. Learning rate dan jumlah langkah yang berhasil untuk SDXL memerlukan penyesuaian.

Tujuan pelatihan rectified flow juga berbeda dari tujuan difusi sebelumnya. Ini dapat mempengaruhi perilaku konvergensi.

Bagaimana Mengonfigurasi Pelatihan untuk 24GB VRAM?

Pengaturan ini memungkinkan pelatihan pada RTX 4090 dan kartu serupa.

Optimasi Memori Penting

Gradient checkpointing harus diaktifkan. Ini menukar komputasi dengan memori dengan menghitung ulang aktivasi selama backward pass.

Presisi campuran BF16 mengurangi memori model dan aktivasi menjadi setengah. SD 3.5 berlatih dengan baik dalam BF16.

Optimizer Adam 8-bit menggunakan INT8 untuk state optimizer alih-alih FP32. Ini menghemat 50% memori optimizer.

Offloading encoder teks memindahkan T5-XXL ke CPU setelah encoding. Hanya diperlukan di awal pelatihan.

Semua ini bersama-sama membawa kebutuhan memori ke dalam rentang 24GB.

Pengaturan Resolusi

Latih pada 512x512 untuk penggunaan memori yang nyaman. Ini lebih rendah dari 1024x1024 asli SD 3.5 tetapi menghasilkan LoRA yang baik.

Resolusi lebih tinggi seperti 768x768 mungkin muat dengan optimasi sangat agresif tetapi berisiko ketidakstabilan.

LoRA yang dilatih pada resolusi lebih rendah bekerja pada resolusi pembuatan yang lebih tinggi. Konsep ditransfer meskipun dilatih lebih kecil.

Batch dan Akumulasi

Tetapkan ukuran batch ke 1 untuk efisiensi memori maksimum. Gunakan akumulasi gradien untuk mencapai batch efektif yang lebih besar.

Akumulasi gradien 4-8 memberikan ukuran batch efektif 4-8 sambil hanya menyimpan 1 sampel dalam memori.

Ini memberikan dinamika pelatihan yang stabil tanpa biaya memori batching sebenarnya.

Konfigurasi Jaringan

Network rank 16-32 bekerja dengan baik untuk sebagian besar LoRA SD 3.5. Rank lebih tinggi dapat menangkap lebih banyak detail tetapi memerlukan lebih banyak memori dan data pelatihan.

Network alpha dapat sama dengan rank atau ditetapkan setengah rank. Coba keduanya dan lihat apa yang berhasil untuk kasus penggunaan Anda.

Arsitektur SD 3.5 mungkin lebih menyukai nilai rank yang berbeda dari SDXL. Bereksperimen untuk menemukan apa yang berhasil.

Konfigurasi Optimizer

Gunakan optimizer AdamW8bit dari bitsandbytes. Ini memberikan penghematan memori state optimizer 8-bit.

Learning rate 1e-4 adalah titik awal yang wajar. Sesuaikan berdasarkan perilaku konvergensi.

Learning rate konstan sering bekerja lebih baik dari scheduler untuk pelatihan LoRA. Jaga tetap sederhana pada awalnya.

Persiapan Dataset Apa yang Diperlukan?

Data pelatihan berkualitas menghasilkan hasil berkualitas.

Pemilihan Gambar

10-20 gambar untuk karakter, 50-200 untuk gaya. Kualitas lebih penting dari kuantitas.

Sertakan variasi dalam pencahayaan, sudut, ekspresi, latar belakang. LoRA belajar dari variasi.

Hindari duplikat dan hampir-duplikat. Setiap gambar harus menyumbang informasi unik.

Resolusi dan Format

Ubah ukuran gambar ke resolusi pelatihan atau sedikit di atas. Pelatihan pada 512x512 tidak mendapat manfaat dari gambar sumber 4K.

Alur Kerja ComfyUI Gratis

Temukan alur kerja ComfyUI gratis dan open source untuk teknik dalam artikel ini. Open source itu kuat.

100% Gratis Lisensi MIT Siap Produksi Beri Bintang & Coba

Format PNG atau JPEG berkualitas tinggi bekerja dengan baik. Hindari gambar yang sangat terkompresi.

Pertahankan rasio aspek yang konsisten atau gunakan bucketing jika alat pelatihan Anda mendukung.

Captioning

Caption detail secara signifikan meningkatkan kualitas LoRA. SD 3.5 mendapat manfaat dari pemahaman teks yang ditingkatkan.

Gunakan deskripsi bahasa alami daripada daftar tag. "Seorang wanita dengan rambut merah panjang berdiri di hutan" daripada "woman, red hair, forest."

Sertakan trigger word Anda di setiap caption. "Foto [trigger] mengenakan gaun biru" mengajarkan LoRA apa yang diwakili trigger.

Alat seperti BLIP, CogVLM, atau captioning manual semuanya bekerja. Penyempurnaan manual caption otomatis meningkatkan hasil.

Struktur Dataset

Organisir gambar dalam folder dengan file caption yang sesuai. Format umum adalah image.png dengan image.txt berisi caption.

Alat pelatihan mengharapkan struktur folder tertentu. Cocokkan dengan persyaratan alat Anda.

Proses Pelatihan Apa yang Harus Diikuti?

Lakukan pelatihan secara sistematis untuk hasil terbaik.

Pemilihan Alat

Kohya SS menyediakan dukungan pelatihan LoRA SD 3.5 komprehensif dengan konfigurasi GUI.

SimpleTuner menawarkan alternatif yang disederhanakan dengan default yang baik.

Script kustom menggunakan pustaka diffusers memberikan kontrol maksimum untuk pengguna lanjut.

Pilih berdasarkan kenyamanan Anda dengan kompleksitas konfigurasi.

Konfigurasi Awal

Mulai dengan pengaturan konservatif yang pasti akan bekerja.

Resolusi 512x512, ukuran batch 1, akumulasi gradien 4, rank 16, 1000 langkah.

Ingin melewati kerumitan? Apatero memberi Anda hasil AI profesional secara instan tanpa pengaturan teknis.

Tanpa pengaturan Kualitas sama Mulai dalam 30 detik Coba Apatero Gratis
Tidak perlu kartu kredit

Ini menghasilkan LoRA yang berfungsi yang dapat Anda evaluasi sebelum optimasi.

Pembuatan Sampel

Aktifkan pembuatan sampel selama pelatihan. Setiap 100-200 langkah menghasilkan gambar uji.

Sampel menunjukkan kemajuan pembelajaran. Anda melihat trigger word teraktivasi dan subjek Anda muncul.

Hentikan pelatihan ketika sampel terlihat bagus tetapi sebelum kualitas mulai menurun dari overfit.

Pemantauan

Amati nilai loss selama pelatihan. Seharusnya menurun lalu stabil.

Peningkatan mendadak menunjukkan masalah. Learning rate terlalu tinggi atau masalah data menyebabkan ini.

Perkiraan waktu pelatihan membantu Anda merencanakan. Jalankan 2500 langkah pada 4090 memakan waktu sekitar 1-2 jam.

Evaluasi

Setelah pelatihan, uji LoRA di berbagai prompt dan skenario.

Coba gaya, pose, dan konteks yang berbeda untuk melihat seberapa baik LoRA menggeneralisasi.

Jika hasilnya lemah, pertimbangkan lebih banyak langkah pelatihan, learning rate berbeda, atau lebih banyak data pelatihan.

Bagaimana Performa LoRA SD 3.5 Dibandingkan SDXL?

Memahami perbedaan membantu menetapkan ekspektasi.

Potensi Kualitas

SD 3.5 dapat menghasilkan hasil lebih baik dari SDXL dengan pelatihan yang cukup. Peningkatan arsitektur memberikan kapasitas lebih.

Tetapi merealisasikan potensi ini memerlukan pelatihan yang tepat. LoRA SD 3.5 yang dilatih buruk tidak akan mengalahkan LoRA SDXL yang dilatih baik.

Efisiensi Pelatihan

SD 3.5 mungkin memerlukan langkah serupa atau sedikit lebih banyak dari SDXL untuk hasil setara. Arsitektur lebih besar memiliki lebih banyak untuk dipelajari.

Kebutuhan memori lebih tinggi untuk pengaturan setara. Anda mendapat potensi lebih baik tetapi memerlukan lebih banyak sumber daya.

Bergabung dengan 115 anggota kursus lainnya

Buat Influencer AI Ultra-Realistis Pertama Anda dalam 51 Pelajaran

Buat influencer AI ultra-realistis dengan detail kulit yang hidup, selfie profesional, dan adegan kompleks. Dapatkan dua kursus lengkap dalam satu paket. ComfyUI Foundation untuk menguasai teknologi, dan Fanvue Creator Academy untuk belajar memasarkan diri Anda sebagai kreator AI.

Harga early-bird berakhir dalam:
--
Hari
:
--
Jam
:
--
Menit
:
--
Detik
51 Pelajaran • 2 Kursus Lengkap
Pembayaran Sekali
Update Seumur Hidup
Hemat $200 - Harga Naik ke $399 Selamanya
Diskon early-bird untuk siswa pertama kami. Kami terus menambahkan nilai lebih, tetapi Anda mengunci $199 selamanya.
Ramah pemula
Siap produksi
Selalu diperbarui

Kematangan Ekosistem

SDXL memiliki bertahun-tahun pengetahuan komunitas tentang pelatihan. Praktik terbaik SD 3.5 masih berkembang.

Kurang kepastian tentang pengaturan optimal berarti lebih banyak eksperimen. Ini normal untuk model baru.

Kualitas Pembuatan

LoRA SD 3.5 yang dilatih baik menghasilkan hasil sangat baik pada waktu pembuatan. Keuntungan model dasar ditransfer.

Rendering teks, komposisi, dan detail semuanya mendapat manfaat dari peningkatan SD 3.5.

Untuk pengguna yang menginginkan pelatihan LoRA SD 3.5 tanpa batasan perangkat keras, Apatero.com menyediakan pelatihan berbasis cloud dengan GPU profesional. Anda mengonfigurasi pekerjaan pelatihan sementara platform menangani optimasi memori dan manajemen perangkat keras.

Masalah Umum Apa yang Harus Diperhatikan?

Masalah dan solusi tipikal untuk pelatihan LoRA SD 3.5.

Kesalahan Kehabisan Memori

Jika OOM terjadi, verifikasi semua optimasi memori diaktifkan. Gradient checkpointing dan presisi campuran sangat penting.

Kurangi resolusi ke 512x512 jika Anda mencoba lebih tinggi. Setiap piksel memakan memori.

Periksa bahwa offloading encoder teks berfungsi. T5-XXL yang tetap di VRAM menggunakan terlalu banyak.

Pembelajaran Buruk

Jika LoRA tidak mempengaruhi pembuatan, coba learning rate lebih tinggi atau lebih banyak langkah.

Periksa bahwa caption menyertakan trigger word Anda secara konsisten. Trigger yang hilang berarti LoRA tidak belajar apa yang harus diaktifkan.

Verifikasi gambar pelatihan Anda benar-benar berisi apa yang Anda coba ajarkan.

Overfit

Jika LoRA hanya menghasilkan gambar pelatihan daripada menggeneralisasi, kurangi langkah pelatihan.

Learning rate lebih rendah juga dapat mengurangi kecenderungan overfit.

Tambahkan lebih banyak variasi pelatihan. LoRA perlu melihat variasi untuk menggeneralisasi.

Style Bleeding

Jika LoRA mengubah gaya gambar keseluruhan padahal Anda hanya ingin mengajarkan subjek, gunakan pengaturan lebih konservatif.

Rank lebih rendah dan lebih sedikit langkah mengurangi seberapa banyak LoRA mengubah model.

Caption lebih baik yang mendeskripsikan semuanya kecuali subjek Anda membantu mengisolasi apa yang dipelajari.

Pertanyaan yang Sering Diajukan

Apakah 24GB VRAM cukup untuk pelatihan LoRA SD 3.5 Large?

Ya, dengan semua optimasi memori diaktifkan. Gradient checkpointing, BF16, optimizer 8-bit, dan resolusi 512x512 membuatnya mungkin.

Berapa lama pelatihan pada RTX 4090?

Sekitar 1-2 jam untuk LoRA karakter tipikal pada 2000 langkah. LoRA gaya yang memerlukan 4000 langkah memakan waktu lebih lama.

Bisakah saya melatih pada resolusi 1024x1024?

Tidak praktis pada 24GB. Kebutuhan memori terlalu tinggi. Latih pada 512x512 dan buat pada 1024x1024.

Network rank apa yang harus saya gunakan?

Mulai dengan 16 untuk karakter, 32 untuk gaya. Tingkatkan jika hasil lemah, kurangi jika overfit.

Apakah SD 3.5 memerlukan learning rate berbeda dari SDXL?

Rentang serupa bekerja tetapi nilai optimal mungkin berbeda. Mulai pada 1e-4 dan sesuaikan berdasarkan konvergensi.

Haruskah saya melatih ketiga encoder teks atau membekukan beberapa?

Untuk pelatihan LoRA, Anda biasanya hanya melatih backbone difusi. Encoder teks digunakan tetapi tidak dilatih.

Berapa banyak gambar yang saya perlukan?

10-20 untuk karakter dengan variasi. 50-200 untuk gaya. Kualitas dan variasi lebih penting dari kuantitas.

Bisakah saya menggunakan LoRA SDXL dengan SD 3.5?

Tidak, mereka adalah arsitektur yang tidak kompatibel. Anda memerlukan LoRA khusus SD 3.5.

Apakah SD 3.5 Medium lebih mudah dilatih dari Large?

Ya, memiliki kebutuhan memori lebih rendah. Jika Large terlalu menuntut, Medium adalah alternatif yang valid.

Akankah LoRA SD 3.5 saya bekerja dengan versi mendatang?

Kemungkinan tidak secara langsung. Versi model baru biasanya memerlukan pelatihan ulang LoRA.

Kesimpulan

Pelatihan LoRA SD 3.5 Large pada perangkat keras konsumen memerlukan optimasi yang hati-hati tetapi menghasilkan hasil yang sangat baik. Peningkatan arsitektur dari SDXL diterjemahkan menjadi LoRA yang dilatih lebih baik.

Konfigurasi semua optimasi memori. Gradient checkpointing, BF16, optimizer 8-bit, dan resolusi 512x512 membuat pelatihan 24GB layak.

Siapkan data pelatihan berkualitas dengan caption detail. Pemahaman teks SD 3.5 mendapat manfaat dari deskripsi bahasa alami.

Pantau pelatihan dengan sampel dan hentikan sebelum overfitting. LoRA terbaik menangkap subjek Anda sambil menggeneralisasi ke konteks baru.

Untuk pelatihan tanpa batasan perangkat keras, layanan cloud menyediakan akses ke GPU lebih besar. Ini dapat memungkinkan resolusi lebih tinggi atau waktu pelatihan lebih cepat.

Dengan konfigurasi yang tepat, pelatihan LoRA SD 3.5 Large memberikan keuntungan arsitektur model untuk konsep dan gaya kustom Anda.

Siap Membuat Influencer AI Anda?

Bergabung dengan 115 siswa yang menguasai ComfyUI dan pemasaran influencer AI dalam kursus lengkap 51 pelajaran kami.

Harga early-bird berakhir dalam:
--
Hari
:
--
Jam
:
--
Menit
:
--
Detik
Klaim Tempat Anda - $199
Hemat $200 - Harga Naik ke $399 Selamanya