Pelatihan LoRA SD 3.5 Large Secara Lokal - Panduan Lengkap
Latih LoRA Stable Diffusion 3.5 Large pada perangkat keras lokal dengan pengaturan yang dioptimalkan untuk GPU konsumen dan hasil berkualitas profesional
Anda ingin melatih LoRA untuk Stable Diffusion 3.5 Large tetapi ukuran model membuatnya menantang pada perangkat keras konsumen. Arsitektur yang ditingkatkan dari SDXL menarik, tetapi pelatihan tampaknya memerlukan GPU profesional. Dengan konfigurasi yang tepat, Anda dapat melatih LoRA SD 3.5 Large berkualitas pada RTX 4090 dan kartu serupa.
Jawaban Cepat: Pelatihan LoRA SD 3.5 Large secara lokal memerlukan optimasi memori agresif termasuk gradient checkpointing, presisi campuran BF16, optimizer 8-bit, dan resolusi pelatihan 512x512. Pada RTX 4090 dengan 24GB VRAM, gunakan ukuran batch 1 dengan akumulasi gradien, network rank 16-32, dan sekitar 1500-2500 langkah untuk karakter atau 3000-4000 untuk gaya. Pelatihan memakan waktu 1-3 jam tergantung dataset dan pengaturan.
- Gradient checkpointing sangat penting untuk kartu 24GB dengan SD 3.5 Large
- Resolusi 512x512 secara dramatis mengurangi memori dibandingkan 1024x1024
- Presisi campuran BF16 bekerja dengan baik dan mengurangi setengah kebutuhan memori
- Network rank 16-32 memberikan hasil yang baik untuk sebagian besar kasus penggunaan
- Optimizer Adam 8-bit mengurangi memori state optimizer sebesar 50%
SD 3.5 Large menggunakan arsitektur berbeda dari SDXL dengan beberapa encoder teks dan backbone DiT yang lebih besar. Arsitektur yang ditingkatkan ini menghasilkan hasil yang lebih baik tetapi menuntut lebih dari perangkat keras pelatihan. Mari kita konfigurasi pelatihan yang bekerja pada GPU konsumen.
Apa yang Membuat Pelatihan SD 3.5 Large Berbeda?
Memahami arsitektur membantu Anda mengoptimalkan pelatihan.
Arsitektur Model
SD 3.5 Large menggunakan tiga encoder teks alih-alih dua milik SDXL. CLIP-L, CLIP-G, dan T5-XXL menyediakan pemahaman teks.
Encoder T5-XXL saja lebih besar dari seluruh model generasi sebelumnya. Memuat ketiga encoder selama pelatihan mengonsumsi VRAM yang signifikan.
Backbone difusi menggunakan arsitektur DiT dengan parameter lebih banyak dari UNet SDXL. Ini memberikan keuntungan kualitas tetapi meningkatkan kebutuhan memori pelatihan.
Kebutuhan Memori
Pada presisi penuh tanpa optimasi, pelatihan SD 3.5 Large membutuhkan 50GB+ VRAM. Itu melebihi semua kartu konsumen.
Dengan optimasi, 24GB menjadi mungkin tetapi memerlukan setiap teknik penghematan memori yang tersedia.
Beberapa encoder teks dapat di-offload selama pelatihan karena hanya diperlukan untuk encoding teks, bukan loop pelatihan utama.
Dinamika Pelatihan
Arsitektur SD 3.5 mungkin merespons hyperparameter secara berbeda dari SDXL. Learning rate dan jumlah langkah yang berhasil untuk SDXL memerlukan penyesuaian.
Tujuan pelatihan rectified flow juga berbeda dari tujuan difusi sebelumnya. Ini dapat mempengaruhi perilaku konvergensi.
Bagaimana Mengonfigurasi Pelatihan untuk 24GB VRAM?
Pengaturan ini memungkinkan pelatihan pada RTX 4090 dan kartu serupa.
Optimasi Memori Penting
Gradient checkpointing harus diaktifkan. Ini menukar komputasi dengan memori dengan menghitung ulang aktivasi selama backward pass.
Presisi campuran BF16 mengurangi memori model dan aktivasi menjadi setengah. SD 3.5 berlatih dengan baik dalam BF16.
Optimizer Adam 8-bit menggunakan INT8 untuk state optimizer alih-alih FP32. Ini menghemat 50% memori optimizer.
Offloading encoder teks memindahkan T5-XXL ke CPU setelah encoding. Hanya diperlukan di awal pelatihan.
Semua ini bersama-sama membawa kebutuhan memori ke dalam rentang 24GB.
Pengaturan Resolusi
Latih pada 512x512 untuk penggunaan memori yang nyaman. Ini lebih rendah dari 1024x1024 asli SD 3.5 tetapi menghasilkan LoRA yang baik.
Resolusi lebih tinggi seperti 768x768 mungkin muat dengan optimasi sangat agresif tetapi berisiko ketidakstabilan.
LoRA yang dilatih pada resolusi lebih rendah bekerja pada resolusi pembuatan yang lebih tinggi. Konsep ditransfer meskipun dilatih lebih kecil.
Batch dan Akumulasi
Tetapkan ukuran batch ke 1 untuk efisiensi memori maksimum. Gunakan akumulasi gradien untuk mencapai batch efektif yang lebih besar.
Akumulasi gradien 4-8 memberikan ukuran batch efektif 4-8 sambil hanya menyimpan 1 sampel dalam memori.
Ini memberikan dinamika pelatihan yang stabil tanpa biaya memori batching sebenarnya.
Konfigurasi Jaringan
Network rank 16-32 bekerja dengan baik untuk sebagian besar LoRA SD 3.5. Rank lebih tinggi dapat menangkap lebih banyak detail tetapi memerlukan lebih banyak memori dan data pelatihan.
Network alpha dapat sama dengan rank atau ditetapkan setengah rank. Coba keduanya dan lihat apa yang berhasil untuk kasus penggunaan Anda.
Arsitektur SD 3.5 mungkin lebih menyukai nilai rank yang berbeda dari SDXL. Bereksperimen untuk menemukan apa yang berhasil.
Konfigurasi Optimizer
Gunakan optimizer AdamW8bit dari bitsandbytes. Ini memberikan penghematan memori state optimizer 8-bit.
Learning rate 1e-4 adalah titik awal yang wajar. Sesuaikan berdasarkan perilaku konvergensi.
Learning rate konstan sering bekerja lebih baik dari scheduler untuk pelatihan LoRA. Jaga tetap sederhana pada awalnya.
Persiapan Dataset Apa yang Diperlukan?
Data pelatihan berkualitas menghasilkan hasil berkualitas.
Pemilihan Gambar
10-20 gambar untuk karakter, 50-200 untuk gaya. Kualitas lebih penting dari kuantitas.
Sertakan variasi dalam pencahayaan, sudut, ekspresi, latar belakang. LoRA belajar dari variasi.
Hindari duplikat dan hampir-duplikat. Setiap gambar harus menyumbang informasi unik.
Resolusi dan Format
Ubah ukuran gambar ke resolusi pelatihan atau sedikit di atas. Pelatihan pada 512x512 tidak mendapat manfaat dari gambar sumber 4K.
Alur Kerja ComfyUI Gratis
Temukan alur kerja ComfyUI gratis dan open source untuk teknik dalam artikel ini. Open source itu kuat.
Format PNG atau JPEG berkualitas tinggi bekerja dengan baik. Hindari gambar yang sangat terkompresi.
Pertahankan rasio aspek yang konsisten atau gunakan bucketing jika alat pelatihan Anda mendukung.
Captioning
Caption detail secara signifikan meningkatkan kualitas LoRA. SD 3.5 mendapat manfaat dari pemahaman teks yang ditingkatkan.
Gunakan deskripsi bahasa alami daripada daftar tag. "Seorang wanita dengan rambut merah panjang berdiri di hutan" daripada "woman, red hair, forest."
Sertakan trigger word Anda di setiap caption. "Foto [trigger] mengenakan gaun biru" mengajarkan LoRA apa yang diwakili trigger.
Alat seperti BLIP, CogVLM, atau captioning manual semuanya bekerja. Penyempurnaan manual caption otomatis meningkatkan hasil.
Struktur Dataset
Organisir gambar dalam folder dengan file caption yang sesuai. Format umum adalah image.png dengan image.txt berisi caption.
Alat pelatihan mengharapkan struktur folder tertentu. Cocokkan dengan persyaratan alat Anda.
Proses Pelatihan Apa yang Harus Diikuti?
Lakukan pelatihan secara sistematis untuk hasil terbaik.
Pemilihan Alat
Kohya SS menyediakan dukungan pelatihan LoRA SD 3.5 komprehensif dengan konfigurasi GUI.
SimpleTuner menawarkan alternatif yang disederhanakan dengan default yang baik.
Script kustom menggunakan pustaka diffusers memberikan kontrol maksimum untuk pengguna lanjut.
Pilih berdasarkan kenyamanan Anda dengan kompleksitas konfigurasi.
Konfigurasi Awal
Mulai dengan pengaturan konservatif yang pasti akan bekerja.
Resolusi 512x512, ukuran batch 1, akumulasi gradien 4, rank 16, 1000 langkah.
Ingin melewati kerumitan? Apatero memberi Anda hasil AI profesional secara instan tanpa pengaturan teknis.
Ini menghasilkan LoRA yang berfungsi yang dapat Anda evaluasi sebelum optimasi.
Pembuatan Sampel
Aktifkan pembuatan sampel selama pelatihan. Setiap 100-200 langkah menghasilkan gambar uji.
Sampel menunjukkan kemajuan pembelajaran. Anda melihat trigger word teraktivasi dan subjek Anda muncul.
Hentikan pelatihan ketika sampel terlihat bagus tetapi sebelum kualitas mulai menurun dari overfit.
Pemantauan
Amati nilai loss selama pelatihan. Seharusnya menurun lalu stabil.
Peningkatan mendadak menunjukkan masalah. Learning rate terlalu tinggi atau masalah data menyebabkan ini.
Perkiraan waktu pelatihan membantu Anda merencanakan. Jalankan 2500 langkah pada 4090 memakan waktu sekitar 1-2 jam.
Evaluasi
Setelah pelatihan, uji LoRA di berbagai prompt dan skenario.
Coba gaya, pose, dan konteks yang berbeda untuk melihat seberapa baik LoRA menggeneralisasi.
Jika hasilnya lemah, pertimbangkan lebih banyak langkah pelatihan, learning rate berbeda, atau lebih banyak data pelatihan.
Bagaimana Performa LoRA SD 3.5 Dibandingkan SDXL?
Memahami perbedaan membantu menetapkan ekspektasi.
Potensi Kualitas
SD 3.5 dapat menghasilkan hasil lebih baik dari SDXL dengan pelatihan yang cukup. Peningkatan arsitektur memberikan kapasitas lebih.
Tetapi merealisasikan potensi ini memerlukan pelatihan yang tepat. LoRA SD 3.5 yang dilatih buruk tidak akan mengalahkan LoRA SDXL yang dilatih baik.
Efisiensi Pelatihan
SD 3.5 mungkin memerlukan langkah serupa atau sedikit lebih banyak dari SDXL untuk hasil setara. Arsitektur lebih besar memiliki lebih banyak untuk dipelajari.
Kebutuhan memori lebih tinggi untuk pengaturan setara. Anda mendapat potensi lebih baik tetapi memerlukan lebih banyak sumber daya.
Bergabung dengan 115 anggota kursus lainnya
Buat Influencer AI Ultra-Realistis Pertama Anda dalam 51 Pelajaran
Buat influencer AI ultra-realistis dengan detail kulit yang hidup, selfie profesional, dan adegan kompleks. Dapatkan dua kursus lengkap dalam satu paket. ComfyUI Foundation untuk menguasai teknologi, dan Fanvue Creator Academy untuk belajar memasarkan diri Anda sebagai kreator AI.
Kematangan Ekosistem
SDXL memiliki bertahun-tahun pengetahuan komunitas tentang pelatihan. Praktik terbaik SD 3.5 masih berkembang.
Kurang kepastian tentang pengaturan optimal berarti lebih banyak eksperimen. Ini normal untuk model baru.
Kualitas Pembuatan
LoRA SD 3.5 yang dilatih baik menghasilkan hasil sangat baik pada waktu pembuatan. Keuntungan model dasar ditransfer.
Rendering teks, komposisi, dan detail semuanya mendapat manfaat dari peningkatan SD 3.5.
Untuk pengguna yang menginginkan pelatihan LoRA SD 3.5 tanpa batasan perangkat keras, Apatero.com menyediakan pelatihan berbasis cloud dengan GPU profesional. Anda mengonfigurasi pekerjaan pelatihan sementara platform menangani optimasi memori dan manajemen perangkat keras.
Masalah Umum Apa yang Harus Diperhatikan?
Masalah dan solusi tipikal untuk pelatihan LoRA SD 3.5.
Kesalahan Kehabisan Memori
Jika OOM terjadi, verifikasi semua optimasi memori diaktifkan. Gradient checkpointing dan presisi campuran sangat penting.
Kurangi resolusi ke 512x512 jika Anda mencoba lebih tinggi. Setiap piksel memakan memori.
Periksa bahwa offloading encoder teks berfungsi. T5-XXL yang tetap di VRAM menggunakan terlalu banyak.
Pembelajaran Buruk
Jika LoRA tidak mempengaruhi pembuatan, coba learning rate lebih tinggi atau lebih banyak langkah.
Periksa bahwa caption menyertakan trigger word Anda secara konsisten. Trigger yang hilang berarti LoRA tidak belajar apa yang harus diaktifkan.
Verifikasi gambar pelatihan Anda benar-benar berisi apa yang Anda coba ajarkan.
Overfit
Jika LoRA hanya menghasilkan gambar pelatihan daripada menggeneralisasi, kurangi langkah pelatihan.
Learning rate lebih rendah juga dapat mengurangi kecenderungan overfit.
Tambahkan lebih banyak variasi pelatihan. LoRA perlu melihat variasi untuk menggeneralisasi.
Style Bleeding
Jika LoRA mengubah gaya gambar keseluruhan padahal Anda hanya ingin mengajarkan subjek, gunakan pengaturan lebih konservatif.
Rank lebih rendah dan lebih sedikit langkah mengurangi seberapa banyak LoRA mengubah model.
Caption lebih baik yang mendeskripsikan semuanya kecuali subjek Anda membantu mengisolasi apa yang dipelajari.
Pertanyaan yang Sering Diajukan
Apakah 24GB VRAM cukup untuk pelatihan LoRA SD 3.5 Large?
Ya, dengan semua optimasi memori diaktifkan. Gradient checkpointing, BF16, optimizer 8-bit, dan resolusi 512x512 membuatnya mungkin.
Berapa lama pelatihan pada RTX 4090?
Sekitar 1-2 jam untuk LoRA karakter tipikal pada 2000 langkah. LoRA gaya yang memerlukan 4000 langkah memakan waktu lebih lama.
Bisakah saya melatih pada resolusi 1024x1024?
Tidak praktis pada 24GB. Kebutuhan memori terlalu tinggi. Latih pada 512x512 dan buat pada 1024x1024.
Network rank apa yang harus saya gunakan?
Mulai dengan 16 untuk karakter, 32 untuk gaya. Tingkatkan jika hasil lemah, kurangi jika overfit.
Apakah SD 3.5 memerlukan learning rate berbeda dari SDXL?
Rentang serupa bekerja tetapi nilai optimal mungkin berbeda. Mulai pada 1e-4 dan sesuaikan berdasarkan konvergensi.
Haruskah saya melatih ketiga encoder teks atau membekukan beberapa?
Untuk pelatihan LoRA, Anda biasanya hanya melatih backbone difusi. Encoder teks digunakan tetapi tidak dilatih.
Berapa banyak gambar yang saya perlukan?
10-20 untuk karakter dengan variasi. 50-200 untuk gaya. Kualitas dan variasi lebih penting dari kuantitas.
Bisakah saya menggunakan LoRA SDXL dengan SD 3.5?
Tidak, mereka adalah arsitektur yang tidak kompatibel. Anda memerlukan LoRA khusus SD 3.5.
Apakah SD 3.5 Medium lebih mudah dilatih dari Large?
Ya, memiliki kebutuhan memori lebih rendah. Jika Large terlalu menuntut, Medium adalah alternatif yang valid.
Akankah LoRA SD 3.5 saya bekerja dengan versi mendatang?
Kemungkinan tidak secara langsung. Versi model baru biasanya memerlukan pelatihan ulang LoRA.
Kesimpulan
Pelatihan LoRA SD 3.5 Large pada perangkat keras konsumen memerlukan optimasi yang hati-hati tetapi menghasilkan hasil yang sangat baik. Peningkatan arsitektur dari SDXL diterjemahkan menjadi LoRA yang dilatih lebih baik.
Konfigurasi semua optimasi memori. Gradient checkpointing, BF16, optimizer 8-bit, dan resolusi 512x512 membuat pelatihan 24GB layak.
Siapkan data pelatihan berkualitas dengan caption detail. Pemahaman teks SD 3.5 mendapat manfaat dari deskripsi bahasa alami.
Pantau pelatihan dengan sampel dan hentikan sebelum overfitting. LoRA terbaik menangkap subjek Anda sambil menggeneralisasi ke konteks baru.
Untuk pelatihan tanpa batasan perangkat keras, layanan cloud menyediakan akses ke GPU lebih besar. Ini dapat memungkinkan resolusi lebih tinggi atau waktu pelatihan lebih cepat.
Dengan konfigurasi yang tepat, pelatihan LoRA SD 3.5 Large memberikan keuntungan arsitektur model untuk konsep dan gaya kustom Anda.
Siap Membuat Influencer AI Anda?
Bergabung dengan 115 siswa yang menguasai ComfyUI dan pemasaran influencer AI dalam kursus lengkap 51 pelajaran kami.
Artikel Terkait
Prompt Terbaik untuk Seni Cyberpunk - 50+ Contoh Bernuansa Neon untuk Sci-Fi 2025
Kuasai pembuatan seni cyberpunk dengan 50+ prompt teruji untuk kota neon, karakter tech noir, dan masa depan distopia. Panduan lengkap dengan kata kunci pencahayaan, palet warna, dan efek atmosfer.
Memperbaiki Error CUDA GPU Blackwell - Panduan Troubleshooting RTX 5090 dan 5080
Selesaikan error CUDA pada GPU NVIDIA Blackwell termasuk RTX 5090 dan 5080 dengan perbaikan driver, update CUDA Toolkit, dan konfigurasi PyTorch
Membuat Seni dengan Palet Warna Konsisten Menggunakan AI
Kuasai kontrol palet warna konsisten dalam pembuatan gambar AI dengan IP-Adapter, ControlNet warna, ekstraksi palet, dan transfer gaya. Panduan lengkap untuk menjaga harmoni warna di semua proyek seni AI Anda.