/ Tạo Hình ảnh AI / Huấn luyện LoRA SD 3.5 Large Cục bộ - Hướng dẫn Đầy đủ
Tạo Hình ảnh AI 14 phút đọc

Huấn luyện LoRA SD 3.5 Large Cục bộ - Hướng dẫn Đầy đủ

Huấn luyện LoRA Stable Diffusion 3.5 Large trên phần cứng cục bộ với cài đặt tối ưu cho GPU tiêu dùng và kết quả chất lượng chuyên nghiệp

Huấn luyện LoRA SD 3.5 Large Cục bộ - Hướng dẫn Đầy đủ - Complete Tạo Hình ảnh AI guide and tutorial

Bạn muốn huấn luyện LoRA cho Stable Diffusion 3.5 Large nhưng kích thước model khiến việc này khó khăn trên phần cứng tiêu dùng. Kiến trúc được cải thiện so với SDXL rất hấp dẫn, nhưng việc huấn luyện dường như yêu cầu GPU chuyên nghiệp. Với cấu hình đúng, bạn có thể huấn luyện LoRA SD 3.5 Large chất lượng trên RTX 4090 và các card tương tự.

Trả lời Nhanh: Huấn luyện LoRA SD 3.5 Large cục bộ yêu cầu tối ưu bộ nhớ tích cực bao gồm gradient checkpointing, độ chính xác hỗn hợp BF16, optimizer 8-bit và độ phân giải huấn luyện 512x512. Trên RTX 4090 với 24GB VRAM, sử dụng batch size 1 với gradient accumulation, network rank 16-32, và khoảng 1500-2500 bước cho nhân vật hoặc 3000-4000 cho phong cách. Huấn luyện mất 1-3 giờ tùy thuộc vào dataset và cài đặt.

Điểm Chính:
  • Gradient checkpointing là cần thiết cho card 24GB với SD 3.5 Large
  • Độ phân giải 512x512 giảm đáng kể bộ nhớ so với 1024x1024
  • Độ chính xác hỗn hợp BF16 hoạt động tốt và giảm một nửa yêu cầu bộ nhớ
  • Network rank 16-32 cung cấp kết quả tốt cho hầu hết trường hợp sử dụng
  • Optimizer Adam 8-bit giảm 50% bộ nhớ trạng thái optimizer

SD 3.5 Large sử dụng kiến trúc khác với SDXL với nhiều bộ mã hóa văn bản và backbone DiT lớn hơn. Kiến trúc được cải thiện này tạo ra kết quả tốt hơn nhưng đòi hỏi nhiều hơn từ phần cứng huấn luyện. Hãy cấu hình huấn luyện hoạt động trên GPU tiêu dùng.

Điều gì Khiến Huấn luyện SD 3.5 Large Khác biệt?

Hiểu kiến trúc giúp bạn tối ưu hóa huấn luyện.

Kiến trúc Model

SD 3.5 Large sử dụng ba bộ mã hóa văn bản thay vì hai của SDXL. CLIP-L, CLIP-G và T5-XXL cung cấp hiểu văn bản.

Riêng bộ mã hóa T5-XXL đã lớn hơn toàn bộ model thế hệ trước. Tải cả ba bộ mã hóa trong quá trình huấn luyện tiêu thụ VRAM đáng kể.

Backbone khuếch tán sử dụng kiến trúc DiT với nhiều tham số hơn UNet của SDXL. Điều này cung cấp lợi ích chất lượng nhưng tăng yêu cầu bộ nhớ huấn luyện.

Yêu cầu Bộ nhớ

Ở độ chính xác đầy đủ không tối ưu, huấn luyện SD 3.5 Large cần 50GB+ VRAM. Điều đó vượt quá tất cả card tiêu dùng.

Với tối ưu, 24GB trở nên khả thi nhưng yêu cầu mọi kỹ thuật tiết kiệm bộ nhớ có sẵn.

Nhiều bộ mã hóa văn bản có thể được offload trong quá trình huấn luyện vì chúng chỉ cần cho mã hóa văn bản, không phải vòng lặp huấn luyện chính.

Động lực Huấn luyện

Kiến trúc SD 3.5 có thể phản ứng khác với hyperparameter so với SDXL. Learning rate và số bước hoạt động với SDXL cần điều chỉnh.

Mục tiêu huấn luyện rectified flow cũng khác với các mục tiêu khuếch tán trước đó. Điều này có thể ảnh hưởng đến hành vi hội tụ.

Cách Cấu hình Huấn luyện cho 24GB VRAM?

Các cài đặt này cho phép huấn luyện trên RTX 4090 và card tương tự.

Tối ưu Bộ nhớ Cần thiết

Gradient checkpointing phải được bật. Điều này đánh đổi tính toán lấy bộ nhớ bằng cách tính lại activation trong backward pass.

Độ chính xác hỗn hợp BF16 giảm bộ nhớ model và activation xuống một nửa. SD 3.5 huấn luyện tốt trong BF16.

Optimizer Adam 8-bit sử dụng INT8 cho trạng thái optimizer thay vì FP32. Điều này tiết kiệm 50% bộ nhớ optimizer.

Offloading bộ mã hóa văn bản di chuyển T5-XXL đến CPU sau khi mã hóa. Chỉ cần ở đầu huấn luyện.

Tất cả những điều này cùng nhau đưa yêu cầu bộ nhớ vào phạm vi 24GB.

Cài đặt Độ phân giải

Huấn luyện ở 512x512 cho sử dụng bộ nhớ thoải mái. Điều này thấp hơn 1024x1024 gốc của SD 3.5 nhưng tạo LoRA tốt.

Độ phân giải cao hơn như 768x768 có thể vừa với tối ưu rất tích cực nhưng có nguy cơ không ổn định.

LoRA được huấn luyện ở độ phân giải thấp hơn hoạt động ở độ phân giải tạo cao hơn. Khái niệm được chuyển giao ngay cả khi được huấn luyện nhỏ hơn.

Batch và Accumulation

Đặt batch size thành 1 cho hiệu quả bộ nhớ tối đa. Sử dụng gradient accumulation để đạt batch hiệu quả lớn hơn.

Gradient accumulation 4-8 cho batch size hiệu quả 4-8 trong khi chỉ giữ 1 mẫu trong bộ nhớ.

Điều này cung cấp động lực huấn luyện ổn định mà không có chi phí bộ nhớ của batching thực.

Cấu hình Network

Network rank 16-32 hoạt động tốt cho hầu hết LoRA SD 3.5. Rank cao hơn có thể nắm bắt nhiều chi tiết hơn nhưng cần nhiều bộ nhớ và dữ liệu huấn luyện hơn.

Network alpha có thể bằng rank hoặc đặt bằng nửa rank. Thử cả hai và xem cái nào hoạt động cho trường hợp sử dụng của bạn.

Kiến trúc SD 3.5 có thể ưa thích giá trị rank khác với SDXL. Thử nghiệm để tìm cái nào hoạt động.

Cấu hình Optimizer

Sử dụng optimizer AdamW8bit từ bitsandbytes. Điều này cung cấp tiết kiệm bộ nhớ trạng thái optimizer 8-bit.

Learning rate 1e-4 là điểm khởi đầu hợp lý. Điều chỉnh dựa trên hành vi hội tụ.

Learning rate không đổi thường hoạt động tốt hơn scheduler cho huấn luyện LoRA. Giữ đơn giản ban đầu.

Cần Chuẩn bị Dataset gì?

Dữ liệu huấn luyện chất lượng tạo kết quả chất lượng.

Chọn Hình ảnh

10-20 hình ảnh cho nhân vật, 50-200 cho phong cách. Chất lượng quan trọng hơn số lượng.

Bao gồm đa dạng trong ánh sáng, góc, biểu cảm, nền. LoRA học từ sự đa dạng.

Tránh trùng lặp và gần trùng lặp. Mỗi hình ảnh nên đóng góp thông tin duy nhất.

Độ phân giải và Định dạng

Thay đổi kích thước hình ảnh thành độ phân giải huấn luyện hoặc cao hơn một chút. Huấn luyện ở 512x512 không hưởng lợi từ hình ảnh nguồn 4K.

Quy Trình ComfyUI Miễn Phí

Tìm quy trình ComfyUI miễn phí và mã nguồn mở cho các kỹ thuật trong bài viết này. Mã nguồn mở rất mạnh mẽ.

100% Miễn Phí Giấy Phép MIT Sẵn Sàng Sản Xuất Gắn Sao & Dùng Thử

Định dạng PNG hoặc JPEG chất lượng cao hoạt động tốt. Tránh hình ảnh nén nhiều.

Duy trì tỷ lệ khung hình nhất quán hoặc sử dụng bucketing nếu công cụ huấn luyện của bạn hỗ trợ.

Captioning

Caption chi tiết cải thiện đáng kể chất lượng LoRA. SD 3.5 hưởng lợi từ hiểu văn bản được cải thiện.

Sử dụng mô tả ngôn ngữ tự nhiên thay vì danh sách tag. "Một phụ nữ tóc đỏ dài đứng trong rừng" thay vì "woman, red hair, forest."

Bao gồm trigger word của bạn trong mọi caption. "Ảnh [trigger] mặc váy xanh" dạy LoRA trigger đại diện cho gì.

Công cụ như BLIP, CogVLM hoặc captioning thủ công đều hoạt động. Tinh chỉnh thủ công caption tự động cải thiện kết quả.

Cấu trúc Dataset

Tổ chức hình ảnh trong thư mục với file caption tương ứng. Định dạng phổ biến là image.png với image.txt chứa caption.

Công cụ huấn luyện mong đợi cấu trúc thư mục cụ thể. Phù hợp với yêu cầu công cụ của bạn.

Nên Theo Quy trình Huấn luyện nào?

Thực hiện huấn luyện có hệ thống để có kết quả tốt nhất.

Chọn Công cụ

Kohya SS cung cấp hỗ trợ huấn luyện LoRA SD 3.5 toàn diện với cấu hình GUI.

SimpleTuner cung cấp thay thế đơn giản với mặc định tốt.

Script tùy chỉnh sử dụng thư viện diffusers cho kiểm soát tối đa cho người dùng nâng cao.

Chọn dựa trên sự thoải mái của bạn với độ phức tạp cấu hình.

Cấu hình Ban đầu

Bắt đầu với cài đặt bảo thủ chắc chắn sẽ hoạt động.

Độ phân giải 512x512, batch size 1, gradient accumulation 4, rank 16, 1000 bước.

Muốn bỏ qua sự phức tạp? Apatero mang đến kết quả AI chuyên nghiệp ngay lập tức mà không cần thiết lập kỹ thuật.

Không cần thiết lập Chất lượng như nhau Bắt đầu trong 30 giây Dùng Thử Apatero Miễn Phí
Không cần thẻ tín dụng

Điều này tạo LoRA hoạt động mà bạn có thể đánh giá trước khi tối ưu.

Tạo Mẫu

Bật tạo mẫu trong quá trình huấn luyện. Mỗi 100-200 bước tạo hình ảnh test.

Mẫu cho thấy tiến trình học. Bạn thấy trigger word được kích hoạt và chủ đề của bạn xuất hiện.

Dừng huấn luyện khi mẫu trông tốt nhưng trước khi chất lượng bắt đầu giảm từ overfit.

Giám sát

Quan sát giá trị loss trong quá trình huấn luyện. Chúng nên giảm rồi ổn định.

Tăng đột ngột cho thấy vấn đề. Learning rate quá cao hoặc vấn đề dữ liệu gây ra điều này.

Ước tính thời gian huấn luyện giúp bạn lập kế hoạch. Chạy 2500 bước trên 4090 mất khoảng 1-2 giờ.

Đánh giá

Sau huấn luyện, test LoRA trên các prompt và kịch bản khác nhau.

Thử các phong cách, tư thế và ngữ cảnh khác nhau để xem LoRA tổng quát tốt như thế nào.

Nếu kết quả yếu, xem xét thêm bước huấn luyện, learning rate khác hoặc thêm dữ liệu huấn luyện.

Hiệu suất LoRA SD 3.5 So sánh với SDXL như thế nào?

Hiểu sự khác biệt giúp đặt kỳ vọng.

Tiềm năng Chất lượng

SD 3.5 có thể tạo kết quả tốt hơn SDXL với huấn luyện đủ. Cải thiện kiến trúc cung cấp nhiều dung lượng hơn.

Nhưng thực hiện tiềm năng này yêu cầu huấn luyện đúng. LoRA SD 3.5 được huấn luyện kém sẽ không thắng LoRA SDXL được huấn luyện tốt.

Hiệu quả Huấn luyện

SD 3.5 có thể cần số bước tương tự hoặc nhiều hơn một chút so với SDXL cho kết quả tương đương. Kiến trúc lớn hơn có nhiều thứ để học.

Yêu cầu bộ nhớ cao hơn cho cài đặt tương đương. Bạn có tiềm năng tốt hơn nhưng cần nhiều tài nguyên hơn.

Tham gia cùng 115 thành viên khóa học khác

Tạo Influencer AI Siêu Thực Đầu Tiên Của Bạn Trong 51 Bài Học

Tạo influencer AI siêu thực với chi tiết da sống động, ảnh selfie chuyên nghiệp và cảnh phức tạp. Nhận hai khóa học hoàn chỉnh trong một gói. ComfyUI Foundation để thành thạo công nghệ, và Fanvue Creator Academy để học cách tiếp thị bản thân như một nhà sáng tạo AI.

Giá sớm kết thúc trong:
--
Ngày
:
--
Giờ
:
--
Phút
:
--
Giây
51 Bài Học • 2 Khóa Học Đầy Đủ
Thanh Toán Một Lần
Cập Nhật Trọn Đời
Tiết Kiệm $200 - Giá Tăng Lên $399 Vĩnh Viễn
Giảm giá sớm cho học sinh đầu tiên của chúng tôi. Chúng tôi liên tục thêm giá trị, nhưng bạn khóa giá $199 mãi mãi.
Thân thiện với người mới
Sẵn sàng sản xuất
Luôn cập nhật

Độ Trưởng thành Hệ sinh thái

SDXL có nhiều năm kiến thức cộng đồng về huấn luyện. Thực hành tốt nhất SD 3.5 vẫn đang phát triển.

Ít chắc chắn về cài đặt tối ưu có nghĩa là thử nghiệm nhiều hơn. Điều này bình thường cho model mới hơn.

Chất lượng Tạo

LoRA SD 3.5 được huấn luyện tốt tạo kết quả xuất sắc khi tạo. Lợi thế model cơ sở được chuyển giao.

Render văn bản, bố cục và chi tiết đều hưởng lợi từ cải thiện của SD 3.5.

Đối với người dùng muốn huấn luyện LoRA SD 3.5 không có ràng buộc phần cứng, Apatero.com cung cấp huấn luyện dựa trên đám mây với GPU chuyên nghiệp. Bạn cấu hình công việc huấn luyện trong khi nền tảng xử lý tối ưu bộ nhớ và quản lý phần cứng.

Những Vấn đề Phổ biến nào Cần Chú ý?

Vấn đề và giải pháp điển hình cho huấn luyện LoRA SD 3.5.

Lỗi Hết Bộ nhớ

Nếu OOM xảy ra, xác minh tất cả tối ưu bộ nhớ được bật. Gradient checkpointing và độ chính xác hỗn hợp là cần thiết.

Giảm độ phân giải xuống 512x512 nếu bạn đã thử cao hơn. Mỗi pixel tốn bộ nhớ.

Kiểm tra offloading bộ mã hóa văn bản đang hoạt động. T5-XXL ở trong VRAM sử dụng quá nhiều.

Học Kém

Nếu LoRA không ảnh hưởng đến việc tạo, thử learning rate cao hơn hoặc nhiều bước hơn.

Kiểm tra caption bao gồm trigger word của bạn một cách nhất quán. Trigger thiếu có nghĩa là LoRA không học kích hoạt cái gì.

Xác minh hình ảnh huấn luyện của bạn thực sự chứa những gì bạn đang cố dạy.

Overfit

Nếu LoRA chỉ tạo hình ảnh huấn luyện thay vì tổng quát, giảm bước huấn luyện.

Learning rate thấp hơn cũng có thể giảm xu hướng overfit.

Thêm nhiều đa dạng huấn luyện hơn. LoRA cần thấy đa dạng để tổng quát.

Style Bleeding

Nếu LoRA thay đổi phong cách hình ảnh tổng thể khi bạn chỉ muốn dạy chủ đề, sử dụng cài đặt bảo thủ hơn.

Rank thấp hơn và ít bước hơn giảm mức độ LoRA thay đổi model.

Caption tốt hơn mô tả mọi thứ ngoại trừ chủ đề của bạn giúp cô lập những gì được học.

Câu hỏi Thường gặp

24GB VRAM có đủ cho huấn luyện LoRA SD 3.5 Large không?

Có, với tất cả tối ưu bộ nhớ được bật. Gradient checkpointing, BF16, optimizer 8-bit và độ phân giải 512x512 làm cho nó khả thi.

Huấn luyện trên RTX 4090 mất bao lâu?

Khoảng 1-2 giờ cho LoRA nhân vật điển hình ở 2000 bước. LoRA phong cách cần 4000 bước mất lâu hơn.

Tôi có thể huấn luyện ở độ phân giải 1024x1024 không?

Không thực tế trên 24GB. Yêu cầu bộ nhớ quá cao. Huấn luyện ở 512x512 và tạo ở 1024x1024.

Tôi nên sử dụng network rank nào?

Bắt đầu với 16 cho nhân vật, 32 cho phong cách. Tăng nếu kết quả yếu, giảm nếu overfit.

SD 3.5 có cần learning rate khác với SDXL không?

Phạm vi tương tự hoạt động nhưng giá trị tối ưu có thể khác. Bắt đầu ở 1e-4 và điều chỉnh dựa trên hội tụ.

Tôi có nên huấn luyện cả ba bộ mã hóa văn bản hay đóng băng một số?

Cho huấn luyện LoRA, bạn thường chỉ huấn luyện backbone khuếch tán. Bộ mã hóa văn bản được sử dụng nhưng không được huấn luyện.

Tôi cần bao nhiêu hình ảnh?

10-20 cho nhân vật với đa dạng. 50-200 cho phong cách. Chất lượng và đa dạng quan trọng hơn số lượng.

Tôi có thể sử dụng LoRA SDXL với SD 3.5 không?

Không, chúng là kiến trúc không tương thích. Bạn cần LoRA cụ thể cho SD 3.5.

SD 3.5 Medium có dễ huấn luyện hơn Large không?

Có, nó có yêu cầu bộ nhớ thấp hơn. Nếu Large quá đòi hỏi, Medium là thay thế hợp lệ.

LoRA SD 3.5 của tôi có hoạt động với phiên bản tương lai không?

Có thể không trực tiếp. Phiên bản model mới thường yêu cầu huấn luyện lại LoRA.

Kết luận

Huấn luyện LoRA SD 3.5 Large trên phần cứng tiêu dùng yêu cầu tối ưu cẩn thận nhưng tạo kết quả xuất sắc. Cải thiện kiến trúc so với SDXL chuyển thành LoRA được huấn luyện tốt hơn.

Cấu hình tất cả tối ưu bộ nhớ. Gradient checkpointing, BF16, optimizer 8-bit và độ phân giải 512x512 làm cho huấn luyện 24GB khả thi.

Chuẩn bị dữ liệu huấn luyện chất lượng với caption chi tiết. Hiểu văn bản của SD 3.5 hưởng lợi từ mô tả ngôn ngữ tự nhiên.

Giám sát huấn luyện với mẫu và dừng trước khi overfit. LoRA tốt nhất nắm bắt chủ đề của bạn trong khi tổng quát đến ngữ cảnh mới.

Đối với huấn luyện không có ràng buộc phần cứng, dịch vụ đám mây cung cấp truy cập GPU lớn hơn. Điều này có thể cho phép độ phân giải cao hơn hoặc thời gian huấn luyện nhanh hơn.

Với cấu hình đúng, huấn luyện LoRA SD 3.5 Large mang lại lợi thế kiến trúc của model cho các khái niệm và phong cách tùy chỉnh của bạn.

Sẵn Sàng Tạo Influencer AI Của Bạn?

Tham gia cùng 115 học viên đang thành thạo ComfyUI và tiếp thị influencer AI trong khóa học 51 bài đầy đủ của chúng tôi.

Giá sớm kết thúc trong:
--
Ngày
:
--
Giờ
:
--
Phút
:
--
Giây
Đặt Chỗ Của Bạn - $199
Tiết Kiệm $200 - Giá Tăng Lên $399 Vĩnh Viễn