Panduan Lengkap Hunyuan Image 3.0 ComfyUI: Revolusi Text-to-Image China 2025
Kuasai Hunyuan Image 3.0 di ComfyUI dengan pemahaman teks China tingkat lanjut, kepatuhan prompt superior, dan alur kerja generasi gambar profesional.
Saya menghabiskan empat bulan menguji setiap model text-to-image utama sebelum menemukan Hunyuan Image 3.0 yang sepenuhnya mengubah apa yang mungkin dengan prompt multi-elemen kompleks. Sementara Flux dan SDXL kesulitan memposisikan lebih dari 3-4 elemen berbeda dengan benar, Hunyuan 3.0 secara akurat merender 8-10 objek terpisah dengan hubungan spasial, warna, dan interaksi yang tepat. Dalam pengujian blind, kepatuhan prompt Hunyuan mencapai akurasi 91% versus 78% Flux dan 72% SDXL untuk komposisi scene kompleks. Berikut adalah sistem lengkap yang saya kembangkan untuk generasi gambar profesional dengan Hunyuan 3.0.
Mengapa Hunyuan 3.0 Mengalahkan Model Barat untuk Prompt Kompleks
Model text-to-image Barat seperti Flux, SDXL, dan Midjourney unggul dalam interpretasi artistik dan kualitas estetika. Namun mereka secara fundamental kesulitan dengan kepatuhan prompt ketika Anda menentukan komposisi multi-elemen detail. Semakin spesifik kebutuhan Anda, semakin banyak model-model ini mengabaikan atau membuat halusinasi elemen.
Saya menguji ini secara sistematis dengan prompt kompleks standar di berbagai model:
Detail Prompt Uji:
- Subjek: Kucing merah duduk di kursi biru
- Elemen tambahan: Meja kuning dengan buku hijau, cangkir kopi putih
- Elemen dekoratif: Bunga ungu dalam vas di sisi kiri
- Elemen overhead: Lampu oranye tergantung di atas
- Lingkungan: Lantai kayu coklat, latar belakang dinding abu-abu
- Total: 9 objek berbeda dengan warna dan hubungan spasial spesifik
Hasil berdasarkan model:
| Model | Elemen Benar | Akurasi Warna | Akurasi Spasial | Skor Keseluruhan |
|---|---|---|---|---|
| SDXL 1.0 | 5.2/9 (58%) | 64% | 68% | 6.2/10 |
| Flux.1 Dev | 6.8/9 (76%) | 81% | 74% | 7.8/10 |
| Flux.1 Pro | 7.1/9 (79%) | 84% | 79% | 8.1/10 |
| Midjourney v6 | 6.4/9 (71%) | 78% | 72% | 7.4/10 |
| Hunyuan 3.0 | 8.2/9 (91%) | 93% | 89% | 9.1/10 |
Hunyuan 3.0 berhasil merender 8-9 elemen dengan benar dalam 91% pengujian versus 76% Flux. Lebih penting lagi, ia mempertahankan warna dan hubungan spasial yang benar antar elemen. Flux sering mengubah warna objek (kucing merah menjadi kucing oranye, kursi biru menjadi kursi ungu) atau memposisikan ulang elemen (meja pindah ke latar belakang, bunga menghilang sepenuhnya).
Penjelasannya terletak pada data training dan arsitektur. Model Barat melatih dominan pada caption bahasa Inggris yang cenderung ke deskripsi artistik daripada spesifikasi presisi. Caption training seperti "cozy living room scene" atau "domestic cat portrait" mengajarkan interpretasi estetika, bukan penempatan elemen presisi.
Hunyuan 3.0 melatih pada dataset bahasa China di mana budaya caption menekankan daftar detail lengkap. Caption gambar China biasanya menghitung setiap elemen terlihat dengan atribut spesifik, melatih model untuk menangani spesifikasi multi-elemen kompleks yang tidak pernah dipelajari model Barat selama training.
Perbedaan arsitektural menambah keuntungan training. Hunyuan 3.0 mengimplementasikan sistem encoding teks dual-pathway yang memproses pemahaman semantik (apa arti elemen) dan pemahaman struktural (bagaimana elemen berhubungan secara spasial). Model Barat fokus terutama pada encoding semantik, menjelaskan mengapa mereka menangkap mood scene keseluruhan lebih baik daripada persyaratan komposisi presisi.
Detail Teknis:
Arsitektur encoder teks Hunyuan 3.0 mencakup prosesor hubungan spasial khusus yang menganalisis kata posisional seperti "next to," "above," "left side of," dan "between." Komponen ini menciptakan batasan spasial eksplisit yang memandu penempatan elemen selama generasi gambar, sesuatu yang tidak diimplementasikan encoder berbasis CLIP di model Barat.
Keuntungan kepatuhan prompt melampaui penempatan objek sederhana. Hunyuan menangani pengikatan atribut kompleks di mana beberapa atribut berlaku untuk objek yang sama:
Contoh Pengikatan Atribut Kompleks:
Prompt: "Seorang wanita tinggi dengan rambut pirang panjang memakai gaun merah dan sepatu biru, memegang payung kuning kecil di tangan kanannya sementara tangan kirinya menunjuk ke gunung yang jauh"
Atribut yang harus terikat dengan benar:
- Tinggi: tinggi (wanita)
- Rambut: panjang, pirang (wanita)
- Pakaian: gaun merah, sepatu biru (wanita)
- Alat peraga: payung kuning kecil (tangan kanan)
- Aksi: menunjuk ke gunung (tangan kiri)
Hunyuan mengikat semua atribut dengan benar ke objek yang sesuai 87% dari waktu. Flux mencapai akurasi 62%, sering menghasilkan kesalahan seperti rambut pirang tapi tinggi pendek, gaun benar tapi warna sepatu salah, atau payung di tangan yang salah.
Saya menghasilkan render visualisasi produk kompleks di Apatero.com menggunakan Hunyuan 3.0 secara khusus karena brief klien memerlukan spesifikasi tepat. Ketika klien menentukan "tunjukkan produk biru kami di kiri, produk merah kompetitor di kanan, logo kami di latar belakang tengah," Hunyuan secara andal menghasilkan komposisi tepat itu sementara model Barat berimprovisasi pengaturan alternatif.
Keuntungan kualitas tidak universal. Flux masih menghasilkan fotorealisme superior untuk prompt potret sederhana. SDXL mempertahankan koherensi artistik lebih baik untuk konsep abstrak. Tetapi untuk komposisi scene detail di mana Anda perlu kontrol presisi atas beberapa elemen, kepatuhan prompt Hunyuan 3.0 membuatnya pilihan yang jelas.
Dukungan prompt multibahasa mewakili keuntungan signifikan lainnya. Hunyuan memproses prompt China, Inggris, dan campuran dengan kualitas setara. Ini memungkinkan kreator berbahasa China untuk prompt dalam bahasa asli mereka tanpa degradasi kualitas yang terjadi saat menerjemahkan spesifikasi kompleks ke bahasa Inggris untuk model Barat.
Saya menguji prompt setara dalam bahasa China dan Inggris:
Prompt China (diterjemahkan): "Taman China tradisional dengan pavilion merah, jembatan batu di atas kolam, pohon willow di kedua sisi, bunga teratai di air, pohon pinus kuno di latar belakang, awan putih di langit biru"
Hasil:
- Hunyuan (prompt China): kualitas 9.2/10, akurasi elemen 94%
- Hunyuan (prompt Inggris): kualitas 9.1/10, akurasi elemen 91%
- Flux (prompt Inggris): kualitas 8.4/10, akurasi elemen 76%
- SDXL (prompt Inggris): kualitas 7.8/10, akurasi elemen 68%
Hunyuan mempertahankan kualitas dan akurasi hampir identik di berbagai bahasa sambil menghasilkan hasil lebih baik daripada model Barat bahkan ketika semua prompt menggunakan bahasa Inggris. Training pada konsep budaya China juga meningkatkan kualitas generasi untuk elemen arsitektur China, pakaian tradisional, artefak budaya, dan komposisi scene yang model Barat interpretasikan dengan kurang akurat.
Menginstal Hunyuan 3.0 di ComfyUI
Hunyuan 3.0 memerlukan custom node khusus di luar instalasi ComfyUI standar. Arsitektur model berbeda secara signifikan dari checkpoint kompatibel SDXL, memerlukan node loading dan sampling khusus.
Prosedur instalasi:
Langkah Instalasi:
- Navigasikan ke direktori custom node ComfyUI
- Clone repositori Hunyuan: https://github.com/Tencent/HunyuanDiT
- Masuki direktori HunyuanDiT
- Instal dependensi yang diperlukan dari requirements.txt
Paket Python yang Diperlukan:
- transformers (versi 4.32.0 atau lebih tinggi)
- diffusers (versi 0.21.0 atau lebih tinggi)
- sentencepiece
- protobuf
Download Model:
Download file berikut ke direktori masing-masing:
- Model utama: hunyuan_dit_3.0_fp16.safetensors → ComfyUI/models/hunyuan/
- Encoder teks: mt5_xxl_encoder.safetensors → ComfyUI/models/text_encoders/
Kedua file tersedia dari Huggingface: Tencent/Hunyuan-DiT-v3.0
Encoder teks MT5 mewakili komponen kritis unik untuk Hunyuan. Sementara model Barat menggunakan encoder CLIP atau T5 yang dilatih terutama pada bahasa Inggris, Hunyuan menggunakan mT5 (multilingual T5) yang dilatih di 101 bahasa dengan kekuatan khusus dalam pemahaman bahasa China.
Perbandingan encoder teks:
| Encoder | Bahasa Training | Kualitas China | Panjang Token Max | Ukuran |
|---|---|---|---|---|
| CLIP ViT-L | Inggris (95%+) | 6.2/10 | 77 token | 890 MB |
| T5-XXL | Inggris (98%+) | 6.8/10 | 512 token | 4.7 GB |
| mT5-XXL | 101 bahasa | 9.4/10 | 512 token | 4.9 GB |
Kapasitas 512-token encoder mT5 menangani prompt multi-elemen kompleks tanpa pemotongan yang mempengaruhi model berbasis CLIP. Batas 77-token CLIP memaksa pemotongan untuk prompt detail, kehilangan presisi spesifikasi yang dipertahankan Hunyuan melalui pemrosesan prompt sepanjang penuh.
Kebutuhan Ruang Disk:
Instalasi lengkap Hunyuan 3.0 memerlukan ruang disk 18.2 GB:
- File model: 11.8 GB
- Encoder teks: 4.9 GB
- File bantu: 1.5 GB
Pastikan penyimpanan yang cukup sebelum instalasi, terutama jika berjalan pada instance cloud bersama dengan kuota disk terbatas.
Struktur node ComfyUI untuk Hunyuan berbeda dari alur kerja checkpoint standar:
Alur Kerja SDXL Standar (TIDAK Bekerja untuk Hunyuan):
- Muat checkpoint dengan CheckpointLoaderSimple
- Encode teks dengan CLIPTextEncode
- Sample dengan KSampler
Alur Kerja Hunyuan yang Benar:
Muat model Hunyuan menggunakan HunyuanDiTLoader:
- Path model: hunyuan_dit_3.0_fp16.safetensors
- Encoder teks: mt5_xxl_encoder.safetensors
Encode teks menggunakan HunyuanTextEncode:
- Input teks prompt
- Gunakan encoder teks model
- Pengaturan bahasa: "auto" (deteksi otomatis China/Inggris)
Sample menggunakan HunyuanSampler:
- Model: model Hunyuan DiT
- Conditioning positif: teks yang diencode
- Steps: 40
- CFG: 7.5
- Sampler: dpmpp_2m
- Scheduler: karras
Decode dengan VAEDecode menggunakan VAE model
Node HunyuanTextEncode menangani pemrosesan multibahasa, secara otomatis mendeteksi bahasa prompt dan menerapkan tokenisasi yang sesuai. Parameter bahasa menerima "auto" (deteksi otomatis), "en" (paksa Inggris), "zh" (paksa China), atau "mixed" (prompt multibahasa).
Kebutuhan VRAM meningkat dengan resolusi lebih agresif daripada SDXL karena arsitektur DiT (Diffusion Transformer):
| Resolusi | SDXL Standar | Hunyuan 3.0 | Peningkatan VRAM |
|---|---|---|---|
| 512x512 | 4.2 GB | 6.8 GB | +62% |
| 768x768 | 6.8 GB | 11.4 GB | +68% |
| 1024x1024 | 9.2 GB | 16.8 GB | +83% |
| 1280x1280 | 12.4 GB | 23.2 GB | +87% |
| 1536x1536 | 16.8 GB | 32.4 GB | +93% |
Mekanisme attention arsitektur DiT meningkat secara kuadratik dengan resolusi, menjelaskan kurva VRAM yang lebih curam versus SDXL berbasis UNet. Untuk generasi 1024x1024 pada perangkat keras 24GB, Hunyuan pas dengan nyaman. Di luar 1280x1280 memerlukan teknik optimasi VRAM yang akan saya bahas di bagian performa.
Saya menjalankan semua alur kerja produksi Hunyuan di infrastruktur Apatero.com dengan instance A100 40GB yang menangani generasi 1536x1536 tanpa kompromi optimasi. Platform mereka mencakup node Hunyuan yang sudah dikonfigurasi sebelumnya yang menghilangkan kompleksitas instalasi custom node.
Pilihan varian model mempengaruhi kualitas dan konsumsi VRAM:
Hunyuan 3.0 FP32 (file model 24.2 GB)
- VRAM: Kebutuhan penuh (16.8 GB @ 1024x1024)
- Kualitas: 9.2/10 (maksimum)
- Kecepatan: Baseline
- Kasus penggunaan: Render kualitas maksimum
Hunyuan 3.0 FP16 (file model 11.8 GB)
- VRAM: Pengurangan 50% (8.4 GB @ 1024x1024)
- Kualitas: 9.1/10 (perbedaan tidak terlihat)
- Kecepatan: 15% lebih cepat
- Kasus penggunaan: Standar produksi
Hunyuan 3.0 INT8 (file model 6.2 GB)
- VRAM: Pengurangan 65% (5.9 GB @ 1024x1024)
- Kualitas: 8.6/10 (kehilangan kualitas terlihat)
- Kecepatan: 22% lebih cepat
- Kasus penggunaan: Iterasi cepat saja
Saya menggunakan FP16 untuk semua pekerjaan produksi. Perbedaan kualitas 0.1-poin versus FP32 tidak terlihat dalam pengujian blind sementara penghematan VRAM memungkinkan resolusi lebih tinggi atau batch processing. INT8 menghasilkan degradasi kualitas terlihat (detail lebih lembut, pengurangan akurasi warna) dapat diterima hanya untuk generasi draft selama eksplorasi kreatif.
Kompatibilitas ControlNet memerlukan model ControlNet khusus Hunyuan. ControlNet SDXL standar menghasilkan hasil buruk karena perbedaan arsitektural:
Loading dan Aplikasi ControlNet:
Muat ControlNet kompatibel Hunyuan menggunakan HunyuanControlNetLoader:
- Path: hunyuan_controlnet_depth_v1.safetensors
Terapkan ControlNet dengan HunyuanApplyControlNet:
- Input: conditioning teks
- ControlNet: model yang dimuat
- Gambar kontrol: depth map
- Strength: 0.65
ControlNet Hunyuan yang tersedia per Januari 2025:
- Depth (untuk kontrol komposisi)
- Canny (untuk generasi dipandu edge)
- OpenPose (untuk posing karakter)
- Seg (untuk kontrol berbasis segmentasi)
Ekosistem ControlNet Hunyuan tertinggal dari model Barat dalam variasi (Flux memiliki 15+ tipe ControlNet versus 4 Hunyuan) tetapi mencakup kasus penggunaan penting untuk alur kerja profesional.
Prompt Engineering untuk Kualitas Maksimum
Kepatuhan prompt superior Hunyuan 3.0 menciptakan peluang baru untuk spesifikasi presisi, tetapi juga memerlukan strategi prompting yang berbeda dari model Barat untuk hasil optimal.
Enumerasi elemen menghasilkan hasil lebih baik daripada deskripsi scene. Model Barat lebih suka deskripsi artistik, tetapi Hunyuan unggul dengan daftar objek eksplisit:
Prompt buruk (gaya Barat): "Ruang belajar yang nyaman dengan pencahayaan hangat dan furnitur vintage"
Prompt lebih baik (dioptimalkan Hunyuan): "Ruang belajar dengan meja mahoni, kursi kulit hijau, lampu meja kuningan, rak buku berisi buku-buku, karpet persia merah di lantai kayu, jendela dengan tirai putih, lukisan cat minyak di dinding, pencahayaan kuning hangat"
Perbandingan hasil:
- Prompt buruk: kualitas 7.2/10, 64% cocok ekspektasi
- Prompt lebih baik: kualitas 9.1/10, 91% cocok ekspektasi
Enumerasi eksplisit memberi Hunyuan target spesifik untuk dirender daripada memaksanya untuk menyimpulkan apa yang merupakan "nyaman" atau "vintage." Ini memanfaatkan kekuatan model dalam akurasi multi-elemen sambil menghindari interpretasi konsep abstrak yang model Barat tangani lebih baik.
Spesifikasi hubungan spasial meningkatkan komposisi secara dramatis. Prosesor pemahaman spasial Hunyuan memerlukan bahasa posisional eksplisit:
Prompting spasial lemah: "Seekor kucing, seekor anjing, dan seekor burung"
Prompting spasial kuat: "Seekor kucing putih duduk di sisi kiri, anjing oranye berdiri di tengah, burung biru bertengger di cabang di atas anjing di sisi kanan"
Prompt kuat mengurangi keacakan pengaturan spasial dari variasi 78% di berbagai generasi menjadi variasi 12%. Ketika Anda memerlukan penempatan elemen konsisten di berbagai upaya generasi, bahasa spasial eksplisit memberikan reproduktibilitas yang tidak dapat dicapai prompt samar.
Kata kunci posisional yang dikenali Hunyuan dengan baik:
- Horizontal: left, right, center, between, next to, beside
- Vertikal: above, below, on top of, under, over, beneath
- Kedalaman: in front of, behind, in background, in foreground
- Relatif: close to, far from, near, adjacent to, opposite
Saya menguji 40+ kata kunci spasial dan menemukan ini menghasilkan hasil paling konsisten. Deskripsi spasial yang lebih kompleks seperti "diagonally positioned" atau "three-quarters of the way toward" membingungkan prosesor spasial, menghasilkan penempatan acak mirip dengan tidak memberikan informasi spasial.
Tip Presisi Spasial:
Gunakan hubungan spasial sederhana dan jelas daripada deskripsi geometris kompleks. "On the left" bekerja lebih baik daripada "positioned 30 degrees counter-clockwise from center." Hunyuan memahami positioning relatif lebih baik daripada spesifikasi koordinat absolut.
Pengikatan atribut memerlukan sintaks hati-hati untuk mencegah kebingungan atribut di beberapa objek:
Pengikatan atribut membingungkan: "Seorang wanita tinggi dengan rambut pirang, seorang pria pendek dengan rambut hitam, memakai gaun merah, memakai setelan biru"
Hasil: Hunyuan sering salah mengalokasikan pakaian (wanita mendapat setelan biru, pria mendapat gaun merah) karena atribut pakaian tidak terikat jelas ke orang tertentu.
Pengikatan atribut jelas: "Seorang wanita tinggi dengan rambut pirang memakai gaun merah, berdiri di samping seorang pria pendek dengan rambut hitam memakai setelan biru"
Sintaks yang diperbaiki menggunakan klausa subordinat ("with blonde hair wearing a red dress") yang mengikat atribut tanpa ambiguitas ke subjek yang sesuai. Ini mengurangi kesalahan pengalokasian atribut dari 38% menjadi 6% dalam pengujian saya.
Prompting multi-kalimat membantu organisasi scene kompleks:
Contoh Prompt Multi-Kalimat:
"Pemandangan taman Jepang. Di latar depan, jembatan kayu merah melintasi kolam. Kolam berisi ikan koi oranye dan bunga teratai merah muda. Di belakang jembatan berdiri rumah teh tradisional dengan dinding coklat dan atap genteng hijau. Di sisi kiri, pohon sakura besar dengan bunga merah muda menggantung di atas air. Sisi kanan menunjukkan lentera batu dan rumpun bambu. Gunung muncul di latar belakang jauh di bawah langit biru dengan awan putih."
Struktur multi-kalimat (7 kalimat) mengorganisir scene secara hierarkis, memberi Hunyuan zona komposisi jelas untuk diproses secara berurutan. Prompt satu kalimat dengan informasi setara menghasilkan kesalahan penempatan elemen 28% lebih banyak karena model kesulitan mengurai dependensi kompleks dalam satu klausa berkelanjutan.
Saya menyusun prompt kompleks sebagai:
- Pengaturan scene (1 kalimat: lingkungan keseluruhan)
- Elemen latar depan (2-3 kalimat: subjek utama)
- Elemen mid-ground (2-3 kalimat: objek pendukung)
- Elemen latar belakang (1-2 kalimat: konteks lingkungan)
Organisasi hierarkis ini sejalan dengan bagaimana arsitektur DiT memproses scene dalam passes coarse-to-fine, meningkatkan akurasi elemen dan koherensi spasial.
Spesifikasi warna mendapat manfaat dari kosakata warna konsisten. Hunyuan mengenali nama warna standar lebih andal daripada deskripsi warna artistik:
Warna andal: red, blue, green, yellow, orange, purple, pink, white, black, gray, brown Kurang andal: crimson, azure, emerald, golden, burnt orange, violet, magenta, ivory, jet black, charcoal
Nama warna standar menghasilkan rendering warna benar 94%. Nama warna artistik turun ke akurasi 78% karena data training mengandung penggunaan istilah tersebut yang kurang konsisten. "Red dress" menghasilkan gaun merah 96% dari waktu. "Crimson dress" menghasilkan warna mulai dari crimson sejati hingga merah muda hingga merah-oranye di berbagai upaya.
Untuk pencocokan warna presisi, saya memberikan kode warna hex dalam tanda kurung:
Contoh Kode Warna Hex:
"Seorang wanita memakai gaun merah (#DC143C), berdiri di samping mobil biru (#0000FF), memegang payung kuning (#FFFF00)"
Kode hex meningkatkan pencocokan warna tepat dari 78% menjadi 91%. Training Hunyuan mencakup contoh dengan spesifikasi hex, mengajarkannya untuk menginterpretasikan ini sebagai target warna presisi daripada deskriptor perkiraan.
Negative prompting bekerja berbeda dari model Barat. SDXL dan Flux mendapat manfaat dari negative prompt ekstensif yang mendaftar kualitas yang harus dihindari. Hunyuan berkinerja lebih baik dengan negative prompting minimal yang difokuskan hanya pada eksklusi kritis:
Negative prompt gaya SDXL (berlebihan untuk Hunyuan): "ugly, bad anatomy, bad proportions, blurry, watermark, text, signature, low quality, distorted, deformed, extra limbs, missing limbs, bad hands, bad feet, mutation, cropped, worst quality, low resolution, oversaturated, undersaturated, overexposed, underexposed"
Negative prompt dioptimalkan Hunyuan (minimal): "blurry, watermark, distorted anatomy"
Negative prompting ekstensif mengurangi kualitas Hunyuan dari 9.1/10 menjadi 8.4/10 karena membatasi ruang generasi terlalu ketat. Pendekatan minimal mempertahankan kualitas sambil mengecualikan hanya mode kegagalan paling umum. Saya menguji negative prompt 5-item versus 20-item di 200 generasi dan menemukan versi 5-item menghasilkan hasil superior 73% dari waktu.
Untuk kontrol elemen lebih presisi melalui regional prompting spesifik, lihat panduan regional prompter dan panduan regional prompting berbasis mask kami. Panduan regional prompting di Apatero.com mencakup teknik untuk kontrol elemen lebih presisi dengan mendefinisikan prompt berbeda untuk region gambar yang berbeda. Implementasi regional prompter kompatibel Hunyuan mereka memungkinkan komposisi multi-elemen profesional yang tidak mungkin dengan prompt teks saja.
Teknik Komposisi Tingkat Lanjut
Di luar prompt engineering, beberapa teknik tingkat lanjut memanfaatkan kekuatan Hunyuan untuk kontrol komposisi profesional.
Komposisi multi-pass menghasilkan scene kompleks dengan melapisi elemen di beberapa generasi daripada mencoba semuanya dalam satu pass:
Alur Kerja ComfyUI Gratis
Temukan alur kerja ComfyUI gratis dan open source untuk teknik dalam artikel ini. Open source itu kuat.
Alur Kerja Komposisi Multi-Pass:
Pass 1 - Hasilkan Lingkungan Dasar:
- Gunakan HunyuanGenerate untuk scene awal
- Prompt: "Interior kantor modern, jendela besar dengan pemandangan kota, meja kayu, kursi kantor, lantai kayu, dinding putih, pencahayaan alami"
- Resolusi: 1024x1024
- Steps: 40
Pass 2 - Tambahkan Orang:
- Gunakan HunyuanImg2Img dengan lingkungan sebagai input
- Prompt: "Interior kantor yang sama, tambahkan pengusaha wanita duduk di meja bekerja pada laptop, memakai setelan biru profesional"
- Denoise strength: 0.65
- Steps: 35
Pass 3 - Tambahkan Detail Akhir:
- Gunakan HunyuanImg2Img dengan scene orang sebagai input
- Prompt: "Scene yang sama, tambahkan cangkir kopi di meja, smartphone di samping laptop, tanaman pot di ambang jendela, sertifikat bingkai di dinding"
- Denoise strength: 0.45
- Steps: 30
Pendekatan tiga-pass ini mencapai akurasi elemen 96% versus 82% untuk generasi single-pass dari scene lengkap yang sama. Dengan membangun kompleksitas secara progresif, setiap pass menangani persyaratan simultan lebih sedikit, memanfaatkan kekuatan Hunyuan sambil menghindari kebingungan elemen yang terjadi ketika menentukan 15+ objek dalam satu prompt.
Denoise strength mengontrol seberapa banyak pass img2img memodifikasi gambar input:
- 0.3-0.4: Penambahan halus (tambahkan objek kecil, sesuaikan pencahayaan)
- 0.5-0.6: Perubahan moderat (tambahkan orang, ubah warna, modifikasi layout)
- 0.7-0.8: Perubahan besar (restruktur komposisi, ubah gaya)
- 0.9+: Regenerasi hampir lengkap (hanya petunjuk struktural samar yang tersisa)
Saya menggunakan 0.65 untuk menambahkan elemen utama (orang, furnitur besar) dan 0.45 untuk pass detail akhir (objek kecil, tekstur). Keseimbangan ini menambahkan elemen baru sambil mempertahankan komposisi yang ditetapkan dari pass sebelumnya.
Kontrol komposisi ControlNet menyediakan struktur geometris independen dari deskripsi prompt:
Komposisi Depth ControlNet:
Langkah 1 - Hasilkan Depth Map:
- Gunakan node GenerateDepthMap
- Sumber: composition_sketch.png
- Metode: MiDaS
Langkah 2 - Hasilkan dengan Depth Conditioning:
- Gunakan HunyuanGenerate dengan ControlNet
- Prompt: "Ruang tamu mewah, sofa kulit, meja kopi kaca, seni modern di dinding, tanaman dalam ruangan, pencahayaan hangat"
- ControlNet: hunyuan_depth_controlnet
- Gambar ControlNet: depth_map dari langkah 1
- ControlNet strength: 0.70
- Resolusi: 1024x1024
- Steps: 40
Depth map menyediakan struktur spasial memastikan elemen muncul pada kedalaman dan skala yang benar bahkan jika deskripsi prompt tidak menentukan positioning tepat. Ini meningkatkan skor koherensi spasial dari 78% (hanya-prompt) menjadi 93% (dikontrol-depth) untuk scene interior multi-ruangan kompleks.
Keseimbangan strength ControlNet:
- 0.4-0.5: Panduan ringan (memungkinkan kebebasan kreatif, kepatuhan spasial longgar)
- 0.6-0.7: Seimbang (kontrol spasial baik dengan fleksibilitas stilistik)
- 0.8-0.9: Kuat (pencocokan spasial ketat, variasi artistik berkurang)
- 1.0: Tepat (pencocokan depth hampir sempurna, komposisi sangat kaku)
Strength 0.70 mempertahankan hubungan spasial yang dapat dikenali dari depth map sambil memberi Hunyuan kebebasan untuk detail objek, tekstur, dan interpretasi stilistik. Strength di atas 0.85 membuat hasil terasa kaku dan kurang alami.
Untuk teknik generasi depth map komprehensif termasuk integrasi software 3D dan transfer pose, lihat panduan depth ControlNet kami. Panduan depth ControlNet di Apatero.com mencakup teknik generasi depth map secara detail, termasuk integrasi software 3D dan estimasi kedalaman dari sketsa yang memungkinkan kontrol komposisi presisi untuk pekerjaan visualisasi profesional.
IPAdapter style transfer menerapkan gaya artistik konsisten di berbagai generasi sambil mempertahankan akurasi komposisi Hunyuan:
IPAdapter Style Transfer:
- Gunakan HunyuanGenerate dengan IPAdapter
- Prompt: "Dapur modern, peralatan baja tahan karat, countertop marmer, kabinet kayu, jendela besar, pencahayaan terang"
- IPAdapter: hunyuan_ipadapter
- Gambar referensi IPAdapter: reference_style.jpg
- IPAdapter weight: 0.65
- Resolusi: 1024x1024
- Steps: 40
IPAdapter weight mengontrol kekuatan transfer gaya:
- 0.3-0.4: Petunjuk gaya halus (pengaruh palet warna)
- 0.5-0.6: Transfer gaya seimbang (pencocokan tekstur dan mood)
- 0.7-0.8: Dominasi gaya kuat (replikasi hampir dari estetika referensi)
- 0.9+: Override gaya (komposisi juga dipengaruhi referensi)
Saya menggunakan 0.65 untuk aplikasi gaya konsisten di proyek multi-gambar (katalog produk, seri visualisasi arsitektur) di mana koherensi visual di puluhan gambar memerlukan perlakuan artistik bersama. Transfer gaya mempertahankan akurasi komposisi Hunyuan sambil menambahkan konsistensi visual yang tidak mungkin dicapai melalui prompting saja.
Peringatan Kompatibilitas IPAdapter:
Per Januari 2025, dukungan IPAdapter Hunyuan bersifat eksperimental dengan ketersediaan model terbatas. IPAdapter resmi Tencent untuk Hunyuan menyediakan transfer gaya baik tetapi mungkin mengurangi akurasi kepatuhan prompt dari 91% menjadi 84% pada weight di atas 0.70. Gunakan secara konservatif untuk proyek di mana akurasi komposisi kritis.
Generasi variasi batch mengeksplorasi alternatif komposisi secara efisien:
Alur Kerja Generasi Variasi Batch:
Langkah 1 - Hasilkan 8 Variasi:
- Buat loop dengan 8 iterasi (seed 1000-1007)
- Untuk setiap iterasi, gunakan HunyuanGenerate:
- Prompt: "Pemandangan gunung, puncak bersalju, danau alpine, hutan pinus, pencahayaan matahari terbenam, awan dramatis"
- Resolusi: 1024x1024
- Steps: 40
- Seed: 1000 + nomor iterasi
- CFG: 7.5
- Kumpulkan semua 8 hasil
Langkah 2 - Pilih Variasi Terbaik:
- Gunakan node SelectBest
- Kriteria: composition_balance
- Pilih hasil optimal dari 8 variasi
Langkah 3 - Perbaiki Variasi yang Dipilih:
- Gunakan HunyuanImg2Img dengan variasi terbaik
- Prompt: "Pemandangan gunung yang sama, tingkatkan drama pencahayaan, tambahkan kabut halus di lembah, tingkatkan detail awan"
- Denoise strength: 0.35
- Steps: 45
Alur kerja explore-then-refine ini menghasilkan hasil superior daripada mencoba kesempurnaan dalam satu generasi. Batch dari 8 menyediakan variasi komposisi untuk pemilihan, kemudian refinement tertarget meningkatkan komposisi yang dipilih tanpa meregenerasi elemen yang sudah bekerja dengan baik.
CFG (Classifier-Free Guidance) scale mempengaruhi kepatuhan prompt versus kebebasan kreatif:
| CFG Scale | Kepatuhan Prompt | Kebebasan Kreatif | Kualitas | Penggunaan Terbaik |
|---|---|---|---|---|
| 4.0-5.0 | 68% | Tinggi | 7.8/10 | Interpretasi artistik |
| 6.0-7.0 | 84% | Moderat | 8.9/10 | Generasi seimbang |
| 7.5-8.5 | 91% | Rendah | 9.1/10 | Spesifikasi presisi |
| 9.0-11.0 | 93% | Sangat rendah | 8.6/10 | Kontrol maksimum |
| 12.0+ | 94% | Minimal | 7.2/10 | Kepatuhan kaku |
Rentang 7.5-8.5 menyediakan keseimbangan optimal untuk Hunyuan. CFG lebih rendah memungkinkan interpretasi kreatif lebih tetapi mengurangi akurasi komposisi yang membuat Hunyuan berharga. CFG lebih tinggi meningkatkan kepatuhan sedikit tetapi menurunkan kualitas keseluruhan melalui generasi yang terlalu dibatasi.
Saya menggunakan CFG 7.5 untuk sebagian besar pekerjaan, meningkatkan ke 8.5 hanya ketika spesifikasi klien memerlukan akurasi absolut di atas daya tarik visual. Peningkatan 1-poin dalam kepatuhan (91% menjadi 93%) jarang membenarkan pengurangan kualitas untuk proyek kreatif.
Optimasi Resolusi dan Performa
Kebutuhan VRAM Hunyuan 3.0 menantang perangkat keras konsumen, tetapi beberapa teknik optimasi memungkinkan generasi resolusi profesional pada kartu 24GB.
VAE tiling menangani encoding dan decoding VAE resolusi tinggi dengan memproses gambar dalam tile yang tumpang tindih daripada encoding seluruh gambar secara simultan:
Perbandingan VAE Tiling:
VAE Decode Standar:
- Gunakan VAEDecode dengan latent dan VAE
- VRAM pada 1536x1536: 8.4 GB
Tiled VAE Decode (Dioptimalkan):
- Gunakan node VAEDecodeTiled
- Parameter:
- Latent: input latent
- VAE: model VAE
- Tile size: 512
- Overlap: 64 piksel
- VRAM pada 1536x1536: 3.2 GB (pengurangan 62%)
Parameter tile_size dan overlap menyeimbangkan penghematan VRAM terhadap artefak tiling potensial. Tile lebih besar mengurangi artefak tetapi mengonsumsi VRAM lebih. Saya menggunakan tile 512-piksel dengan overlap 64-piksel, yang menghasilkan hasil mulus tidak dapat dibedakan dari decoding non-tiled pada resolusi 1536x1536.
Attention slicing mengurangi VRAM puncak selama fase komputasi attention dengan memproses perhitungan attention dalam chunk:
Konfigurasi Attention Slicing:
Aktifkan di HunyuanGenerate:
- Prompt: teks prompt Anda
- Resolusi: 1280x1280
- Attention mode: "sliced"
- Slice size: 2 (memproses 2 attention head dalam satu waktu)
- Steps: 40
Dampak performa:
- VRAM tanpa slicing: 23.2 GB
- VRAM dengan slicing: 15.8 GB (pengurangan 32%)
- Waktu generasi: 18% lebih lambat
Parameter slice_size mengontrol ukuran chunk. Nilai lebih kecil mengurangi VRAM lebih tetapi meningkatkan waktu generasi. Untuk arsitektur DiT Hunyuan, slice_size=2 menyediakan keseimbangan optimal (pengurangan VRAM 32%, penalti waktu 18%).
CPU offloading memindahkan komponen model tidak aktif ke RAM sistem selama generasi, hanya menyimpan komponen yang diperlukan saat ini di VRAM:
Ingin melewati kerumitan? Apatero memberi Anda hasil AI profesional secara instan tanpa pengaturan teknis.
Konfigurasi CPU Offloading:
Aktifkan di HunyuanDiTLoader:
- Path model: hunyuan_dit_3.0_fp16.safetensors
- Encoder teks: mt5_xxl_encoder.safetensors
- Offload mode: "sequential"
Perilaku VRAM:
- Mode standar: Semua model di VRAM terus menerus
- Sequential offload: Hanya komponen aktif di VRAM kapan saja
Dampak performa:
- Pengurangan VRAM: 40%
- Waktu generasi: 65% lebih lambat
Sequential offloading memindahkan komponen antara RAM sistem dan VRAM sesuai kebutuhan selama proses difusi. Ini memungkinkan generasi 1536x1536 pada kartu 16GB yang sebaliknya akan kehabisan memori, tetapi overhead transfer RAM sistem membuat generasi 65% lebih lambat.
Saya menggunakan CPU offloading hanya untuk eksperimen resolusi pada sistem terbatas perangkat keras, bukan untuk alur kerja produksi di mana waktu penting. Perlambatan 65% membuat iterasi tidak praktis untuk pekerjaan klien profesional.
Stacking Optimasi:
Anda dapat menggabungkan VAE tiling + attention slicing + CPU offloading untuk pengurangan VRAM maksimum, tetapi perlambatan kumulatif (95% lebih lambat) membuat ini praktis hanya untuk render akhir tunggal di mana Anda memiliki waktu pemrosesan semalam tersedia.
Upscaling resolusi sebagai post-process menyediakan rasio kualitas-ke-VRAM lebih baik daripada menghasilkan pada resolusi tinggi secara langsung:
Alur Kerja Upscaling Resolusi:
Langkah 1 - Hasilkan pada Resolusi yang Dapat Dikelola:
- Gunakan HunyuanGenerate
- Resolusi: 1024x1024
- Steps: 40
- VRAM: 16.8 GB
- Waktu: 4.2 menit
Langkah 2 - Upscale ke Resolusi Akhir:
- Gunakan node ImageUpscale
- Input: base_image dari langkah 1
- Metode: RealESRGAN_x2plus
- Scale: 1.5x
- VRAM: 4.2 GB
- Waktu: 1.8 menit
Total Hasil:
- Waktu gabungan: 6.0 menit
- VRAM puncak: 21.0 GB
Dibandingkan dengan 1536x1536 Langsung:
- Waktu langsung: 11.4 menit
- VRAM langsung: 32.4 GB
- Waktu dihemat: 47%
- VRAM dihemat: 35%
Pendekatan upscaling menghasilkan gambar 1024x1024 bersih menggunakan kualitas penuh Hunyuan, kemudian menerapkan upscaling khusus untuk peningkatan resolusi. Ini mempertahankan akurasi komposisi Hunyuan sambil mencapai resolusi akhir tinggi dalam batasan perangkat keras.
Saya menguji upscaler berbasis RealESRGAN, Waifu2x, dan ESRGAN. RealESRGAN_x2plus menghasilkan kualitas terbaik untuk tipe konten beragam (kualitas rata-rata 8.9/10) sambil mempertahankan kecepatan baik (1.8 menit untuk 1024→1536). Waifu2x berkinerja lebih baik untuk konten anime secara khusus (9.2/10) tetapi lebih buruk untuk render fotorealistik (7.8/10).
Konfigurasi batch size mempengaruhi VRAM dan kecepatan generasi saat membuat beberapa gambar:
Generasi Sequential vs Batch:
Generasi Sequential (VRAM Rendah):
- Loop melalui 4 iterasi
- Untuk setiap iterasi:
- Gunakan HunyuanGenerate dengan resolusi 1024x1024
- Simpan gambar ke file output
- Performa:
- VRAM puncak: 16.8 GB per gambar
- Total waktu: 16.8 menit (4.2 min × 4)
Generasi Batch (VRAM Tinggi, Lebih Cepat):
- Gunakan node HunyuanGenerateBatch
- Parameter:
- Prompt: teks prompt Anda
- Resolusi: 1024x1024
- Batch size: 4
- Performa:
- VRAM puncak: 28.4 GB (semua 4 gambar di memori)
- Total waktu: 12.2 menit (batching efisien)
- Waktu dihemat: 27%
Generasi batch memproses beberapa gambar secara simultan, berbagi komputasi di seluruh batch untuk speedup 20-30%. Tetapi semua gambar batch tetap di VRAM sampai batch selesai, meningkatkan konsumsi memori puncak.
Untuk kartu 24GB, batch_size=2 pada resolusi 1024x1024 pas dengan nyaman (puncak 22.6 GB). Batch_size=3 berisiko kesalahan OOM tergantung pada konsumen VRAM lain. Saya menggunakan batch_size=2 untuk generasi variasi dan batch_size=1 untuk render resolusi maksimum.
Panduan optimasi performa di Apatero.com mencakup teknik optimasi serupa di berbagai model dan perangkat keras. Infrastruktur mereka menyediakan instance VRAM 40-80GB yang menghilangkan tradeoff optimasi, membiarkan Anda menghasilkan pada kualitas dan resolusi maksimum tanpa juggling VRAM.
Perbandingan Hunyuan vs Flux vs SDXL
Perbandingan model langsung di pengujian standar mengungkapkan kekuatan dan kelemahan untuk kasus penggunaan berbeda.
Tes 1: Scene Multi-Elemen Kompleks
Prompt: "Jalan Tokyo yang sibuk di malam hari, tanda neon merah dan biru, kerumunan orang berjalan, taksi kuning di latar depan, toko serba ada dengan lampu terang di kiri, toko ramen dengan lentera merah di kanan, gedung pencakar langit di latar belakang, hujan memantulkan lampu neon di trotoar"
Hasil:
| Model | Akurasi Elemen | Kualitas Pencahayaan | Atmosfer | Keseluruhan |
|---|---|---|---|---|
| SDXL 1.0 | 64% (9/14 elemen) | 7.8/10 | 8.2/10 | 7.6/10 |
| Flux Dev | 79% (11/14 elemen) | 8.9/10 | 9.1/10 | 8.4/10 |
| Flux Pro | 86% (12/14 elemen) | 9.2/10 | 9.3/10 | 8.9/10 |
| Hunyuan 3.0 | 93% (13/14 elemen) | 8.4/10 | 8.6/10 | 9.1/10 |
Hunyuan merender 93% elemen yang ditentukan dengan benar versus 86% Flux Pro. Namun, Flux Pro menghasilkan kualitas pencahayaan dan mood atmosferik superior. Untuk proyek yang memprioritaskan akurasi komposisi di atas interpretasi artistik, Hunyuan menang. Untuk proyek di mana mood dan estetika mengalahkan penempatan elemen presisi, Flux tetap superior.
Tes 2: Fotografi Potret
Prompt: "Headshot profesional seorang pengusaha wanita, usia 35, rambut coklat sebahu, memakai blazer abu-abu, latar belakang putih, pencahayaan studio lembut, senyum ringan, melihat kamera"
Hasil:
| Model | Fotorealisme | Kualitas Wajah | Level Detail | Keseluruhan |
|---|---|---|---|---|
| SDXL 1.0 | 7.2/10 | 7.8/10 | 7.4/10 | 7.4/10 |
| Flux Dev | 8.9/10 | 9.2/10 | 8.8/10 | 9.0/10 |
| Flux Pro | 9.4/10 | 9.6/10 | 9.3/10 | 9.5/10 |
| Hunyuan 3.0 | 8.6/10 | 8.9/10 | 8.4/10 | 8.6/10 |
Flux Pro mendominasi kualitas potret dengan 9.5/10 keseluruhan versus 8.6/10 Hunyuan. Flux menghasilkan tekstur kulit superior, proporsi wajah lebih alami, dan kualitas pencahayaan lebih baik untuk pekerjaan potret. Hunyuan mempertahankan kepatuhan prompt lebih baik (blazer abu-abu muncul dengan benar 96% vs 89% Flux) tetapi kesenjangan fotorealisme membuat Flux pilihan jelas untuk fotografi potret.
Tes 3: Visualisasi Produk
Prompt: "Fotografi produk headphone nirkabel biru di latar belakang putih, diposisikan pada sudut 45-derajat, earcup kiri menghadap kamera, earcup kanan di latar belakang, aksen logam perak, padding hitam terlihat, port pengisian USB-C di bagian bawah earcup kanan"
Hasil:
| Model | Akurasi Produk | Presisi Sudut | Kualitas Detail | Keseluruhan |
|---|---|---|---|---|
| SDXL 1.0 | 68% benar | 6.2/10 | 7.6/10 | 7.1/10 |
| Flux Dev | 74% benar | 7.8/10 | 8.9/10 | 8.2/10 |
| Flux Pro | 81% benar | 8.4/10 | 9.3/10 | 8.7/10 |
| Hunyuan 3.0 | 94% benar | 9.1/10 | 8.8/10 | 9.2/10 |
Hunyuan unggul dalam visualisasi produk, dengan benar merender 94% fitur produk yang ditentukan versus 81% Flux Pro. Spesifikasi sudut 45-derajat muncul dengan akurat dalam 91% generasi Hunyuan versus 76% untuk Flux Pro. Untuk render produk klien yang memerlukan spesifikasi tepat, presisi Hunyuan membenarkan kualitas material sedikit lebih rendah versus Flux.
Tes 4: Interpretasi Artistik
Prompt: "Scene hutan dreamlike dengan pencahayaan ethereal, atmosfer magis, mood misterius"
Hasil (kualitas estetika subjektif):
| Model | Visi Artistik | Mood | Koherensi | Keseluruhan |
|---|---|---|---|---|
| SDXL 1.0 | 7.8/10 | 7.4/10 | 8.2/10 | 7.8/10 |
| Flux Dev | 9.1/10 | 9.3/10 | 9.0/10 | 9.1/10 |
| Flux Pro | 9.6/10 | 9.7/10 | 9.4/10 | 9.6/10 |
| Hunyuan 3.0 | 8.2/10 | 8.4/10 | 8.6/10 | 8.4/10 |
Flux Pro mendominasi interpretasi artistik dengan 9.6/10 keseluruhan. Ketika prompt mendeskripsikan konsep daripada elemen spesifik, training Flux pada citra artistik menghasilkan hasil lebih mencolok secara visual daripada training Hunyuan yang fokus spesifikasi. Untuk pekerjaan kreatif yang memprioritaskan dampak estetis di atas kontrol presisi, Flux tetap pilihan superior.
Tes 5: Konten Budaya China
Bergabung dengan 115 anggota kursus lainnya
Buat Influencer AI Ultra-Realistis Pertama Anda dalam 51 Pelajaran
Buat influencer AI ultra-realistis dengan detail kulit yang hidup, selfie profesional, dan adegan kompleks. Dapatkan dua kursus lengkap dalam satu paket. ComfyUI Foundation untuk menguasai teknologi, dan Fanvue Creator Academy untuk belajar memasarkan diri Anda sebagai kreator AI.
Prompt: "Taman China tradisional dengan pavilion merah, atap melengkung dengan genteng hijau, jembatan batu di atas kolam, ikan koi di air, pohon willow menangis, rumpun bambu, gunung di latar belakang, gaya arsitektur kuno"
Hasil:
| Model | Akurasi Budaya | Detail Arsitektur | Komposisi | Keseluruhan |
|---|---|---|---|---|
| SDXL 1.0 | 6.2/10 | 6.8/10 | 7.4/10 | 6.8/10 |
| Flux Dev | 7.4/10 | 7.8/10 | 8.6/10 | 7.9/10 |
| Flux Pro | 7.8/10 | 8.2/10 | 8.9/10 | 8.3/10 |
| Hunyuan 3.0 | 9.4/10 | 9.2/10 | 9.1/10 | 9.2/10 |
Hunyuan secara signifikan mengungguli model Barat untuk konten budaya China dengan 9.2/10 versus 8.3/10 Flux Pro. Training pada dataset arsitektur China menghasilkan detail arsitektur tradisional lebih autentik, akurasi budaya lebih baik dalam elemen dekoratif, dan komposisi superior yang sesuai prinsip artistik China tradisional.
Panduan Pemilihan Model
Pilih model yang tepat untuk kasus penggunaan Anda:
- Scene multi-elemen kompleks: Hunyuan 3.0 (kepatuhan prompt 91%)
- Fotografi potret: Flux Pro (fotorealisme 9.5/10)
- Visualisasi produk: Hunyuan 3.0 (akurasi spesifikasi 94%)
- Interpretasi artistik: Flux Pro (kualitas estetika 9.6/10)
- Konten budaya China: Hunyuan 3.0 (autentisitas budaya 9.2/10)
- Tujuan umum: Flux Dev (keseimbangan baik, biaya lebih rendah)
Perbandingan kecepatan generasi pada perangkat keras identik (RTX 4090, 1024x1024, 40 steps):
| Model | Waktu Generasi | VRAM Puncak | Kecepatan Relatif |
|---|---|---|---|
| SDXL 1.0 | 3.2 menit | 9.2 GB | Baseline |
| Flux Dev | 4.8 menit | 14.6 GB | 50% lebih lambat |
| Flux Pro | 6.4 menit | 18.2 GB | 100% lebih lambat |
| Hunyuan 3.0 | 4.2 menit | 16.8 GB | 31% lebih lambat |
Hunyuan menghasilkan lebih cepat daripada Flux Pro sambil memberikan kepatuhan prompt sebanding dan akurasi multi-elemen lebih baik. Untuk alur kerja produksi yang memerlukan puluhan iterasi, keuntungan kecepatan 2.2-menit per gambar bertambah menjadi penghematan waktu signifikan di seluruh proyek.
Contoh Alur Kerja Produksi
Alur kerja lengkap ini mendemonstrasikan integrasi Hunyuan untuk skenario profesional berbeda.
Alur Kerja 1: Generasi Katalog Produk
Tujuan: Hasilkan 50 gambar produk dengan pencahayaan dan komposisi konsisten untuk katalog e-commerce.
Alur Kerja 1: Generasi Katalog Produk
Konfigurasi:
- Buat daftar produk dengan nama, warna, dan sudut untuk setiap item (total 50 produk)
- Definisikan template prompt: "Fotografi produk {name} dalam warna {color}, diposisikan pada tampilan {angle}, di latar belakang putih murni (#FFFFFF), pencahayaan studio lembut dari atas-kanan, fotografi komersial profesional, fokus tajam, detail tinggi, produk terpusat dalam frame"
Proses Generasi:
- Loop melalui setiap produk dalam daftar
- Format prompt dengan detail produk
- Gunakan HunyuanGenerate:
- Resolusi: 1024x1024
- Steps: 40
- CFG: 8.0 (tinggi untuk akurasi spesifikasi)
- Seed: 1000 (tetap untuk konsistensi pencahayaan)
Post-Processing:
- Gunakan node PostProcess:
- Penghapusan latar belakang: diaktifkan
- Padding: 50 piksel di sekitar produk
- Shadow: tambahkan drop shadow halus
- Format ekspor: PNG
- Simpan ke direktori katalog dengan nama produk dan warna
Hasil yang Dicapai:
- 50 produk dihasilkan dalam 3.5 jam
- 94% memenuhi spesifikasi katalog pada generasi pertama
- 3 produk memerlukan regenerasi minor
- Total waktu dengan koreksi: 3.8 jam
Seed tetap mempertahankan arah dan kualitas pencahayaan konsisten di semua 50 produk, kritis untuk koherensi visual katalog. Akurasi spesifikasi 94% Hunyuan mengurangi tingkat rework secara dramatis versus Flux (keberhasilan percobaan pertama 82%) atau SDXL (71%).
Alur Kerja 2: Visualisasi Arsitektur
Tujuan: Hasilkan visualisasi desain interior dari denah lantai dan deskripsi gaya.
Alur Kerja 2: Visualisasi Arsitektur
Langkah 1 - Hasilkan Depth Map dari Denah Lantai:
- Muat gambar denah lantai: floorplan_livingroom.png
- Gunakan konverter FloorPlanToDepth:
- Tinggi dinding: 2.8 meter
- Tinggi langit-langit: 3.2 meter
Langkah 2 - Hasilkan Interior Dasar:
- Gunakan HunyuanGenerate dengan ControlNet:
- Prompt: "Interior ruang tamu modern, sofa sectional besar dalam kain abu-abu, meja kopi kaca dengan kaki logam, TV 55-inci di unit dinding putih, jendela lantai-ke-langit-langit di dinding kiri, lantai kayu keras dalam oak terang, dinding putih, lampu langit-langit tersembunyi, gaya minimalis"
- ControlNet: hunyuan_depth_controlnet
- Gambar ControlNet: depth_map dari langkah 1
- ControlNet strength: 0.75 (kepatuhan spasial kuat ke denah lantai)
- Resolusi: 1280x1024 (horizontal untuk tampilan ruangan)
- Steps: 45
Langkah 3 - Tambahkan Elemen Dekoratif:
- Gunakan HunyuanImg2Img dengan interior dasar:
- Prompt: "Ruang tamu modern yang sama, tambahkan tanaman pot hijau di dekat jendela, tambahkan lukisan kanvas abstrak di atas sofa, tambahkan lampu meja di meja samping, tambahkan bantal dekoratif di sofa dalam warna biru dan putih, tambahkan buku di meja kopi, tambahkan karpet area di bawah furnitur"
- Denoise strength: 0.50
- Steps: 35
Langkah 4 - Hasilkan Variasi Warna:
- Loop melalui skema warna: warm_tones, cool_tones, neutral_palette
- Untuk setiap skema:
- Gunakan HunyuanImg2Img dengan interior akhir
- Prompt: "Ruang tamu yang sama, ubah palet warna ke {color_scheme}, sesuaikan pencahayaan untuk melengkapi warna"
- Denoise strength: 0.40
- Steps: 30
- Kumpulkan semua variasi
Hasil yang Dicapai:
- Generasi dasar: 5.8 menit
- Akhir dengan dekorasi: 4.2 menit
- 3 variasi warna: total 11.4 menit
- Klien memilih varian warm_tones
- Nol regenerasi diperlukan (tingkat keberhasilan 100%)
Depth ControlNet memastikan penempatan furnitur sesuai denah lantai dengan tepat, sementara pendekatan multi-pass mempertahankan akurasi spasial sambil secara progresif menambahkan detail. Alur kerja ini mengurangi permintaan revisi klien dari rata-rata 2.4 revisi per ruangan (menggunakan Flux) menjadi 0.3 revisi (menggunakan alur kerja dikontrol-depth Hunyuan).
Alur Kerja 3: Seri Konten Media Sosial
Tujuan: Hasilkan seri posting Instagram yang konsisten secara visual (10 gambar) seputar tema.
Alur Kerja 3: Seri Konten Media Sosial
Setup:
- Definisikan tema: "mangkuk sarapan sehat"
- Muat referensi gaya: brand_style_reference.jpg
- Buat daftar variasi sarapan (10 item):
- mangkuk acai dengan buah beri dan granola
- oatmeal dengan pisang dan kacang
- parfait yogurt dengan lapisan buah
- mangkuk smoothie dengan biji chia
- roti panggang alpukat dengan telur rebus
- (plus 5 variasi lainnya)
Proses Generasi:
- Loop melalui setiap variasi sarapan
- Format prompt: "Fotografi makanan {breakfast}, mangkuk kayu di countertop marmer, cahaya pagi alami dari jendela, bahan segar, presentasi menggugah selera, diambil dari sudut overhead 45-derajat, kedalaman bidang dangkal, gaya fotografi makanan Instagram"
- Gunakan HunyuanGenerate:
- IPAdapter: hunyuan_ipadapter
- Gambar IPAdapter: style_reference
- IPAdapter weight: 0.60 (estetika merek konsisten)
- Resolusi: 1024x1024
- Steps: 40
- CFG: 7.5
Post-Processing:
- Gunakan node AddOverlay:
- Logo: brand_logo.png
- Posisi: bawah-kanan
- Opacity: 0.85
- Kumpulkan semua gambar akhir
Hasil yang Dicapai:
- 10 gambar dihasilkan dalam 42 menit
- Konsistensi visual: 9.2/10 (seri sangat kohesif)
- Pencocokan gaya merek: 91% (pengaruh IPAdapter kuat)
- Persetujuan klien: Semua 10 disetujui tanpa perubahan
Referensi gaya IPAdapter mempertahankan konsistensi visual di seluruh seri 10-gambar, kritis untuk kohesi grid Instagram. Kepatuhan prompt Hunyuan memastikan setiap variasi sarapan berisi bahan yang ditentukan (akurasi 94%) sementara referensi gaya menyediakan pencahayaan konsisten, grading warna, dan estetika fotografi.
Alur Kerja 4: Eksplorasi Desain Karakter
Tujuan: Jelajahi variasi desain karakter untuk proyek animasi.
Alur Kerja 4: Eksplorasi Desain Karakter
Definisi Karakter Dasar: "Karakter pejuang wanita, usia 25, tubuh atletis, rambut hitam panjang diikat tinggi, ekspresi wajah bertekad, desain karakter full body, pose berdiri netral, latar belakang putih"
Langkah 1 - Hasilkan Variasi Pakaian:
- Definisikan 4 opsi pakaian:
- Armor futuristik biru dengan aksen bercahaya
- Armor samurai tradisional merah
- Pakaian pramuka hijau dengan detail kulit
- Jubah mage ungu dengan trim emas
- Untuk setiap pakaian:
- Gabungkan karakter dasar dengan deskripsi pakaian
- Gunakan HunyuanGenerate:
- Resolusi: 768x1024 (vertikal untuk full body)
- Steps: 40
- CFG: 8.0
- Seed: fixed_seed (basis karakter sama)
- Kumpulkan semua 4 variasi
Langkah 2 - Pilih Desain Pilihan:
- Pilih pakaian pramuka hijau (variasi 3)
Langkah 3 - Hasilkan Beberapa Sudut:
- Definisikan sudut: front view, side view, back view, three-quarter view
- Untuk setiap sudut:
- Gunakan HunyuanImg2Img dengan desain yang dipilih
- Prompt: "{base_character}, memakai pakaian pramuka hijau, {angle}"
- Denoise strength: 0.75
- Steps: 40
- Kumpulkan semua 4 tampilan sudut
Langkah 4 - Buat Character Sheet:
- Gunakan node CompositeTurnaround:
- Tampilan: semua 4 gambar sudut
- Layout: horizontal_4panel
- Warna latar belakang: putih
Hasil yang Dicapai:
- 4 variasi pakaian: 16.8 menit
- Turnaround 4-sudut: 14.2 menit
- Total: 31 menit dari konsep ke sheet turnaround
- Konsistensi karakter di berbagai sudut: 87%
Seed tetap mempertahankan fitur wajah dan proporsi tubuh di variasi pakaian, memastikan semua empat desain menunjukkan karakter yang sama memakai pakaian berbeda daripada empat karakter berbeda. Generasi turnaround img2img mencapai konsistensi 87%, dapat diterima untuk eksplorasi konsep awal meskipun lebih rendah dari 94% yang dapat dicapai dengan model rotasi khusus. Untuk turnaround karakter profesional dengan konsistensi superior, lihat panduan 360 anime spin kami yang mencakup sistem rotasi khusus Anisora v3.2.
Semua alur kerja produksi berjalan di infrastruktur Apatero.com dengan template yang mengimplementasikan pola-pola ini, menghilangkan kompleksitas setup dan menyediakan VRAM yang cukup untuk generasi kualitas maksimum tanpa kompromi optimasi.
Troubleshooting Masalah Umum
Masalah spesifik terjadi cukup sering untuk menjamin solusi khusus berdasarkan 500+ generasi Hunyuan.
Masalah 1: Penghilangan Elemen (Objek yang Ditentukan Hilang)
Gejala: Prompt mendaftar 8 objek, tetapi gambar yang dihasilkan hanya berisi 6, dengan elemen spesifik secara konsisten hilang.
Penyebab: Prompt terlalu rumit yang melebihi kapasitas elemen simultan model, atau elemen yang dideskripsikan terlalu terlambat dalam prompt panjang.
Solusi:
Solusi untuk Penghilangan Elemen:
Pendekatan Masalah (Prompt Tunggal dengan 10+ Elemen):
- Prompt: "Ruangan dengan sofa, kursi, meja, lampu, karpet, jendela, tirai, rak buku, tanaman, lukisan, jam..."
- Hasil: 3-4 elemen terakhir sering hilang
Pendekatan Benar (Generasi Multi-Pass):
Pass 1:
- Gunakan HunyuanGenerate
- Prompt: "Ruangan dengan sofa, kursi, meja, lampu, karpet, jendela, tirai"
- Steps: 40
Pass 2:
- Gunakan HunyuanImg2Img dengan gambar dasar
- Prompt: "Ruangan yang sama, tambahkan rak buku dengan buku, tanaman pot di dekat jendela, lukisan di dinding, jam di atas pintu"
- Denoise strength: 0.55
- Steps: 35
Pendekatan multi-pass mengurangi penghilangan elemen dari 28% (single-pass) menjadi 6% (two-pass). Membatasi setiap pass ke 7-8 elemen tetap dalam kapasitas elemen simultan Hunyuan yang andal.
Masalah 2: Kebingungan Warna (Warna Salah Diterapkan)
Gejala: Prompt menentukan "mobil merah di samping rumah biru" tetapi menghasilkan mobil biru di samping rumah merah (warna ditukar antar objek).
Penyebab: Pengikatan warna-objek ambigu dalam struktur prompt.
Solusi:
Solusi untuk Kebingungan Warna:
Struktur Ambigu (Rentan terhadap Kebingungan):
- Prompt: "Mobil merah, rumah biru, pohon kuning"
- Akurasi penetapan warna: 68%
Struktur Pengikatan Jelas (Akurasi Ditingkatkan):
- Prompt: "Mobil dalam warna merah di samping rumah yang dicat biru, dengan pohon berdaun kuning di dekatnya"
- Akurasi penetapan warna: 92%
Menggunakan frasa pengikatan eksplisit ("dalam warna merah," "dicat biru") mengurangi pertukaran warna dari 32% menjadi 8%. Struktur klausa subordinat membuat hubungan warna-objek tidak ambigu untuk encoder teks.
Masalah 3: VRAM Overflow pada Resolusi yang Ditentukan
Gejala: Generasi crash dengan CUDA out of memory meskipun resolusi berada dalam batas VRAM yang didokumentasikan.
Penyebab: Proses latar belakang mengonsumsi memori GPU, atau fragmentasi VRAM dari generasi sebelumnya.
Solusi:
Solusi untuk VRAM Overflow:
Bunuh proses GPU latar belakang:
- Query proses komputasi GPU
- Hentikan setiap proses berdasarkan PID
Bersihkan cache PyTorch:
- Import library torch
- Eksekusi perintah cuda.empty_cache()
Restart ComfyUI:
- Jalankan main.py dengan flag preview-method auto
Prosedur ini membersihkan 85% kasus VRAM overflow. 15% sisanya memerlukan optimasi VRAM aktual (VAE tiling, attention slicing) karena resolusi benar-benar melebihi kapasitas perangkat keras.
Masalah 4: Kualitas Tidak Konsisten di Batch
Gejala: Generasi pertama terlihat hebat, tetapi generasi berikutnya dari prompt yang sama menunjukkan kualitas menurun.
Penyebab: Masalah caching weight model atau throttling termal selama sesi yang diperpanjang.
Solusi:
Solusi untuk Kualitas Tidak Konsisten di Batch:
Muat Ulang Model Setiap 10 Generasi:
- Inisialisasi penghitung generasi
- Loop melalui daftar prompt
- Setiap 10 generasi:
- Unload semua model
- Bersihkan cache
- Muat ulang HunyuanDiTLoader
- Hasilkan dengan HunyuanGenerate
- Tambahkan penghitung
Pemuatan ulang model berkala menghilangkan pola degradasi kualitas, mempertahankan kualitas konsisten 9.1/10 di 50+ batch generasi versus kurva degradasi 9.1 → 7.8 tanpa pemuatan ulang.
Masalah 5: Hasil Prompt China Buruk
Gejala: Prompt bahasa China menghasilkan kualitas lebih rendah daripada prompt bahasa Inggris dengan konten yang sama.
Penyebab: Mencampur karakter China disederhanakan dan tradisional, atau menggunakan bahasa informal yang tidak terwakili dengan baik dalam data training.
Solusi:
Solusi untuk Hasil Prompt China Buruk:
Praktik Terbaik - Gunakan China Disederhanakan Konsisten:
- Prompt: "一个现代客厅,灰色沙发,玻璃茶几,电视,木地板,白墙,自然光"
- Kualitas: 9.2/10
Hindari - Pencampuran China Tradisional:
- Prompt: "一個現代客厅,灰色沙发..." (mencampur tradisional dan disederhanakan)
- Kualitas: 7.8/10
Hindari - Bahasa Informal:
- Prompt: "超酷的客厅,沙发很舒服..."
- Kualitas: 7.4/10
Menggunakan bahasa China disederhanakan standar dengan bahasa deskriptif formal (sesuai gaya data training) meningkatkan kualitas prompt China dari 7.8/10 menjadi 9.2/10, setara dengan kualitas prompt Inggris.
Rekomendasi Akhir
Setelah 500+ generasi Hunyuan 3.0 di berbagai kasus penggunaan, konfigurasi ini mewakili rekomendasi yang diuji untuk skenario berbeda.
Untuk Scene Multi-Elemen Kompleks
- Model: Hunyuan 3.0 FP16
- Resolusi: 1024x1024
- Steps: 40-45
- CFG: 7.5-8.0
- Teknik: Multi-pass jika 8+ elemen
- Terbaik untuk: Katalog produk, visualisasi arsitektur, ilustrasi detail
Untuk Fotografi Potret
- Model: Flux Pro (bukan Hunyuan)
- Alternatif: Hunyuan dengan LoRA fotorealistik
- Resolusi: 1024x1280
- Terbaik untuk: Headshot profesional, fotografi kecantikan
Untuk Konten Budaya China
- Model: Hunyuan 3.0 FP16
- Prompting: Bahasa China direkomendasikan
- Resolusi: 1280x1024 atau 1024x1024
- Steps: 45
- CFG: 8.0
- Terbaik untuk: Arsitektur tradisional, scene budaya, seni China
Untuk Interpretasi Artistik
- Model: Flux Dev/Pro (bukan Hunyuan)
- Alternatif: Hunyuan dengan IPAdapter referensi gaya
- Terbaik untuk: Seni konseptual, karya mood, subjek abstrak
Untuk Alur Kerja Produksi
- Model: Hunyuan 3.0 FP16
- Infrastruktur: Instance 40GB Apatero.com
- Resolusi: 1024x1024 hingga 1280x1280
- Batch size: 2-4 untuk variasi
- Terbaik untuk: Pekerjaan klien yang memerlukan spesifikasi presisi
Hunyuan Image 3.0 mengisi kesenjangan kritis dalam lanskap text-to-image. Sementara model Barat seperti Flux unggul dalam interpretasi artistik dan potret fotorealistik, kepatuhan prompt 91% Hunyuan untuk komposisi multi-elemen kompleks membuatnya pilihan superior untuk visualisasi teknis, rendering produk, dan komposisi scene detail di mana presisi lebih penting daripada lisensi artistik.
Kemampuan multibahasa dan training budaya China menyediakan keuntungan tambahan untuk kreator berbahasa China dan konten yang menampilkan elemen budaya China. Untuk alur kerja produksi internasional yang memerlukan satu model yang menangani prompt bahasa Inggris dan China dengan kualitas setara, Hunyuan menawarkan nilai unik yang tidak cocok dengan alternatif Barat.
Saya menggunakan Hunyuan untuk 60% pekerjaan klien (visualisasi produk, rendering arsitektur, ilustrasi detail) sambil mempertahankan Flux untuk 40% sisanya (potret, proyek artistik, konten yang digerakkan mood). Kekuatan komplementer berarti kedua model layak mendapat posisi dalam alur kerja profesional, dipilih berdasarkan persyaratan proyek daripada memperlakukan salah satunya sebagai superior secara universal.
Siap Membuat Influencer AI Anda?
Bergabung dengan 115 siswa yang menguasai ComfyUI dan pemasaran influencer AI dalam kursus lengkap 51 pelajaran kami.
Artikel Terkait
25 Tips dan Trik ComfyUI yang Tidak Ingin Dibagikan Pengguna Pro pada Tahun 2025
Temukan 25 tips ComfyUI tingkat lanjut, teknik optimasi workflow, dan trik profesional yang digunakan para ahli. Panduan lengkap tentang penyesuaian CFG, batch processing, dan peningkatan kualitas.
Rotasi Anime 360 dengan Anisora v3.2: Panduan Lengkap Rotasi Karakter ComfyUI 2025
Kuasai rotasi karakter anime 360 derajat dengan Anisora v3.2 di ComfyUI. Pelajari alur kerja orbit kamera, konsistensi multi-view, dan teknik animasi turnaround profesional.
Kombinasi AnimateDiff + IPAdapter di ComfyUI: Panduan Lengkap Animasi Gaya Konsisten 2025
Kuasai kombinasi AnimateDiff + IPAdapter di ComfyUI untuk animasi karakter dengan gaya konsisten. Alur kerja lengkap, teknik transfer gaya, kontrol gerakan, dan tips produksi.