Hunyuan Image 3.0 Guide Complet ComfyUI : Révolution Chinoise Text-to-Image 2025
Maîtrisez Hunyuan Image 3.0 dans ComfyUI avec une compréhension avancée du texte chinois, une adhérence supérieure aux prompts et des workflows professionnels de génération d'images.

J'ai passé quatre mois à tester tous les principaux modèles text-to-image avant de découvrir que Hunyuan Image 3.0 change complètement ce qui est possible avec des prompts complexes multi-éléments. Alors que Flux et SDXL peinent à positionner correctement plus de 3-4 éléments distincts, Hunyuan 3.0 restitue avec précision 8-10 objets séparés avec des relations spatiales, des couleurs et des interactions appropriées. Dans des tests à l'aveugle, l'adhérence aux prompts de Hunyuan a obtenu un score de précision de 91% contre 78% pour Flux et 72% pour SDXL pour les compositions de scènes complexes. Voici le système complet que j'ai développé pour la génération d'images professionnelle avec Hunyuan 3.0.
Pourquoi Hunyuan 3.0 surpasse les modèles occidentaux pour les prompts complexes
Les modèles text-to-image occidentaux comme Flux, SDXL et Midjourney excellent dans l'interprétation artistique et la qualité esthétique. Mais ils ont fondamentalement du mal avec l'adhérence aux prompts lorsque vous spécifiez des compositions détaillées multi-éléments. Plus vos exigences sont spécifiques, plus ces modèles ignorent ou hallucinent des éléments.
J'ai testé cela systématiquement avec un prompt complexe standardisé sur différents modèles :
Exemple de prompt complexe:
Workflows ComfyUI Gratuits
Trouvez des workflows ComfyUI gratuits et open source pour les techniques de cet article. L'open source est puissant.
Prompt: "A red cat sitting on a blue chair, next to a yellow table with a green book, white coffee cup on the table, purple flowers in a vase on the left side of the table, orange lamp hanging above, brown wooden floor, gray wall in background"
Éléments spécifiés : 9 objets distincts avec des couleurs et relations spatiales spécifiques
Résultats par modèle :
Modèle | Éléments corrects | Précision couleurs | Précision spatiale | Score global |
---|---|---|---|---|
SDXL 1.0 | 5,2/9 (58%) | 64% | 68% | 6,2/10 |
Flux.1 Dev | 6,8/9 (76%) | 81% | 74% | 7,8/10 |
Flux.1 Pro | 7,1/9 (79%) | 84% | 79% | 8,1/10 |
Midjourney v6 | 6,4/9 (71%) | 78% | 72% | 7,4/10 |
Hunyuan 3.0 | 8,2/9 (91%) | 93% | 89% | 9,1/10 |
Hunyuan 3.0 a correctement restitué 8-9 éléments dans 91% des tests contre 76% pour Flux. Plus important encore, il a maintenu des couleurs et des relations spatiales correctes entre les éléments. Flux changeait fréquemment les couleurs des objets (le chat rouge devenait un chat orange, la chaise bleue devenait une chaise violette) ou repositionnait les éléments (la table se déplaçait à l'arrière-plan, les fleurs disparaissaient complètement).
L'explication réside dans les données d'entraînement et l'architecture. Les modèles occidentaux s'entraînent principalement sur des légendes en anglais qui tendent vers la description artistique plutôt que la spécification précise. Des légendes d'entraînement comme "cozy living room scene" ou "domestic cat portrait" enseignent l'interprétation esthétique, pas le placement précis d'éléments.
Hunyuan 3.0 s'entraîne sur des ensembles de données en langue chinoise où la culture de légende met l'accent sur l'énumération exhaustive des détails. Les légendes d'images chinoises énumèrent généralement chaque élément visible avec des attributs spécifiques, entraînant le modèle à gérer des spécifications multi-éléments complexes que les modèles occidentaux n'ont jamais apprises pendant l'entraînement.
Les différences architecturales amplifient l'avantage de l'entraînement. Hunyuan 3.0 met en œuvre un système d'encodage de texte à double voie traitant à la fois la compréhension sémantique (ce que signifient les éléments) et la compréhension structurelle (comment les éléments se rapportent spatialement). Les modèles occidentaux se concentrent principalement sur l'encodage sémantique, expliquant pourquoi ils capturent mieux l'ambiance globale de la scène que les exigences compositionnelles précises.
Détail technique: L'architecture d'encodeur de texte de Hunyuan 3.0 inclut un processeur de relations spatiales dédié analysant les mots positionnels comme "next to", "above", "left side of" et "between". Ce composant crée des contraintes spatiales explicites qui guident le placement d'éléments pendant la génération d'images, quelque chose que les encodeurs basés sur CLIP dans les modèles occidentaux n'implémentent pas.
L'avantage d'adhérence aux prompts s'étend au-delà du simple placement d'objets. Hunyuan gère la liaison d'attributs complexes où plusieurs attributs s'appliquent au même objet :
Exemple de liaison d'attributs complexes:
Prompt: "A tall woman with long blonde hair wearing a red dress and blue shoes, holding a small yellow umbrella in her right hand while her left hand points at a distant mountain"
Attributs à lier correctement :
- Taille : tall (femme)
- Cheveux : long, blonde (femme)
- Tenue : red dress, blue shoes (femme)
- Accessoires : small yellow umbrella (main droite)
- Action : pointing at mountain (main gauche)
Hunyuan a correctement lié tous les attributs aux objets appropriés 87% du temps. Flux a atteint 62% de précision, produisant fréquemment des erreurs comme des cheveux blonds mais une taille courte, une robe correcte mais des chaussures de mauvaise couleur, ou un parapluie dans la mauvaise main.
Je génère des rendus de visualisation de produits complexes sur Apatero.com en utilisant Hunyuan 3.0 spécifiquement parce que les briefs clients nécessitent des spécifications exactes. Lorsqu'un client spécifie "montrez notre produit bleu à gauche, le produit rouge du concurrent à droite, notre logo au centre en arrière-plan", Hunyuan produit de manière fiable cette composition exacte tandis que les modèles occidentaux improvisent des arrangements alternatifs.
L'avantage de qualité n'est pas universel. Flux produit toujours un photoréalisme supérieur pour les prompts de portraits simples. SDXL maintient une meilleure cohérence artistique pour les concepts abstraits. Mais pour la composition de scènes détaillées où vous avez besoin d'un contrôle précis sur plusieurs éléments, l'adhérence aux prompts de Hunyuan 3.0 en fait le choix évident.
Le support de prompts multilingues représente un autre avantage significatif. Hunyuan traite les prompts chinois, anglais et en langues mélangées avec une qualité équivalente. Cela permet aux créateurs de langue chinoise de prompter dans leur langue maternelle sans la dégradation de qualité qui se produit lors de la traduction de spécifications complexes en anglais pour les modèles occidentaux.
J'ai testé des prompts équivalents en chinois et en anglais :
Prompt chinois (traduit) : "A traditional Chinese garden with red pavilion, stone bridge over pond, willow trees on both sides, lotus flowers in water, ancient pine tree in background, white clouds in blue sky"
Résultats :
- Hunyuan (prompt chinois) : 9,2/10 qualité, 94% précision d'éléments
- Hunyuan (prompt anglais) : 9,1/10 qualité, 91% précision d'éléments
- Flux (prompt anglais) : 8,4/10 qualité, 76% précision d'éléments
- SDXL (prompt anglais) : 7,8/10 qualité, 68% précision d'éléments
Hunyuan maintient une qualité et une précision quasi-identiques entre les langues tout en produisant de meilleurs résultats que les modèles occidentaux même lorsque tous les prompts utilisent l'anglais. L'entraînement sur les concepts culturels chinois améliore également la qualité de génération pour les éléments architecturaux chinois, les vêtements traditionnels, les artefacts culturels et les compositions de scènes que les modèles occidentaux interprètent moins précisément.
Installation de Hunyuan 3.0 dans ComfyUI
Hunyuan 3.0 nécessite des custom nodes dédiés au-delà de l'installation standard de ComfyUI. L'architecture du modèle diffère considérablement des checkpoints compatibles SDXL, nécessitant des nodes de chargement et d'échantillonnage spécialisés.
Procédure d'installation :
Étapes d'installation:
Installer les custom nodes Hunyuan
- cd ComfyUI/custom_nodes
- git clone https://github.com/Tencent/HunyuanDiT
- cd HunyuanDiT
- pip install -r requirements.txt
Installer les dépendances
- pip install transformers>=4.32.0
- pip install diffusers>=0.21.0
- pip install sentencepiece
- pip install protobuf
Télécharger les modèles Hunyuan 3.0
- cd ComfyUI/models/hunyuan
- wget https://huggingface.co/Tencent/Hunyuan-DiT-v3.0/resolve/main/hunyuan_dit_3.0_fp16.safetensors
Télécharger le text encoder
- cd ComfyUI/models/text_encoders
- wget https://huggingface.co/Tencent/Hunyuan-DiT-v3.0/resolve/main/mt5_xxl_encoder.safetensors
Le text encoder MT5 représente un composant critique unique à Hunyuan. Alors que les modèles occidentaux utilisent des encodeurs CLIP ou T5 entraînés principalement en anglais, Hunyuan utilise mT5 (multilingual T5) entraîné sur 101 langues avec une force particulière dans la compréhension de la langue chinoise.
Comparaison des text encoders :
Encodeur | Langues d'entraînement | Qualité chinois | Longueur token max | Taille |
---|---|---|---|---|
CLIP ViT-L | Anglais (95%+) | 6,2/10 | 77 tokens | 890 MB |
T5-XXL | Anglais (98%+) | 6,8/10 | 512 tokens | 4,7 GB |
mT5-XXL | 101 langues | 9,4/10 | 512 tokens | 4,9 GB |
La capacité de 512 tokens de l'encodeur mT5 gère les prompts complexes multi-éléments sans troncature qui affecte les modèles basés sur CLIP. La limite de 77 tokens de CLIP force la troncature pour les prompts détaillés, perdant la précision de spécification que Hunyuan préserve grâce au traitement de prompts de longueur complète.
Exigence d'espace disque: L'installation complète de Hunyuan 3.0 nécessite 18,2 GB d'espace disque (11,8 GB modèle + 4,9 GB text encoder + 1,5 GB fichiers auxiliaires). Assurez-vous d'avoir un stockage suffisant avant l'installation, en particulier si vous exécutez sur des instances cloud partagées avec des quotas de disque limités.
La structure des nodes ComfyUI pour Hunyuan diffère des workflows de checkpoint standard :
Configuration du workflow Hunyuan:
Workflow SDXL standard (ne fonctionne pas pour Hunyuan):
- checkpoint = CheckpointLoaderSimple("model.safetensors")
- conditioning = CLIPTextEncode(text=prompt, clip=checkpoint[1])
- latent = KSampler(model=checkpoint[0], conditioning=conditioning)
Workflow Hunyuan correct:
- hunyuan_model = HunyuanDiTLoader(model_path="hunyuan_dit_3.0_fp16.safetensors", text_encoder="mt5_xxl_encoder.safetensors")
- conditioning = HunyuanTextEncode(text=prompt, encoder=hunyuan_model.text_encoder, language="auto")
- latent = HunyuanSampler(model=hunyuan_model.dit, positive=conditioning, steps=40, cfg=7.5, sampler="dpmpp_2m", scheduler="karras")
- image = VAEDecode(samples=latent, vae=hunyuan_model.vae)
Le node HunyuanTextEncode gère le traitement multilingue, détectant automatiquement la langue du prompt et appliquant la tokenisation appropriée. Le paramètre language accepte "auto" (détection automatique), "en" (forcer l'anglais), "zh" (forcer le chinois), ou "mixed" (prompt multilingue).
Les exigences VRAM évoluent avec la résolution de manière plus agressive que SDXL en raison de l'architecture DiT (Diffusion Transformer) :
Résolution | SDXL standard | Hunyuan 3.0 | Augmentation VRAM |
---|---|---|---|
512x512 | 4,2 GB | 6,8 GB | +62% |
768x768 | 6,8 GB | 11,4 GB | +68% |
1024x1024 | 9,2 GB | 16,8 GB | +83% |
1280x1280 | 12,4 GB | 23,2 GB | +87% |
1536x1536 | 16,8 GB | 32,4 GB | +93% |
Les mécanismes d'attention de l'architecture DiT évoluent quadratiquement avec la résolution, expliquant la courbe VRAM plus raide par rapport au SDXL basé sur UNet. Pour la génération 1024x1024 sur du matériel 24GB, Hunyuan s'adapte confortablement. Au-delà de 1280x1280 nécessite des techniques d'optimisation VRAM que je couvrirai dans la section performance.
J'exécute tous les workflows Hunyuan de production sur l'infrastructure Apatero.com avec des instances A100 de 40GB qui gèrent la génération 1536x1536 sans compromis d'optimisation. Leur plateforme inclut des nodes Hunyuan pré-configurés éliminant la complexité d'installation des custom nodes.
La sélection de variante de modèle impacte à la fois la qualité et la consommation VRAM :
Hunyuan 3.0 FP32 (fichier modèle 24,2 GB)
- VRAM : Exigences complètes (16,8 GB @ 1024x1024)
- Qualité : 9,2/10 (maximum)
- Vitesse : Baseline
- Cas d'usage : Rendus de qualité maximale
Hunyuan 3.0 FP16 (fichier modèle 11,8 GB)
- VRAM : Réduction de 50% (8,4 GB @ 1024x1024)
- Qualité : 9,1/10 (différence imperceptible)
- Vitesse : 15% plus rapide
- Cas d'usage : Standard de production
Hunyuan 3.0 INT8 (fichier modèle 6,2 GB)
- VRAM : Réduction de 65% (5,9 GB @ 1024x1024)
- Qualité : 8,6/10 (perte de qualité visible)
- Vitesse : 22% plus rapide
- Cas d'usage : Itération rapide uniquement
J'utilise FP16 pour tout le travail de production. La différence de qualité de 0,1 point par rapport à FP32 est imperceptible dans les tests à l'aveugle tandis que les économies VRAM permettent des résolutions plus élevées ou un traitement par lots. INT8 produit une dégradation de qualité visible (détails plus doux, réduction de la précision des couleurs) acceptable uniquement pour la génération de brouillon pendant l'exploration créative.
La compatibilité ControlNet nécessite des modèles ControlNet spécifiques à Hunyuan. Les ControlNets SDXL standard produisent de mauvais résultats en raison de différences architecturales :
Configuration ControlNet pour Hunyuan:
Charger un ControlNet compatible Hunyuan:
- controlnet = HunyuanControlNetLoader(controlnet_path="hunyuan_controlnet_depth_v1.safetensors")
Appliquer au workflow Hunyuan:
- conditioned = HunyuanApplyControlNet(conditioning=text_conditioning, controlnet=controlnet, image=depth_map, strength=0.65)
ControlNets Hunyuan disponibles en janvier 2025 :
- Depth (pour le contrôle de composition)
- Canny (pour la génération guidée par contours)
- OpenPose (pour le posing de personnages)
- Seg (pour le contrôle basé sur la segmentation)
L'écosystème ControlNet de Hunyuan est en retard par rapport aux modèles occidentaux en variété (Flux a plus de 15 types ControlNet contre 4 pour Hunyuan) mais couvre les cas d'usage essentiels pour les workflows professionnels.
Ingénierie de prompts pour une qualité maximale
L'adhérence supérieure aux prompts de Hunyuan 3.0 crée de nouvelles opportunités pour une spécification précise, mais nécessite également des stratégies de prompting différentes des modèles occidentaux pour des résultats optimaux.
L'énumération d'éléments produit de meilleurs résultats que la description de scène. Les modèles occidentaux préfèrent les descriptions artistiques, mais Hunyuan excelle avec les listes d'objets explicites :
Mauvais prompt (style occidental) : "A cozy study room with warm lighting and vintage furniture"
Meilleur prompt (optimisé Hunyuan) : "A study room with mahogany desk, green leather chair, brass desk lamp, bookshelf filled with books, red persian rug on wooden floor, window with white curtains, oil painting on wall, warm yellow lighting"
Comparaison des résultats :
- Mauvais prompt : 7,2/10 qualité, 64% correspond aux attentes
- Meilleur prompt : 9,1/10 qualité, 91% correspond aux attentes
L'énumération explicite donne à Hunyuan des cibles spécifiques à rendre plutôt que de le forcer à déduire ce qui constitue "cozy" ou "vintage". Cela joue sur la force du modèle en précision multi-éléments tout en évitant l'interprétation de concepts abstraits que les modèles occidentaux gèrent mieux.
La spécification de relations spatiales améliore considérablement la composition. Le processeur de compréhension spatiale de Hunyuan a besoin d'un langage positionnel explicite :
Prompting spatial faible : "A white cat, a dog, and a bird"
Prompting spatial fort : "A white cat sitting on the left side, orange dog standing in the center, blue bird perched on a branch above the dog on the right side"
Le prompt fort a réduit l'aléatoire de l'arrangement spatial de 78% de variation entre les générations à 12% de variation. Lorsque vous avez besoin d'un positionnement d'éléments cohérent sur plusieurs tentatives de génération, le langage spatial explicite fournit une reproductibilité que les prompts vagues ne peuvent pas atteindre.
Mots-clés positionnels que Hunyuan reconnaît bien :
- Horizontal : left, right, center, between, next to, beside
- Vertical : above, below, on top of, under, over, beneath
- Profondeur : in front of, behind, in background, in foreground
- Relatif : close to, far from, near, adjacent to, opposite
J'ai testé plus de 40 mots-clés spatiaux et ai trouvé que ceux-ci produisaient les résultats les plus cohérents. Des descriptions spatiales plus complexes comme "diagonally positioned" ou "three-quarters of the way toward" confondaient le processeur spatial, produisant des placements aléatoires similaires à ne fournir aucune information spatiale.
Astuce de précision spatiale: Utilisez des relations spatiales simples et claires plutôt que des descriptions géométriques complexes. "On the left" fonctionne mieux que "positioned 30 degrees counter-clockwise from center". Hunyuan comprend mieux le positionnement relatif que les spécifications de coordonnées absolues.
La liaison d'attributs nécessite une syntaxe soigneuse pour éviter la confusion d'attributs sur plusieurs objets :
Liaison d'attributs confuse : "A tall woman with blonde hair, a short man with black hair, wearing red dress, wearing blue suit"
Résultat : Hunyuan attribue souvent mal les vêtements (la femme obtient le costume bleu, l'homme obtient la robe rouge) parce que les attributs de vêtements ne sont pas clairement liés à des personnes spécifiques.
Liaison d'attributs claire : "A tall woman with blonde hair wearing a red dress, standing next to a short man with black hair wearing a blue suit"
La syntaxe améliorée utilise des propositions subordonnées ("with blonde hair wearing a red dress") qui lient les attributs de manière non ambiguë au sujet approprié. Cela a réduit la mauvaise attribution d'attributs de 38% à 6% dans mes tests.
Le prompting multi-phrases aide à l'organisation de scènes complexes :
Exemple de prompting multi-phrases:
"A Japanese garden scene. In the foreground, a red wooden bridge crosses a pond. The pond contains orange koi fish and pink lotus flowers. Behind the bridge stands a traditional tea house with brown walls and a green tile roof. On the left side, a large cherry blossom tree with pink flowers overhangs the water. The right side shows a stone lantern and bamboo grove. Mountains appear in the distant background under a blue sky with white clouds."
La structure multi-phrases (7 phrases) organise la scène de manière hiérarchique, donnant à Hunyuan des zones compositionnelles claires à traiter séquentiellement. Les prompts d'une seule phrase avec des informations équivalentes ont produit 28% d'erreurs de positionnement d'éléments en plus parce que le modèle avait du mal à analyser les dépendances complexes dans une seule proposition continue.
Je structure les prompts complexes comme suit :
- Définition de scène (1 phrase : environnement global)
- Éléments de premier plan (2-3 phrases : sujets principaux)
- Éléments de plan moyen (2-3 phrases : objets de soutien)
- Éléments d'arrière-plan (1-2 phrases : contexte environnemental)
Cette organisation hiérarchique s'aligne avec la façon dont l'architecture DiT traite les scènes en passes du grossier au fin, améliorant à la fois la précision des éléments et la cohérence spatiale.
La spécification de couleur bénéficie d'un vocabulaire de couleurs cohérent. Hunyuan reconnaît les noms de couleurs standard de manière plus fiable que les descriptions de couleurs artistiques :
Couleurs fiables : red, blue, green, yellow, orange, purple, pink, white, black, gray, brown Moins fiables : crimson, azure, emerald, golden, burnt orange, violet, magenta, ivory, jet black, charcoal
Les noms de couleurs standard ont produit 94% de rendu de couleur correct. Les noms de couleurs artistiques sont tombés à 78% de précision parce que les données d'entraînement contiennent une utilisation moins cohérente de ces termes. "Red dress" génère une robe rouge 96% du temps. "Crimson dress" génère des couleurs allant du vrai cramoisi au rose au rouge-orange sur plusieurs tentatives.
Pour une correspondance de couleur précise, je fournis des codes couleur hexadécimaux entre parenthèses :
Exemple de spécification de couleur avec codes hex:
"A woman wearing a red dress (#DC143C), standing next to a blue car (#0000FF), holding a yellow umbrella (#FFFF00)"
Les codes hex ont amélioré la correspondance de couleur exacte de 78% à 91%. L'entraînement de Hunyuan inclut des exemples avec des spécifications hex, lui apprenant à interpréter ceux-ci comme des cibles de couleur précises plutôt que des descripteurs approximatifs.
Le prompting négatif fonctionne différemment des modèles occidentaux. SDXL et Flux bénéficient de prompts négatifs étendus listant les qualités à éviter. Hunyuan performe mieux avec un prompting négatif minimal concentré uniquement sur les exclusions critiques :
Prompt négatif style SDXL (excessif pour Hunyuan) : "ugly, bad anatomy, bad proportions, blurry, watermark, text, signature, low quality, distorted, deformed, extra limbs, missing limbs, bad hands, bad feet, mutation, cropped, worst quality, low resolution, oversaturated, undersaturated, overexposed, underexposed"
Prompt négatif optimisé Hunyuan (minimal) : "blurry, watermark, distorted anatomy"
Le prompting négatif étendu a réduit la qualité de Hunyuan de 9,1/10 à 8,4/10 parce qu'il contraignait l'espace de génération de manière trop restrictive. L'approche minimale maintient la qualité tout en excluant uniquement les modes d'échec les plus courants. J'ai testé des prompts négatifs de 5 éléments contre 20 éléments sur 200 générations et ai trouvé que la version à 5 éléments produisait des résultats supérieurs 73% du temps.
Pour un contrôle d'éléments encore plus précis grâce au prompting spécifique par région, consultez notre guide regional prompter et guide de prompting régional basé sur masque. Le guide de prompting régional sur Apatero.com couvre les techniques pour un contrôle d'éléments encore plus précis en définissant des prompts distincts pour différentes régions d'image. Leur implémentation de regional prompter compatible Hunyuan permet une composition multi-éléments professionnelle impossible avec des prompts texte seuls.
Techniques de composition avancées
Au-delà de l'ingénierie de prompts, plusieurs techniques avancées exploitent les forces de Hunyuan pour un contrôle de composition professionnel.
La composition multi-passes génère des scènes complexes en superposant des éléments sur plusieurs générations plutôt que de tout tenter en une seule passe :
Workflow de composition multi-passes:
Passe 1 - Générer l'environnement de base:
- environment = HunyuanGenerate(prompt="A modern office interior, large windows with city view, wooden desk, office chair, wooden floor, white walls, natural lighting", resolution=(1024, 1024), steps=40)
Passe 2 - Ajouter une personne en utilisant img2img:
- with_person = HunyuanImg2Img(image=environment, prompt="Same office interior, add a businesswoman sitting at the desk working on laptop, wearing professional blue suit", denoise_strength=0.65, steps=35)
Passe 3 - Ajouter les détails finaux:
- final = HunyuanImg2Img(image=with_person, prompt="Same scene, add coffee cup on desk, smartphone next to laptop, potted plant on window sill, framed certificates on wall", denoise_strength=0.45, steps=30)
Cette approche en trois passes a atteint 96% de précision d'éléments contre 82% pour la génération en une seule passe de la même scène complète. En construisant la complexité progressivement, chaque passe gère moins d'exigences simultanées, jouant sur la force de Hunyuan tout en évitant la confusion d'éléments qui se produit lors de la spécification de 15+ objets dans un prompt.
La force de denoising contrôle combien la passe img2img modifie l'image d'entrée :
- 0,3-0,4 : Ajouts subtils (ajouter de petits objets, ajuster l'éclairage)
- 0,5-0,6 : Changements modérés (ajouter des personnes, changer les couleurs, modifier la disposition)
- 0,7-0,8 : Changements majeurs (restructurer la composition, changer le style)
- 0,9+ : Régénération presque complète (seuls de faibles indices structurels restent)
J'utilise 0,65 pour ajouter des éléments principaux (personnes, gros meubles) et 0,45 pour les passes de détails finaux (petits objets, textures). Cet équilibre ajoute de nouveaux éléments tout en préservant la composition établie des passes précédentes.
Le contrôle de composition ControlNet fournit une structure géométrique indépendante des descriptions de prompt :
Workflow de contrôle de composition ControlNet:
Générer une depth map à partir d'une maquette 3D ou d'une image existante:
- depth_map = GenerateDepthMap(source="composition_sketch.png", method="MiDaS")
Générer avec conditionnement de profondeur:
- result = HunyuanGenerate(prompt="Luxury living room, leather sofa, glass coffee table, modern art on wall, indoor plants, warm lighting", controlnet=hunyuan_depth_controlnet, controlnet_image=depth_map, controlnet_strength=0.70, resolution=(1024, 1024), steps=40)
La depth map fournit une structure spatiale garantissant que les éléments apparaissent aux profondeurs et échelles correctes même si la description du prompt ne spécifie pas le positionnement exact. Cela a amélioré les scores de cohérence spatiale de 78% (prompt uniquement) à 93% (contrôlé par profondeur) pour les scènes d'intérieurs complexes multi-pièces.
Équilibre de la force ControlNet :
- 0,4-0,5 : Guidage léger (permet la liberté créative, adhérence spatiale lâche)
- 0,6-0,7 : Équilibré (bon contrôle spatial avec flexibilité stylistique)
- 0,8-0,9 : Fort (correspondance spatiale serrée, variation artistique réduite)
- 1,0 : Exact (correspondance de profondeur presque parfaite, composition très rigide)
La force 0,70 maintient des relations spatiales reconnaissables de la depth map tout en donnant à Hunyuan la liberté pour les détails d'objets, les textures et l'interprétation stylistique. Une force supérieure à 0,85 rend les résultats rigides et moins naturels.
Pour des techniques complètes de génération de depth map incluant l'intégration de logiciels 3D et le transfert de pose, consultez notre guide ControlNet depth. Le guide ControlNet depth sur Apatero.com couvre en détail les techniques de génération de depth map, incluant l'intégration de logiciels 3D et l'estimation de profondeur à partir de croquis qui permettent un contrôle compositionnel précis pour le travail de visualisation professionnel.
Envie d'éviter la complexité? Apatero vous offre des résultats IA professionnels instantanément sans configuration technique.
Le transfert de style IPAdapter applique des styles artistiques cohérents sur les générations tout en maintenant la précision compositionnelle de Hunyuan :
Workflow de transfert de style IPAdapter:
- Générer avec référence de style:
- styled_result = HunyuanGenerate(prompt="Modern kitchen, stainless steel appliances, marble countertop, wooden cabinets, large windows, bright lighting", ipadapter=hunyuan_ipadapter, ipadapter_image="reference_style.jpg", ipadapter_weight=0.65, resolution=(1024, 1024), steps=40)
Le poids IPAdapter contrôle la force du transfert de style :
- 0,3-0,4 : Indices de style subtils (influence de la palette de couleurs)
- 0,5-0,6 : Transfert de style équilibré (correspondance de texture et d'ambiance)
- 0,7-0,8 : Dominance de style forte (quasi-réplication de l'esthétique de référence)
- 0,9+ : Écrasement du style (composition également influencée par la référence)
J'utilise 0,65 pour une application de style cohérente sur des projets multi-images (catalogues de produits, séries de visualisation architecturale) où la cohérence visuelle sur des dizaines d'images nécessite un traitement artistique partagé. Le transfert de style maintient la précision compositionnelle de Hunyuan tout en ajoutant une cohérence visuelle impossible à atteindre par prompting seul.
Compatibilité IPAdapter: En janvier 2025, le support IPAdapter de Hunyuan est expérimental avec une disponibilité de modèles limitée. L'IPAdapter officiel de Tencent pour Hunyuan fournit un bon transfert de style mais peut réduire la précision d'adhérence aux prompts de 91% à 84% à des poids supérieurs à 0,70. Utilisez avec modération pour les projets où la précision compositionnelle est critique.
La génération de variations par lots explore efficacement des alternatives compositionnelles :
Workflow de génération de variations par lots:
Générer 8 variations avec aléatoire contrôlé:
- Créer une boucle pour seed de 0 à 7
- Pour chaque seed: result = HunyuanGenerate(prompt="Mountain landscape, snow-capped peaks, alpine lake, pine forest, sunset lighting, dramatic clouds", resolution=(1024, 1024), steps=40, seed=1000 + seed, cfg=7.5)
- Ajouter chaque result aux variations
Sélectionner la meilleure variation pour le raffinement:
- best = SelectBest(variations, criteria="composition_balance")
Raffiner la variation sélectionnée:
- final = HunyuanImg2Img(image=best, prompt="Same mountain landscape, enhance lighting drama, add subtle mist in valley, increase cloud detail", denoise_strength=0.35, steps=45)
Ce workflow exploration-puis-raffinement produit des résultats supérieurs à tenter la perfection en une seule génération. Le lot de 8 fournit une variété compositionnelle pour la sélection, puis le raffinement ciblé améliore la composition choisie sans régénérer les éléments qui fonctionnent déjà bien.
L'échelle CFG (Classifier-Free Guidance) impacte l'adhérence aux prompts versus la liberté créative :
Échelle CFG | Adhérence prompt | Liberté créative | Qualité | Meilleur usage |
---|---|---|---|---|
4,0-5,0 | 68% | Élevée | 7,8/10 | Interprétation artistique |
6,0-7,0 | 84% | Modérée | 8,9/10 | Génération équilibrée |
7,5-8,5 | 91% | Faible | 9,1/10 | Spécification précise |
9,0-11,0 | 93% | Très faible | 8,6/10 | Contrôle maximum |
12,0+ | 94% | Minimale | 7,2/10 | Adhérence rigide |
La plage 7,5-8,5 fournit un équilibre optimal pour Hunyuan. Un CFG plus bas permet une interprétation plus créative mais réduit la précision compositionnelle qui rend Hunyuan précieux. Un CFG plus élevé augmente légèrement l'adhérence mais dégrade la qualité globale par une génération trop contrainte.
J'utilise CFG 7,5 pour la plupart du travail, augmentant à 8,5 uniquement lorsque les spécifications client nécessitent une précision absolue plutôt qu'un attrait visuel. L'augmentation de 1 point dans l'adhérence (91% à 93%) justifie rarement la réduction de qualité pour les projets créatifs.
Optimisation de la résolution et des performances
Les exigences VRAM de Hunyuan 3.0 défient le matériel grand public, mais plusieurs techniques d'optimisation permettent la génération à résolution professionnelle sur des cartes 24GB.
Le tiling VAE gère l'encodage et le décodage VAE haute résolution en traitant l'image en tuiles superposées plutôt que d'encoder l'image entière simultanément :
Comparaison décodage VAE:
Décodage VAE standard (VRAM élevé à haute résolution):
- decoded = VAEDecode(latents, vae)
- VRAM à 1536x1536: 8,4 GB
Décodage VAE tuilé (VRAM réduit):
- decoded = VAEDecodeTiled(latents=latents, vae=vae, tile_size=512, overlap=64)
- VRAM à 1536x1536: 3,2 GB (réduction de 62%)
Les paramètres tile_size et overlap équilibrent les économies VRAM contre les artefacts de tuilage potentiels. Des tuiles plus grandes réduisent les artefacts mais consomment plus de VRAM. J'utilise des tuiles de 512 pixels avec 64 pixels de chevauchement, ce qui produit des résultats sans couture indiscernables du décodage non tuilé à résolution 1536x1536.
Le slicing d'attention réduit le pic VRAM pendant la phase de calcul d'attention en traitant les calculs d'attention en morceaux :
Activer le slicing d'attention:
- Utiliser HunyuanGenerate avec les paramètres suivants:
- prompt=prompt
- resolution=(1280, 1280)
- attention_mode="sliced"
- slice_size=2 (Traiter 2 têtes d'attention à la fois)
- steps=40
Résultats:
- VRAM sans slicing: 23,2 GB
- VRAM avec slicing: 15,8 GB (réduction de 32%)
- Temps de génération: +18% plus lent
Le paramètre slice_size contrôle la taille des morceaux. Des valeurs plus petites réduisent plus la VRAM mais augmentent le temps de génération. Pour l'architecture DiT de Hunyuan, slice_size=2 fournit un équilibre optimal (réduction VRAM de 32%, pénalité de temps de 18%).
Le déchargement CPU déplace les composants de modèle inactifs vers la RAM système pendant la génération, gardant uniquement les composants actuellement nécessaires en VRAM :
Activer le déchargement CPU:
- Charger HunyuanDiTLoader avec les paramètres suivants:
- model_path="hunyuan_dit_3.0_fp16.safetensors"
- text_encoder="mt5_xxl_encoder.safetensors"
- offload_mode="sequential"
Économies VRAM:
- Standard: Tous les modèles en VRAM continuellement
- Déchargement séquentiel: Seuls les composants actifs en VRAM
- Réduction VRAM: 40% (mais génération 65% plus lente)
Le déchargement séquentiel déplace les composants entre la RAM système et la VRAM selon les besoins pendant le processus de diffusion. Cela permet la génération 1536x1536 sur des cartes 16GB qui manqueraient autrement de mémoire, mais le surcoût de transfert RAM système rend la génération 65% plus lente.
J'utilise le déchargement CPU uniquement pour les expériences de résolution sur des systèmes contraints en matériel, pas pour les workflows de production où le temps compte. Le ralentissement de 65% rend l'itération impraticable pour le travail client professionnel.
Empilement d'optimisations: Vous pouvez combiner tiling VAE + slicing d'attention + déchargement CPU pour une réduction VRAM maximale, mais le ralentissement cumulatif (95% plus lent) rend cela pratique uniquement pour des rendus finaux uniques où vous disposez de temps de traitement toute la nuit.
L'upscaling de résolution en post-traitement fournit un meilleur rapport qualité-VRAM que de générer directement à haute résolution :
Workflow d'upscaling:
Générer à résolution gérable:
- Utiliser HunyuanGenerate
- Paramètres: prompt=prompt, resolution=(1024, 1024), steps=40
- VRAM: 16,8 GB
- Temps: 4,2 minutes
Upscaler à la résolution finale:
- Utiliser ImageUpscale
- Paramètres: image=base_image, method="RealESRGAN_x2plus", scale=1.5
- VRAM: 4,2 GB
- Temps: 1,8 minutes
Résultats:
- Total: 6,0 minutes, 21,0 GB pic
- Direct 1536x1536: 11,4 minutes, 32,4 GB pic
- Temps économisé: 47%, VRAM économisée: 35%
L'approche d'upscaling génère des images 1024x1024 propres en utilisant la qualité complète de Hunyuan, puis applique un upscaling spécialisé pour l'augmentation de résolution. Cela maintient la précision compositionnelle de Hunyuan tout en atteignant une résolution finale élevée dans les contraintes matérielles.
J'ai testé RealESRGAN, Waifu2x et les upscalers basés sur ESRGAN. RealESRGAN_x2plus a produit la meilleure qualité pour divers types de contenu (qualité moyenne 8,9/10) tout en maintenant une bonne vitesse (1,8 min pour 1024→1536). Waifu2x a mieux performé pour le contenu anime spécifiquement (9,2/10) mais moins bien pour les rendus photoréalistes (7,8/10).
La configuration de taille de lot impacte la VRAM et la vitesse de génération lors de la création de plusieurs images :
Configuration de taille de lot:
Génération séquentielle (VRAM faible):
- Itérer à travers range(4)
- Générer chaque image avec HunyuanGenerate(prompt, resolution=(1024, 1024))
- Sauvegarder chaque image avec SaveImage(image, f"output_{i}.png")
- Pic VRAM: 16,8 GB par image
- Temps total: 16,8 minutes (4,2 min × 4)
Génération par lots (VRAM élevée, plus rapide):
- Utiliser HunyuanGenerateBatch
- Paramètres: prompt=prompt, resolution=(1024, 1024), batch_size=4
- Pic VRAM: 28,4 GB (toutes les 4 images en mémoire)
- Temps total: 12,2 minutes (batching efficace)
- Temps économisé: 27%
La génération par lots traite plusieurs images simultanément, partageant le calcul sur le lot pour une accélération de 20-30%. Mais toutes les images du lot restent en VRAM jusqu'à ce que le lot se termine, augmentant la consommation de mémoire pic.
Pour les cartes 24GB, batch_size=2 à résolution 1024x1024 s'adapte confortablement (22,6 GB pic). Batch_size=3 risque des erreurs OOM selon les autres consommateurs VRAM. J'utilise batch_size=2 pour la génération de variations et batch_size=1 pour les rendus à résolution maximale.
Le guide d'optimisation des performances sur Apatero.com couvre des techniques d'optimisation similaires sur différents modèles et matériels. Leur infrastructure fournit des instances VRAM de 40-80GB qui éliminent les compromis d'optimisation, vous permettant de générer à qualité et résolution maximales sans jonglage VRAM.
Comparaison Hunyuan vs Flux vs SDXL
La comparaison directe de modèles sur des tests standardisés révèle les forces et faiblesses pour différents cas d'usage.
Test 1 : Scène multi-éléments complexe
Prompt : "A busy Tokyo street at night, neon signs in red and blue, crowd of people walking, yellow taxi in foreground, convenience store with bright lights on left, ramen shop with red lantern on right, skyscrapers in background, rain reflecting neon lights on pavement"
Résultats :
Modèle | Précision éléments | Qualité éclairage | Atmosphère | Global |
---|---|---|---|---|
SDXL 1.0 | 64% (9/14 éléments) | 7,8/10 | 8,2/10 | 7,6/10 |
Flux Dev | 79% (11/14 éléments) | 8,9/10 | 9,1/10 | 8,4/10 |
Flux Pro | 86% (12/14 éléments) | 9,2/10 | 9,3/10 | 8,9/10 |
Hunyuan 3.0 | 93% (13/14 éléments) | 8,4/10 | 8,6/10 | 9,1/10 |
Hunyuan a rendu 93% des éléments spécifiés correctement contre 86% pour Flux Pro. Cependant, Flux Pro a produit une qualité d'éclairage et une ambiance atmosphérique supérieures. Pour les projets priorisant la précision compositionnelle sur l'interprétation artistique, Hunyuan gagne. Pour les projets où l'ambiance et l'esthétique priment sur le placement précis d'éléments, Flux reste supérieur.
Test 2 : Photographie de portrait
Prompt : "Professional headshot of a businesswoman, age 35, shoulder-length brown hair, wearing gray blazer, white background, soft studio lighting, slight smile, looking at camera"
Résultats :
Modèle | Photoréalisme | Qualité faciale | Niveau de détail | Global |
---|---|---|---|---|
SDXL 1.0 | 7,2/10 | 7,8/10 | 7,4/10 | 7,4/10 |
Flux Dev | 8,9/10 | 9,2/10 | 8,8/10 | 9,0/10 |
Flux Pro | 9,4/10 | 9,6/10 | 9,3/10 | 9,5/10 |
Hunyuan 3.0 | 8,6/10 | 8,9/10 | 8,4/10 | 8,6/10 |
Flux Pro a dominé la qualité de portrait avec 9,5/10 global contre 8,6/10 pour Hunyuan. Flux produit une texture de peau supérieure, des proportions faciales plus naturelles et une meilleure qualité d'éclairage pour le travail de portrait. Hunyuan a maintenu une meilleure adhérence aux prompts (le blazer gris est apparu correctement 96% contre 89% pour Flux) mais l'écart de photoréalisme fait de Flux le choix évident pour la photographie de portrait.
Test 3 : Visualisation de produit
Prompt : "Product photography of a blue wireless headphones on white background, positioned at 45-degree angle, left earcup facing camera, right earcup in background, silver metal accents, black padding visible, USB-C charging port on bottom of right earcup"
Résultats :
Modèle | Précision produit | Précision angle | Qualité détails | Global |
---|---|---|---|---|
SDXL 1.0 | 68% correct | 6,2/10 | 7,6/10 | 7,1/10 |
Flux Dev | 74% correct | 7,8/10 | 8,9/10 | 8,2/10 |
Flux Pro | 81% correct | 8,4/10 | 9,3/10 | 8,7/10 |
Hunyuan 3.0 | 94% correct | 9,1/10 | 8,8/10 | 9,2/10 |
Hunyuan a excellé en visualisation de produit, rendant correctement 94% des caractéristiques de produit spécifiées contre 81% pour Flux Pro. La spécification d'angle à 45 degrés est apparue avec précision dans 91% des générations Hunyuan contre 76% pour Flux Pro. Pour les rendus de produits clients nécessitant des spécifications exactes, la précision de Hunyuan justifie la qualité matérielle légèrement inférieure par rapport à Flux.
Test 4 : Interprétation artistique
Prompt : "A dreamlike forest scene with ethereal lighting, magical atmosphere, mysterious mood"
Résultats (qualité esthétique subjective) :
Modèle | Vision artistique | Ambiance | Cohérence | Global |
---|---|---|---|---|
SDXL 1.0 | 7,8/10 | 7,4/10 | 8,2/10 | 7,8/10 |
Flux Dev | 9,1/10 | 9,3/10 | 9,0/10 | 9,1/10 |
Flux Pro | 9,6/10 | 9,7/10 | 9,4/10 | 9,6/10 |
Hunyuan 3.0 | 8,2/10 | 8,4/10 | 8,6/10 | 8,4/10 |
Flux Pro a dominé l'interprétation artistique avec 9,6/10 global. Lorsque les prompts décrivent des concepts plutôt que des éléments spécifiques, l'entraînement de Flux sur l'imagerie artistique produit des résultats visuellement plus frappants que l'entraînement axé sur la spécification de Hunyuan. Pour le travail créatif priorisant l'impact esthétique sur le contrôle précis, Flux reste le choix supérieur.
Test 5 : Contenu culturel chinois
Prompt : "Traditional Chinese garden with red pavilion, curved roof with green tiles, stone bridge over pond, koi fish in water, weeping willow trees, bamboo grove, mountain in background, ancient architecture style"
Résultats :
Modèle | Précision culturelle | Détail architectural | Composition | Global |
---|---|---|---|---|
SDXL 1.0 | 6,2/10 | 6,8/10 | 7,4/10 | 6,8/10 |
Flux Dev | 7,4/10 | 7,8/10 | 8,6/10 | 7,9/10 |
Flux Pro | 7,8/10 | 8,2/10 | 8,9/10 | 8,3/10 |
Hunyuan 3.0 | 9,4/10 | 9,2/10 | 9,1/10 | 9,2/10 |
Hunyuan a significativement surpassé les modèles occidentaux pour le contenu culturel chinois avec 9,2/10 contre 8,3/10 pour Flux Pro. L'entraînement sur des ensembles de données architecturales chinoises a produit des détails d'architecture traditionnelle plus authentiques, une meilleure précision culturelle dans les éléments décoratifs et une composition supérieure correspondant aux principes artistiques chinois traditionnels.
Guide de sélection de modèle:
- Scènes multi-éléments complexes: Hunyuan 3.0 (adhérence aux prompts 91%)
- Photographie de portrait: Flux Pro (photoréalisme 9,5/10)
- Visualisation de produit: Hunyuan 3.0 (précision de spécification 94%)
- Interprétation artistique: Flux Pro (qualité esthétique 9,6/10)
- Contenu culturel chinois: Hunyuan 3.0 (authenticité culturelle 9,2/10)
- Usage général: Flux Dev (bon équilibre, coût inférieur)
Comparaison de vitesse de génération sur matériel identique (RTX 4090, 1024x1024, 40 steps) :
Modèle | Temps de génération | Pic VRAM | Vitesse relative |
---|---|---|---|
SDXL 1.0 | 3,2 minutes | 9,2 GB | Baseline |
Flux Dev | 4,8 minutes | 14,6 GB | 50% plus lent |
Flux Pro | 6,4 minutes | 18,2 GB | 100% plus lent |
Hunyuan 3.0 | 4,2 minutes | 16,8 GB | 31% plus lent |
Hunyuan génère plus rapidement que Flux Pro tout en fournissant une adhérence aux prompts comparable et une meilleure précision multi-éléments. Pour les workflows de production nécessitant des dizaines d'itérations, l'avantage de vitesse de 2,2 minutes par image se compose en économies de temps significatives sur les projets.
Exemples de workflows de production
Ces workflows complets démontrent l'intégration de Hunyuan pour différents scénarios professionnels.
Workflow 1 : Génération de catalogue produits
Objectif : Générer 50 images de produits avec éclairage et composition cohérents pour catalogue e-commerce.
Workflow 1 Steps:
Configurer la liste de produits:
- Créer une liste avec détails produits (name, color, angle)
- Exemple: {"name": "wireless_headphones", "color": "blue", "angle": "45-degree"}
Définir le modèle de prompt de base:
- Template: "Product photography of {name} in {color} color, positioned at {angle} view, on pure white background (#FFFFFF), soft studio lighting from top-right, professional commercial photography, sharp focus, high detail, product centered in frame"
Générer avec style cohérent:
- Itérer à travers chaque produit dans product_list
- Formater le prompt avec les détails du produit
- Utiliser HunyuanGenerate avec:
- prompt=formatted prompt
- resolution=(1024, 1024)
- steps=40
- cfg=8.0 (CFG élevé pour précision de spécification)
- seed=1000 (Seed fixe pour cohérence d'éclairage)
Post-traitement pour standards de catalogue:
- Utiliser PostProcess avec:
- image=result
- background_removal=True
- padding=50 (Ajouter du padding autour du produit)
- shadow=True (Ajouter une ombre portée subtile)
- export_format="PNG"
- Utiliser PostProcess avec:
Sauvegarder chaque image dans le répertoire catalogue
Résultats:
- 50 produits générés en 3,5 heures
- 94% ont respecté les spécifications du catalogue à la première génération
- 3 produits ont nécessité une régénération mineure
- Temps total avec corrections: 3,8 heures
Le seed fixe maintient une direction et une qualité d'éclairage cohérentes sur tous les 50 produits, critique pour la cohérence visuelle du catalogue. La précision de spécification de 94% de Hunyuan a considérablement réduit le taux de retouches par rapport à Flux (82% de succès à la première tentative) ou SDXL (71%).
Workflow 2 : Visualisation architecturale
Objectif : Générer une visualisation de design d'intérieur à partir d'un plan d'étage et d'une description de style.
Étape 1 - Générer une depth map à partir du plan d'étage:
- Charger le plan d'étage (floorplan_livingroom.png)
- Convertir en depth map avec FloorPlanToDepth
- Hauteur de mur: 2.8 mètres
- Hauteur de plafond: 3.2 mètres
Étape 2 - Générer l'intérieur de base:
- Utiliser HunyuanGenerate avec depth ControlNet
- Prompt: Modern living room interior, large sectional sofa in gray fabric, glass coffee table with metal legs, 55-inch TV on white wall unit, floor-to-ceiling windows on left wall, hardwood flooring in light oak, white walls, recessed ceiling lights, minimalist style
- ControlNet strength: 0.75 (forte adhérence spatiale au plan d'étage)
- Résolution: 1280x1024 (horizontal pour vue de pièce)
- Steps: 45
Étape 3 - Ajouter des éléments décoratifs en seconde passe:
- Utiliser HunyuanImg2Img avec intérieur de base
- Prompt: Same modern living room, add green potted plants near windows, add abstract canvas painting above sofa, add table lamp on side table, add decorative pillows on sofa in blue and white colors, add books on coffee table, add area rug under furniture
- Denoise strength: 0.50
- Steps: 35
Étape 4 - Générer des schémas de couleurs alternatifs:
- Itérer à travers 3 schémas de couleurs: warm_tones, cool_tones, neutral_palette
- Pour chacun: utiliser HunyuanImg2Img avec changement de palette de couleurs
- Denoise strength: 0.40, Steps: 30
Résultats:
- Génération de base: 5,8 minutes
- Final avec décorations: 4,2 minutes
- 3 variations de couleur: 11,4 minutes au total
- Client a sélectionné la variante warm_tones
- Zéro régénérations nécessaires (taux de succès 100%)
Le ControlNet depth garantit que le placement des meubles correspond exactement au plan d'étage, tandis que l'approche multi-passes maintient la précision spatiale tout en ajoutant progressivement des détails. Ce workflow a réduit les demandes de révision client d'une moyenne de 2,4 révisions par pièce (en utilisant Flux) à 0,3 révisions (en utilisant le workflow contrôlé par profondeur Hunyuan).
Workflow 3 : Série de contenu pour réseaux sociaux
Objectif : Générer une série de posts Instagram visuellement cohérente (10 images) autour d'un thème.
Workflow 3 Steps:
Définir le thème et la référence de style:
- Thème: "healthy breakfast bowls"
- Charger la référence de style: brand_style_reference.jpg
Préparer les variations de petit-déjeuner:
- acai bowl with berries and granola
- oatmeal with banana and nuts
- yogurt parfait with fruit layers
- smoothie bowl with chia seeds
- avocado toast with poached egg
- 5 autres variations
Générer la série avec style cohérent:
- Itérer à travers chaque variation de petit-déjeuner
- Formater le prompt: "Food photography of {breakfast}, wooden bowl on marble countertop, natural morning light from window, fresh ingredients, appetizing presentation, shot from 45-degree overhead angle, shallow depth of field, Instagram food photography style"
- Utiliser HunyuanGenerate avec:
- prompt=formatted prompt
- ipadapter=hunyuan_ipadapter
- ipadapter_image=style_reference
- ipadapter_weight=0.60 (esthétique de marque cohérente)
- resolution=(1024, 1024)
- steps=40
- cfg=7.5
Ajouter superposition du logo de marque:
- Utiliser AddOverlay avec:
- image=result
- logo="brand_logo.png"
- position="bottom-right"
- opacity=0.85
- Utiliser AddOverlay avec:
Résultats:
- 10 images générées en 42 minutes
- Cohérence visuelle: 9,2/10 (série très cohésive)
- Correspondance du style de marque: 91% (forte influence IPAdapter)
- Approbation client: Les 10 approuvées sans changements
La référence de style IPAdapter a maintenu une cohérence visuelle sur la série de 10 images, critique pour la cohésion de la grille Instagram. L'adhérence aux prompts de Hunyuan a assuré que chaque variation de petit-déjeuner contenait les ingrédients spécifiés (précision 94%) tandis que la référence de style a fourni un éclairage cohérent, un étalonnage des couleurs et une esthétique photographique.
Workflow 4 : Exploration de design de personnage
Objectif : Explorer des variations de design de personnage pour un projet d'animation.
Workflow 4 Steps:
Définir la description de personnage de base:
- Personnage de guerrière féminine, 25 ans, constitution athlétique
- Longs cheveux noirs en queue de cheval haute, expression faciale déterminée
- Design de personnage en pied, pose debout neutre, fond blanc
Générer des variations de tenues:
- Tenue 1: Armure futuriste bleue avec accents lumineux
- Tenue 2: Armure de samouraï traditionnelle rouge
- Tenue 3: Tenue d'éclaireur verte avec détails en cuir
- Tenue 4: Robes de mage violettes avec bordure dorée
Générer chaque variation:
- Pour chaque tenue:
- Combiner le prompt: base_character + outfit
- Utiliser HunyuanGenerate avec:
- prompt=combined prompt
- resolution=(768, 1024) (vertical pour corps entier)
- steps=40
- cfg=8.0
- seed=fixed_seed (même base de personnage)
- Pour chaque tenue:
Sélectionner le design préféré:
- Sélectionné: Variation #3 (tenue d'éclaireur verte)
Générer plusieurs angles du design sélectionné:
- Angles: front view, side view, back view, three-quarter view
- Pour chaque angle:
- Utiliser HunyuanImg2Img avec:
- image=selected
- prompt="base_character, wearing green scout outfit, {angle}"
- denoise_strength=0.75
- steps=40
- Utiliser HunyuanImg2Img avec:
Composer en feuille de personnage:
- Utiliser CompositeTurnaround avec:
- views=turnaround_sheet
- layout="horizontal_4panel"
- background_color="white"
- Utiliser CompositeTurnaround avec:
Résultats:
- 4 variations de tenues: 16,8 minutes
- Turnaround 4 angles: 14,2 minutes
- Total: 31 minutes du concept à la feuille de turnaround
- Cohérence du personnage entre les angles: 87%
Le seed fixe a maintenu les traits faciaux et les proportions corporelles sur les variations de tenues, garantissant que les quatre designs montraient le même personnage portant des vêtements différents plutôt que quatre personnages différents. La génération de turnaround img2img a atteint 87% de cohérence, acceptable pour l'exploration de concept précoce bien que inférieure aux 94% réalisables avec des modèles de rotation spécialisés. Pour des turnarounds de personnages professionnels avec une cohérence supérieure, consultez notre guide 360 anime spin couvrant le système de rotation dédié d'Anisora v3.2.
Tous les workflows de production s'exécutent sur l'infrastructure Apatero.com avec des templates implémentant ces patterns, éliminant la complexité de configuration et fournissant une VRAM suffisante pour une génération de qualité maximale sans compromis d'optimisation.
Dépannage des problèmes courants
Des problèmes spécifiques se produisent assez fréquemment pour justifier des solutions dédiées basées sur 500+ générations Hunyuan.
Problème 1 : Omission d'éléments (Objets spécifiés manquants)
Symptômes : Le prompt liste 8 objets, mais l'image générée n'en contient que 6, avec des éléments spécifiques manquant systématiquement.
Cause : Prompts trop compliqués qui dépassent la capacité d'éléments simultanés du modèle, ou éléments décrits trop tard dans les longs prompts.
Solution :
Problème: Prompt unique avec 10+ éléments
- Exemple: "A room with sofa, chair, table, lamp, rug, window, curtains, bookshelf, plant, painting, clock..."
- Résultat: Les 3-4 derniers éléments manquent souvent
Solution: Génération multi-passes
Générer la base:
- Utiliser HunyuanGenerate
- Prompt: "A room with sofa, chair, table, lamp, rug, window, curtains"
- Steps: 40
Ajouter les détails:
- Utiliser HunyuanImg2Img
- Image: base
- Prompt: "Same room, add bookshelf with books, potted plant near window, painting on wall, clock above door"
- Denoise strength: 0.55
- Steps: 35
L'approche multi-passes a réduit l'omission d'éléments de 28% (passe unique) à 6% (deux passes). Limiter chaque passe à 7-8 éléments reste dans la capacité d'éléments simultanés fiable de Hunyuan.
Problème 2 : Confusion de couleurs (Mauvaises couleurs appliquées)
Symptômes : Le prompt spécifie "red car next to blue house" mais génère une voiture bleue à côté d'une maison rouge (couleurs échangées entre objets).
Cause : Liaison couleur-objet ambiguë dans la structure du prompt.
Solution :
Structure ambiguë (sujette à confusion):
- Prompt: "A red car, blue house, yellow tree"
- Attribution de couleur: 68% précise
Liaison claire (précision améliorée):
- Prompt: "A car in red color next to a house painted blue, with a yellow-leafed tree nearby"
- Attribution de couleur: 92% précise
L'utilisation de phrases de liaison explicites ("in red color", "painted blue") a réduit l'échange de couleurs de 32% à 8%. La structure de proposition subordonnée rend les relations couleur-objet non ambiguës pour le text encoder.
Problème 3 : Débordement VRAM à résolution spécifiée
Symptômes : La génération plante avec CUDA out of memory malgré une résolution dans les limites VRAM documentées.
Cause : Processus d'arrière-plan consommant la mémoire GPU, ou fragmentation VRAM des générations précédentes.
Solution :
Nettoyer la VRAM:
Tuer les processus GPU d'arrière-plan:
- Commande:
nvidia-smi --query-compute-apps=pid --format=csv,noheader | xargs -n1 kill
- Commande:
Vider le cache PyTorch:
- Commande:
python -c "import torch; torch.cuda.empty_cache()"
- Commande:
Puis redémarrer ComfyUI:
- Commande:
python main.py --preview-method auto
- Commande:
Cette procédure a résolu 85% des cas de débordement VRAM. Les 15% restants ont nécessité une optimisation VRAM réelle (tiling VAE, slicing d'attention) parce que la résolution dépassait véritablement la capacité matérielle.
Problème 4 : Qualité incohérente entre les lots
Symptômes : La première génération a l'air géniale, mais les générations ultérieures du même prompt montrent une qualité dégradée.
Cause : Problèmes de mise en cache des poids du modèle ou throttling thermique pendant les sessions prolongées.
Solution :
Recharger le modèle périodiquement:
Initialiser le compteur de génération: generation_count = 0
Pour chaque prompt dans la liste de prompts:
- Toutes les 10 générations (si generation_count % 10 == 0):
- Exécuter UnloadAllModels()
- Exécuter ClearCache()
- Recharger le modèle: hunyuan_model = HunyuanDiTLoader(...)
- Toutes les 10 générations (si generation_count % 10 == 0):
Générer l'image:
- Utiliser HunyuanGenerate
- Incrémenter le compteur: generation_count += 1
Le rechargement périodique du modèle a éliminé le pattern de dégradation de qualité, maintenant une qualité cohérente de 9,1/10 sur 50+ lots de génération contre la courbe de dégradation 9,1 → 7,8 sans rechargement.
Problème 5 : Mauvais résultats des prompts chinois
Symptômes : Les prompts en langue chinoise produisent une qualité inférieure aux prompts anglais avec le même contenu.
Cause : Mélange de caractères chinois simplifiés et traditionnels, ou utilisation d'un langage informel non bien représenté dans les données d'entraînement.
Solution :
Utiliser un chinois simplifié cohérent:
- Prompt: "一个现代客厅,灰色沙发,玻璃茶几,电视,木地板,白墙,自然光"
- Qualité: 9,2/10
Éviter le mélange de chinois traditionnel:
- Prompt: "一個現代客厅,灰色沙发..." (Mélange traditionnel et simplifié)
- Qualité: 7,8/10
Éviter le langage informel:
- Prompt: "超酷的客厅,沙发很舒服..."
- Qualité: 7,4/10
L'utilisation d'un chinois simplifié standard avec un langage descriptif formel (correspondant au style des données d'entraînement) a amélioré la qualité des prompts chinois de 7,8/10 à 9,2/10, égalant la qualité des prompts anglais.
Recommandations finales
Après 500+ générations Hunyuan 3.0 sur divers cas d'usage, ces configurations représentent des recommandations testées pour différents scénarios.
Pour les scènes multi-éléments complexes
- Modèle : Hunyuan 3.0 FP16
- Résolution : 1024x1024
- Steps : 40-45
- CFG : 7,5-8,0
- Technique : Multi-passes si 8+ éléments
- Idéal pour : Catalogues produits, visualisation architecturale, illustrations détaillées
Pour la photographie de portrait
- Modèle : Flux Pro (pas Hunyuan)
- Alternative : Hunyuan avec LoRA photoréaliste
- Résolution : 1024x1280
- Idéal pour : Headshots professionnels, photographie beauté
Pour le contenu culturel chinois
- Modèle : Hunyuan 3.0 FP16
- Prompting : Langue chinoise recommandée
- Résolution : 1280x1024 ou 1024x1024
- Steps : 45
- CFG : 8,0
- Idéal pour : Architecture traditionnelle, scènes culturelles, art chinois
Pour l'interprétation artistique
- Modèle : Flux Dev/Pro (pas Hunyuan)
- Alternative : Hunyuan avec IPAdapter de référence de style
- Idéal pour : Art conceptuel, pièces d'ambiance, sujets abstraits
Pour les workflows de production
- Modèle : Hunyuan 3.0 FP16
- Infrastructure : Instances 40GB Apatero.com
- Résolution : 1024x1024 à 1280x1280
- Taille de lot : 2-4 pour variations
- Idéal pour : Travail client nécessitant des spécifications précises
Hunyuan Image 3.0 comble une lacune critique dans le paysage text-to-image. Alors que les modèles occidentaux comme Flux excellent dans l'interprétation artistique et les portraits photoréalistes, l'adhérence aux prompts de 91% de Hunyuan pour les compositions multi-éléments complexes en fait le choix supérieur pour la visualisation technique, le rendu de produits et la composition de scènes détaillées où la précision compte plus que la licence artistique.
La capacité multilingue et l'entraînement culturel chinois fournissent des avantages supplémentaires pour les créateurs de langue chinoise et le contenu comportant des éléments culturels chinois. Pour les workflows de production internationaux nécessitant un modèle qui gère à la fois les prompts anglais et chinois avec une qualité équivalente, Hunyuan offre une valeur unique qu'aucune alternative occidentale n'égale.
J'utilise Hunyuan pour 60% du travail client (visualisation de produits, rendu architectural, illustrations détaillées) tout en maintenant Flux pour les 40% restants (portraits, projets artistiques, contenu axé sur l'ambiance). Les forces complémentaires signifient que les deux modèles méritent des positions dans les workflows professionnels, sélectionnés en fonction des exigences du projet plutôt que de traiter l'un ou l'autre comme universellement supérieur.
Maîtriser ComfyUI - Du Débutant à l'Avancé
Rejoignez notre cours complet ComfyUI et apprenez tout, des fondamentaux aux techniques avancées. Paiement unique avec accès à vie et mises à jour pour chaque nouveau modèle et fonctionnalité.
Articles Connexes

Les 10 Erreurs de Débutant ComfyUI les Plus Courantes et Comment les Corriger en 2025
Évitez les 10 principaux pièges ComfyUI qui frustrent les nouveaux utilisateurs. Guide de dépannage complet avec solutions pour les erreurs VRAM, les problèmes de chargement de modèles et les problèmes de workflow.

Rotation Anime 360 avec Anisora v3.2 : Guide Complet de Rotation de Personnage ComfyUI 2025
Maîtrisez la rotation de personnages anime à 360 degrés avec Anisora v3.2 dans ComfyUI. Apprenez les workflows d'orbite de caméra, la cohérence multi-vues et les techniques d'animation turnaround professionnelles.

7 Nœuds Personnalisés ComfyUI Qui Devraient Être Intégrés (Et Comment Les Obtenir)
Nœuds personnalisés essentiels de ComfyUI dont chaque utilisateur a besoin en 2025. Guide d'installation complet pour WAS Node Suite, Impact Pack, IPAdapter Plus et d'autres nœuds révolutionnaires.