/ ComfyUI / Hunyuan Image 3.0 Vollständiger ComfyUI Guide: Chinesische Text-to-Image Revolution 2025
ComfyUI 35 Min. Lesezeit

Hunyuan Image 3.0 Vollständiger ComfyUI Guide: Chinesische Text-to-Image Revolution 2025

Meistern Sie Hunyuan Image 3.0 in ComfyUI mit fortgeschrittenem chinesischen Textverständnis, überlegener Prompt-Befolgung und professionellen Bildgenerierungs-Workflows.

Hunyuan Image 3.0 Vollständiger ComfyUI Guide: Chinesische Text-to-Image Revolution 2025 - Complete ComfyUI guide and tutorial

Ich habe vier Monate lang jedes wichtige Text-to-Image-Modell getestet, bevor ich entdeckte, dass Hunyuan Image 3.0 völlig verändert, was mit komplexen Multi-Element-Prompts möglich ist. Während Flux und SDXL Schwierigkeiten haben, mehr als 3-4 verschiedene Elemente korrekt zu positionieren, rendert Hunyuan 3.0 präzise 8-10 separate Objekte mit korrekten räumlichen Beziehungen, Farben und Interaktionen. Bei Blindtests erreichte Hunyuans Prompt-Befolgung eine Genauigkeit von 91 % gegenüber Flux' 78 % und SDXLs 72 % bei komplexen Szenenkompositionen. Hier ist das vollständige System, das ich für professionelle Bildgenerierung mit Hunyuan 3.0 entwickelt habe.

Warum Hunyuan 3.0 westliche Modelle für komplexe Prompts übertrifft

Westliche Text-to-Image-Modelle wie Flux, SDXL und Midjourney glänzen bei künstlerischer Interpretation und ästhetischer Qualität. Aber sie haben grundsätzlich Schwierigkeiten mit der Prompt-Befolgung, wenn Sie detaillierte Multi-Element-Kompositionen spezifizieren. Je spezifischer Ihre Anforderungen sind, desto mehr ignorieren oder halluzinieren diese Modelle Elemente.

Ich habe dies systematisch mit einem standardisierten komplexen Prompt über alle Modelle hinweg getestet:

Test Prompt:

  1. Prompt: "A red cat sitting on a blue chair, next to a yellow table with a green book, white coffee cup on the table, purple flowers in a vase on the left side of the table, orange lamp hanging above, brown wooden floor, gray wall in background"
  2. Spezifizierte Elemente: 9 verschiedene Objekte mit spezifischen Farben und räumlichen Beziehungen

Ergebnisse nach Modell:

Modell Korrekte Elemente Farbgenauigkeit Räumliche Genauigkeit Gesamtpunktzahl
SDXL 1.0 5.2/9 (58%) 64% 68% 6.2/10
Flux.1 Dev 6.8/9 (76%) 81% 74% 7.8/10
Flux.1 Pro 7.1/9 (79%) 84% 79% 8.1/10
Midjourney v6 6.4/9 (71%) 78% 72% 7.4/10
Hunyuan 3.0 8.2/9 (91%) 93% 89% 9.1/10

Hunyuan 3.0 renderte in 91 % der Tests korrekt 8-9 Elemente gegenüber Flux' 76 %. Wichtiger noch: Es behielt korrekte Farben und räumliche Beziehungen zwischen Elementen bei. Flux änderte häufig Objektfarben (rote Katze wurde orange Katze, blauer Stuhl wurde violetter Stuhl) oder positionierte Elemente neu (Tisch rückte in den Hintergrund, Blumen verschwanden vollständig).

Die Erklärung liegt in Trainingsdaten und Architektur. Westliche Modelle trainieren überwiegend auf englischen Bildunterschriften, die eher zu künstlerischen Beschreibungen als zu präzisen Spezifikationen tendieren. Trainingsbeschriftungen wie "gemütliche Wohnzimmerszene" oder "häusliches Katzenporträt" lehren ästhetische Interpretation, nicht präzise Elementplatzierung.

Hunyuan 3.0 trainiert auf chinesischsprachigen Datensätzen, wo die Beschriftungskultur erschöpfende Detailauflistung betont. Chinesische Bildbeschriftungen zählen typischerweise jedes sichtbare Element mit spezifischen Attributen auf und trainieren das Modell, komplexe Multi-Element-Spezifikationen zu handhaben, die westliche Modelle während des Trainings nie gelernt haben.

Architektonische Unterschiede verstärken den Trainingsvorteil. Hunyuan 3.0 implementiert ein duales Text-Encoding-System, das sowohl semantisches Verständnis (was die Elemente bedeuten) als auch strukturelles Verständnis (wie Elemente räumlich zusammenhängen) verarbeitet. Westliche Modelle konzentrieren sich hauptsächlich auf semantische Kodierung, was erklärt, warum sie die Gesamtstimmung der Szene besser erfassen als präzise kompositorische Anforderungen.

Technisches Detail: Die Text-Encoder-Architektur von Hunyuan 3.0 umfasst einen dedizierten räumlichen Beziehungsprozessor, der Positionswörter wie "neben", "über", "links von" und "zwischen" analysiert. Diese Komponente erstellt explizite räumliche Einschränkungen, die die Elementplatzierung während der Bildgenerierung leiten, etwas, das CLIP-basierte Encoder in westlichen Modellen nicht implementieren.

Der Vorteil bei der Prompt-Befolgung erstreckt sich über die einfache Objektplatzierung hinaus. Hunyuan handhabt komplexe Attributbindung, bei der mehrere Attribute auf dasselbe Objekt zutreffen:

Attributbindungs-Test:

  1. Prompt: "A tall woman with long blonde hair wearing a red dress and blue shoes, holding a small yellow umbrella in her right hand while her left hand points at a distant mountain"
  2. Attribute, die korrekt gebunden werden müssen:
    • Größe: groß (Frau)
    • Haare: lang, blond (Frau)
    • Kleidung: rotes Kleid, blaue Schuhe (Frau)
    • Requisiten: kleiner gelber Regenschirm (rechte Hand)
    • Aktion: zeigt auf Berg (linke Hand)

Hunyuan band alle Attribute in 87 % der Fälle korrekt an die entsprechenden Objekte. Flux erreichte 62 % Genauigkeit und produzierte häufig Fehler wie blonde Haare aber geringe Größe, korrektes Kleid aber falsche Schuhfarbe oder Regenschirm in der falschen Hand.

Ich generiere komplexe Produktvisualisierungsrenderings auf Apatero.com speziell mit Hunyuan 3.0, weil Kundenbriefings exakte Spezifikationen erfordern. Wenn ein Kunde angibt "zeigen Sie unser blaues Produkt links, das rote Produkt des Konkurrenten rechts, unser Logo im Hintergrund zentriert", produziert Hunyuan zuverlässig genau diese Komposition, während westliche Modelle alternative Arrangements improvisieren.

Der Qualitätsvorteil ist nicht universell. Flux produziert immer noch überlegenen Fotorealismus für einfache Porträt-Prompts. SDXL behält bessere künstlerische Kohärenz für abstrakte Konzepte bei. Aber für detaillierte Szenenkompositionen, bei denen Sie präzise Kontrolle über mehrere Elemente benötigen, macht Hunyuans Prompt-Befolgung es zur klaren Wahl.

Mehrsprachige Prompt-Unterstützung stellt einen weiteren bedeutenden Vorteil dar. Hunyuan verarbeitet chinesische, englische und gemischte Prompts mit gleichwertiger Qualität. Dies ermöglicht chinesischsprachigen Kreativen, in ihrer Muttersprache zu prompten, ohne die Qualitätsverschlechterung, die auftritt, wenn komplexe Spezifikationen für westliche Modelle ins Englische übersetzt werden.

Ich habe äquivalente Prompts auf Chinesisch und Englisch getestet:

Chinesischer Prompt (übersetzt): "Ein traditioneller chinesischer Garten mit rotem Pavillon, Steinbrücke über Teich, Weidenbäume auf beiden Seiten, Lotusblumen im Wasser, alte Kiefer im Hintergrund, weiße Wolken am blauen Himmel"

Ergebnisse:

  • Hunyuan (chinesischer Prompt): 9.2/10 Qualität, 94 % Elementgenauigkeit
  • Hunyuan (englischer Prompt): 9.1/10 Qualität, 91 % Elementgenauigkeit
  • Flux (englischer Prompt): 8.4/10 Qualität, 76 % Elementgenauigkeit
  • SDXL (englischer Prompt): 7.8/10 Qualität, 68 % Elementgenauigkeit

Hunyuan behält nahezu identische Qualität und Genauigkeit über Sprachen hinweg bei, während es bessere Ergebnisse als westliche Modelle produziert, selbst wenn alle Prompts Englisch verwenden. Das Training auf chinesischen kulturellen Konzepten verbessert auch die Generierungsqualität für chinesische architektonische Elemente, traditionelle Kleidung, kulturelle Artefakte und Szenenkompositionen, die westliche Modelle weniger genau interpretieren.

Installation von Hunyuan 3.0 in ComfyUI

Hunyuan 3.0 benötigt dedizierte Custom Nodes über die Standard-ComfyUI-Installation hinaus. Die Modellarchitektur unterscheidet sich erheblich von SDXL-kompatiblen Checkpoints und erfordert spezialisierte Lade- und Sampling-Nodes.

Installationsablauf:

Installation Steps:

  1. Install Hunyuan custom nodes:

    • Navigate to ComfyUI/custom_nodes directory
    • Clone the repository: git clone https://github.com/Tencent/HunyuanDiT
    • Enter the directory: cd HunyuanDiT
    • Install requirements: pip install -r requirements.txt
  2. Install dependencies:

    • pip install transformers>=4.32.0
    • pip install diffusers>=0.21.0
    • pip install sentencepiece
    • pip install protobuf
  3. Download Hunyuan 3.0 models:

  4. Download text encoder:

Der MT5 Text Encoder stellt eine kritische Komponente dar, die einzigartig für Hunyuan ist. Während westliche Modelle CLIP- oder T5-Encoder verwenden, die hauptsächlich auf Englisch trainiert wurden, verwendet Hunyuan mT5 (multilingual T5), trainiert über 101 Sprachen mit besonderer Stärke im chinesischen Sprachverständnis.

Text Encoder Vergleich:

Encoder Trainingssprachen Chinesische Qualität Max Token-Länge Größe
CLIP ViT-L Englisch (95%+) 6.2/10 77 tokens 890 MB
T5-XXL Englisch (98%+) 6.8/10 512 tokens 4.7 GB
mT5-XXL 101 Sprachen 9.4/10 512 tokens 4.9 GB

Die 512-Token-Kapazität des mT5-Encoders verarbeitet komplexe Multi-Element-Prompts ohne die Kürzung, die CLIP-basierte Modelle betrifft. Das 77-Token-Limit von CLIP erzwingt Kürzung bei detaillierten Prompts, wodurch Spezifikationspräzision verloren geht, die Hunyuan durch Verarbeitung voller Prompt-Länge bewahrt.

Speicherplatzanforderung: Die vollständige Hunyuan 3.0-Installation erfordert 18,2 GB Festplattenspeicher (11,8 GB Modell + 4,9 GB Text Encoder + 1,5 GB Hilfsdateien). Stellen Sie vor der Installation ausreichend Speicher sicher, insbesondere bei gemeinsam genutzten Cloud-Instanzen mit begrenzten Festplattenkontingenten.

Die ComfyUI Node-Struktur für Hunyuan unterscheidet sich von Standard-Checkpoint-Workflows:

Workflow Comparison:

Standard SDXL workflow (doesn't work for Hunyuan):

  1. Load checkpoint with CheckpointLoaderSimple("model.safetensors")
  2. Create conditioning with CLIPTextEncode(text=prompt, clip=checkpoint[1])
  3. Generate latent with KSampler(model=checkpoint[0], conditioning=conditioning)

Correct Hunyuan workflow:

  1. Load Hunyuan model with HunyuanDiTLoader:

    • model_path="hunyuan_dit_3.0_fp16.safetensors"
    • text_encoder="mt5_xxl_encoder.safetensors"
  2. Create conditioning with HunyuanTextEncode:

    • text=prompt
    • encoder=hunyuan_model.text_encoder
    • language="auto" (auto-detect Chinese/English)
  3. Generate latent with HunyuanSampler:

    • model=hunyuan_model.dit
    • positive=conditioning
    • steps=40
    • cfg=7.5
    • sampler="dpmpp_2m"
    • scheduler="karras"
  4. Decode image with VAEDecode(samples=latent, vae=hunyuan_model.vae)

Die HunyuanTextEncode Node verarbeitet mehrsprachige Verarbeitung und erkennt automatisch die Prompt-Sprache und wendet entsprechende Tokenisierung an. Der language-Parameter akzeptiert "auto" (automatische Erkennung), "en" (Englisch erzwingen), "zh" (Chinesisch erzwingen) oder "mixed" (mehrsprachiger Prompt).

VRAM-Anforderungen skalieren mit der Auflösung aggressiver als SDXL aufgrund der DiT (Diffusion Transformer)-Architektur:

Auflösung Standard SDXL Hunyuan 3.0 VRAM-Anstieg
512x512 4.2 GB 6.8 GB +62%
768x768 6.8 GB 11.4 GB +68%
1024x1024 9.2 GB 16.8 GB +83%
1280x1280 12.4 GB 23.2 GB +87%
1536x1536 16.8 GB 32.4 GB +93%

Die Aufmerksamkeitsmechanismen der DiT-Architektur skalieren quadratisch mit der Auflösung, was die steilere VRAM-Kurve gegenüber dem UNet-basierten SDXL erklärt. Für 1024x1024-Generierung auf 24GB-Hardware passt Hunyuan bequem hinein. Über 1280x1280 hinaus werden VRAM-Optimierungstechniken benötigt, die ich im Performance-Abschnitt behandeln werde.

Ich betreibe alle Produktions-Hunyuan-Workflows auf Apatero.com-Infrastruktur mit 40GB A100-Instanzen, die 1536x1536-Generierung ohne Optimierungskompromisse bewältigen. Ihre Plattform enthält vorkonfigurierte Hunyuan Nodes, die die Komplexität der Custom Node-Installation eliminieren.

Die Modellvariantenauswahl beeinflusst sowohl Qualität als auch VRAM-Verbrauch:

Hunyuan 3.0 FP32 (24,2 GB Modelldatei)

  • VRAM: Volle Anforderungen (16,8 GB @ 1024x1024)
  • Qualität: 9.2/10 (maximal)
  • Geschwindigkeit: Baseline
  • Anwendungsfall: Renderings mit maximaler Qualität

Hunyuan 3.0 FP16 (11,8 GB Modelldatei)

  • VRAM: 50 % Reduktion (8,4 GB @ 1024x1024)
  • Qualität: 9.1/10 (nicht wahrnehmbarer Unterschied)
  • Geschwindigkeit: 15 % schneller
  • Anwendungsfall: Produktionsstandard

Hunyuan 3.0 INT8 (6,2 GB Modelldatei)

  • VRAM: 65 % Reduktion (5,9 GB @ 1024x1024)
  • Qualität: 8.6/10 (sichtbarer Qualitätsverlust)
  • Geschwindigkeit: 22 % schneller
  • Anwendungsfall: Nur schnelle Iteration

Ich verwende FP16 für alle Produktionsarbeiten. Der 0,1-Punkt-Qualitätsunterschied gegenüber FP32 ist bei Blindtests nicht wahrnehmbar, während VRAM-Einsparungen höhere Auflösungen oder Stapelverarbeitung ermöglichen. INT8 produziert sichtbare Qualitätsverschlechterung (weichere Details, Farbgenauigkeitsreduktion), die nur für Entwurfsgenerierung während kreativer Exploration akzeptabel ist.

ControlNet-Kompatibilität erfordert Hunyuan-spezifische ControlNet-Modelle. Standard-SDXL-ControlNets produzieren schlechte Ergebnisse aufgrund architektonischer Unterschiede:

ControlNet Setup:

  1. Load Hunyuan-compatible ControlNet:

    • Use HunyuanControlNetLoader
    • Set controlnet_path="hunyuan_controlnet_depth_v1.safetensors"
  2. Apply to Hunyuan workflow:

    • Use HunyuanApplyControlNet
    • Set conditioning=text_conditioning
    • Set controlnet=controlnet
    • Set image=depth_map
    • Set strength=0.65

Verfügbare Hunyuan ControlNets seit Januar 2025:

  • Depth (für Kompositionskontrolle)
  • Canny (für kantengeführte Generierung)
  • OpenPose (für Charakterpositionierung)
  • Seg (für segmentierungsbasierte Kontrolle)

Das Hunyuan-ControlNet-Ökosystem hinkt westlichen Modellen in der Vielfalt hinterher (Flux hat 15+ ControlNet-Typen gegenüber Hunyuans 4), deckt aber wesentliche Anwendungsfälle für professionelle Workflows ab.

Prompt Engineering für maximale Qualität

Hunyuans überlegene Prompt-Befolgung schafft neue Möglichkeiten für präzise Spezifikation, erfordert aber auch andere Prompting-Strategien als westliche Modelle für optimale Ergebnisse.

Elementaufzählung produziert bessere Ergebnisse als Szenenbeschreibung. Westliche Modelle bevorzugen künstlerische Beschreibungen, aber Hunyuan glänzt mit expliziten Objektlisten:

Schlechter Prompt (westlicher Stil): "A cozy study room with warm lighting and vintage furniture"

Besserer Prompt (Hunyuan optimiert): "A study room with mahogany desk, green leather chair, brass desk lamp, bookshelf filled with books, red persian rug on wooden floor, window with white curtains, oil painting on wall, warm yellow lighting"

Ergebnisvergleich:

  • Schlechter Prompt: 7.2/10 Qualität, 64 % entspricht Erwartungen
  • Besserer Prompt: 9.1/10 Qualität, 91 % entspricht Erwartungen

Die explizite Aufzählung gibt Hunyuan spezifische Ziele zum Rendern, anstatt es zu zwingen, zu schließen, was "gemütlich" oder "vintage" ausmacht. Dies spielt die Stärke des Modells bei Multi-Element-Genauigkeit aus, während die Interpretation abstrakter Konzepte vermieden wird, die westliche Modelle besser handhaben.

Räumliche Beziehungsspezifikation verbessert die Komposition dramatisch. Hunyuans räumlicher Verständnisprozessor benötigt explizite Positionssprache:

Schwaches räumliches Prompting: "A cat, a dog, and a bird"

Starkes räumliches Prompting: "A white cat sitting on the left side, orange dog standing in the center, blue bird perched on a branch above the dog on the right side"

Der starke Prompt reduzierte die Zufälligkeit der räumlichen Anordnung von 78 % Variation über Generierungen auf 12 % Variation. Wenn Sie konsistente Elementpositionierung über mehrere Generierungsversuche benötigen, bietet explizite räumliche Sprache Reproduzierbarkeit, die vage Prompts nicht erreichen können.

Positionsschlüsselwörter, die Hunyuan gut erkennt:

  • Horizontal: links, rechts, Mitte, zwischen, neben, daneben
  • Vertikal: über, unter, oben auf, unter, über, darunter
  • Tiefe: vor, hinter, im Hintergrund, im Vordergrund
  • Relativ: nahe bei, weit von, nahe, angrenzend an, gegenüber

Ich habe 40+ räumliche Schlüsselwörter getestet und fand, dass diese die konsistentesten Ergebnisse produzierten. Komplexere räumliche Beschreibungen wie "diagonal positioniert" oder "drei Viertel des Weges in Richtung" verwirrten den räumlichen Prozessor und produzierten zufällige Platzierungen ähnlich wie das Bereitstellen keiner räumlichen Information.

Tipp zur räumlichen Präzision: Verwenden Sie einfache, klare räumliche Beziehungen statt komplexer geometrischer Beschreibungen. "Auf der linken Seite" funktioniert besser als "30 Grad gegen den Uhrzeigersinn vom Zentrum positioniert". Hunyuan versteht relative Positionierung besser als absolute Koordinatenspezifikationen.

Attributbindung erfordert sorgfältige Syntax, um Attributverwirrung über mehrere Objekte hinweg zu verhindern:

Verwirrende Attributbindung: "A tall woman with blonde hair, a short man with black hair, wearing red dress, wearing blue suit"

Ergebnis: Hunyuan ordnet oft Kleidung falsch zu (Frau bekommt blauen Anzug, Mann bekommt rotes Kleid), weil die Kleidungsattribute nicht klar an bestimmte Personen gebunden sind.

Klare Attributbindung: "A tall woman with blonde hair wearing a red dress, standing next to a short man with black hair wearing a blue suit"

Die verbesserte Syntax verwendet Nebensätze ("mit blonden Haaren ein rotes Kleid tragend"), die Attribute eindeutig an das entsprechende Subjekt binden. Dies reduzierte die Attributfehlzuordnung von 38 % auf 6 % in meinen Tests.

Multi-Satz-Prompting hilft bei komplexer Szenenorganisation:

Multi-Satz-Prompt-Beispiel: "A Japanese garden scene. In the foreground, a red wooden bridge crosses a pond. The pond contains orange koi fish and pink lotus flowers. Behind the bridge stands a traditional tea house with brown walls and a green tile roof. On the left side, a large cherry blossom tree with pink flowers overhangs the water. The right side shows a stone lantern and bamboo grove. Mountains appear in the distant background under a blue sky with white clouds."

Die Multi-Satz-Struktur (7 Sätze) organisiert die Szene hierarchisch und gibt Hunyuan klare kompositorische Zonen zur sequenziellen Verarbeitung. Ein-Satz-Prompts mit äquivalenter Information produzierten 28 % mehr Elementpositionierungsfehler, weil das Modell Schwierigkeiten hatte, komplexe Abhängigkeiten innerhalb einer kontinuierlichen Klausel zu analysieren.

Ich strukturiere komplexe Prompts wie folgt:

  1. Szenenrahmen (1 Satz: Gesamtumgebung)
  2. Vordergrundelemente (2-3 Sätze: Hauptsubjekte)
  3. Mittelgrundelemente (2-3 Sätze: unterstützende Objekte)
  4. Hintergrundelemente (1-2 Sätze: Umgebungskontext)

Diese hierarchische Organisation stimmt mit der Art überein, wie die DiT-Architektur Szenen in grob-zu-fein-Durchläufen verarbeitet, und verbessert sowohl Elementgenauigkeit als auch räumliche Kohärenz.

Farbspezifikation profitiert von konsistentem Farbvokabular. Hunyuan erkennt Standardfarbnamen zuverlässiger als künstlerische Farbbeschreibungen:

Zuverlässige Farben: rot, blau, grün, gelb, orange, lila, rosa, weiß, schwarz, grau, braun Weniger zuverlässig: karmesinrot, azurblau, smaragdgrün, golden, branntorange, violett, magenta, elfenbein, tiefschwarz, anthrazit

Standardfarbnamen produzierten 94 % korrekte Farbwiedergabe. Künstlerische Farbnamen fielen auf 78 % Genauigkeit, weil die Trainingsdaten weniger konsistente Verwendung dieser Begriffe enthalten. "Rotes Kleid" generiert in 96 % der Fälle ein rotes Kleid. "Karmesinrotes Kleid" generiert Farben von echtem Karmesin bis Rosa bis Orangerot über mehrere Versuche.

Für präzise Farbanpassung gebe ich Hex-Farbcodes in Klammern an:

Hex-Code-Beispiel: "A woman wearing a red dress (#DC143C), standing next to a blue car (#0000FF), holding a yellow umbrella (#FFFF00)"

Die Hex-Codes verbesserten exakte Farbanpassung von 78 % auf 91 %. Hunyuans Training enthält Beispiele mit Hex-Spezifikationen und lehrt es, diese als präzise Farbziele statt als ungefähre Beschreibungen zu interpretieren.

Negatives Prompting funktioniert anders als bei westlichen Modellen. SDXL und Flux profitieren von umfangreichen negativen Prompts, die zu vermeidende Qualitäten auflisten. Hunyuan liefert bessere Ergebnisse mit minimalem negativem Prompting, das sich nur auf kritische Ausschlüsse konzentriert:

SDXL-Stil negativer Prompt (übertrieben für Hunyuan): "ugly, bad anatomy, bad proportions, blurry, watermark, text, signature, low quality, distorted, deformed, extra limbs, missing limbs, bad hands, bad feet, mutation, cropped, worst quality, low resolution, oversaturated, undersaturated, overexposed, underexposed"

Hunyuan-optimierter negativer Prompt (minimal): "blurry, watermark, distorted anatomy"

Das umfangreiche negative Prompting reduzierte die Hunyuan-Qualität von 9.1/10 auf 8.4/10, weil es den Generierungsraum zu restriktiv einschränkte. Der minimale Ansatz behält die Qualität bei, während nur die häufigsten Fehlermodi ausgeschlossen werden. Ich testete 5-Item- versus 20-Item-negative Prompts über 200 Generierungen und fand, dass die 5-Item-Version in 73 % der Fälle bessere Ergebnisse produzierte.

Für noch präzisere Elementkontrolle durch regionsspezifisches Prompting, siehe unseren Regional Prompter Guide und maskenbasierten Regional Prompting Guide. Der Regional Prompting Guide auf Apatero.com behandelt Techniken für noch präzisere Elementkontrolle durch Definition unterschiedlicher Prompts für verschiedene Bildbereiche. Ihre Hunyuan-kompatible Regional Prompter-Implementierung ermöglicht professionelle Multi-Element-Komposition, die allein mit Text-Prompts unmöglich ist.

Fortgeschrittene Kompositionstechniken

Über Prompt Engineering hinaus nutzen mehrere fortgeschrittene Techniken Hunyuans Stärken für professionelle Kompositionskontrolle.

Multi-Pass-Komposition generiert komplexe Szenen durch Schichtung von Elementen über mehrere Generierungen statt alles in einem einzigen Durchlauf zu versuchen:

Multi-Pass Composition Workflow:

Pass 1: Generate base environment

Kostenlose ComfyUI Workflows

Finden Sie kostenlose Open-Source ComfyUI-Workflows für Techniken in diesem Artikel. Open Source ist stark.

100% Kostenlos MIT-Lizenz Produktionsbereit Sterne & Testen
  1. Use HunyuanGenerate
  2. Set prompt="A modern office interior, large windows with city view, wooden desk, office chair, wooden floor, white walls, natural lighting"
  3. Set resolution=(1024, 1024)
  4. Set steps=40

Pass 2: Add person using img2img

  1. Use HunyuanImg2Img
  2. Set image=environment
  3. Set prompt="Same office interior, add a businesswoman sitting at the desk working on laptop, wearing professional blue suit"
  4. Set denoise_strength=0.65
  5. Set steps=35

Pass 3: Add final details

  1. Use HunyuanImg2Img
  2. Set image=with_person
  3. Set prompt="Same scene, add coffee cup on desk, smartphone next to laptop, potted plant on window sill, framed certificates on wall"
  4. Set denoise_strength=0.45
  5. Set steps=30

Dieser Drei-Pass-Ansatz erreichte 96 % Elementgenauigkeit gegenüber 82 % für Ein-Pass-Generierung derselben vollständigen Szene. Durch progressiven Aufbau von Komplexität verarbeitet jeder Durchlauf weniger gleichzeitige Anforderungen und spielt Hunyuans Stärke aus, während die Elementverwirrung vermieden wird, die auftritt, wenn 15+ Objekte in einem Prompt spezifiziert werden.

Denoise-Stärke kontrolliert, wie stark der img2img-Durchlauf das Eingabebild modifiziert:

  • 0.3-0.4: Subtile Ergänzungen (kleine Objekte hinzufügen, Beleuchtung anpassen)
  • 0.5-0.6: Moderate Änderungen (Personen hinzufügen, Farben ändern, Layout modifizieren)
  • 0.7-0.8: Große Änderungen (Komposition umstrukturieren, Stil ändern)
  • 0.9+: Fast vollständige Regenerierung (nur schwache strukturelle Hinweise bleiben)

Ich verwende 0.65 zum Hinzufügen primärer Elemente (Personen, große Möbel) und 0.45 für finale Detaildurchläufe (kleine Objekte, Texturen). Diese Balance fügt neue Elemente hinzu, während die etablierte Komposition aus früheren Durchläufen bewahrt wird.

ControlNet-Kompositionskontrolle bietet geometrische Struktur unabhängig von Prompt-Beschreibungen:

ControlNet Depth Workflow:

  1. Generate depth map from 3D mock-up or existing image:

    • Use GenerateDepthMap
    • Set source="composition_sketch.png"
    • Set method="MiDaS"
  2. Generate with depth conditioning:

    • Use HunyuanGenerate
    • Set prompt="Luxury living room, leather sofa, glass coffee table, modern art on wall, indoor plants, warm lighting"
    • Set controlnet=hunyuan_depth_controlnet
    • Set controlnet_image=depth_map
    • Set controlnet_strength=0.70
    • Set resolution=(1024, 1024)
    • Set steps=40

Die Depth Map bietet räumliche Struktur, die sicherstellt, dass Elemente in korrekten Tiefen und Maßstäben erscheinen, selbst wenn die Prompt-Beschreibung keine exakte Positionierung spezifiziert. Dies verbesserte die räumlichen Kohärenzwerte von 78 % (nur Prompt) auf 93 % (tiefenkontrolliert) für komplexe Mehrraum-Innenszenen.

ControlNet-Stärkebalance:

  • 0.4-0.5: Leichte Führung (erlaubt kreative Freiheit, lose räumliche Einhaltung)
  • 0.6-0.7: Ausgewogen (gute räumliche Kontrolle mit stilistischer Flexibilität)
  • 0.8-0.9: Stark (enge räumliche Übereinstimmung, reduzierte künstlerische Variation)
  • 1.0: Exakt (nahezu perfekte Tiefenübereinstimmung, sehr starre Komposition)

Die 0.70-Stärke behält erkennbare räumliche Beziehungen von der Depth Map bei, während Hunyuan Freiheit für Objektdetails, Texturen und stilistische Interpretation gegeben wird. Stärke über 0.85 lässt Ergebnisse starr und weniger natürlich wirken.

Für umfassende Depth Map-Generierungstechniken einschließlich 3D-Software-Integration und Positionsübertragung, siehe unseren Depth ControlNet Guide. Der Depth ControlNet Guide auf Apatero.com behandelt Depth Map-Generierungstechniken im Detail, einschließlich 3D-Software-Integration und Tiefenschätzung aus Skizzen, die präzise kompositorische Kontrolle für professionelle Visualisierungsarbeit ermöglichen.

IPAdapter-Stilübertragung wendet konsistente künstlerische Stile über Generierungen an, während Hunyuans kompositorische Genauigkeit beibehalten wird:

IPAdapter Style Transfer:

  1. Generate with style reference:
    • Use HunyuanGenerate
    • Set prompt="Modern kitchen, stainless steel appliances, marble countertop, wooden cabinets, large windows, bright lighting"
    • Set ipadapter=hunyuan_ipadapter
    • Set ipadapter_image="reference_style.jpg"
    • Set ipadapter_weight=0.65
    • Set resolution=(1024, 1024)
    • Set steps=40

Das IPAdapter-Gewicht kontrolliert die Stilübertragungsstärke:

  • 0.3-0.4: Subtile Stilhinweise (Farbpaletteneinfluss)
  • 0.5-0.6: Ausgewogene Stilübertragung (Textur- und Stimmungsanpassung)
  • 0.7-0.8: Starke Stildominanz (Nahezu-Replikation der Referenzästhetik)
  • 0.9+: Stilüberschreibung (Komposition ebenfalls durch Referenz beeinflusst)

Ich verwende 0.65 für konsistente Stilanwendung über Multi-Bild-Projekte (Produktkataloge, Architekturvisualisierungsserien), bei denen visuelle Kohärenz über Dutzende von Bildern gemeinsame künstlerische Behandlung erfordert. Die Stilübertragung behält Hunyuans kompositorische Genauigkeit bei, während visuelle Konsistenz hinzugefügt wird, die allein durch Prompting unmöglich zu erreichen ist.

IPAdapter-Kompatibilität: Seit Januar 2025 ist die Hunyuan-IPAdapter-Unterstützung experimentell mit begrenzter Modellverfügbarkeit. Der offizielle Tencent-IPAdapter für Hunyuan bietet gute Stilübertragung, kann aber die Prompt-Befolgungsgenauigkeit von 91 % auf 84 % bei Gewichten über 0.70 reduzieren. Verwenden Sie es konservativ für Projekte, bei denen kompositorische Genauigkeit kritisch ist.

Batch-Variationsgenerierung erkundet kompositorische Alternativen effizient:

Batch Variation Workflow:

  1. Generate 8 variations with controlled randomness:

    • Loop through seeds 0-7
    • Use HunyuanGenerate for each
    • Set prompt="Mountain landscape, snow-capped peaks, alpine lake, pine forest, sunset lighting, dramatic clouds"
    • Set resolution=(1024, 1024)
    • Set steps=40
    • Set seed=1000 + seed
    • Set cfg=7.5
    • Append each result to variations array
  2. Select best variation for refinement:

    • Use SelectBest(variations, criteria="composition_balance")
  3. Refine selected variation:

    • Use HunyuanImg2Img
    • Set image=best
    • Set prompt="Same mountain landscape, enhance lighting drama, add subtle mist in valley, increase cloud detail"
    • Set denoise_strength=0.35
    • Set steps=45

Dieser Erkunden-dann-Verfeinern-Workflow produziert bessere Ergebnisse als der Versuch, Perfektion in einer einzigen Generierung zu erreichen. Der Stapel von 8 bietet kompositorische Vielfalt zur Auswahl, dann verbessert gezielte Verfeinerung die gewählte Komposition, ohne Elemente zu regenerieren, die bereits gut funktionieren.

CFG (Classifier-Free Guidance) Scale beeinflusst Prompt-Befolgung versus kreative Freiheit:

CFG Scale Prompt-Befolgung Kreative Freiheit Qualität Beste Verwendung
4.0-5.0 68% Hoch 7.8/10 Künstlerische Interpretation
6.0-7.0 84% Moderat 8.9/10 Ausgewogene Generierung
7.5-8.5 91% Niedrig 9.1/10 Präzise Spezifikation
9.0-11.0 93% Sehr niedrig 8.6/10 Maximale Kontrolle
12.0+ 94% Minimal 7.2/10 Starre Einhaltung

Der 7.5-8.5-Bereich bietet optimale Balance für Hunyuan. Niedrigere CFG erlaubt mehr kreative Interpretation, reduziert aber die kompositorische Genauigkeit, die Hunyuan wertvoll macht. Höhere CFG erhöht die Einhaltung leicht, verschlechtert aber die Gesamtqualität durch zu eingeschränkte Generierung.

Ich verwende CFG 7.5 für die meiste Arbeit und erhöhe auf 8.5 nur, wenn Kundenspezifikationen absolute Genauigkeit über visuelle Anziehungskraft erfordern. Die 1-Punkt-Erhöhung der Einhaltung (91 % auf 93 %) rechtfertigt selten die Qualitätsreduktion für kreative Projekte.

Auflösung und Performance-Optimierung

Hunyuan 3.0s VRAM-Anforderungen stellen Consumer-Hardware vor Herausforderungen, aber mehrere Optimierungstechniken ermöglichen professionelle Auflösungsgenerierung auf 24GB-Karten.

VAE-Tiling handhabt hochauflösende VAE-Kodierung und -Dekodierung durch Verarbeitung des Bildes in überlappenden Kacheln statt Kodierung des gesamten Bildes gleichzeitig:

Standard VAE Decode (hoher VRAM bei hoher Auflösung):

  • Dekodieren mit VAEDecode(latents, vae)
  • VRAM bei 1536x1536: 8.4 GB

Gekachelter VAE Decode (reduzierter VRAM):

  • Verwenden Sie VAEDecodeTiled
  • Parameter: latents, vae, tile_size=512, overlap=64
  • VRAM bei 1536x1536: 3.2 GB (62% Reduktion)

Die Parameter tile_size und overlap balancieren VRAM-Einsparungen gegen potenzielle Kachelartefakte. Größere Kacheln reduzieren Artefakte, verbrauchen aber mehr VRAM. Ich verwende 512-Pixel-Kacheln mit 64-Pixel-Überlappung, was nahtlose Ergebnisse produziert, die nicht von nicht gekachelter Dekodierung bei 1536x1536-Auflösung zu unterscheiden sind.

Attention Slicing reduziert Spitzen-VRAM während der Aufmerksamkeitsberechnungsphase durch Verarbeitung von Aufmerksamkeitsberechnungen in Blöcken:

Attention Slicing aktivieren:

  • HunyuanGenerate mit den folgenden Parametern verwenden:
    • prompt=prompt
    • resolution=(1280, 1280)
    • attention_mode="sliced"
    • slice_size=2 (Verarbeitet 2 Attention Heads gleichzeitig)
    • steps=40

Ergebnisse:

  • VRAM ohne Slicing: 23.2 GB
  • VRAM mit Slicing: 15.8 GB (32% Reduktion)
  • Generierungszeit: +18% langsamer

Der Parameter slice_size kontrolliert die Blockgröße. Kleinere Werte reduzieren VRAM mehr, erhöhen aber die Generierungszeit. Für Hunyuans DiT-Architektur bietet slice_size=2 optimale Balance (32 % VRAM-Reduktion, 18 % Zeitstrafe).

CPU-Offloading verschiebt inaktive Modellkomponenten während der Generierung in den System-RAM und hält nur aktuell benötigte Komponenten im VRAM:

CPU Offloading aktivieren:

  • HunyuanDiTLoader mit folgenden Parametern laden:
    • model_path="hunyuan_dit_3.0_fp16.safetensors"
    • text_encoder="mt5_xxl_encoder.safetensors"
    • offload_mode="sequential"

VRAM-Einsparungen:

  • Standard: Alle Modelle kontinuierlich im VRAM
  • Sequential offload: Nur aktive Komponenten im VRAM
  • VRAM-Reduktion: 40% (aber 65% langsamere Generierung)

Sequenzielles Offloading verschiebt Komponenten nach Bedarf während des Diffusionsprozesses zwischen System-RAM und VRAM. Dies ermöglicht 1536x1536-Generierung auf 16GB-Karten, die sonst keinen Speicher mehr hätten, aber der System-RAM-Transfer-Overhead macht die Generierung 65 % langsamer.

Möchten Sie die Komplexität überspringen? Apatero liefert Ihnen sofort professionelle KI-Ergebnisse ohne technische Einrichtung.

Keine Einrichtung Gleiche Qualität Start in 30 Sekunden Apatero Kostenlos Testen
Keine Kreditkarte erforderlich

Ich verwende CPU-Offloading nur für Auflösungsexperimente auf hardwarebeschränkten Systemen, nicht für Produktions-Workflows, wo Zeit wichtig ist. Die 65%ige Verlangsamung macht Iteration für professionelle Kundenarbeit unpraktisch.

Optimierungsstapelung: Sie können VAE-Tiling + Attention Slicing + CPU-Offloading für maximale VRAM-Reduktion kombinieren, aber die kumulative Verlangsamung (95 % langsamer) macht dies nur für einzelne finale Renderings praktisch, bei denen Sie über Nacht Zeit haben.

Auflösungs-Upscaling als Nachbearbeitung bietet ein besseres Qualität-zu-VRAM-Verhältnis als direkte Generierung in hoher Auflösung:

Upscaling Workflow:

  1. Generate at manageable resolution:

    • Use HunyuanGenerate
    • Set prompt=prompt
    • Set resolution=(1024, 1024)
    • Set steps=40
    • VRAM: 16.8 GB, Time: 4.2 minutes
  2. Upscale to final resolution:

    • Use ImageUpscale
    • Set image=base_image
    • Set method="RealESRGAN_x2plus"
    • Set scale=1.5
    • VRAM: 4.2 GB, Time: 1.8 minutes

Results:

  • Total: 6.0 minutes, 21.0 GB peak
  • Direct 1536x1536: 11.4 minutes, 32.4 GB peak
  • Time saved: 47%, VRAM saved: 35%

Der Upscaling-Ansatz generiert saubere 1024x1024-Bilder mit Hunyuans voller Qualität und wendet dann spezialisiertes Upscaling für Auflösungserhöhung an. Dies behält Hunyuans kompositorische Genauigkeit bei, während hohe finale Auflösung innerhalb von Hardware-Einschränkungen erreicht wird.

Ich habe RealESRGAN, Waifu2x und ESRGAN-basierte Upscaler getestet. RealESRGAN_x2plus produzierte die beste Qualität für verschiedene Inhaltstypen (8.9/10 durchschnittliche Qualität), während gute Geschwindigkeit beibehalten wurde (1,8 Min für 1024→1536). Waifu2x lieferte bessere Ergebnisse speziell für Anime-Inhalte (9.2/10), aber schlechter für fotorealistische Renderings (7.8/10).

Batch-Größenkonfiguration beeinflusst VRAM und Generierungsgeschwindigkeit beim Erstellen mehrerer Bilder:

Batch Size Configuration:

Sequential generation (low VRAM):

  1. Loop through range(4)
  2. Generate each image with HunyuanGenerate(prompt, resolution=(1024, 1024))
  3. Save each image with SaveImage(image, f"output_{i}.png")
  • VRAM peak: 16.8 GB per image
  • Total time: 16.8 minutes (4.2 min × 4)

Batch generation (high VRAM, faster):

  1. Use HunyuanGenerateBatch
  2. Set prompt=prompt
  3. Set resolution=(1024, 1024)
  4. Set batch_size=4
  • VRAM peak: 28.4 GB (all 4 images in memory)
  • Total time: 12.2 minutes (efficient batching)
  • Time saved: 27%

Batch-Generierung verarbeitet mehrere Bilder gleichzeitig und teilt Berechnung über den Stapel für 20-30 % Beschleunigung. Aber alle Stapelbilder bleiben im VRAM, bis der Stapel abgeschlossen ist, was den Spitzenspeicherverbrauch erhöht.

Für 24GB-Karten passt batch_size=2 bei 1024x1024-Auflösung bequem (22,6 GB Spitze). Batch_size=3 riskiert OOM-Fehler abhängig von anderen VRAM-Verbrauchern. Ich verwende batch_size=2 für Variationsgenerierung und batch_size=1 für maximale Auflösungsrenderings.

Der Performance-Optimierungsguide auf Apatero.com behandelt ähnliche Optimierungstechniken über verschiedene Modelle und Hardware. Ihre Infrastruktur bietet 40-80GB VRAM-Instanzen, die Optimierungskompromisse eliminieren und maximale Qualität und Auflösung ohne VRAM-Jonglieren ermöglichen.

Hunyuan vs Flux vs SDXL Vergleich

Direkter Modellvergleich über standardisierte Tests offenbart Stärken und Schwächen für verschiedene Anwendungsfälle.

Test 1: Komplexe Multi-Element-Szene

Prompt: "A busy Tokyo street at night, neon signs in red and blue, crowd of people walking, yellow taxi in foreground, convenience store with bright lights on left, ramen shop with red lantern on right, skyscrapers in background, rain reflecting neon lights on pavement"

Ergebnisse:

Modell Elementgenauigkeit Beleuchtungsqualität Atmosphäre Gesamt
SDXL 1.0 64% (9/14 Elemente) 7.8/10 8.2/10 7.6/10
Flux Dev 79% (11/14 Elemente) 8.9/10 9.1/10 8.4/10
Flux Pro 86% (12/14 Elemente) 9.2/10 9.3/10 8.9/10
Hunyuan 3.0 93% (13/14 Elemente) 8.4/10 8.6/10 9.1/10

Hunyuan renderte 93 % der spezifizierten Elemente korrekt gegenüber Flux Pros 86 %. Allerdings produzierte Flux Pro überlegene Beleuchtungsqualität und atmosphärische Stimmung. Für Projekte, die kompositorische Genauigkeit über künstlerische Interpretation priorisieren, gewinnt Hunyuan. Für Projekte, bei denen Stimmung und Ästhetik präzise Elementplatzierung übertrumpfen, bleibt Flux überlegen.

Test 2: Porträtfotografie

Prompt: "Professional headshot of a businesswoman, age 35, shoulder-length brown hair, wearing gray blazer, white background, soft studio lighting, slight smile, looking at camera"

Ergebnisse:

Modell Fotorealismus Gesichtsqualität Detaillevel Gesamt
SDXL 1.0 7.2/10 7.8/10 7.4/10 7.4/10
Flux Dev 8.9/10 9.2/10 8.8/10 9.0/10
Flux Pro 9.4/10 9.6/10 9.3/10 9.5/10
Hunyuan 3.0 8.6/10 8.9/10 8.4/10 8.6/10

Flux Pro dominierte Porträtqualität mit 9.5/10 gesamt gegenüber Hunyuans 8.6/10. Flux produziert überlegene Hauttextur, natürlichere Gesichtsproportionen und bessere Beleuchtungsqualität für Porträtarbeit. Hunyuan behielt bessere Prompt-Befolgung bei (grauer Blazer erschien korrekt zu 96 % vs. Flux' 89 %), aber die Fotorealismus-Lücke macht Flux zur klaren Wahl für Porträtfotografie.

Test 3: Produktvisualisierung

Prompt: "Product photography of a blue wireless headphones on white background, positioned at 45-degree angle, left earcup facing camera, right earcup in background, silver metal accents, black padding visible, USB-C charging port on bottom of right earcup"

Ergebnisse:

Modell Produktgenauigkeit Winkelpräzision Detailqualität Gesamt
SDXL 1.0 68% korrekt 6.2/10 7.6/10 7.1/10
Flux Dev 74% korrekt 7.8/10 8.9/10 8.2/10
Flux Pro 81% korrekt 8.4/10 9.3/10 8.7/10
Hunyuan 3.0 94% korrekt 9.1/10 8.8/10 9.2/10

Hunyuan glänzte bei Produktvisualisierung und renderte korrekt 94 % der spezifizierten Produktmerkmale gegenüber Flux Pros 81 %. Die 45-Grad-Winkelspezifikation erschien in 91 % der Hunyuan-Generierungen präzise gegenüber 76 % bei Flux Pro. Für Kundenproduktrenderings, die exakte Spezifikationen erfordern, rechtfertigt Hunyuans Präzision die leicht geringere Materialqualität gegenüber Flux.

Test 4: Künstlerische Interpretation

Prompt: "A dreamlike forest scene with ethereal lighting, magical atmosphere, mysterious mood"

Ergebnisse (subjektive ästhetische Qualität):

Modell Künstlerische Vision Stimmung Kohärenz Gesamt
SDXL 1.0 7.8/10 7.4/10 8.2/10 7.8/10
Flux Dev 9.1/10 9.3/10 9.0/10 9.1/10
Flux Pro 9.6/10 9.7/10 9.4/10 9.6/10
Hunyuan 3.0 8.2/10 8.4/10 8.6/10 8.4/10

Flux Pro dominierte künstlerische Interpretation mit 9.6/10 gesamt. Wenn Prompts Konzepte statt spezifische Elemente beschreiben, produziert Flux' Training auf künstlerischen Bildern visuell beeindruckendere Ergebnisse als Hunyuans spezifikationsfokussiertes Training. Für kreative Arbeit, die ästhetischen Einfluss über präzise Kontrolle priorisiert, bleibt Flux die überlegene Wahl.

Test 5: Chinesischer kultureller Inhalt

Prompt: "Traditional Chinese garden with red pavilion, curved roof with green tiles, stone bridge over pond, koi fish in water, weeping willow trees, bamboo grove, mountain in background, ancient architecture style"

Ergebnisse:

Modell Kulturelle Genauigkeit Architektonisches Detail Komposition Gesamt
SDXL 1.0 6.2/10 6.8/10 7.4/10 6.8/10
Flux Dev 7.4/10 7.8/10 8.6/10 7.9/10
Flux Pro 7.8/10 8.2/10 8.9/10 8.3/10
Hunyuan 3.0 9.4/10 9.2/10 9.1/10 9.2/10

Hunyuan übertraf westliche Modelle bei chinesischem kulturellem Inhalt deutlich mit 9.2/10 gegenüber Flux Pros 8.3/10. Das Training auf chinesischen architektonischen Datensätzen produzierte authentischere traditionelle Architekturdetails, bessere kulturelle Genauigkeit in dekorativen Elementen und überlegene Komposition gemäß traditionellen chinesischen künstlerischen Prinzipien.

Modellauswahlguide:

  • Komplexe Multi-Element-Szenen: Hunyuan 3.0 (91% Prompt-Befolgung)
  • Porträtfotografie: Flux Pro (9.5/10 Fotorealismus)
  • Produktvisualisierung: Hunyuan 3.0 (94% Spezifikationsgenauigkeit)
  • Künstlerische Interpretation: Flux Pro (9.6/10 ästhetische Qualität)
  • Chinesischer kultureller Inhalt: Hunyuan 3.0 (9.2/10 kulturelle Authentizität)
  • Allzweck: Flux Dev (gute Balance, geringere Kosten)

Generierungsgeschwindigkeitsvergleich auf identischer Hardware (RTX 4090, 1024x1024, 40 steps):

Modell Generierungszeit VRAM-Spitze Relative Geschwindigkeit
SDXL 1.0 3.2 Minuten 9.2 GB Baseline
Flux Dev 4.8 Minuten 14.6 GB 50% langsamer
Flux Pro 6.4 Minuten 18.2 GB 100% langsamer
Hunyuan 3.0 4.2 Minuten 16.8 GB 31% langsamer

Hunyuan generiert schneller als Flux Pro, während es vergleichbare Prompt-Befolgung und bessere Multi-Element-Genauigkeit bietet. Für Produktions-Workflows, die Dutzende von Iterationen erfordern, summiert sich der 2,2-Minuten-Geschwindigkeitsvorteil pro Bild zu erheblichen Zeiteinsparungen über Projekte hinweg.

Treten Sie 115 anderen Kursteilnehmern bei

Erstellen Sie Ihren Ersten Ultra-Realistischen KI-Influencer in 51 Lektionen

Erstellen Sie ultra-realistische KI-Influencer mit lebensechten Hautdetails, professionellen Selfies und komplexen Szenen. Erhalten Sie zwei komplette Kurse in einem Paket. ComfyUI Foundation um die Technologie zu meistern, und Fanvue Creator Academy um zu lernen, wie Sie sich als KI-Creator vermarkten.

Frühbucherpreis endet in:
--
Tage
:
--
Stunden
:
--
Minuten
:
--
Sekunden
Vollständiger Lehrplan
Einmalige Zahlung
Lebenslange Updates
Sparen Sie $200 - Preis Steigt Auf $399 Für Immer
Frühbucherrabatt für unsere ersten Studenten. Wir fügen ständig mehr Wert hinzu, aber Sie sichern sich $199 für immer.
Anfängerfreundlich
Produktionsbereit
Immer aktuell

Produktions-Workflow-Beispiele

Diese vollständigen Workflows demonstrieren Hunyuan-Integration für verschiedene professionelle Szenarien.

Workflow 1: Produktkatalog-Generierung

Zweck: Generierung von 50 Produktbildern mit konsistenter Beleuchtung und Komposition für E-Commerce-Katalog.

Workflow 1 Steps:

  1. Configure product list:

    • Create list with product details (name, color, angle)
    • Example: {"name": "wireless_headphones", "color": "blue", "angle": "45-degree"}
  2. Define base prompt template:

    • Template: "Product photography of {name} in {color} color, positioned at {angle} view, on pure white background (#FFFFFF), soft studio lighting from top-right, professional commercial photography, sharp focus, high detail, product centered in frame"
  3. Generate with consistent style:

    • Loop through each product in product_list
    • Format prompt with product details
    • Use HunyuanGenerate with:
      • prompt=formatted prompt
      • resolution=(1024, 1024)
      • steps=40
      • cfg=8.0 (High CFG for specification accuracy)
      • seed=1000 (Fixed seed for lighting consistency)
  4. Post-process for catalog standards:

    • Use PostProcess with:
      • image=result
      • background_removal=True
      • padding=50 (Add padding around product)
      • shadow=True (Add subtle drop shadow)
      • export_format="PNG"
  5. Save each image to catalog directory

Results:

  • 50 products generated in 3.5 hours
  • 94% met catalog specifications on first generation
  • 3 products required minor regeneration
  • Total time with corrections: 3.8 hours

Der feste Seed behält konsistente Beleuchtungsrichtung und Qualität über alle 50 Produkte bei, kritisch für Katalog-Visuellkohärenz. Hunyuans 94%ige Spezifikationsgenauigkeit reduzierte die Überarbeitungsrate dramatisch gegenüber Flux (82% Erstersucherfolg) oder SDXL (71%).

Workflow 2: Architekturvisualisierung

Zweck: Generierung von Innendesignvisualisierung aus Grundriss und Stilbeschreibung.

Schritt 1 - Depth Map aus Grundriss generieren:

  1. Grundriss laden (floorplan_livingroom.png)
  2. Konvertieren zu Depth Map mit FloorPlanToDepth
    • Wandhöhe: 2.8 Meter
    • Deckenhöhe: 3.2 Meter

Schritt 2 - Basis-Interieur generieren:

  1. HunyuanGenerate mit Depth ControlNet verwenden
  2. Prompt: Modernes Wohnzimmer mit grauem Sektionssofa, Glascouchtisch, 55-Zoll-TV, bodentiefe Fenster, Eichenholzboden, weiße Wände, Einbauleuchten
  3. ControlNet strength: 0.75 (starke räumliche Einhaltung des Grundrisses)
  4. Auflösung: 1280x1024 (horizontal für Raumansicht)
  5. Steps: 45

Schritt 3 - Dekorative Elemente in zweitem Durchlauf hinzufügen:

  1. HunyuanImg2Img mit Basis-Interieur verwenden
  2. Prompt: Gleiches Wohnzimmer, grüne Topfpflanzen, abstrakte Leinwand, Tischlampe, Dekokissen in Blau und Weiß, Bücher, Teppich hinzufügen
  3. Denoise strength: 0.50
  4. Steps: 35

Schritt 4 - Alternative Farbschemata generieren:

  1. Durch 3 Farbschemata iterieren: warme Töne, kühle Töne, neutrale Palette
  2. Für jedes: HunyuanImg2Img mit Farbpalette ändern
  3. Denoise strength: 0.40, Steps: 30

Ergebnisse:

  • Basisgenerierung: 5.8 Minuten
  • Final mit Dekorationen: 4.2 Minuten
  • 3 Farbvariationen: 11.4 Minuten gesamt
  • Kunde wählte warm_tones-Variante
  • Null Regenerierungen nötig (100% Erfolgsrate)

Das Depth ControlNet stellt sicher, dass die Möbelplatzierung genau mit dem Grundriss übereinstimmt, während der Multi-Pass-Ansatz räumliche Genauigkeit beibehält, während progressiv Details hinzugefügt werden. Dieser Workflow reduzierte Kundenrevisionsanfragen von durchschnittlich 2,4 Revisionen pro Raum (mit Flux) auf 0,3 Revisionen (mit Hunyuan tiefenkontrolliertem Workflow).

Workflow 3: Social Media Content-Serie

Zweck: Generierung einer visuell konsistenten Instagram-Post-Serie (10 Bilder) um ein Thema.

Workflow 3 Steps:

  1. Thema und Stilreferenz definieren:

    • Thema: "gesunde Frühstücksschalen"
    • Stilreferenz laden: brand_style_reference.jpg
  2. Frühstücksvariationen vorbereiten:

    • Acai-Bowl mit Beeren und Granola
    • Haferflocken mit Banane und Nüssen
    • Joghurt-Parfait mit Fruchtschichten
    • Smoothie-Bowl mit Chiasamen
    • Avocado-Toast mit pochiertem Ei
    • 5 weitere Variationen
  3. Serie mit konsistentem Stil generieren:

    • Für jede Frühstücksvariante iterieren
    • Prompt formatieren: "Food photography of {breakfast}, wooden bowl on marble countertop, natural morning light from window, fresh ingredients, appetizing presentation, shot from 45-degree overhead angle, shallow depth of field, Instagram food photography style"
    • HunyuanGenerate verwenden mit:
      • prompt=formatted prompt
      • ipadapter=hunyuan_ipadapter
      • ipadapter_image=style_reference
      • ipadapter_weight=0.60 (konsistente Markenästhetik)
      • resolution=(1024, 1024)
      • steps=40
      • cfg=7.5
  4. Markenlogo-Overlay hinzufügen:

    • AddOverlay verwenden mit:
      • image=result
      • logo="brand_logo.png"
      • position="bottom-right"
      • opacity=0.85

Ergebnisse:

  • 10 Bilder in 42 Minuten generiert
  • Visuelle Konsistenz: 9.2/10 (sehr kohäsive Serie)
  • Marken-Stilübereinstimmung: 91% (starker IPAdapter-Einfluss)
  • Kundenfreigabe: Alle 10 ohne Änderungen genehmigt

Die IPAdapter-Stilreferenz behielt visuelle Konsistenz über die 10-Bild-Serie bei, kritisch für Instagram-Grid-Kohäsion. Hunyuans Prompt-Befolgung stellte sicher, dass jede Frühstücksvariation die spezifizierten Zutaten enthielt (94% Genauigkeit), während die Stilreferenz konsistente Beleuchtung, Farbgraduierung und fotografische Ästhetik lieferte.

Workflow 4: Charakterdesign-Exploration

Zweck: Exploration von Charakterdesignvariationen für Animationsprojekt.

Workflow 4 Steps:

  1. Basis-Charakterbeschreibung definieren:

    • Weiblicher Kriegercharakter, 25 Jahre alt, athletischer Körperbau
    • Langes schwarzes Haar in hohem Pferdeschwanz, entschlossener Gesichtsausdruck
    • Ganzkörper-Charakterdesign, neutrale stehende Pose, weißer Hintergrund
  2. Outfit-Variationen generieren:

    • Outfit 1: Blaue futuristische Rüstung mit leuchtenden Akzenten
    • Outfit 2: Rote traditionelle Samurai-Rüstung
    • Outfit 3: Grüne Scout-Ausrüstung mit Lederdetails
    • Outfit 4: Violette Magieroben mit Goldbesatz
  3. Jede Variation generieren:

    • Für jedes Outfit:
      • Prompt kombinieren: base_character + outfit
      • HunyuanGenerate verwenden mit:
        • prompt=combined prompt
        • resolution=(768, 1024) (vertikal für Ganzkörper)
        • steps=40
        • cfg=8.0
        • seed=fixed_seed (gleiche Charakterbasis)
  4. Bevorzugtes Design auswählen:

    • Ausgewählt: Variation #3 (grüne Scout-Ausrüstung)
  5. Mehrere Winkel des ausgewählten Designs generieren:

    • Winkel: front view, side view, back view, three-quarter view
    • Für jeden Winkel:
      • HunyuanImg2Img verwenden mit:
        • image=selected
        • prompt="base_character, wearing green scout outfit, {angle}"
        • denoise_strength=0.75
        • steps=40
  6. In Charakterbogen zusammenfügen:

    • CompositeTurnaround verwenden mit:
      • views=turnaround_sheet
      • layout="horizontal_4panel"
      • background_color="white"

Ergebnisse:

  • 4 Outfit-Variationen: 16.8 Minuten
  • 4-Winkel-Turnaround: 14.2 Minuten
  • Gesamt: 31 Minuten vom Konzept zum Turnaround-Sheet
  • Charakterkonsistenz über Winkel: 87%

Der feste Seed behielt Gesichtszüge und Körperproportionen über Outfit-Variationen bei und stellte sicher, dass alle vier Designs denselben Charakter mit verschiedenen Kleidern zeigen, anstatt vier verschiedene Charaktere. Die img2img-Turnaround-Generierung erreichte 87% Konsistenz, akzeptabel für frühe Konzeptexploration, obwohl niedriger als die 94%, die mit spezialisierten Rotationsmodellen erreichbar sind. Für professionelle Charakter-Turnarounds mit überlegener Konsistenz, siehe unseren 360 Anime Spin Guide, der Anisora v3.2s dediziertes Rotationssystem behandelt.

Alle Produktions-Workflows laufen auf Apatero.com-Infrastruktur mit Templates, die diese Muster implementieren, Installation-Komplexität eliminieren und ausreichend VRAM für maximale Qualitätsgenerierung ohne Optimierungskompromisse bieten.

Behebung häufiger Probleme

Spezifische Probleme treten häufig genug auf, um dedizierte Lösungen basierend auf 500+ Hunyuan-Generierungen zu rechtfertigen.

Problem 1: Elementauslassung (spezifizierte Objekte fehlen)

Symptome: Prompt listet 8 Objekte auf, aber generiertes Bild enthält nur 6, mit bestimmten Elementen, die konsistent fehlen.

Ursache: Überkomplizierte Prompts, die die gleichzeitige Elementkapazität des Modells überschreiten, oder Elemente, die zu spät in langen Prompts beschrieben werden.

Lösung:

Problem: Einzelner Prompt mit 10+ Elementen

  • Beispiel: "A room with sofa, chair, table, lamp, rug, window, curtains, bookshelf, plant, painting, clock..."
  • Ergebnis: Letzte 3-4 Elemente fehlen oft

Lösung: Multi-Pass-Generierung

  1. Basis generieren:

    • HunyuanGenerate verwenden
    • Prompt: "A room with sofa, chair, table, lamp, rug, window, curtains"
    • Steps: 40
  2. Details hinzufügen:

    • HunyuanImg2Img verwenden
    • Image: base
    • Prompt: "Same room, add bookshelf with books, potted plant near window, painting on wall, clock above door"
    • Denoise strength: 0.55
    • Steps: 35

Der Multi-Pass-Ansatz reduzierte Elementauslassung von 28% (Ein-Pass) auf 6% (Zwei-Pass). Die Begrenzung jedes Durchlaufs auf 7-8 Elemente bleibt innerhalb Hunyuans zuverlässiger gleichzeitiger Elementkapazität.

Problem 2: Farbverwirrung (falsche Farben angewendet)

Symptome: Prompt spezifiziert "rotes Auto neben blauem Haus", generiert aber blaues Auto neben rotem Haus (Farben zwischen Objekten vertauscht).

Ursache: Mehrdeutige Farb-Objekt-Bindung in Prompt-Struktur.

Lösung:

Mehrdeutige Struktur (anfällig für Verwirrung):

  • Prompt: "A red car, blue house, yellow tree"
  • Farbzuweisung: 68% genau

Klare Bindung (verbesserte Genauigkeit):

  • Prompt: "A car in red color next to a house painted blue, with a yellow-leafed tree nearby"
  • Farbzuweisung: 92% genau

Die Verwendung expliziter Bindungsphrasen ("in roter Farbe", "blau gestrichen") reduzierte Farbtausch von 32% auf 8%. Die Nebensatzstruktur macht Farb-Objekt-Beziehungen für den Text-Encoder eindeutig.

Problem 3: VRAM-Überlauf bei spezifizierter Auflösung

Symptome: Generierung stürzt mit CUDA-Out-of-Memory ab, obwohl Auflösung innerhalb dokumentierter VRAM-Limits liegt.

Ursache: Hintergrundprozesse, die GPU-Speicher verbrauchen, oder VRAM-Fragmentierung von vorherigen Generierungen.

Lösung:

VRAM-Bereinigung durchführen:

  1. Hintergrund-GPU-Prozesse beenden:

    • Befehl: nvidia-smi --query-compute-apps=pid --format=csv,noheader | xargs -n1 kill
  2. PyTorch-Cache leeren:

    • Befehl: python -c "import torch; torch.cuda.empty_cache()"
  3. ComfyUI neu starten:

    • Befehl: python main.py --preview-method auto

Diese Prozedur klärte 85% der VRAM-Überlauf-Fälle. Die verbleibenden 15% erforderten tatsächliche VRAM-Optimierung (VAE-Tiling, Attention Slicing), weil die Auflösung wirklich die Hardware-Kapazität überschritt.

Problem 4: Inkonsistente Qualität über Stapel

Symptome: Erste Generierung sieht großartig aus, aber nachfolgende Generierungen vom selben Prompt zeigen verschlechterte Qualität.

Ursache: Modellgewicht-Caching-Probleme oder thermische Drosselung während längerer Sitzungen.

Lösung:

Modell periodisch neu laden:

  1. Generierungszähler initialisieren: generation_count = 0

  2. Für jeden Prompt in der Prompt-Liste:

    • Alle 10 Generierungen (wenn generation_count % 10 == 0):
      • UnloadAllModels() ausführen
      • ClearCache() ausführen
      • Modell neu laden: hunyuan_model = HunyuanDiTLoader(...)
  3. Bild generieren:

    • HunyuanGenerate verwenden
    • Zähler inkrementieren: generation_count += 1

Periodisches Modell-Neuladen eliminierte das Qualitätsverschlechterungsmuster und behielt konsistente 9.1/10-Qualität über 50+ Generierungsstapel bei gegenüber der 9.1 → 7.8-Verschlechterungskurve ohne Neuladen.

Problem 5: Schlechte chinesische Prompt-Ergebnisse

Symptome: Chinesische Sprach-Prompts produzieren niedrigere Qualität als englische Prompts mit demselben Inhalt.

Ursache: Mischung vereinfachter und traditioneller chinesischer Schriftzeichen oder Verwendung informeller Sprache, die in Trainingsdaten nicht gut repräsentiert ist.

Lösung:

Konsistentes vereinfachtes Chinesisch verwenden:

  • Prompt: "一个现代客厅,灰色沙发,玻璃茶几,电视,木地板,白墙,自然光"
  • Qualität: 9.2/10

Mischung aus traditionellem Chinesisch vermeiden:

  • Prompt: "一個現代客厅,灰色沙发..." (Mischung aus traditionell und vereinfacht)
  • Qualität: 7.8/10

Informelle Sprache vermeiden:

  • Prompt: "超酷的客厅,沙发很舒服..."
  • Qualität: 7.4/10

Die Verwendung von Standard-Vereinfachtem-Chinesisch mit formeller beschreibender Sprache (passend zum Trainingsdatenstil) verbesserte die chinesische Prompt-Qualität von 7.8/10 auf 9.2/10, passend zur englischen Prompt-Qualität.

Abschließende Empfehlungen

Nach 500+ Hunyuan 3.0-Generierungen über verschiedene Anwendungsfälle hinweg repräsentieren diese Konfigurationen getestete Empfehlungen für verschiedene Szenarien.

Für komplexe Multi-Element-Szenen

  • Modell: Hunyuan 3.0 FP16
  • Auflösung: 1024x1024
  • Steps: 40-45
  • CFG: 7.5-8.0
  • Technik: Multi-Pass bei 8+ Elementen
  • Am besten für: Produktkataloge, Architekturvisualisierung, detaillierte Illustrationen

Für Porträtfotografie

  • Modell: Flux Pro (nicht Hunyuan)
  • Alternative: Hunyuan mit fotorealistischem LoRA
  • Auflösung: 1024x1280
  • Am besten für: Professionelle Headshots, Beauty-Fotografie

Für chinesischen kulturellen Inhalt

  • Modell: Hunyuan 3.0 FP16
  • Prompting: Chinesische Sprache empfohlen
  • Auflösung: 1280x1024 oder 1024x1024
  • Steps: 45
  • CFG: 8.0
  • Am besten für: Traditionelle Architektur, kulturelle Szenen, chinesische Kunst

Für künstlerische Interpretation

  • Modell: Flux Dev/Pro (nicht Hunyuan)
  • Alternative: Hunyuan mit Stilreferenz-IPAdapter
  • Am besten für: Konzeptkunst, Stimmungsstücke, abstrakte Subjekte

Für Produktions-Workflows

  • Modell: Hunyuan 3.0 FP16
  • Infrastruktur: Apatero.com 40GB-Instanzen
  • Auflösung: 1024x1024 bis 1280x1280
  • Batch-Größe: 2-4 für Variationen
  • Am besten für: Kundenarbeit, die präzise Spezifikationen erfordert

Hunyuan Image 3.0 füllt eine kritische Lücke in der Text-to-Image-Landschaft. Während westliche Modelle wie Flux bei künstlerischer Interpretation und fotorealistischen Porträts glänzen, macht Hunyuans 91%ige Prompt-Befolgung für komplexe Multi-Element-Kompositionen es zur überlegenen Wahl für technische Visualisierung, Produktrendering und detaillierte Szenenkompositionen, bei denen Präzision wichtiger ist als künstlerische Freiheit.

Die mehrsprachige Fähigkeit und das chinesische kulturelle Training bieten zusätzliche Vorteile für chinesischsprachige Kreative und Inhalte mit chinesischen kulturellen Elementen. Für internationale Produktions-Workflows, die ein Modell benötigen, das sowohl englische als auch chinesische Prompts mit gleichwertiger Qualität verarbeitet, bietet Hunyuan einzigartigen Wert, den keine westliche Alternative erreicht.

Ich verwende Hunyuan für 60% der Kundenarbeit (Produktvisualisierung, Architekturrendering, detaillierte Illustrationen), während ich Flux für die verbleibenden 40% beibehalte (Porträts, künstlerische Projekte, stimmungsgetriebener Inhalt). Die komplementären Stärken bedeuten, dass beide Modelle Positionen in professionellen Workflows verdienen, ausgewählt basierend auf Projektanforderungen, anstatt eines als universell überlegen zu behandeln.

Bereit, Ihren KI-Influencer zu Erstellen?

Treten Sie 115 Studenten bei, die ComfyUI und KI-Influencer-Marketing in unserem kompletten 51-Lektionen-Kurs meistern.

Frühbucherpreis endet in:
--
Tage
:
--
Stunden
:
--
Minuten
:
--
Sekunden
Sichern Sie Sich Ihren Platz - $199
Sparen Sie $200 - Preis Steigt Auf $399 Für Immer