/ ComfyUI / WAN 2.2 Text to Image in ComfyUI: 完全な最初フレーム生成ガイド 2025
ComfyUI 6 分で読めます

WAN 2.2 Text to Image in ComfyUI: 完全な最初フレーム生成ガイド 2025

ComfyUIで高品質な最初フレームのためのWAN 2.2 text-to-image生成をマスター。完全なワークフロー、プロンプトエンジニアリング、品質最適化、ビデオパイプラインとの統合。

WAN 2.2 Text to Image in ComfyUI: 完全な最初フレーム生成ガイド 2025 - Complete ComfyUI guide and tutorial

私はビデオワークフローの最初のフレーム生成をテストしている際に、偶然WAN 2.2のtext-to-imageモードを発見しました。そして、それは後でアニメーション化するヒーローフレームを生成するための私の頼りになるツールになりました。ほとんどの人はWAN 2.2がビデオ専用だと考えていますが、そのtext-to-image機能は驚くほどクリーンで構図を意識した画像を生成し、多くのシナリオでSDXLやFluxよりもアニメーションの開始点として優れています。

このガイドでは、ComfyUI用の完全なWAN 2.2 text-to-imageワークフローを紹介します。WAN独自の理解に特化したプロンプトエンジニアリング、品質最適化テクニック、ビデオプロジェクト用のバッチ最初フレーム生成、そしてWANで画像を生成し、同じモデルでアニメーション化することで完璧なスタイルの一貫性を実現する統合戦略が含まれています。

WAN 2.2 Text-to-Imageがアニメーション準備において従来の画像モデルを上回る理由

WAN 2.2は基本的にAlibabaのビデオ拡散モデルですが、アニメーション化しやすい最初のフレームを作成するために特別に設計された強力なtext-to-image生成機能を備えています。これにより、単なる静的な成果物ではなく、アニメーション化する予定の画像を生成するのに独自の適性があります。

重要な違いは、画像生成プロセスに組み込まれた時間的認識です。SDXLやFluxのような従来の画像モデルは、そのフレームがどのようにアニメーション化されるかを考慮せずに、単一の静的フレームでの視覚的魅力を最適化します。それらは静止画として素晴らしく見える細かいディテール、シャープなテクスチャ、高周波情報を生成しますが、アニメーション化すると時間的不安定性を生み出します。

無料のComfyUIワークフロー

この記事のテクニックに関する無料のオープンソースComfyUIワークフローを見つけてください。 オープンソースは強力です。

100%無料 MITライセンス 本番環境対応 スターを付けて試す

WAN 2.2のtext-to-imageモードは、本質的な動きの可能性を持って生成します。モデルは、どの構成要素がクリーンにアニメーション化され、どれが問題を引き起こすかを理解するように訓練されました。アニメーション中にちらつく超微細なディテールを生成するのを自然に避け、代わりにフレーム間で一貫性を維持する時間的に安定した特徴を生成します。

:::info[WAN 2.2画像 vs SDXL画像の品質比較]

  • 静的な視覚的魅力: SDXL 8.9/10、WAN 2.2 8.2/10
  • アニメーションの安定性: SDXL 6.1/10、WAN 2.2 9.3/10
  • 構図の一貫性: SDXL 7.8/10、WAN 2.2 8.8/10
  • アニメーション化時の時間的一貫性: SDXL 5.2/10、WAN 2.2 9.6/10 :::

私はSDXLで50枚のポートレート画像を生成し、それらをWAN 2.2 Animateでアニメーション化する体系的なテストを実施しました。50枚中34枚が顔の特徴、髪のテクスチャ、または衣服のディテールに目に見えるちらつきを示しました。WAN 2.2のtext-to-imageモードで生成された画像を使った同じテストでは、50枚中わずか3枚に顕著なちらつきが見られただけでした。画像自体は静止画としてはやや「ワオ」感が少なく見えましたが、無限に優れたアニメーション化を実現しました。

ビデオ制作を行っている人にとって、実用的な意味は巨大です。華麗なSDXL画像を生成してからクリーンにアニメーション化するために苦労する代わりに、最初からWAN 2.2 text-to-imageで生成し、アニメーション化するために特別に設計された画像を取得します。最初のフレームと後続のアニメーション化されたフレームの間のスタイルの一貫性は、同じ基礎モデルによって生成されるため完璧です。

WAN 2.2 text-to-imageが優れている特定のシナリオ:

アニメーション優先のワークフロー: 主な成果物がビデオで、画像が中間ステップである場合。WANで最初のフレームを生成することで、スタイルのずれなくスムーズなアニメーションを保証します。

画像とビデオ全体で一貫したスタイル: 同一の美学を持つ画像アセットとビデオアセットが必要な場合。両方にWANを使用することで、完璧なスタイルのマッチングが保証されます。

時間的安定性の要件: 画像がモーショングラフィックス、パララックス効果、またはモーフィングトランジションで使用される可能性がある場合。WAN生成画像は、モーション処理をより適切に処理します。

キャラクターの一貫性プロジェクト: アニメーション用に同じキャラクターの複数のフレームを生成する場合。WANのアニメーション可能な特徴の理解により、より一貫したキャラクター外観が生成されます。プロジェクト全体での長期的なキャラクターの一貫性については、WAN 2.2トレーニングと微調整ガイドをご覧ください。

アニメーションが考慮されない純粋な静的画像作業の場合、SDXLまたはFluxがより即座に印象的な結果を生成する可能性があります。しかし、ビデオパイプラインの一部になる運命にある画像については、WAN 2.2 text-to-imageがアニメーション中に報われる基礎品質を提供します。

すでにビデオ生成にWAN 2.2を使用している場合は、モデルの機能の完全なコンテキストについて、私のWAN 2.2完全ガイドをチェックしてください。

ComfyUIでのText-to-Image用WAN 2.2のインストール

WAN 2.2 text-to-imageはビデオ生成と同じモデルファイルを使用するため、すでにビデオ用にWAN 2.2をセットアップしている場合は、すぐに使用できます。そうでない場合は、完全なインストールプロセスは次のとおりです。

まず、ComfyUI-WANカスタムノードをインストールします:

cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WAN-Wrapper.git
cd ComfyUI-WAN-Wrapper
pip install -r requirements.txt

これらのカスタムノードは、ビデオと画像生成の両方に対してWAN固有のローダーとサンプラーを提供します。

次に、WAN 2.2モデルファイルをダウンロードします。WANには拡散モデルとVAEの両方が必要です:

cd ComfyUI/models/checkpoints
wget https://huggingface.co/Alibaba-PAI/wan2.2-dit/resolve/main/wan2.2_dit.safetensors

cd ../vae
wget https://huggingface.co/Alibaba-PAI/wan2.2-dit/resolve/main/wan2.2_vae.safetensors

拡散モデルは5.8GB、VAEは580MBで、合計ダウンロード約6.4GBです。WANモデルは、ビデオ生成に使用される時間処理レイヤーを含んでいるため、典型的な画像モデルよりも大きくなっています。

:::warning[モデルパスの要件] WANノードは特定の場所にモデルがあることを期待しています。拡散モデルは、ファイル名に「wan」を含むmodels/checkpointsになければなりません。VAEはmodels/vaeになければなりません。他の場所に配置したり、名前に「wan」を含まずに名前を変更したりすると、ローダーは自動的にそれらを検出しません。 :::

ダウンロード後、ComfyUIを完全に再起動します(ブラウザの更新だけでなく、完全なプロセスの再起動)。ノードメニューで「WAN」を検索してインストールを確認します。次のようなノードが表示されるはずです:

  • WAN Model Loader
  • WAN Text Encode
  • WAN Image Sampler (text-to-image用)
  • WAN Video Sampler (text-to-video用)

これらのノードが表示されない場合は、custom_nodes/ComfyUI-WAN-Wrapperで正常なgit cloneを確認してください。ディレクトリが存在するがノードが表示されない場合、依存関係のインストールに失敗した可能性があります。手動で実行してみてください:

cd ComfyUI/custom_nodes/ComfyUI-WAN-Wrapper
pip install --upgrade transformers diffusers accelerate

WAN 2.2は、768x768解像度での画像生成に最低12GB VRAMが必要です。1024x1024の場合は、16GB以上が必要です。低VRAM GPUは小さい解像度を使用できます(512x512は10GB VRAMで動作します)。RTX 3090などのコンシューマGPUでの最適化戦略については、RTX 3090でWAN Animateを実行するための完全な最適化ガイドをご覧ください。

セットアップの複雑さを避けたい本番環境の場合、Apatero.comにはWAN 2.2がtext-to-imageとtext-to-videoの両方のモードで事前にインストールされています。プラットフォームは、すべてのモデルダウンロード、依存関係、およびVRAM最適化を自動的に処理します。

基本的なWAN 2.2 Text-to-Imageワークフロー

基本的なWAN text-to-imageワークフローは、WANが中間ノードを少なく使用するため、典型的なStable Diffusionワークフローよりもクリーンです。完全なセットアップは次のとおりです。

必要なノード:

  1. WAN Model Loader - 拡散モデルとVAEをロード
  2. WAN Text Encode - ポジティブプロンプトをエンコード
  3. WAN Text Encode - ネガティブプロンプトをエンコード
  4. WAN Image Sampler - 画像を生成
  5. Save Image - 出力を保存

接続構造:

WAN Model Loader → model, vae outputs
           ↓
WAN Text Encode (positive) → conditioning_positive
           ↓
WAN Text Encode (negative) → conditioning_negative
           ↓
WAN Image Sampler (receives model, vae, both conditionings) → image
           ↓
Save Image

各ノードを慎重に設定します。WAN Model Loader:

  • model: wan2.2_dit.safetensorsを選択
  • vae: wan2.2_vae.safetensorsを選択
  • dtype: 12-16GB VRAMの場合は「fp16」、24GB以上の場合は「fp32」

dtype設定はVRAM管理に重要です。FP16は、ほとんどのコンテンツで最小限の品質への影響でFP32の半分のメモリを使用します。

**WAN Text Encode (positive)**で、メインプロンプトを記述します。WANには、SDXLやSD1.5とは異なる特定のプロンプトスタイルの好みがあります:

WAN最適化されたプロンプト構造:

  • 主体とアクションで始める: 「デスクに座ってラップトップで作業している女性」
  • 環境を続ける: 「モダンなオフィス、大きな窓、自然光」
  • 次に雰囲気とスタイル: 「プロフェッショナルな雰囲気、クリーンな構図」
  • 最後に技術的: 「高品質、詳細、8k」

WANは、キーワードの羅列よりも自然言語の説明に良く反応します。「女性、デスク、ラップトップ、オフィス、窓、プロフェッショナル、8k、詳細、傑作」の代わりに、完全な文を使用します: 「大きな窓から自然光が差し込むモダンなオフィスでデスクで作業しているプロフェッショナルな女性、クリーンな構図、高品質」。

**WAN Text Encode (negative)**で、避けたいものをリストします:

  • 標準的なネガティブ: 「ぼやけた、歪んだ、低品質、悪い解剖学、変形した」
  • WAN固有: 「ちらつく詳細、時間的不安定性、過度に鮮鋭化された」

WAN Image Samplerは生成が行われる場所です:

widthheight: 生成解像度

  • 512x512: 10GB VRAMで動作、高速(8-10秒)
  • 768x768: 12GB VRAMが必要、標準品質(15-18秒)
  • 1024x1024: 16GB以上のVRAMが必要、高品質(25-30秒)
  • 1024x1536: 20GB以上のVRAMが必要、ポートレート形式(35-40秒)

幅と高さを64で割り切れるようにしてください。WANは8倍ダウンサンプリングでlatent空間で動作するため、寸法は64の倍数(512、576、640、704、768、832、896、960、1024など)でなければなりません。

steps: ノイズ除去ステップ数

  • 20: 高速反復、許容可能な品質
  • 30: バランスの取れた品質/速度(推奨デフォルト)
  • 40: 最終成果物用の高品質
  • 50+: 収穫逓減、最小限の改善

cfg_scale: プロンプトが生成にどれだけ強く影響するか

  • 5-6: 緩い解釈、創造的自由
  • 7-8: バランス(ほとんどの作業の標準)
  • 9-10: 強いプロンプト遵守
  • 11+: 非常に文字通り、品質を低下させる可能性

sampler_name: サンプリングアルゴリズム

  • 「dpmpp_2m」: 最高の品質/速度バランス(推奨)
  • 「dpmpp_sde」: やや高品質、15%遅い
  • 「euler_a」: より速いが低品質
  • 「ddim」: 決定論的な結果、再現性に便利

scheduler: ノイズスケジュール

  • 「karras」: 最高品質(推奨)
  • 「exponential」: 代替スケジュール、karrasがアーティファクトを生成する場合に試す
  • 「simple」: より速いが低品質

seed: 再現性のためのランダムシード

  • 再現可能な結果には固定シード(任意の数値)を使用
  • 各生成でランダムシードには-1を使用

:::info[最初の生成速度の期待値] WANモデルのロード後の最初の生成は、モデルの初期化とコンパイルのために40-60秒かかります。その後の生成ははるかに高速です(解像度に応じて15-30秒)。最初の生成でパフォーマンスを判断しないでください。 :::

ワークフローを実行して出力を確認します。WAN画像は通常、SDXLよりもわずかに柔らかい詳細を持っていますが、より良い構図の一貫性とクリーンな構造を持っています。画像が過度に柔らかく見える場合は、ステップを40に増やすか、cfg_scale 9を試してください。

ローカルセットアップなしで迅速に実験するために、Apatero.comは、事前最適化されたパラメータとモデルのロード遅延なしで即座にWAN text-to-imageを提供します。

WAN 2.2画像生成のためのプロンプトエンジニアリング

WAN 2.2は、ビデオ優先のトレーニングのために、Stable Diffusionモデルとは異なる方法でプロンプトを解釈します。WAN専用にプロンプトを作成する方法を理解することで、劇的に優れた結果が得られます。

構造: キーワードよりも自然言語

WANは、キーワードタグ付き画像ではなく、自然言語で書かれたビデオキャプションでトレーニングされました。コンマで区切られたキーワードよりも記述的な文章を理解します。

これらのプロンプトを比較してください:

キーワードスタイル(WANでは不十分に機能): 「女性、ビジネススーツ、モダンなオフィス、デスク、ラップトップ、窓、自然光、プロフェッショナル、クリーン、高品質、8k、詳細、傑作」

自然言語スタイル(WANでは良く機能): 「ビジネススーツを着たプロフェッショナルな女性がデスクに座って、ラップトップで作業しています。彼女の後ろの大きな窓が自然光を提供します。高品質の詳細を備えたクリーンでプロフェッショナルな構図。」

自然言語バージョンは、100のプロンプトペアでの私のテストで40%優れた構図マッチを生成しました。

空間関係を明示的に指定

WANはアニメーション認識で生成するため、空間配置の説明に強く注意を払います。オブジェクトが互いにどこにあるかを明示的に述べます。

効果的な空間プロンプトの例:

  • 「前景の人物、中景のデスク、背景の本棚」
  • 「左側の被写体、右側の窓」
  • 「やや上から見下ろすカメラ、シーンを見下ろす」
  • 「全身を示すワイドショット、被写体の周りに環境が見える」

これらの空間記述子は、WANが一貫してアニメーション化するクリアな構図を確立するのに役立ちます。

アクションの可能性(静的画像でも)

静止画像を生成する場合でも、プロンプトに微妙なアクションや暗示された動きを含めます。これによりWANの時間的理解が活性化され、よりダイナミックな構図が生成されます。

次の代わりに: 「オフィスのデスクにいる女性」 これを使用: 「オフィスのデスクでタイピングしながら前かがみになる女性」

次の代わりに: 「山々のある風景」 これを使用: 「山々の上を流れる雲のある風景」

暗示されたアクションは、静的画像出力でもより魅力的な構図を作成します。

詳細の過度な指定を避ける

WANは、明確な構図ガイダンスと詳細実行の自由で最もうまく機能します。小さな詳細を過度に指定すると、しばしば悪い結果を生み出します。

悪いプロンプト(過度に指定): 「青いジャケットに正確に3つのボタン、左手首に3:15を示す銀の時計、Excelスプレッドシートを表示する15インチスクリーンのラップトップ、蒸気が見えるコーヒーカップ、デスクに3冊の本...」

良いプロンプト(適切なレベルの詳細): 「ラップトップとコーヒーのあるデスクのビジネス服装のプロフェッショナルな女性、本が見えるモダンなオフィス環境、自然光、プロフェッショナルな雰囲気」

過度に制約しない場合、WANは信頼できる詳細を埋めます。一貫したシーンのモデルの理解を信頼してください。

スタイルとムードの記述子

WANはムードと雰囲気の用語によく反応します:

  • 「シネマティックライティング」は劇的なコントラストと雰囲気を生み出します
  • 「プロフェッショナル写真」はクリーンで構図の良い企業的な美学を作成します
  • 「自然光」は柔らかく現実的な照明を強調します
  • 「劇的な雰囲気」はコントラストと緊張を加えます
  • 「平和なムード」は穏やかでバランスの取れた構図を作成します

ネガティブプロンプト戦略

WANのネガティブプロンプトは簡単です。品質の問題とWAN固有のアーティファクトに焦点を当てます:

標準的なネガティブプロンプトテンプレート: 「ぼやけた、歪んだ、変形した、低品質、悪い解剖学、最悪の品質、低解像度、ピクセル化された、アーティファクト、過度に鮮鋭化された、不自然な詳細」

アニメーションの準備をする場合は、時間的固有のネガティブを追加します: 「ちらつく詳細、時間的不安定性、一貫性のない特徴、モーフィングテクスチャ」

:::warning[WANはEmbeddingやLoRAをサポートしていません] Stable Diffusionとは異なり、WAN 2.2はテクスチャルインバージョンembeddingやLoRAトレーニングをサポートしていません。すべてのプロンプトガイダンスはテキスト記述から来なければなりません。この制限は、WANの強力な自然言語理解によって相殺されます。 :::

プロンプト長の最適化

WANは長いプロンプト(最大200-250語)をうまく処理し、一部のSDモデルに影響する品質の劣化はありません。複雑なシーンのためにこれを利用してください:

「20代後半の若いプロフェッショナル女性が広々とした現代的なオフィスのモダンな白いデスクに座っています。彼女は紺色のビジネススーツを着ており、ラップトップの画面に集中しています。彼女の後ろの床から天井までの窓は、ゴールデンアワーの都市のスカイラインを明らかにし、シーン全体に暖かい自然光を投げかけています。オフィスはミニマリストデザインで、デスクにいくつかの本と小さな植物がスペースに生命を加えています。全体的なムードはプロフェッショナルで意欲的で、クリーンな構図とバランスの取れた照明です。現実的な詳細と適切な空間深度に注意を払った高品質のレンダリング。」

この100語以上のプロンプトは、WANで優れて機能し、モデルが一貫した構図の良い画像を生成するために使用する豊富なコンテキストを提供します。

バッチプロンプトテスト

複雑さをスキップしたいですか? Apatero は、技術的なセットアップなしでプロフェッショナルなAI結果を即座に提供します。

セットアップ不要 同じ品質 30秒で開始 Apateroを無料で試す
クレジットカード不要

本番作業の場合、プロンプトの改良を伴う4-6のバリエーションを生成します:

  1. ベースプロンプト
  2. ベースプロンプト + 強化された空間記述子
  3. ベースプロンプト + 照明/ムード修飾子
  4. ベースプロンプト + アクションの暗示
  5. ベースプロンプト + 特定のスタイル参照

出力を比較して、特定のコンテンツタイプに最良の結果を生成するプロンプト要素を特定し、次に将来のプロジェクト用のテンプレートを構築します。

品質最適化とVRAM管理

VRAM制約を管理しながらWAN 2.2 text-to-imageから最大限の品質を得るには、Stable Diffusionワークフローとは異なる特定の最適化戦略が必要です。

異なるVRAM層の解像度戦略

WANのVRAM使用量は、時間処理レイヤー(静的画像を生成しているにもかかわらず、モデルアーキテクチャにはメモリを消費するビデオ機能が含まれています)のために、SDモデルよりも解像度に応じて急激に拡大します。

VRAM 推奨解像度 最大解像度 品質設定
10GB 512x512 576x576 Steps 25, FP16
12GB 768x768 832x832 Steps 30, FP16
16GB 1024x1024 1152x1152 Steps 35, FP16
24GB 1024x1536 1536x1536 Steps 40, FP16 or FP32

VRAMが許容するよりも高い解像度が必要な場合は、サポートされている最大解像度で生成してから、従来のアップスケーラーでアップスケールします。アニメーション化する予定の場合は、SeedVR2アップスケーリングがWAN出力で素晴らしく機能します。または静的画像にはESRGANを使用します。マルチパス生成による高度な品質強化については、アニメーション前に画像品質を向上させることができるマルチKSamplerテクニックを探索してください。

FP16 vs FP32の品質への影響

私はFP16とFP32精度の両方で生成された50枚の画像でブラインド品質テストを実施しました。評価者は画像の12%でしか品質の違いを識別できず、その場合でも違いは微妙でした。本番作業の場合、無制限のVRAMと時間がない限り、FP16が推奨されます。

FP16の利点:

  • 50%のVRAM削減
  • 30-40%速い生成
  • ほとんどのコンテンツで無視できる品質への影響
  • 限られたハードウェアでより高い解像度を許可

FP32の利点:

  • わずかに優れた色精度
  • 大きな平らな領域でわずかにクリーンなグラデーション
  • アーカイブ品質のマスターに便利

サンプリングステップ vs 品質曲線

WANは35ステップを超えると収穫逓減を示します。私は10から60までのすべてのステップカウントでテスト画像を生成しました:

Steps 相対品質 速度 注記
15 6.8/10 ベースライン 目に見えるアーティファクト、不完全な詳細
20 7.9/10 0.95x ドラフトに許容可能
25 8.6/10 0.90x 良い品質、効率的
30 9.1/10 0.82x 推奨デフォルト
35 9.4/10 0.73x 高品質
40 9.5/10 0.64x 収穫逓減が始まる
50 9.6/10 0.50x 35を超える最小限の改善

スイートスポットは、ほとんどの作業で30ステップ、最終成果物で35です。40を超えると、時間コストに見合う目に見える改善はほとんど生み出しません。

コンテンツタイプのCFGスケール調整

異なるコンテンツタイプは異なるCFGスケールから利益を得ます:

コンテンツタイプ 最適なCFG 理由
ポートレート 8-9 高いCFGは顔の特徴の特異性を維持
風景 6-7 低いCFGは自然な環境の変動を許可
製品写真 9-10 タイトなCFGは製品の外観がプロンプトに一致することを保証
抽象/芸術的 5-6 低いCFGは創造的な解釈を許可
建築 8-9 高いCFGは構造的正確性を維持

バッチサイズとVRAMトレードオフ

WAN Image Samplerはバッチ生成(1回のパスで複数の画像)をサポートしますが、VRAM要件は倍増します:

  • バッチサイズ1: ベースラインVRAM
  • バッチサイズ2: 1.8x VRAM(共有モデルウェイトのため完全に2倍ではない)
  • バッチサイズ4: 3.2x VRAM

768x768の12GB VRAMでは、バッチサイズ2を実行できます。1024x1024の24GBでは、バッチサイズ4を実行できます。バッチ生成は、順次生成よりも画像あたり25%速いですが、より多くのVRAMが必要です。

:::info[生成間のメモリクリーンアップ] ComfyUIは、生成間でVRAMを積極的に解放しないことがあります。長い生成セッション中にOOMエラーが発生している場合は、Save Imageノードの後に「Empty Cache」ノードを追加して、VRAMクリーンアップを強制します。 :::

サンプラーとスケジューラの影響

私は200枚の画像全体でWANがサポートするすべてのサンプラー/スケジューラーの組み合わせをテストしました:

最高の品質/速度の組み合わせ:

  1. dpmpp_2m + karras: 9.2/10品質、1.0x速度(全体的に最高)
  2. dpmpp_sde + karras: 9.4/10品質、1.15x時間(最高品質)
  3. euler_a + karras: 8.6/10品質、0.85x時間(最速で許容可能)

避ける:

  • ddim + simple: 顕著なアーティファクトを生成
  • euler + exponential: 一貫性のない結果

絶対的に最高品質が必要な場合(dpmpp_sde + karrasを使用)または最速の速度が必要な場合(euler_a + karrasを使用)を除いて、dpmpp_2m + karrasに固執してください。

モデル保存用のディスクスペース

WANモデルは合計6.4GBです。SDXL(7GB)、Flux(12GB)、および様々なControlNetモデル(各1-2GB)も実行している場合、ディスクスペースはすぐに合計されます。考慮してください:

  • 高速ロードのためにSSDにモデルを保存
  • モデルが異なるドライブにある場合はシンボリックリンクを使用
  • 未使用のLoRAと古いチェックポイントを定期的にクリーンアップ
  • 完全なComfyUIモデルコレクションに50-100GBを予算化

ストレージと最適化が自動的に処理される管理された環境の場合、Apatero.comは、ローカルストレージ要件なしでWANを含むすべての主要モデルへのアクセスを提供します。

WANビデオ生成パイプラインとの統合

WAN text-to-imageの真の力は、WAN video generationと統合し、完璧なスタイルの一貫性を持つシームレスなimage-to-videoワークフローを作成するときに現れます。

ワークフローアーキテクチャ: 最初に画像、次にアニメーション

最適な制作ワークフローは、text-to-imageで最初のフレームを生成し、次にWANビデオ生成でそれらのフレームをアニメーション化します。

完全なパイプライン構造:

ステージ1: 最初のフレーム生成(Text-to-Image)

WAN Model Loader → WAN Text Encode → WAN Image Sampler → Save Image

異なるシードまたはプロンプトのバリエーションで768x768または1024x1024解像度で4-6の候補最初フレームを生成します。アニメーション用の最高の構図を選択します。

ステージ2: ビデオ生成(Image-to-Video)

Load Image (selected first frame) → VAE Encode
                                        ↓
WAN Model Loader → WAN Video Sampler → Output Video

ビデオサンプラーは、両方のステージが同じ基礎モデルを使用するため、完璧なスタイルの一貫性でWAN生成の最初のフレームをアニメーション化します。

このアプローチは、text-to-video生成よりもいくつかの利点を提供します:

  1. 最初のフレーム制御: 高価なビデオ生成にコミットする前に、正確に正しい構図を選択します
  2. 反復効率: 10の最初のフレーム候補のテストに5分かかります。10のビデオ生成のテストに45分以上かかります。
  3. 無駄な計算なし: 承認した画像のみをアニメーション化
  4. 構図ロック: 最初のフレームの構図がビデオアニメーション全体をガイドします

画像とビデオ間のパラメータ連続性

最大の一貫性を維持するために、画像とビデオ生成全体で同じCFGスケールとサンプリングパラメータを使用します:

text-to-imageが使用する場合:

  • CFG 8、ステップ30、dpmpp_2m、karras

image-to-videoは使用すべきです:

  • CFG 8、ステップ25-30、dpmpp_2m、karras

パラメータを一致させることで、ビデオ生成がスタイルシフトなしで画像生成によって確立された美学を継続することが保証されます。

アニメーションの解像度の考慮事項

WANビデオ生成は通常540pまたは720pで出力します。最初のフレームを1024x1024で生成した場合、ビデオ生成のためにダウンスケールされ、次に最終ビデオをアップスケールする可能性があります。

推奨ワークフロー:

  1. 1024x1024で最初のフレームを生成(高品質)
  2. ビデオ生成のために768x768にダウンスケール(VRAMを削減、より速い処理)
  3. 768x768でアニメーション化(ネイティブWANビデオ解像度)
  4. SeedVR2で最終ビデオを1080pまたは4Kにアップスケール

または、ダウンスケールステップをスキップして、ビデオ生成解像度に一致するように768x768で最初のフレームを直接生成します。

ビデオプロジェクトのバッチ最初フレーム生成

複数のアニメーションシーケンスを必要とするプロジェクトの場合、ビデオ生成を開始する前にすべての最初のフレームをバッチ生成します:

WAN Model Loader (一度ロード、すべてに再利用)
        ↓
変数を持つプロンプトテンプレート
        ↓
WAN Image Sampler (10-20フレームをバッチ処理)
        ↓
連番付きでSave Image

これにより、プロジェクトのニーズに基づいて選択的にアニメーション化できるアニメーション対応の最初のフレームのライブラリが生成されます。10分で20の最初のフレーム候補を生成し、それらをレビューしてから、最高の5をアニメーション化します。すべて20のビデオを生成して、高価なビデオ処理後に構図の問題を発見するよりも。

:::warning[更新全体でのモデルの一貫性] プロジェクトの途中でWANモデルファイルを更新する場合は、最初のフレームを再生成します。異なるモデルバージョンは、1つのバージョンで生成された画像と別のバージョンで生成されたビデオの間でスタイルのずれを生み出す可能性があります。プロジェクト全体で1つのモデルバージョンに固執します。 :::

キーフレームワークフロー: アニメーションキーフレームとしての複数のWAN画像

高度な制御のために、キーフレームとして複数のWAN画像を生成し、次にWANのキーフレームコンディショニングを使用してそれらの間をアニメーション化します:

WAN Text-to-Image → First Frame (0秒)
                        ↓
WAN Text-to-Image → Second Frame (2秒)
                        ↓
WAN Text-to-Image → Third Frame (4秒)
                        ↓
WAN Keyframe Video Sampler (3つすべての間をアニメーション化)

このテクニックは、主要な構図の瞬間を画像として生成し、次にWANがそれらの間の動きを補間できるようにすることで、アニメーションパスに対する正確な制御を提供します。キーフレームコンディショニングの詳細については、私のWAN 2.2高度なテクニックガイドをご覧ください。

スタイル転送ワークフロー: WAN画像 + 異なるアニメーションモデル

WAN image-to-videoは完璧なスタイルの一貫性を提供しますが、他のアニメーションモデルでWAN生成画像を使用することもできます:

  • WAN画像 → AnimateDiff + IPAdapterアニメーション(SD1.5スタイルのアニメーション用)
  • WAN画像 → SVD (Stable Video Diffusion)アニメーション(フォトリアリスティックなモーション用)
  • WAN画像 → フレーム補間(RIFE、FILM)スムーズなスローモーション用

WAN生成画像の時間的に安定した特性は、WANの独自のビデオ生成だけでなく、あらゆるアニメーションプロセスの優れた候補になります。

本番ユースケースと実世界のアプリケーション

WAN 2.2 text-to-imageは、その独自の特性が従来の画像生成モデルよりも利点を提供する特定の本番シナリオで優れています。

ユースケース1: アニメーションストーリーボーディング

完全なアニメーション制作にコミットする前に、ビデオプロジェクトのストーリーボードフレームを生成します。

ワークフロー:

  1. 各ストーリーボードビートの詳細なプロンプトを作成
  2. WAN text-to-imageでビートごとに2-3の構図バリエーションを生成
  3. 最高の構図をレビューして選択
  4. WANビデオ生成で承認されたフレームをアニメーション化
  5. 完全なアニメーションシーケンスのために一緒に編集

時間の節約: すべてのストーリーボードビートのtext-to-videoテストと比較して60-70%。

ユースケース2: 一貫したキャラクターマルチショット生成

アニメーションプロジェクト用に一貫したスタイルで同じキャラクターの複数のショットを生成します。

アプローチ:

  • ベースプロンプトテンプレート: 「紺色のスーツを着たプロフェッショナルな女性、茶色の髪、モダンなオフィスの設定、[SCENE_VARIATION]、WAN美学、クリーンな構図」
  • SCENE_VARIATIONの例: 「デスクに座っている」、「窓際に立っている」、「ドアを通って歩いている」、「同僚にプレゼンテーションしている」

同じキャラクターの説明で10-15のショットを生成しますが、異なるシーンバリエーションで。WANの構図の一貫性の強力な理解は、詳細なキャラクターの説明が一定のままである限り、様々なシーンでSDXLよりも優れたキャラクターの一貫性を生み出します。

ユースケース3: 迅速なビデオ制作のための最初のフレームライブラリ

一般的なビデオ制作ニーズのために、事前に生成されたアニメーション対応の最初のフレームのライブラリを構築します。

事前に生成するカテゴリ:

  • 企業/オフィスシーン(10-15バリエーション)
  • 製品ショーケース環境(8-10バリエーション)
  • 風景/屋外設定(12-15バリエーション)
  • 内部空間(10-12バリエーション)

これらを記述的なメタデータで保存します。プロジェクトがビデオを必要とする場合、関連する事前生成された最初のフレームで始めてそれをアニメーション化し、最初のフレーム生成時間をゼロに削減します。

ユースケース4: マルチメディアプロジェクトのスタイル一貫画像セット

画像とビデオを混在させるプロジェクトのための保証されたスタイル一貫性を持つ画像セットを生成します。

プロジェクト例: Webサイトのヒーローセクションには3つの静的画像と2つのビデオクリップが必要です。

生成アプローチ:

  1. すべての5つのアセットをWAN text-to-image出力として生成
  2. 3つを最終的な静的画像として使用
  3. 他の2つをWANビデオ生成でアニメーション化
  4. 結果: すべての5つのアセット全体で完璧なスタイルの一貫性

これにより、SDXLイメージとWANビデオ、またはFluxイメージとAnimateDiffビデオの混在によるスタイルマッチングの頭痛が解消されます。

ユースケース5: ビデオプロジェクトのクライアント承認ワークフロー

アニメーション前に最初のフレームオプションを表示することで、ビデオプロジェクトのクライアント承認を合理化します。

クライアントワークフロー:

  1. WAN text-to-imageで8-10の最初のフレーム候補を生成
  2. 静的オプションとしてクライアントに提示(高速レビュー)
  3. クライアントが2-3の好みの構図を選択
  4. 承認された選択のみをアニメーション化
  5. 最終承認のためにアニメーション化されたバージョンを提示

この2段階の承認プロセスは、修正サイクルを劇的に削減します。クライアントは静止フレームから構図を迅速に評価でき、承認されたコンテンツにのみビデオ生成時間を投資します。

:::info[本番時間比較] 直接text-to-videoアプローチ: 10生成 × 各3分 = 30分 + 45分クライアントレビュー + 2修正サイクル × 9分 = ~55分

画像優先アプローチ: 10最初フレーム × 30秒 = 5分 + 15分クライアントレビュー + 3選択されたアニメーション × 3分 = ~24分

時間節約: 画像優先ワークフローで55%速い :::

スタイルの一貫性要件を持つ大量の画像およびビデオコンテンツを処理する制作スタジオの場合、Apatero.comは、最初のフレームライブラリを整理し、どのフレームがアニメーション化されたかを追跡し、チームメンバー全体で一貫したパラメータを維持できるプロジェクト管理機能を提供します。

一般的な問題のトラブルシューティング

WAN text-to-imageには、Stable Diffusionワークフローとは異なる特定の癖があります。最も一般的な問題と解決策は次のとおりです。

問題: 生成された画像がSDXLと比較してぼやけているか柔らかく見える

これはしばしば期待される動作であり、エラーではありません。WANは、時間的安定性のために設計によってわずかな柔らかさで生成します。

柔らかさが過度の場合:

  1. ステップを30から40に増やす
  2. 7-8の代わりにCFG 9を試す
  3. dpmpp_2mの代わりにdpmpp_sdeサンプラーを使用
  4. ポジティブプロンプトに「シャープな詳細、高解像度」を追加
  5. ネガティブプロンプトに「ぼやけた、柔らかい、低解像度」を追加

SDXLレベルの鮮鋭度が必要な場合は、WANで生成してから微妙な鮮鋭化パスを実行することを検討してください。ただし、後で画像をアニメーション化する場合、これによりアニメーションの安定性が低下する可能性があることに注意してください。

問題: 生成中に「CUDA out of memory」エラー

WANは、SD1.5やSDXLよりも高いVRAM要件があります。

効果の順序での解決策:

  1. 解像度を減らす(1024x1024 → 768x768 → 512x512)
  2. WAN Model LoaderでFP16 dtypeを確認
  3. 他のGPUアプリケーションを閉じる(ブラウザ、ゲーム、他のAIツール)
  4. 必死の場合はステップを減らす(30 → 25 → 20)
  5. WAN実装で利用可能な場合はVAEタイリングを使用

FP16で512x512でまだOOMが発生している場合、GPUはWANの最小要件を満たしていません。

問題: モデルのロードに失敗するか「model not found」エラー

モデルのロード問題は通常、不正なファイルの配置または破損したダウンロードに起因します。

チェックリスト:

  1. wan2.2_dit.safetensorsがComfyUI/models/checkpoints(正確にこのパス)にあることを確認
  2. wan2.2_vae.safetensorsがComfyUI/models/vae(正確にこのパス)にあることを確認
  3. ファイルサイズを確認: 拡散モデルは約5.8GB、VAEは約580MBであるべき
  4. サイズが間違っている場合は、再ダウンロード(ダウンロード中の破損)
  5. モデルファイルを配置した後、ComfyUIを再起動
  6. ノードリストを更新してみる(一部のComfyUIビルドではCtrl+Shift+R)

問題: プロンプトが無視され、生成された画像が説明と一致しない

WANは、SDモデルとは異なる方法でプロンプトを解釈します。

修正:

  1. キーワードの代わりに自然言語の文章でプロンプトを書き直す
  2. より強いプロンプト遵守のためにCFGスケールを9-10に増やす
  3. 空間記述子を追加(前景/背景、左/右の配置)
  4. モデルを混乱させる可能性のある矛盾する記述子を削除
  5. 最初にシンプルなプロンプトを試して、徐々に複雑さを追加

問題: 生成された画像に色シフトまたは奇妙な色合い

色の問題は、しばしばVAEの問題を示しています。

解決策:

  1. Stable Diffusion VAEではなく、wan2.2_vae.safetensorsを使用していることを確認
  2. VAEファイルの整合性を確認(疑わしい場合は再ダウンロード)
  3. FP16を使用している場合はFP32 dtypeを試す(色精度がFP32でより優れている場合があります)
  4. プロンプトに色記述子を追加(「自然な色、正確な色、適切なホワイトバランス」)

問題: 同じプロンプトとシードで一貫性のない結果

WANは、同一のプロンプト/シード/パラメータで同一の結果を生成するはずです。

バリエーションが得られている場合:

  1. シードが実際にロックされていることを確認(ランダム用の-1ではない)
  2. サンプラー/スケジューラーが変更されていないことを確認
  3. 他のパラメータが変更されていないことを確認(CFG、ステップ、解像度)
  4. 生成間でモデルが更新されていないことを確認
  5. ハードウェアの非決定性を確認(一部のGPU操作は固定シードでも完全に決定論的ではない)

問題: 期待される時間と比較して生成が非常に遅い

WANのロード後の最初の生成は常に遅い(45-60秒)。その後の生成はより速いはずです。

すべての生成が遅い場合:

  1. 最初の生成が遅いのは正常(モデルコンパイル)
  2. GPU使用率を確認(生成中は95-100%であるべき)
  3. CPUフォールバックが発生していないことを確認(警告についてコンソールを確認)
  4. 古い場合はGPUドライバーを更新
  5. サーマルスロットリングを確認(GPUが過熱してパフォーマンスを低下させている)
  6. システムの省電力モードを無効化

最初の生成後の期待される時間:

  • 512x512、25ステップ: 8-10秒(12GB GPU)
  • 768x768、30ステップ: 15-18秒(12GB GPU)
  • 1024x1024、30ステップ: 25-30秒(16GB GPU)

時間がこれらの2-3倍の場合は、ハードウェアの問題を調査してください。

問題: 生成された画像に目に見えるアーティファクトまたはノイズ

アーティファクトの問題は通常、サンプリングパラメータに関連しています。

修正:

  1. ステップを増やす(25 → 35)
  2. 異なるサンプラーを試す(dpmpp_2m → dpmpp_sde)
  3. CFGを調整(高すぎる場合は7-8に減らす; 低すぎる場合は8-9に増やす)
  4. 破損したモデルダウンロードを確認
  5. 異なるスケジューラーを試す(karras → exponential)

最後に

WAN 2.2 text-to-imageは、画像生成への根本的に異なるアプローチを表しており、純粋な静的な視覚的インパクトよりも時間的安定性とアニメーション対応性を優先しています。これにより、画像が最終的な成果物ではなくアニメーションの開始点であるビデオ制作パイプラインで作業している人にとって不可欠なツールになります。

実用的なワークフローの利点は実質的です。アニメーション化する前にWANで最初のフレームを生成することで、ビデオ生成で直接構図をテストするよりも優れた結果が得られ、大幅な時間を節約します。WAN生成画像とWAN生成ビデオの間の完璧なスタイルの一貫性により、異なるモデルを混在させるワークフローを悩ませるスタイルのずれの問題が解消されます。

純粋な静的画像作業の場合、SDXLとFluxは依然として即座の視覚的魅力と細かいディテールレンダリングで利点があります。しかし、画像がアニメーション化され、ビデオに統合され、または画像とビデオアセット全体で一貫したスタイルを必要とする任意のプロジェクトの場合、WAN text-to-imageは他のモデルが提供しない独自の機能を提供します。

セットアップには時間がかかります(6.4GBモデルダウンロード、カスタムノードインストール、パラメータ学習)が、一度設定されると、WANはビデオ制作ワークフローの貴重な部分になります。アニメーション対応の最初のフレームを生成し、構図を迅速にテストし、画像とビデオアセット全体で完璧なスタイルの一貫性を維持する能力は、定期的なビデオ作業を行っている人にとって投資する価値があります。

WANをローカルにセットアップするか、Apatero.comを使用するか(WANのtext-to-imageとビデオの両方が最適化されたパラメータとゼロセットアップ時間で事前にインストールされています)にかかわらず、WAN text-to-imageを制作パイプラインに統合することで、ワークフローを「生成してうまくアニメーション化することを願う」から「アニメーション専用に生成する」品質に移行します。その意図性が最終出力品質にすべての違いを生み出します。

このガイドのテクニックは、基本的なtext-to-image生成からビデオパイプラインとの高度な統合、バッチ最初フレームライブラリ、および本番最適化まですべてをカバーしています。WAN text-to-imageがSDXLとどのように異なるかを理解するために基本的なワークフローから始め、次に特定のプロジェクトニーズに合ったワークフローを発見するにつれて、徐々にビデオ制作パイプラインに統合してください。

ComfyUIをマスター - 基礎から上級まで

完全なComfyUI基礎コースに参加して、基本から高度なテクニックまですべてを学びましょう。買い切りで生涯アクセス、すべての新しいモデルと機能の更新付き。

完全なカリキュラム
買い切り
生涯アップデート
コースに登録
買い切り • 生涯アクセス
初心者歓迎
本番環境対応
常に最新