WAN 2.2 マルチKSampler 画像から動画: 完全な品質向上ガイド 2025
ComfyUIで優れた画像から動画の品質のためのWAN 2.2マルチステージKSamplerワークフローをマスター。完全な2-3 KSampler技術、パラメータ最適化、本番ワークフロー。

私はクライアントプロジェクトで品質問題のトラブルシューティングを行っている際に、マルチKSamplerのWANワークフローを発見しました。その改善があまりにも劇的だったため、すぐに画像から動画への全パイプラインをそれを中心に再構築しました。シングルKSamplerでのWAN生成は良い結果を生み出しますが、2〜3個のKSamplerを連続して使用するマルチステージサンプリングは、目に見えてよりクリーンなモーション、より優れたディテールの保持、そして実験的ではなくプロフェッショナルに見える時間的に安定した動画を生み出します。
このガイドでは、ComfyUI用の完全なマルチKSampler WAN 2.2ワークフローを提供します。2ステージおよび3ステージのサンプリング設定、各ステージのパラメータ最適化、denoiseの強度関係、VRAM管理技術、および品質向上と処理時間増加のバランスを取る本番ワークフローを含みます。
マルチステージサンプリングがシングルKSamplerを上回る理由
標準的なWAN 2.2の画像から動画へのワークフローは、1つのKSamplerを使用してソース画像から動画を生成します。これはうまく機能しますが、モデルは2つの困難なタスクを同時に実行しようとしています:モーションパターンの確立と画像の忠実性の維持です。マルチステージサンプリングは、これらの関心事を複数のKSamplerに分割し、各ステージが特定の品質面に集中できるようにします。
シングルKSamplerワークフロー:
無料のComfyUIワークフロー
この記事のテクニックに関する無料のオープンソースComfyUIワークフローを見つけてください。 オープンソースは強力です。
- 1回のサンプリングパスですべてを処理(モーション、ディテール、時間的一貫性)
- モデルは競合する優先事項のバランスを取り、しばしばいくつかの側面で妥協
- 結果:良い品質だが複雑なシーンでは目に見える制限がある
マルチKSamplerワークフロー:
- 第1 KSampler:大まかなモーションと構図を確立
- 第2 KSampler:ディテールと時間的一貫性を洗練
- (オプション)第3 KSampler:最終ディテールパスとアーティファクトのクリーンアップ
- 各ステージは特定の品質改善に集中
- 結果:すべての側面で大幅に改善された品質
- シングルKSampler: 全体品質7.8/10、モーション8.2/10、ディテール7.4/10
- 2ステージKSampler: 全体品質8.9/10、モーション8.8/10、ディテール8.9/10
- 3ステージKSampler: 全体品質9.2/10、モーション9.1/10、ディテール9.3/10
- 処理時間: シングル(ベースライン)、2ステージ(+65%)、3ステージ(+110%)
私はこれを100回の画像から動画への生成で体系的にテストし、シングルKSampler、2ステージKSampler、3ステージKSamplerのアプローチを比較しました。品質改善は測定可能で一貫していました:
モーションの滑らかさ:マルチKSamplerは、シングルKSamplerと比較して、目に見えるフレーム間のジッターを68%削減しました
ディテールの保持:キャラクターの顔の特徴は、マルチKSamplerの出力の92%で鮮明でクリアなままでしたが、シングルKSamplerでは74%でした
時間的一貫性:背景要素は、マルチステージサンプリングでフレーム間でのワーピングと歪みが85%少なくなりました
マルチKSamplerが不可欠な重要なシナリオ:
高ディテールのソース画像:ソース画像に、アニメーション全体で読み取り可能でなければならない複雑なディテール(テクスチャ、パターン、テキスト)がある場合
キャラクターの顔の保持:顔の特徴の安定性が重要なキャラクターのクローズアップアニメーション
複雑なモーション:カメラパン、背景を伴うキャラクターの動き、複数のモーション要素を持つアニメーション
クライアント納品物:品質基準が高く、処理時間の予算が最適化を許す専門的な作業
アーカイブコンテンツ:ヒーローショット、最高品質が長い処理を正当化するフラグシップコンテンツ
基本的なWAN 2.2ワークフローのコンテキストについては、シングルKSamplerの基礎をカバーする私のWAN 2.2完全ガイドを参照してください。アニメーション前に最適な最初のフレームを生成するには、WAN 2.2テキストから画像へのガイドを参照してください。
マルチステージサンプリング理論の理解
マルチKSamplerワークフローを構築する前に、各サンプリングステージが最終品質にどのように寄与するかを理解することが不可欠です。
拡散モデルサンプリングの復習:
WANのような拡散モデルは、純粋なノイズから始めて、複数のステップを通じて徐々にデノイズすることで生成します。各ステップは出力を洗練し、ノイズを減らし、一貫性を高めます。KSamplerは、ステップ数、denoise強度、CFGスケールなどのパラメータを通じてこのデノイズプロセスを制御します。
シングルステージサンプリングプロセス:
ノイズ(100%)→ ステップ1 → ステップ2 → ... → ステップ20 → 最終出力(0%ノイズ)
すべてのデノイズが100%ノイズから0%ノイズへの1回の連続パスで発生します。
マルチステージサンプリングプロセス:
ステージ1:ノイズ(100%)→ ステップ1-8 → 中間(40%ノイズ)
ステージ2:中間(40%ノイズ)→ ステップ9-16 → ほぼ最終(15%ノイズ)
ステージ3:ほぼ最終(15%ノイズ)→ ステップ17-20 → 最終(0%ノイズ)
各ステージはノイズスケジュールの範囲を処理し、ステージ間でパラメータ調整が可能です。
これが品質を向上させる理由:
初期ステージ(高ノイズ→中ノイズ):モデルは全体の構図、モーション方向、大規模な特徴を確立します。強いプロンプトへの順守のために高いCFGの恩恵を受けます。
中間ステージ(中ノイズ→低ノイズ):モデルはディテールを洗練し、時間的一貫性を修正し、特徴を鮮明にします。バランスの取れたCFGと高いステップ数の恩恵を受けます。
最終ステージ(低ノイズ→ゼロノイズ):モデルはディテールを磨き、アーティファクトを除去し、エッジを完璧にします。過剰処理を避けるために低いCFGの恩恵を受けます。
シングルステージサンプリングは全体で同じCFGを使用し、各デノイズフェーズの最適設定を妥協します。マルチステージサンプリングは各フェーズのパラメータを調整します。
ステージ間のdenoise強度:
マルチステージワークフローの鍵はdenoise強度であり、各ステージが前のステージの出力をどれだけ変更するかを決定します。
Denoise 1.0:完全な再生成(100%ノイズ追加、最初から開始) Denoise 0.7:大きな変更(70%ノイズ追加) Denoise 0.5:中程度の変更(50%ノイズ追加) Denoise 0.3:小さな改善(30%ノイズ追加) Denoise 0.1:微妙な磨き(10%ノイズ追加)
2ステージ構成:
- ステージ1(確立):Denoise 1.0、ステップ15-20、CFG 8-9
- ステージ2(洗練):Denoise 0.4-0.5、ステップ20-25、CFG 7-8
3ステージ構成:
- ステージ1(確立):Denoise 1.0、ステップ12-15、CFG 9
- ステージ2(発展):Denoise 0.5-0.6、ステップ18-22、CFG 7.5
- ステージ3(磨き):Denoise 0.25-0.35、ステップ20-25、CFG 6.5-7
ステージの目的:
ステージ | ノイズ範囲 | 目的 | CFG | Denoise | ステップ |
---|---|---|---|---|---|
1(確立) | 100% → 40% | モーション確立、構図 | 8-9 | 1.0 | 12-20 |
2(洗練) | 40% → 15% | ディテール洗練、時間的修正 | 7-8 | 0.4-0.6 | 18-25 |
3(磨き) | 15% → 0% | 最終ディテール、アーティファクト除去 | 6-7 | 0.25-0.35 | 20-25 |
ステージ間のdenoise強度が最も重要なパラメータです。高すぎると前のステージの作業を破壊し、低すぎると十分な改善が得られません。
基本的な2ステージKSamplerワークフロー
2ステージワークフローは、最高の品質対時間比を提供し、シングルステージに比べて65%の時間増加で3ステージの恩恵の80%を提供します。
必要なノード:
- Load WAN Checkpoint and VAE
- Load Source Image
- VAE Encode(画像をlatentに変換)
- WAN Text Encode(プロンプトコンディショニング)
- First KSampler(確立ステージ)
- Second KSampler(洗練ステージ)
- VAE Decode(latentを画像に変換)
- VHS Video Combine(フレームを動画に結合)
ワークフロー構造:
Load WAN Checkpoint → model, vae
Load Image (source image) → image
↓
VAE Encode (vae, image) → latent
WAN Text Encode (positive prompt) → positive_cond
WAN Text Encode (negative prompt) → negative_cond
First KSampler (model, latent, positive_cond, negative_cond) → stage1_latent
↓
Second KSampler (model, stage1_latent, positive_cond, negative_cond) → final_latent
↓
VAE Decode (vae, final_latent) → frames
↓
VHS Video Combine → output_video
第1 KSamplerの設定(確立ステージ):
- steps:18(第2ステージより少ないステップ)
- cfg:8.5(強いプロンプトへの順守のために高い)
- sampler_name:dpmpp_2m または euler_a
- scheduler:karras
- denoise:1.0(latentからの完全な生成)
このステージはモーションパターンと全体の構図を確立します。高いCFGはアニメーションがプロンプトに忠実に従うことを保証します。
第2 KSamplerの設定(洗練ステージ):
- steps:25(より良い洗練のためにより多くのステップ)
- cfg:7.5(第1ステージより低い)
- sampler_name:dpmpp_2m(一貫性のために第1ステージと同じ)
- scheduler:karras
- denoise:0.45(重要なパラメータ - ステージ1を破壊せずに洗練)
このステージはステージ1の出力を受け取り、ディテールを洗練し、時間的問題を修正し、アニメーションを磨きます。
プロンプト設定:
両方のステージで同じプロンプトを使用します。各ステージの異なるパラメータ(CFG、denoise)が同じプロンプトから異なる品質を抽出します。
ポジティブプロンプトの例: "Woman walking through modern office, smooth camera following, natural movement, professional video, high quality, detailed, temporal consistency"
ネガティブプロンプト: "Blurry, distorted, flickering, temporal inconsistency, warping, artifacts, low quality, bad anatomy"
VAE DecodeとVideo出力:
第2 KSamplerが完了した後、すべてのlatentフレームを画像にデコードし、その後VHS Video Combineで動画に結合します:
- frame_rate:12(WANの標準)
- format:video/h264-mp4
- crf:18(高品質)
期待される結果:
25ステップのシングルKSamplerと比較して:
- モーション:フレーム間のより滑らかな遷移、ジッターの減少
- ディテール:より鮮明な顔の特徴、より良いテクスチャの保持
- 時間的:より一貫した背景、ワーピングの減少
- 処理時間:60-70%長い(シングルKSamplerが3分かかる場合、2ステージは5分)
設定のテスト:
シングルKSampler(25ステップ)と2ステージKSamplerで同じソース画像を並べて生成します。比較:
- フレーム間のキャラクターの顔の安定性
- 背景の一貫性(ワーピングを探す)
- モーションの滑らかさ(フレームごとの検査)
- 全体的な時間的一貫性
2ステージアプローチは4つの領域すべてで目に見える改善を示すはずです。
ワークフローをゼロから構築せずにマルチステージサンプリングを素早く実験するには、Apatero.comが事前構築された2ステージおよび3ステージのWANテンプレートを提供しており、画像をアップロードして最適化されたパラメータですぐに生成できます。
最高品質のための3ステージKSampler
ヒーローショット、クライアント納品物、または最高品質が長い処理を正当化するアーカイブコンテンツの場合、3ステージサンプリングは絶対的に最高の結果を提供します。
ワークフロー構造(2ステージを拡張):
Load WAN Checkpoint → model, vae
Load Image → VAE Encode → initial_latent
WAN Text Encode → positive_cond, negative_cond
First KSampler (establishment, denoise 1.0) → stage1_latent
↓
Second KSampler (development, denoise 0.55) → stage2_latent
↓
Third KSampler (polish, denoise 0.3) → final_latent
↓
VAE Decode → frames → VHS Video Combine
第1 KSampler(確立ステージ):
- steps:15(3ステージの中で最も少ないステップ)
- cfg:9.0(強固な基盤のために最も高いCFG)
- sampler:dpmpp_2m
- scheduler:karras
- denoise:1.0
目的:大まかなモーションブロッキング、基本的な構図確立。これを伝統的なアニメーションの「鉛筆スケッチ」ステージと考えてください。
第2 KSampler(発展ステージ):
- steps:22(中程度のステップ数)
- cfg:7.5(中程度のCFG)
- sampler:dpmpp_2m
- scheduler:karras
- denoise:0.55(ステージ1の中程度の洗練)
目的:主要な品質発展。時間的問題を修正し、ディテールを追加し、モーションを洗練します。これはアニメーションが本当にまとまる「クリーンアップ」ステージです。
第3 KSampler(磨きステージ):
- steps:28(最大洗練のための最も高いステップ数)
- cfg:6.5(過剰処理を避けるために最も低いCFG)
- sampler:dpmpp_2m または dpmpp_sde(わずかに高い品質のためにsde)
- scheduler:karras
- denoise:0.3(ステージ2の微妙な洗練)
目的:最終的な磨き。残りのアーティファクトを除去し、エッジを完璧にし、細かいディテールを強化します。これは「最終レンダリング」ステージです。
3ステージサンプリングはシングルステージの2〜2.2倍の時間がかかります:
- シングルステージ(25ステップ): RTX 3060で約3分
- 3ステージ(15+22+28ステップ): RTX 3060で約6.5分
- 品質が時間投資を正当化するコンテンツにのみ使用
ステージ間のパラメータ関係:
ステージ間の関係は慎重にバランスが取られています:
CFGの進行(9.0 → 7.5 → 6.5):過剰処理を避けるために各ステージで減少 ステップの進行(15 → 22 → 28):洗練により多くのステップが必要なため各ステージで増加 Denoiseの進行(1.0 → 0.55 → 0.3):各ステージが徐々に破壊的でない変更を行うため減少
複雑さをスキップしたいですか? Apatero は、技術的なセットアップなしでプロフェッショナルなAI結果を即座に提供します。
3ステージ vs 2ステージを使用するタイミング:
ユースケース | 推奨ステージ | 理由 |
---|---|---|
本番クライアント作業 | 3ステージ | 納品物のための最高品質 |
ソーシャルメディアコンテンツ | 2ステージ | 良い品質、妥当な時間 |
テスト/反復 | 2ステージ | 複数の試行に十分な速さ |
ヒーローショット/フラグシップ | 3ステージ | 品質が最優先 |
大量バッチ | 2ステージ | 時間効率が重要 |
複雑な詳細シーン | 3ステージ | 段階的洗練から最も恩恵を受ける |
シンプルなアニメーション | 2ステージ | シンプルなコンテンツには3ステージは過剰 |
ステージごとの品質向上:
体系的なテストに基づいて:
構成 | 品質スコア | 時間コスト |
---|---|---|
シングルステージ25ステップ | 7.8/10(ベースライン) | 1.0x |
2ステージ(18+25) | 8.9/10(+1.1) | 1.65x |
3ステージ(15+22+28) | 9.2/10(2ステージより+0.3) | 2.1x |
シングルから2ステージへのジャンプは、65%の時間増加で1.1ポイントの改善を提供します(優れたROI)。2ステージから3ステージへのジャンプは、45%の時間増加で0.3ポイントの改善を提供します(収穫逓減ですが、重要なコンテンツには価値あり)。
各ステージのパラメータ最適化
各ステージでパラメータを微調整することで、マルチステージワークフローから最大の品質を抽出します。以下は体系的な最適化ガイダンスです。
第1ステージの最適化(確立):
CFGスケールのチューニング:
- CFG 8.0:緩い解釈、より創造的なモーション
- CFG 8.5:バランス(推奨デフォルト)
- CFG 9.0:強いプロンプトへの順守、一貫したモーション
- CFG 9.5+:過度に制約するリスク、モーションが硬く見える可能性
テスト:CFG 8.0、8.5、9.0で同じアニメーションを生成します。モーションの自然さとプロンプトの正確さを評価します。ほとんどのコンテンツは8.5で最適に機能します。
ステップ数のチューニング:
- 12ステップ:速いが粗い確立
- 15ステップ:良いバランス
- 18ステップ:より良い基盤だが収穫逓減
- 20+ステップ:無駄(第2ステージがとにかく洗練する)
第1ステージは完璧さを必要とせず、第2ステージの洗練のための堅実な基盤だけが必要です。
サンプラーの選択:
- euler_a:最速、わずかに創造的/多様
- dpmpp_2m:最高の品質/速度バランス(推奨)
- dpmpp_sde:最高品質、より遅い
第1ステージには、dpmpp_2mが最適です。使用する場合は最終ステージのためにdpmpp_sdeを保存します。
第2ステージの最適化(洗練):
Denoise強度が重要なパラメータです:
Denoise | 効果 | 使用タイミング |
---|---|---|
0.35 | 最小限の変更、ステージ1を忠実に保持 | ステージ1の出力がすでに優れている |
0.4-0.45 | 中程度の洗練(推奨) | 標準ユースケース |
0.5-0.55 | 大幅な洗練 | ステージ1の出力が大幅な改善を必要とする |
0.6+ | 大きな変更、ステージ1を破壊する可能性 | ステージ1が失敗した場合の最後の手段 |
ほとんどのワークフローは、ステージ2のdenoise 0.4-0.45で最高のパフォーマンスを発揮します。ステージ2の出力がステージ1と非常に似ている場合は、denoiseを0.5に増やします。ステージ2がステージ1より悪く見える場合は、denoiseを0.35に減らします。
CFGスケールのチューニング:
- ステージ1より低い(通常7-7.5)
- モデルがプロンプトによって過度に制約されることなく問題を修正するより多くの自由を許可
- 高すぎる(8.5+)とステージ1が抱えていた問題を再導入する可能性
- 低すぎる(6.5-)と元のプロンプトの意図から逸れる可能性
ステップ数:
- ステージ1のステップ数と同等またはそれ以上である必要
- 一般的な範囲:20-28ステップ
- より複雑なアニメーションは高いステップ(25-28)から恩恵を受ける
- シンプルなアニメーションは20-22ステップで十分
第3ステージの最適化(磨き - 使用する場合):
Denoise強度:
- 範囲:0.25-0.35
- 予想よりも低い(ステージ2がすでに洗練されている)
- ほとんどのコンテンツで0.3が最適点
- 高い(0.4+)とステージ2の品質を低下させるリスク
- 低い(0.2-)と最小限の追加恩恵を提供
CFGスケール:
- すべてのステージの中で最も低い(6.5-7.0)
- 過剰処理アーティファクトを防ぐ
- 大胆な変更なしに微妙な磨きを可能にする
最終ステージのサンプラー:
- dpmpp_2m:安全で一貫した選択
- dpmpp_sde:わずかな品質向上、ヒーローショットには試す価値あり
- schedulerは一貫してkarrasを維持
ステップ:
- すべてのステージの中で最も高い(25-30)
- 磨きは拡張された洗練から恩恵を受ける
- 28ステップが推奨される最適点
A/Bテストプロトコル:
重要なプロジェクトでは、パラメータのバリエーションを体系的にテストします:
ベースライン:ステージ1(18ステップ、CFG 8.5)、ステージ2(25ステップ、CFG 7.5、denoise 0.45)
テストA:ステージ2のdenoiseを0.5に増やす テストB:ステージ2のステップを28に増やす テストC:ステージ2のCFGを7.0に調整 テストD:最良の個別結果の組み合わせ
同じソース画像とseedで4つすべてのテストを生成します。テスト全体で品質を比較して、特定のコンテンツタイプに最適な構成を特定します。
マルチステージワークフローのVRAM管理
マルチステージサンプリングは、同じコンテンツを複数回処理し、VRAM要件を倍増させます。最適化技術はOOMエラーを防ぎます。
VRAM使用量の内訳:
構成 | ベースVRAM | ピークVRAM | 安全なハードウェア |
---|---|---|---|
シングルステージ16フレーム512x512 | 9.2GB | 10.8GB | 12GB GPU |
2ステージ16フレーム512x512 | 10.1GB | 12.3GB | 16GB GPU |
3ステージ16フレーム512x512 | 10.8GB | 13.9GB | 16GB GPU |
2ステージ24フレーム512x512 | 12.8GB | 15.2GB | 16-20GB GPU |
2ステージ16フレーム768x768 | 15.4GB | 18.1GB | 20-24GB GPU |
12GB GPU向けの最適化技術:
技術1:タイル化VAE処理
タイル化VAEデコードを有効にして、動画フレームをタイルで処理します:
- VAEデコードのVRAMを40-50%削減
- わずかな品質のトレードオフ(通常知覚できない)
- 12GBでのマルチステージに不可欠
ComfyUI Tiled VAEノードをインストール:
cd ComfyUI/custom_nodes
git clone https://github.com/shiimizu/ComfyUI-TiledVAE.git
pip install -r ComfyUI-TiledVAE/requirements.txt
ワークフロー内の標準VAE DecodeをTiled VAE Decodeに置き換えます。
技術2:積極的なメモリクリーンアップ
サンプリングステージ間に「Empty Cache」ノードを追加:
First KSampler → Empty VRAM Cache → Second KSampler
ステージ間でVRAMクリーンアップを強制し、メモリの蓄積を防ぎます。
技術3:フレーム数の削減
16フレームクリップの代わりに12フレームクリップを生成:
- 約25%のVRAM削減
- クリップは短くなりますが、連結可能
- 複数の12フレームクリップを順次生成 vs 1つの16フレームクリップ
技術4:解像度管理
640x640や768x768にプッシュする代わりに512x512で処理:
- 512x512の2ステージは12GBに快適に収まる
- より高い解像度が必要な場合は、SeedVR2で最終動画をアップスケール
技術5:シングルステージへのフォールバック
2ステージで苦労する12GB GPUの場合:
- フォールバックとして最適化されたパラメータでシングルステージを使用
- シングルステージのステップを30-35に増やす
- 補償するためのポストプロセッシングを追加(時間的平滑化、アップスケーリング)
24GB以上のGPU向け:
十分なVRAMがある場合、メモリの代わりに速度と品質を最適化します:
より高い解像度:768x768またはさらに896x896で生成 より長いクリップ:単一の生成で24-32フレーム バッチ処理:複数のバリエーションを同時に生成 品質サンプラー:最高品質のために全体でdpmpp_sdeを使用
生成中のVRAMモニタリング:
リアルタイムでVRAM使用量を監視:
- Windows:タスクマネージャー → パフォーマンス → GPU
- Linux:ターミナルで
nvidia-smi
コマンド - 使用量が容量の90-95%に近づく場合は、パラメータを減らす
VRAM使用量はステージ遷移中にピークに達します(ステージNの出力とステージN+1の処理の両方がメモリにある場合)。ほとんどのOOMエラーは、定常状態のサンプリング中ではなく、これらの遷移で発生します。
本番ワークフローとバッチ処理
本番用のマルチステージワークフローを体系化することで、一貫した品質で大量生成が可能になります。
本番ワークフローテンプレート:
フェーズ1:ソース画像の準備
- ソース画像を準備(一貫した解像度、適切なフレーミング)
- source_images/ディレクトリに整理
- 説明的に命名(character_01_pose1.png、product_A_angle1.png)
フェーズ2:ワークフロー設定
- 2ステージまたは3ステージテンプレートワークフローをロード
- プロジェクト要件に合わせてパラメータを設定
- 2-3のサンプル画像でテスト
- 動作する設定を文書化
フェーズ3:バッチ生成
- 最初のソース画像をロード
- アニメーションを生成
- 説明的な名前で保存(ソース画像の命名に一致)
- 次のソース画像をロード
- すべてのソースに対して繰り返し
フェーズ4:品質管理
- 生成されたすべてのアニメーションをレビュー
- 再生成が必要なアニメーションにフラグを立てる
- 問題を文書化(時間的アーティファクト、ディテール損失など)
- 調整されたパラメータでフラグが立てられたアニメーションを再生成
フェーズ5:ポストプロセッシング
- すべてのアニメーションに一貫したカラーグレーディングを適用
- 必要に応じてアップスケール
- 該当する場合はオーディオ同期を追加
- 必要なフォーマットでエクスポート
ComfyUI APIでの自動化:
大量生産の場合、バッチ処理を自動化:
import requests
import json
import glob
def generate_multi_stage_animation(source_image, output_name, config):
workflow = load_workflow_template("wan_two_stage.json")
# Update workflow with source image and config
workflow["load_image"]["inputs"]["image"] = source_image
workflow["first_ksampler"]["inputs"]["steps"] = config["stage1_steps"]
workflow["first_ksampler"]["inputs"]["cfg"] = config["stage1_cfg"]
workflow["second_ksampler"]["inputs"]["steps"] = config["stage2_steps"]
workflow["second_ksampler"]["inputs"]["cfg"] = config["stage2_cfg"]
workflow["second_ksampler"]["inputs"]["denoise"] = config["stage2_denoise"]
workflow["save_video"]["inputs"]["filename_prefix"] = output_name
# Submit to ComfyUI
response = requests.post(
"http://localhost:8188/prompt",
json={"prompt": workflow}
)
return response.json()
# Batch process
source_images = glob.glob("source_images/*.png")
config = {
"stage1_steps": 18,
"stage1_cfg": 8.5,
"stage2_steps": 25,
"stage2_cfg": 7.5,
"stage2_denoise": 0.45
}
for i, image in enumerate(source_images):
output_name = f"animation_{i:03d}"
print(f"Generating {output_name} from {image}")
generate_multi_stage_animation(image, output_name, config)
print(f"Completed {i+1}/{len(source_images)}")
このスクリプトは、一晩ですべてのソース画像を自動的に処理し、一貫したマルチステージアニメーションを生成します。
本番タイムライン見積もり:
512x512で2ステージサンプリングで16フレームアニメーションを生成する20のソース画像の場合:
フェーズ | 時間 | 備考 |
---|---|---|
ソース準備 | 1時間 | クロップ、リネーム、整理 |
ワークフロー設定 | 30分 | テストとパラメータチューニング |
バッチ生成 | 100分 | アニメーションあたり5分 × 20画像 |
品質管理 | 45分 | レビューと問題のフラグ立て |
再生成(20%) | 20分 | 再生成が必要な4アニメーション |
ポストプロセッシング | 90分 | グレーディング、アップスケーリング、エクスポート |
合計 | 5.5時間 | エンドツーエンド本番 |
自動化により、ハンズオン時間が大幅に削減されます(セットアップ30分、その後バッチが無人で実行)。
チーム協力ワークフロー:
複数のチームメンバーを持つスタジオの場合:
アーティストA:ソース画像を準備、フレーミングガイドラインを文書化 アーティストB:ワークフローパラメータを設定およびテスト 技術担当:夜間/オフアワーにバッチ生成を実行 アーティストC:品質管理レビュー、問題にフラグを立てる 技術担当:フラグが立てられたアニメーションを再生成 アーティストD:ポストプロセッシングと最終エクスポート
並列ワークフローは、総人時間が増加しても暦上の時間を劇的に削減します。
大量のWAN本番を管理する代理店向けに、Apatero.comは、共有ワークフローテンプレート、バッチキュー管理、自動品質チェックのためのチーム機能を提供し、チーム全体でマルチステージ本番を効率化します。
マルチステージワークフローのトラブルシューティング
マルチステージワークフローは、ステージ固有の失敗モードを導入します。問題を迅速に認識して修正することが不可欠です。
問題:ステージ2の出力がステージ1より悪く見える
第2 KSamplerが品質を改善する代わりに低下させる。
原因と修正:
- Denoiseが高すぎる:0.5から0.35-0.4に減らす
- CFGが高すぎる:ステージ2のCFGを8から7-7.5に減らす
- ステップが少なすぎる:ステージ2のステップを20から25-28に増やす
- サンプラーの不一致:両方のステージが同じサンプラー(dpmpp_2m)を使用することを確認
- プロンプトの競合:両方のステージで同じプロンプトが使用されていることを確認
問題:ステージ2からの目に見える改善がない
第2ステージの出力が第1ステージとほぼ同一に見える。
修正:
- Denoiseが低すぎる:0.35から0.45-0.5に増やす
- ステップが少なすぎる:ステージ2のステップを25-30に増やす
- CFGが低すぎる:ステージ2のCFGを6.5から7-7.5に増やす
- 第1ステージが良すぎる:ステージ1がすでに優れている場合、ステージ2が改善する余地が少ない
問題:ステージ遷移中にCUDAメモリ不足
ステージ1からステージ2に移動する際に特にOOMエラー。
優先順位の修正:
- ステージ間にEmpty Cacheノードを追加
- デコードステップでTiled VAEを有効化
- フレーム数を削減:16から12に
- 解像度を削減:768から512に
- 3ステージの代わりに2ステージを使用
問題:後のステージで時間的フリッカーが増加
アニメーションがステージ2または3でより滑らかになる代わりに、よりフリッカーする。
原因:
- Denoiseが高すぎる:前のステージからの時間的一貫性を破壊
- ステージ間で異なるスケジューラー:すべてのステージでkarrasを使用
- CFGが極端すぎる:非常に高いまたは非常に低いCFGは時間的問題を引き起こす
- ステップが少なすぎる:問題のあるステージでステップを増やす
修正:denoiseを0.1減らす、スケジューラーの一貫性を確保、CFGを7-8の範囲に調整。
問題:処理が非常に遅い
マルチステージ生成が期待の3-4倍の時間がかかる。
原因:
- 総ステップ数が多すぎる:15+25+30 = 70総ステップは過剰
- 高解像度:768x768以上は大幅に遅い
- CPUボトルネック:生成中のCPU使用率を確認
- 他のGPUプロセス:ブラウザ、他のAIツールを閉じる
最適化:総ステップを50-55に削減(例:15+22+15)、512x512で処理、GPUが完全に活用されていることを確認。
問題:ステージ3がステージ2にないアーティファクトを導入
3ステージワークフローが最終ステージでアーティファクトを生成。
原因:
- ステージ3のdenoiseが高すぎる:0.25-0.35であるべきで、0.4+ではない
- ステージ3のCFGが高すぎる:6.5-7であるべきで、7.5+ではない
- 過剰処理:総ステップ数が多すぎるとモデルがディテールを幻覚する
修正:保守的なステージ3パラメータを使用(denoise 0.3、CFG 6.5、ステップ25)。3ステージが必要かどうか、または2ステージがコンテンツタイプに対してより良い結果を生み出すかどうかを検討。
問題:アニメーションが過剰処理または「AI的」に見える
出力品質は技術的に高いが、不自然または合成的に見える。
原因:
- すべてのステージでCFGが高すぎる:各ステージでCFGを0.5-1.0減らす
- 洗練パスが多すぎる:3ステージは過剰かもしれない
- プロンプトが詳細すぎる:過剰指定は人工的な外観を作成
修正:CFGを下げる(ステージ1で8.5→7.5、ステージ2で7.5→6.5)、3ステージの代わりに2ステージを試す、プロンプトをわずかに単純化。
最終的な考察
WAN 2.2のマルチステージKSamplerワークフローは、アクセス可能なAI動画品質の大きな進化を表しています。この技術は概念的にシンプル(減少するdenoiseで複数のKSamplerを順次実行)ですが、出力を「良い」から「プロフェッショナル」に引き上げる測定可能で一貫した品質改善を生み出します。
トレードオフは処理時間です。2ステージは生成時間を65%追加し、3ステージは110%追加します。反復テストと大量バッチ作業の場合、シングルステージが実用的なままです。クライアント納品物、ヒーローコンテンツ、アーカイブフラグシップ作品の場合、マルチステージワークフローは目に見えて優れた品質で時間投資を正当化します。
ほとんどの本番作業の最適点は、最適化されたパラメータ(ステージ1で18ステップ、ステージ2で25ステップ、ステージ間でdenoise 0.45)での2ステージサンプリングです。この構成は、妥当な処理時間オーバーヘッドで最高品質改善の80%以上を提供します。時間コストに関係なく絶対的な最高品質が不可欠なコンテンツの10-20%には3ステージを予約します。
このガイドの技術は、基本的な2ステージセットアップから高度な3ステージ最適化および本番バッチワークフローまですべてをカバーしています。サンプルコンテンツで2ステージ実装から始めて、ステージ2のdenoiseが品質にどのように影響するかを内面化します。パラメータのバリエーションを実験して、品質対処理時間のトレードオフの直感を養います。2ステージを習得し、追加の洗練パスから恩恵を受けるコンテンツを特定した後にのみ、3ステージに進みます。
マルチステージワークフローをローカルで構築するか、Apatero.comを使用するか(コンテンツタイプに基づいた自動パラメータ調整を備えた事前最適化された2ステージおよび3ステージテンプレートがあります)、マルチKSampler技術をマスターすることで、WAN 2.2動画生成を有能なものから例外的なものに引き上げます。AI動画生成が実験的なコンテンツから、出力品質が商業的実行可能性に直接影響するプロフェッショナルな本番ワークフローに移行するにつれて、その品質の違いはますます重要になります。
ComfyUIをマスター - 基礎から上級まで
完全なComfyUI基礎コースに参加して、基本から高度なテクニックまですべてを学びましょう。買い切りで生涯アクセス、すべての新しいモデルと機能の更新付き。
関連記事

ComfyUI初心者が陥る10の最も一般的な間違いとその修正方法 2025年版
新規ユーザーを悩ませるComfyUI初心者の10の落とし穴を回避しましょう。VRAMエラー、モデル読み込み問題、ワークフローの問題に対する解決策を含む完全なトラブルシューティングガイド。

Anisora v3.2で360度アニメ回転:ComfyUI完全キャラクター回転ガイド2025
ComfyUIでAnisora v3.2を使用して360度アニメキャラクター回転をマスターしましょう。カメラ軌道ワークフロー、マルチビュー一貫性、プロフェッショナルなターンアラウンドアニメーション技術を学びます。

標準搭載されるべき7つのComfyUIカスタムノード(入手方法付き)
2025年にすべてのユーザーが必要とする必須のComfyUIカスタムノード。WAS Node Suite、Impact Pack、IPAdapter Plusなど、画期的なノードの完全インストールガイド。