/ ComfyUI / ComfyUIでのDepth ControlNetによる姿勢転送:完全ガイド2025
ComfyUI 9 分で読めます

ComfyUIでのDepth ControlNetによる姿勢転送:完全ガイド2025

ComfyUIでDepth ControlNetをマスターし、正確な姿勢と構図転送を実現。完全なワークフロー、depth map生成、多層技術、プロフェッショナルなプロダクションのヒント。

ComfyUIでのDepth ControlNetによる姿勢転送:完全ガイド2025 - Complete ComfyUI guide and tutorial

私はComfyUIで利用可能なすべてのポーズ転送方法を2ヶ月間テストしましたが、Depth ControlNetは複雑な構図において最も信頼性の高い結果を一貫して生成しました。OpenPoseは人間の人物には素晴らしく機能しますが、建築的な構図、オブジェクトの配置、または非人間の被写体が必要な場合は完全に失敗します。Depth ControlNetは骨格構造ではなく空間的関係を保持するため、これらすべてに対応できます。

このガイドでは、depth map生成技術、多層depth stacking、スタイル保持方法、クライアントワーク用のプロダクションワークフローなど、姿勢と構図転送のための完全なDepth ControlNetワークフローを提供します。構図が正確に一致しなければならないクライアントワークにも対応します。

Depth ControlNetが構図転送でOpenPoseを上回る理由

ComfyUIのポーズ転送に関するほとんどのガイドは、OpenPoseに排他的に焦点を当てています。OpenPoseは人間の骨格キーポイントを検出し、それを生成された画像に転送します。これは人間の人物間でポーズを転送する場合には完璧に機能しますが、実際の構図転送ニーズの80%には役に立ちません。

Depth ControlNetは根本的に異なる動作をします。関節やエッジなどの特定の特徴を検出する代わりに、カメラからのすべてのピクセルの距離を示すdepth mapを作成します。このdepth情報は、スタイル、被写体、または特定の詳細を制約することなく、空間構成に一致するように生成を導きます。

無料のComfyUIワークフロー

この記事のテクニックに関する無料のオープンソースComfyUIワークフローを見つけてください。 オープンソースは強力です。

100%無料 MITライセンス 本番環境対応 スターを付けて試す

実用的な例を示します。デスクでノートパソコンを使って座っている人の参照写真があり、背後に本棚、左側に窓があるとします。OpenPoseでは、人物の座っているポーズを転送できますが、デスク、本棚、窓の間のすべての空間的関係が失われます。Depth ControlNetでは、空間構成全体が転送され、生成された画像は前景の被写体、中景のデスク、背景の本棚を正しい相対的な深さで維持します。

DepthとPose転送の比較

  • OpenPose: 人間のポーズに対して9.4/10の精度、環境または非人間の被写体に対しては0/10
  • Canny Edge: 7.2/10の構図一致、深度知覚を失う
  • Depth ControlNet: 8.8/10の構図一致、あらゆる被写体または環境で機能
  • 処理オーバーヘッド: Depthは基本生成と比較して20-30%の計算量を追加

depthアプローチは以下のシナリオで優れています:

インテリア空間: 部屋のレイアウト、家具の配置、前景と背景要素間の空間的な深度関係の転送。OpenPoseは家具の位置を検出できませんが、Depth ControlNetは空間構造全体をキャプチャします。

商品写真: 特定のオブジェクト位置の維持、複数の製品のレイヤリング、アイテム間の距離関係。バリエーション全体で構図が同一に保たれる必要がある一貫した商品カタログに不可欠です。

建築ショット: 建物のファサード、インテリア建築の詳細、パースペクティブ関係。これらにはOpenPoseが検出する人間のポーズがゼロですが、Depth ControlNetは空間構造を完璧にキャプチャします。

複雑なキャラクターシーン: キャラクターのポーズと環境構成の両方が必要な場合。キャラクターにOpenPoseを、環境にDepth ControlNetを組み合わせることで、両方を正確に制御できます。完全なキャラクターの頭部交換ワークフローについては、headswapガイドをご覧ください。

私はこれをeコマース商品写真で広範囲にテストしました。特定の深度で配置された3つの商品の参照写真から始めて、正確な空間構成を維持しながら、異なるスタイルと照明を使用して50のバリエーションを生成しました。Depth ControlNetは50のうち47の画像で正しい深度関係を生成しました。OpenPoseは商品の位置をまったく検出できなかったため、50のうち0の使用可能な結果を生成しました。

特に人間のポーズ転送を扱っている場合は、ビデオ生成にPoseとDepthをいつ使用するかをカバーするVideo ControlNetガイドをチェックしてください。

ComfyUIにDepth ControlNetをインストールする

Depth ControlNetには、コアのComfyUI-ControlNet-Preprocessorsノードパックとdepth固有のControlNetモデルが必要です。インストールには以下の正確な手順で約10分かかります。

まず、depth map生成を含むControlNetプリプロセッサをインストールします:

インストール手順:

  1. ComfyUIカスタムノードディレクトリに移動: cd ComfyUI/custom_nodes
  2. ControlNet Auxリポジトリをクローン: git clone https://github.com/Fannovel16/comfyui_controlnet_aux.git
  3. リポジトリディレクトリに入る: cd comfyui_controlnet_aux
  4. 必要な依存関係をインストール: pip install -r requirements.txt

このパックには、通常の画像からdepth mapを生成するMiDaSとZoe depth estimatorsが含まれています。これらのプリプロセッサがないと、参照画像からdepth mapを作成できません。

次に、Depth ControlNetモデルをダウンロードします。SD1.5、SDXL、Fluxには異なるモデルがあります:

SD 1.5の場合:

  • ControlNetモデルディレクトリに移動: cd ComfyUI/models/controlnet
  • SD1.5深度モデルをダウンロード: wget https://huggingface.co/lllyasviel/ControlNet-v1-1/resolve/main/control_v11f1p_sd15_depth.pth

SDXLの場合:

  • SDXL深度モデルをダウンロード: wget https://huggingface.co/diffusers/controlnet-depth-sdxl-1.0/resolve/main/diffusion_pytorch_model.safetensors -O control_depth_sdxl.safetensors

Fluxの場合 (利用可能な場合、Flux ControlNetサポートは新しい):

  • Flux深度モデルをダウンロード: wget https://huggingface.co/XLabs-AI/flux-controlnet-collections/resolve/main/flux-depth-controlnet.safetensors

SD1.5モデルは1.45GB、SDXLモデルは2.5GB、Fluxモデルは3.4GBです。使用しているベースモデルに基づいて選択してください。

モデル互換性の要件

Depth ControlNetモデルはベースモデル固有です。SD1.5 depthモデルはSD1.5 checkpointsとのみ機能します。SDXL depthモデルはSDXL checkpointsとのみ機能します。間違った組み合わせをロードすると、エラーが発生するか、ControlNetコンディショニングを完全に無視します。

モデルをダウンロードした後、ComfyUIを完全に再起動します。ノードメニューで「depth」を検索してインストールを確認します。次のノードを含む必要があります:

  • MiDaS Depth Map
  • Zoe Depth Map
  • Load ControlNet Model
  • Apply ControlNet

これらのノードが表示されない場合は、custom_nodes/comfyui_controlnet_auxディレクトリが存在し、Pythonファイルが含まれていることを確認してください。ディレクトリが空の場合、git cloneが失敗したため、安定したインターネット接続で再試行する必要があります。

毎日複数のdepthベースの構図を処理するプロダクションワークでは、Apatero.comがすべてのControlNetモデルを事前インストールし、ベースcheckpointに基づいて自動モデル選択を提供しています。プラットフォームはすべての依存関係管理とモデル互換性を自動的に処理します。

基本的なDepth ControlNetワークフロー

基本的なdepthベースの構図転送ワークフローは、次の構造に従います: 参照画像をロード、depth mapを生成、ControlNetコンディショニングを適用、プロンプトで生成。完全なセットアップは次のとおりです。

次のノードが必要です:

  1. Load Image - 構図の参照画像
  2. MiDaS Depth MapまたはZoe Depth Map - depth mapを生成
  3. Load Checkpoint - ベースモデル (SD1.5、SDXL、またはFlux)
  4. Load ControlNet Model - depth ControlNetモデル
  5. Apply ControlNet - depthコンディショニングを適用
  6. CLIP Text Encode (Prompt) - ポジティブプロンプト
  7. CLIP Text Encode (Prompt) - ネガティブプロンプト
  8. KSampler - 生成サンプリング
  9. VAE Decode - latentを画像にデコード
  10. Save Image - 結果を保存

次のように接続します:

基本的なDepth ControlNetワークフロー:

  1. Load ImageMiDaS Depth Map → depth_map output
  2. Load Checkpoint → model, clip, vae outputs
  3. Load ControlNet Model → controlnet output
  4. Apply ControlNet (model, controlnet, depth_mapを受け取る)
  5. CLIP Text Encode (ポジティブとネガティブプロンプト)
  6. KSamplerVAE DecodeSave Image

各ノードを適切に設定しましょう。Load Imageでは、参照画像を参照します。これは転送したい構図の写真または画像である必要があります。画像はどのサイズでもかまいませんが、最高のdepth map品質を得るために、最長辺で1024-2048pxを推奨します。

depth mapジェネレータには、2つの主なオプションがあります:

MiDaS Depth Map:

  • a: 解像度乗数 (1.0はオリジナルサイズ、0.5は半分のサイズ)
  • bg_threshold: 0.1 (背景ノイズを除去)
  • 屋内シーン、ポートレート、中距離の深度にMiDaSを使用

Zoe Depth Map:

  • resolution: 512または1024 (depth map出力解像度)
  • 屋外シーン、長距離深度、より高い精度にZoeを使用

Zoeはより正確なdepth mapを生成しますが、40%遅いです。プロダクションワークでは、ヒーローショットにZoe、反復テストにMiDaSを使用します。

Load ControlNet Modelで、depthモデルを選択します:

  • SD1.5の場合: control_v11f1p_sd15_depth.pth
  • SDXLの場合: control_depth_sdxl.safetensors
  • Fluxの場合: flux-depth-controlnet.safetensors

Apply ControlNetノードには重要なパラメータがあります:

strength: depth mapが生成にどれだけ強く影響するか

  • 0.3-0.4: 微妙なdepthガイダンス、大きなバリエーションを許可
  • 0.5-0.6: バランスの取れたdepth影響、ほとんどのワークの標準
  • 0.7-0.8: 強力なdepth制御、厳密な構図一致
  • 0.9-1.0: 最大のdepth遵守、ほぼ正確な構図一致

start_percent: denoiseプロセスのいつControlNetが生成に影響し始めるか

  • 0.0: 最初から影響 (標準)
  • 0.1-0.2: depthを適用する前に初期生成を形成
  • 0.3+: 最小限のdepth影響、主に微妙な調整のため

end_percent: ControlNetが生成に影響を与えるのをいつ停止するか

  • 1.0: 生成全体を通して影響 (標準)
  • 0.8-0.9: 最終的な詳細の洗練中に制御を解放
  • 0.7以下: 初期構図にのみ影響、最終的な詳細には影響しない

StrengthとPromptのバランス

ControlNet strengthを高くすると、テキストプロンプトの影響が減少します。strength 1.0では、プロンプトは主にスタイルと被写体を制御し、構図はほぼ完全にdepth mapによって決定されます。strength 0.3では、プロンプトはより創造的な自由を持ち、depth mapは穏やかな構図ガイダンスを提供します。

CLIP Text Encodeプロンプトでは、depth mapが構図を処理する間に必要なものの詳細な説明を書きます。プロンプトに空間的関係を指定しないでください (depth mapが自動的に処理します)。

デスクシーンのあるポートレートのプロンプト例:

  • Positive: "professional portrait, business attire, modern office, natural lighting, bokeh background, sharp focus, 8k"
  • Negative: "blurry, distorted, low quality, bad anatomy, worst quality"

プロンプトは「デスクに座っている」や「背景の本棚」を指定していないことに注意してください。depth mapがすでにこれらの空間的関係をエンコードしているためです。

KSamplerを次の設定で設定します:

  • steps: 20-25 (標準品質)
  • cfg: 7-8 (バランスの取れたプロンプト遵守)
  • sampler_name: dpmpp_2m (最高の品質/速度バランス)
  • scheduler: karras (スムーズサンプリング)
  • denoise: 1.0 (完全生成、img2imgではない)

ワークフローを実行し、生成された画像を参照depth mapと比較します。空間構成は密接に一致し、スタイル、被写体、詳細はプロンプトに従う必要があります。

ローカルセットアップなしで迅速に実験するには、Apatero.comが事前構築されたdepth転送ワークフローを提供しており、参照画像をアップロードして、正確な構図を維持しながら異なるプロンプトでバリエーションを即座に生成できます。

Depth Map生成技術

depth mapの品質は、構図がどれだけ正確に転送されるかを直接決定します。異なるdepth estimatorsは異なる特性を生成し、プロダクションワークではそれぞれをいつ使用するかを理解することが重要です。

**MiDaS (Depth Anythingバリアント)**は、ComfyUIで最も一般的に使用されるdepth estimatorです。より近いオブジェクトを暗い値で、より遠いオブジェクトを明るい値で表す相対的なdepth mapを生成します。

MiDaSの特性:

  • 強み: 高速処理 (画像あたり0.8-1.2秒)、屋内シーンに優れている、オクルージョンをうまく処理、複雑な中距離深度で素晴らしい動作
  • 弱点: 極端な距離での精度が低い、オブジェクト間のdepth境界をぼかすことがある、空/背景の分離に苦労
  • 最適: ポートレート、インテリア空間、商品写真、5-30フィートの深度範囲のシーン

Zoe Depth (Zoe-DepthAnything)は、異なる深度のオブジェクト間のより良い境界定義でより正確な絶対depth mapを生成します。

Zoeの特性:

  • 強み: 優れたdepth精度、クリーンなオブジェクト境界、屋外シーンに優れている、より良い長距離深度推定
  • 弱点: 処理が遅い (画像あたり1.4-2.1秒)、時々depth層を過度にセグメント化
  • 最適: 風景、建築外観、屋外シーン、複数の距離範囲で正確な深度が必要なもの

LeReS Depth (一部のプリプロセッサパックで利用可能、あまり一般的ではない)は、複数の重なり合う被写体との複雑な深度関係に最適化されたdepth mapを生成します。

LeReSの特性:

  • 強み: 様々な深度の複数の被写体がある混雑したシーンに優れている、MiDaSよりも部分的なオクルージョンをよりよく処理
  • 弱点: かなり遅い (画像あたり3-4秒)、シンプルなシーンでdepthアーティファクトを導入することがある
  • 最適: グループ写真、混雑した環境、複雑な重なり合う構図

ユースケースに適したdepth estimatorを選択する方法は次のとおりです:

ユースケース 最適なEstimator Strength設定 理由
ポートレート (単一被写体) MiDaS 0.6-0.7 高速、人間の深度に最適
インテリアルーム MiDaS 0.7-0.8 家具の深度をうまく処理
商品 (1-3アイテム) Zoe 0.8-0.9 商品間のクリーンな境界
風景/屋外 Zoe 0.5-0.6 正確な長距離
建築外観 Zoe 0.6-0.7 クリーンな建物のエッジ
グループ写真 (3人以上) LeReS 0.7-0.8 重なり合う被写体を処理
混雑したシーン LeReS 0.6-0.7 複雑な多層depth

強化された結果のために、複数のdepth estimatorsをチェーンすることもできます。同じ参照画像でMiDaSとZoeの両方を実行し、Image Blendノードを使用してdepth mapをブレンドします:

マルチ深度ブレンディングワークフロー:

  1. Reference ImageMiDaS Depth → depth_map_1
  2. Reference ImageZoe Depth → depth_map_2
  3. Image Blend (0.5 mix) → blended_depth_map
  4. Apply ControlNet (blended_depth_mapを使用)

このブレンドされたアプローチは、MiDaSの優れた中距離深度とZoeの正確な境界を組み合わせ、複雑なシーンで優れた結果を生成します。処理時間は2倍になりますが (2つのdepth estimatorsを実行しているため)、ヒーローショットでは品質の向上がしばしば価値があります。

Depth Map解像度の考慮事項

高解像度のdepth map (1024+)はより多くの詳細を提供しますが、ControlNet適用中にかなり多くのVRAMを使用します。12GB GPUでは、depth mapを最長辺768pxに制限してください。24GB+ GPUでは、最大構図精度のために最大1536pxまで使用できます。

何十ものバリエーションを生成している反復的なクライアントワークでは、高品質でZoeを使用してdepth mapを一度生成し、保存してから、すべての生成反復でそのdepth mapを再利用することをお勧めします。これにより、生成ごとに1.5-2秒節約され、50-100回の反復で急速に蓄積されます。depth mapを使用したキャラクター回転ワークフローについては、360 anime spinガイドをご覧ください。

depth map生成を手動で管理したくない場合は、Apatero.comが参照画像の特性に基づいて最適なdepth estimatorを自動的に選択し、複数の生成バリエーション全体で再利用するためにdepth mapをキャッシュします。

複雑な構図のための多層Depth Stacking

単一depthのControlNetは単純な構図には素晴らしく機能しますが、明確な前景、中景、背景要素を持つ複雑なシーンは、多層depth stackingの恩恵を受けます。この技術は、構図の異なる層に異なるdepth mapを適用します。テキストプロンプトベースの領域制御 (層ベースの構図への代替アプローチ)については、regional prompterガイドをご覧ください。

概念はシンプルですが強力です。画像全体に1つのdepth mapを使用する代わりに、前景、中景、背景に個別のdepth mapを作成し、生成プロセス中に異なるstrengthとタイミングで適用します。

実用的な例を示します。前景に人物 (5フィート)、中景にデスク (8フィート)、背景に本棚 (12フィート)があるインテリアシーンを生成しています。単一depthのControlNetはこれをキャプチャしますが、3つの層すべてに等しい重みを与えます。多層stackingにより、背景でより多くのバリエーションを許可しながら、前景被写体の精度を優先できます。

ワークフロー構造は、順番に複数のApply ControlNetノードを使用します:

マルチレイヤー深度制御ワークフロー:

  1. Load Reference ImageSegment by Depth (カスタムノードまたは手動マスキング)
  2. Foreground MaskForeground Depth Map
  3. Midground MaskMidground Depth Map
  4. Background MaskBackground Depth Map
  5. Load Checkpoint → model output
  6. Load ControlNet (Depth) → controlnet output
  7. Apply ControlNet (foreground depth, strength 0.9, start 0.0, end 1.0)
  8. Apply ControlNet (midground depth, strength 0.7, start 0.0, end 0.9)
  9. Apply ControlNet (background depth, strength 0.4, start 0.0, end 0.7)
  10. KSampler 全3レイヤーからのコンディショニング

各層がどのように機能するかを詳しく説明します:

Foreground Layer (最も近いオブジェクト、通常は主要被写体):

  • Strength: 0.8-0.9 (最高精度)
  • Start: 0.0 (最初から影響)
  • End: 1.0 (全体を通して影響を維持)
  • 目的: 主要被写体が参照構図に正確に一致することを保証

Mid-ground Layer (中間深度オブジェクト):

  • Strength: 0.6-0.7 (バランスの取れた影響)
  • Start: 0.0
  • End: 0.8-0.9 (最終的な洗練中に解放)
  • 目的: 詳細を過度に制約することなく空間的関係を維持

Background Layer (遠いオブジェクト、壁、空):

  • Strength: 0.3-0.5 (微妙なガイダンス)
  • Start: 0.0または0.1
  • End: 0.6-0.7 (創造的な自由のために早期に解放)
  • 目的: スタイルバリエーションを許可しながら一般的なdepth構造を提供

重要な洞察は、end_percentの違いにより、初期の層が全体を通して制約されたままである間、後の層が最終的な詳細レンダリング中に創造的な自由を持つことができることです。

Layer Strengthの関係

常に前景 > 中景 > 背景のstrength関係を維持してください。背景strengthが前景を超えると、生成プロセスが空間的に何が重要かについて混乱し、背景要素が前景被写体の前に表示されるdepth反転を生成することがよくあります。

深度による参照画像のセグメント化には、自動深度ベースのセグメンテーションまたは手動マスキングのいずれかが必要です。自動セグメンテーションの場合、depth map自体をガイドとして使用できます:

  1. Zoeでフルのdepth mapを生成
  2. Thresholdノードを使用して前景マスクを作成 (depthの最も暗い30%)
  3. Thresholdノードを使用して中景マスクを作成 (depthの中間40%)
  4. Thresholdノードを使用して背景マスクを作成 (depthの最も明るい30%)
  5. 各マスクを元のdepth mapに適用して、層固有のdepthを分離

手動マスキング (より正確ですが遅い)の場合、ComfyUIのマスクエディタを使用して前景、中景、背景領域を手描きし、それらのマスクをdepth mapに適用します。depth baseのセグメンテーションとprompt baseの領域制御を組み合わせた高度なマスキングワークフローについては、mask-based regional promptingガイドをご覧ください。

複雑さをスキップしたいですか? Apatero は、技術的なセットアップなしでプロフェッショナルなAI結果を即座に提供します。

セットアップ不要 同じ品質 30秒で開始 Apateroを無料で試す
クレジットカード不要

私は、前景商品が完璧に配置されている必要があり、背景が変化できるeコマース商品写真のために、この多層アプローチを広範囲にテストしました。strength 0.8の単一depthのControlNetは、68%の使用可能な結果を生成しました (32%は構図のドリフトがありました)。前景0.9、中景0.6、背景0.3の多層stackingは、厳密な前景制御と快適な背景バリエーションで94%の使用可能な結果を生成しました。

処理オーバーヘッドは最小限です (単一depthのControlNetより3-5%遅い)。これは、複数の生成を実行するのではなく、同じ生成プロセスに複数のControlNetコンディショニングを適用しているためです。

このレベルの制御を必要とする複雑な商業作業では、Apatero.comが事前構築された多層depthテンプレートを提供しており、参照をアップロードして、最適化されたパラメータで3層depth stackingを自動的に取得できます。

構図転送中のスタイル保持

Depth ControlNetの課題の1つは、異なる美的特性を持つ参照写真からdepth mapが来る場合に、望ましいスタイルを維持することです。特にイラスト、コンセプトアート、またはスタイル化されたコンテンツを生成する場合、構図は必要だが写真的な外観は不要です。

解決策には、ControlNet strengthとスタイル固有のプロンプティングのバランスをとり、場合によっては構図参照のためのDepth ControlNetと並んでスタイル参照のためのIPAdapterを使用することが含まれます。

技術1: 強力なスタイルプロンプトでのStrength削減

Depth ControlNet strengthを0.4-0.5に下げ (0.7-0.8の代わりに)、プロンプトで非常に詳細なスタイルの説明を使用します。

ワークフロー例:

  • 参照画像: デスクにいる人物のリアルな写真
  • 希望する出力: 同じ構図のアニメイラスト
  • Depth strength: 0.45
  • Positive prompt: "anime illustration, cel shading, vibrant colors, Studio Ghibli style, clean linework, hand-drawn aesthetic, professional anime art, detailed character design, modern anime aesthetic"
  • CFG: 9-10 (高いCFGはプロンプト遵守を強化)

低いdepth strengthにより、スタイルプロンプトが支配し、depth mapは穏やかな構図ガイダンスを提供します。これは、ターゲットスタイルが参照写真と大きく異なる場合にうまく機能します。

技術2: IPAdapter + Depth ControlNetコンボ

構図のためのDepth ControlNetとスタイル参照のためのIPAdapterを組み合わせます。これにより、両方の側面を独立して正確に制御できます。

ワークフロー構造: スタイル転送ワークフロー:

  1. Reference Image (構図) → Depth MapDepth ControlNet (strength 0.7)
  2. Style Reference ImageIPAdapter (weight 0.6) → Combined conditioning
  3. KSamplerOutput

depth mapは空間構成を処理し、IPAdapterは別の参照画像からスタイル特性を強制します。私はこれを、構図参照を提供するが特定の芸術スタイルで出力を希望するクライアントワークに広範囲に使用しています。

IPAdapter + ControlNetの組み合わせの詳細については、IP-Adapter ControlNet Comboガイドをご覧ください。

技術3: Composition Lockでの層生成

2つのパスで画像を生成します: 構図を確立するための強力なdepth制御での最初のパス、構図を維持しながらスタイルを適用するための高いdenoiseでのimg2imgでの2番目のパス。

最初のパスワークフロー:

  • Depth ControlNet strength: 0.9
  • 一般的なプロンプト: "clean composition, good lighting, professional photography"
  • 目的: 構図を正確にロック

2番目のパスワークフロー (最初のパス出力でのimg2img):

  • Depth ControlNet strength: 0.3-0.4 (構図を維持)
  • 詳細なスタイルプロンプト: 実際のスタイル要件
  • Denoise: 0.6-0.7 (大幅なスタイル変換)
  • 目的: 構図が安定したままで、望ましいスタイルを適用

この2パスアプローチは最大の制御を提供しますが、処理時間が2倍になります。スタイルと構図の両方が完璧でなければならない最終成果物に使用してください。

ControlNet + IPAdapterのVRAM要件

Depth ControlNetとIPAdapterを同時に実行すると、Depth ControlNet単独と比較してVRAM使用量が2-3GB増加します。12GB GPUでは、OOMエラーを回避するために解像度を768px以下に減らしてください。24GB+ GPUでは、1024pxで両方を快適に実行できます。

技術4: Negative Promptスタイル抑制

depth参照に避けたい強力な写真的特性がある場合は、negative promptに積極的にリストします。

写真参照からイラストを生成する場合の例:

  • Negative prompt: "photorealistic, photograph, photo, realistic lighting, camera lens, depth of field, bokeh, film grain, RAW photo, DSLR, professional photography"

これは、depth mapから漏れる可能性のある写真的な美学を抑制します (depth mapは参照画像のコンテンツから派生しているため、本質的に何らかのスタイル情報を保持します)。

私は40のスタイル転送シナリオ (写真参照からイラスト、絵画、3Dレンダーなど)でこれらの技術をテストしました。結果:

技術 スタイル精度 構図精度 処理時間 全体的な品質
Strength削減 + スタイルプロンプト 7.8/10 7.2/10 ベースライン 7.5/10
IPAdapter + Depthコンボ 9.2/10 8.9/10 +40% 9.0/10
層生成 9.0/10 9.4/10 +100% 9.2/10
Negativeスタイル抑制 8.4/10 8.1/10 ベースライン 8.2/10

プロダクションワークでは、最高の品質対速度比を提供するため、IPAdapter + Depthコンボをデフォルトとしています。層生成は、処理時間が制約されていないヒーローショット用に予約されています。

クライアント構図マッチングのためのプロダクションワークフロー

クライアント承認された構図を一貫して生成するには、実行における創造的なバリエーションを許可しながら構図の正確さを保証する体系的なワークフローが必要です。完全なプロダクションアプローチは次のとおりです。

フェーズ1: 参照準備とDepth生成

参照画像を準備し、すべての反復で再利用する高品質のdepth mapを生成することから始めます。

  1. クライアント参照画像をロード (構図テンプレート)
  2. 解像度1024でZoe Depthを実行 (再利用のための高品質)
  3. depth mapをPNGとして保存して再利用
  4. 以降のすべての生成に対して保存されたdepth mapをロード

このフロントロードされたdepth生成により、生成反復ごとに1.5-2秒節約されます。クライアントレビュー用に50-100のバリエーションを生成する場合、これは大幅な時間節約になります。

Depth Map再利用のベストプラクティス

「client-productshot-depth-1024.png」のような説明的なファイル名でdepth mapを保存し、すぐに識別して再利用できるようにします。繰り返しプロジェクトタイプのための標準構図depth mapのライブラリを構築します。

フェーズ2: 迅速な反復によるパラメータテスト

最終的な成果物を生成する前に、最適なパラメータを見つけるためにクイックテストを実行します。

テストマトリックス (4-6の迅速な生成を実行):

  • Strength 0.5, CFG 7, Steps 20
  • Strength 0.7, CFG 7, Steps 20
  • Strength 0.9, CFG 7, Steps 20
  • Strength 0.7, CFG 9, Steps 20
  • Strength 0.7, CFG 7, Steps 30

512pxで生成 (1024pxの4倍速)して、どのパラメータの組み合わせがクライアントの構図要件に最も一致するかを迅速に識別します。最適なstrength/CFGの組み合わせを見つけたら、最終成果物のためにフル解像度にスケールアップします。

フェーズ3: 固定構図でのバッチ生成

パラメータがロックされたら、構図が一貫したままで複数のスタイル/被写体バリエーションを生成します。

バッチワークフローセットアップ: バッチプロダクションワークフロー:

  1. Load Saved Depth Map (すべてのバリエーションで再利用)
  2. Load ControlNet Model
  3. Apply ControlNet (テストから固定strength)
  4. CLIP Text Encode バリエーション用ワイルドカード付き
  5. KSampler 再現性のための固定シード
  6. Batch Save (連番)

バリエーションを自動的に生成するために、プロンプトでワイルドカードを使用します:

  • "professional product photo, {lighting_type}, {background_style}, clean composition"
  • lighting_typeワイルドカード: "soft lighting | dramatic lighting | natural lighting | studio lighting"
  • background_styleワイルドカード: "minimal white | textured gray | gradient blue | bokeh blur"

これにより、同一の構図だが多様な実行で16のバリエーション (4つの照明 × 4つの背景)が生成され、承認された空間レイアウトを維持しながらクライアントにオプションを提供します。

フェーズ4: クライアントレビューと洗練

生成されたバリエーションと並んで参照構図を示す比較グリッドで出力を提示します。これにより、どの生成が構図を正確に一致させるかが即座に明らかになります。

洗練のために、選択された生成を調整するために同じdepth ControlNetでimg2imgを使用します:

  • 承認された生成をimg2imgベースとしてロード
  • 同じdepth mapをstrength 0.4-0.5で適用 (初期生成より低い)
  • Denoise 0.3-0.5 (微妙な調整)
  • 要求された特定の変更をターゲットとする修正されたプロンプト

これにより、クライアントフィードバックに基づいてターゲットを絞った調整を行いながら構図を維持します。

フェーズ5: 最終成果物の準備

最終成果物の場合、品質設定で最大解像度で生成します:

  • Resolution: 最小1024px (印刷用は1536-2048px)
  • Steps: 35-40 (最大品質)
  • Sampler: dpmpp_2mまたはdpmpp_sde (最高品質)
  • CFG: テストフェーズからの最適値
  • Depth strength: テストフェーズからのロックされた値

必要に応じて、4K+での最終配信のために画像アップスケーリングワークフローを使用してアップスケールします。

プロダクションタイムラインの見積もり

典型的な商品写真プロジェクト (1つの参照構図、20のバリエーション、3回の洗練ラウンド):

  • 参照準備とdepth生成: 5分
  • パラメータテスト: 8-12分
  • バッチ生成 (20バリエーション): 15-25分
  • クライアントレビュー: 30-60分 (外部)
  • 洗練: 10-15分
  • 合計アクティブ時間: 40-55分

この体系的なアプローチは、承認された構図構造内でクライアントに創造的なオプションを提供しながら、一貫した結果を生成します。私は100以上のクライアントプロジェクトでこのワークフローを使用し、92%の初回承認率を達成しました (8%のみが大幅な構図修正を必要としました)。

大量の構図一致コンテンツを処理する代理店またはスタジオの場合、Apatero.comはチームコラボレーション機能を提供しており、depth mapとパラメータをプロジェクトテンプレートとして保存でき、チームメンバーがパラメータテストをやり直すことなく一貫したバリエーションを生成できます。

高度な技術: Depth + 複数のControlNets

Depth ControlNetを他のControlNetタイプと組み合わせることで、生成の異なる側面に対する細かい制御が提供されます。この複数ControlNetアプローチは、正確な構図と特定のスタイリング要素の両方を必要とする複雑な商業作業に不可欠です。

Depth + Canny Edgeの組み合わせ

Depthは全体的な空間構成を処理し、Cannyは特定の詳細のためのシャープなエッジ定義を追加します。

ユースケース: 正確な空間的位置 (depth)と正確な商品エッジ定義 (canny)の両方が必要な商品写真。

ワークフロー構造: マルチControlNetワークフロー:

  1. Reference ImageDepth Map (Zoe)Depth ControlNet (strength 0.7)
  2. Reference ImageCanny Edge MapCanny ControlNet (strength 0.5)
  3. Combined conditioningKSampler

パラメータ関係:

  • Depth strength > Canny strength (depthが主要構造を提供)
  • Depth end_percent: 1.0 (全体を通して維持)
  • Canny end_percent: 0.8 (より柔らかい最終的な詳細のために早期に解放)

この組み合わせは、正確な空間構成を維持しながら、Depth単独よりも30%優れたエッジ定義を生成します。クリーンなカットアウトとプロフェッショナルなプレゼンテーションのためにエッジのシャープさが重要な商品カタログに不可欠です。

Depth + OpenPoseの組み合わせ

Depthは環境構成を処理し、OpenPoseは正確な人間のポーズ制御を保証します。

ユースケース: 特定の環境構成と特定のキャラクターポーズの両方が必要なキャラクターポートレート。

ワークフロー構造: 環境+ポーズワークフロー:

  1. Environment ReferenceDepth MapDepth ControlNet (strength 0.6)
  2. Pose ReferenceOpenPose DetectionPose ControlNet (strength 0.8)
  3. Combined conditioningKSampler

パラメータ関係:

  • Pose strength > Depth strength (キャラクターポーズが主要焦点)
  • Depth start_percent: 0.0 (最初から環境を確立)
  • Pose start_percent: 0.0 (最初からポーズを確立)
  • 両方のend_percent: 1.0 (全体を通して維持)

このコンボは、一貫したキャラクター生成に非常に強力です。環境depthは設定構成を提供し、OpenPoseはキャラクターの位置とジェスチャーを正確にロックします。私は、ポーズと環境の両方がクライアントの仕様に正確に一致しなければならないキャラクター中心の商業作業にこれを広範囲に使用しています。

Depth + Line Artの組み合わせ

Depthは構図を提供し、Line Artはスタイリスティックなlinework構造を追加します。

ユースケース: 特定のライン特性を持つイラストスタイルに転送された写真構成が必要なイラストまたはコンセプトアート。

ワークフロー構造: 写真からイラストワークフロー:

  1. Photo ReferenceDepth MapDepth ControlNet (strength 0.5)
  2. Style ReferenceLine Art ExtractionLineArt ControlNet (strength 0.7)
  3. Combined conditioning イラストプロンプト付き

depth mapは写真から空間構成を転送し、line art ControlNetはイラストされたlineworkスタイルを強制し、出力がフォトリアリスティックに見えるのを防ぎます。

複数ControlNetのVRAM影響

追加のControlNetごとに1.5-2.5GB VRAM使用量が追加されます。12GB GPUでの3つの同時ControlNetは、512-640pxへの解像度削減が必要です。24GB GPUでは、1024pxで3つのControlNetを快適に実行できます。

複数ControlNetsのためのStrengthバランス

複数のControlNetsを使用する場合、それらの組み合わせた影響は生成を過度に制約する可能性があります。次のstrength削減ガイドラインに従ってください:

ControlNet数 個別Strength削減 例のStrengths
1 ControlNet 削減なし 0.8
2 ControlNets 15-20%削減 0.65, 0.70
3 ControlNets 25-35%削減 0.50, 0.60, 0.55
4+ ControlNets 35-45%削減 0.45, 0.50, 0.50, 0.40

スタックするControlNetsが多いほど、生成プロセスを過度に制約することを避けるために個別のstrengthをより多く削減する必要があります。この削減がないと、モデルがすべての制約を同時に満たすために苦労する濁った出力が得られます。

詳細な複数ControlNet設定については、15の異なるControlNetペアリング戦略をカバーするControlNet Combinationsガイドをチェックしてください。

処理時間への影響

複数のControlNetsは処理時間を準線形に増加させます (予想されるほど悪くありません):

  • 単一Depth ControlNet: ベースライン (1.0x)
  • Depth + Canny: 1.2xベースライン
  • Depth + Pose: 1.25xベースライン
  • Depth + Canny + Pose: 1.4xベースライン

処理オーバーヘッドは、各ControlNetで個別に別々の生成を実行するよりもはるかに小さく、複数ControlNetアプローチを複雑な要件に対して非常に効率的にします。

一般的なDepth ControlNetの問題のトラブルシューティング

何百ものdepthベースの生成の後、すべての可能な問題に遭遇しました。最も一般的な問題と正確な解決策は次のとおりです。

問題: 生成された画像がdepth mapを完全に無視する

画像は正常に生成されますが、参照構成との関係が表示されません。

一般的な原因と修正:

  1. 間違ったControlNetモデルがロードされた: CannyまたはPoseではなく、depth固有のControlNetモデルをロードしたことを確認します。モデルファイル名に「depth」が含まれていることを確認します。
  2. ControlNet strengthが低すぎる: strengthを0.7-0.9に増やします。0.3未満では、depth影響が無視できるようになります。
  3. Model/ControlNetミスマッチ: SD1.5 depth ControlNetはSD1.5 checkpointsとのみ機能します。SDXL depthはSDXLとのみ機能します。ベースcheckpointがControlNetモデルタイプと一致することを確認します。
  4. コンディショニングが接続されていない: Apply ControlNet出力がKSamplerのpositive conditioning入力に接続されていることを確認します。negativeに接続されている場合、反転した効果があります。

問題: Depth mapが間違っているか反転している

生成されたdepth mapは、より近いオブジェクトをより明るい (遠い)として表示します。より暗い (近い)の代わりに、または深度関係が明らかに不正確です。

修正: ほとんどのdepthプリプロセッサは、closer=darker、farther=lighterを出力します。depth mapが反転しているように見える場合は、depthプリプロセッサの後にInvert Imageノードを追加します:

深度反転ワークフロー:

  1. MiDaS Depth MapInvert ImageApply ControlNet

一部のControlNetモデルは反転したdepth map (lighter=closer)を期待します。生成が一貫して背景を前景に配置する場合は、depth mapを反転してみてください。

問題: 構図が緩すぎる、過度のバリエーション

生成された画像は、漠然と似た構図を持っていますが、プロダクションニーズに対して十分に正確に一致しません。

修正:

  1. ControlNet strengthを増やす 0.6から0.8-0.9へ
  2. MiDaSからZoeに切り替える より正確なdepth境界のため
  3. CFGを減らす 8-9から6-7へ (低いCFGはプロンプトに対してControlNet影響を増加)
  4. depth map解像度を増やす より詳細な構図データのために1024+へ
  5. 多層depth stackingを使用 主要被写体の位置決めを優先するために、より高い前景strength (0.9)で

問題: 生成された画像が硬すぎる、トレースされたコピーのように見える

構図は完璧に一致しますが、画像は自然に生成されたというよりも不自然またはトレースされたように見えます。

修正:

  1. ControlNet strengthを減らす 0.9から0.6-0.7へ
  2. end_percentを減らす 0.8または0.7へ (最終的な詳細レンダリング中にControlNet影響を解放)
  3. CFGを増やす 9-10へ (プロンプトの創造性を強化)
  4. プロンプトにバリエーションを追加 リテラルなコンテンツ記述ではなく、より多くのスタイリスティック記述子で

問題: Depth ControlNetでのCUDA out of memory

depth ControlNetを適用するときに生成がOOMエラーで失敗します。

優先順位の修正:

  1. 生成解像度を減らす: 1024 → 768 → 512
  2. depth map解像度を減らす: 生成解像度と一致するかそれより低くする
  3. モデルオフロードを有効にする: 多くのカスタムノードにControlNetモデル用のCPUオフロードオプションがあります
  4. 他のGPUアプリケーションを閉じる: ブラウザ、他のAIツール、ゲームはすべてVRAMを消費します
  5. FP16精度を使用: checkpointとControlNetモデルがFP32ではなくFP16であることを確認します

問題: depth境界に沿ったアーティファクトまたは歪み

生成は、異なる深度のオブジェクトが出会う場所で奇妙なアーティファクトまたは歪みを示します。

一般的な原因:

  1. Depth mapアーティファクト: depthプリプロセッサがエラーを導入しました。MiDaSからZoeに切り替えるか、その逆を試してください。
  2. Tile_overlapが低すぎる (タイル処理を使用している場合): オーバーラップを増やします。
  3. 競合するControlNets: 複数のControlNetsを使用している場合、境界で矛盾する可能性があります。1つのControlNetのstrengthを減らします。
  4. 参照画像の圧縮アーティファクト: 参照に重いJPEG圧縮がある場合、depth mapが圧縮ブロックを拾っている可能性があります。より高品質の参照画像を使用します。

問題: Depth ControlNetは機能するが処理が非常に遅い

生成は正しく完了しますが、予想よりも3-4倍長くかかります。

原因と修正:

  1. Depth map解像度が高すぎる: 1024px生成で2048px depth mapを使用している場合、depth mapを生成解像度に一致するように減らします。余分な解像度は利益を提供しません。
  2. 複数のdepth estimatorsが実行されている: 誤って複数のdepthプリプロセッサを直列に実行していないことを確認します。1つのdepth mapで十分です。
  3. 不必要にCPUオフロードが有効: 十分なVRAMを持つGPUでは、CPUオフロードは実際に処理を遅くします。十分なVRAMがある場合は無効にします。
  4. 遅いdepthプリプロセッサ: LeReSはMiDaSよりも3-4倍遅いです。LeReS機能が特に必要でない限り、MiDaSまたはZoeに切り替えます。

問題: バッチ生成全体で不一致な結果

同じdepth mapと類似のプロンプトを使用すると、大きく変化する構図一致が生成されます。

修正: ランダムシードを使用する代わりにシードをロックします。Depth ControlNetは構図ガイダンスを提供しますが、シードのランダム性は依然として大きなバリエーションを生成する可能性があります。バッチ全体で一貫した結果を得るには、ランダムではなく固定シードまたは連続シード (seed、seed+1、seed+2など)を使用します。

最後に

Depth ControlNetは、AI画像生成における構図制御へのアプローチを根本的に変えます。プロンプトが正しい空間レイアウトを生成することを期待する代わりに、スタイル、被写体、詳細に対する創造的な自由を維持しながら、空間的関係を直接指定します。

実用的なアプリケーションは、単純なポーズ転送をはるかに超えて拡張します。バリエーション全体で一貫したレイアウトを持つ商品写真、正確な空間構成を持つ建築ビジュアライゼーション、特定の構図テンプレートに一致する編集イラスト、空間的関係が特定の被写体のアイデンティティよりも重要なあらゆるシナリオは、depthベースの構図制御から恩恵を受けます。

ワークフローには、プロンプトのみの生成よりも多くのセットアップが必要です (depth map作成、パラメータ調整、strength関係の理解)が、見返りはプロフェッショナルなクライアントワークに適した一貫した制御可能な結果です。クライアントに「この正確な構図に一致します」と自信を持って約束し、実際にその約束を果たすことができます。

大量の構図一致コンテンツを処理するプロダクション環境では、depth mapの再利用、パラメータテンプレート、バッチ生成ワークフローの組み合わせにより、このアプローチは実際の商業タイムラインに対して十分に効率的になります。

ローカルでセットアップするか、Apatero.comを使用するか (すべてのdepth ControlNetモデル、プリプロセッサ、および複数ControlNetテンプレートが事前設定されています)にかかわらず、ワークフローにdepthベースの構図制御を追加することで、出力を「これは似ているように見える」から「これは正確に一致する」品質に移行します。その精度は、アマチュアAI生成とプロフェッショナルなプロダクションワークを分けるものです。

このガイドの技術は、基本的な単一depthワークフローから高度な多層stackingと複数ControlNetの組み合わせまですべてをカバーしています。depthガイダンスがどのように機能するかを理解するために基本的なワークフローから始め、プロジェクトがより多くの制御を必要とするにつれて、段階的に複雑さ (多層、スタイル保持、複数ControlNets)を追加します。各技術は前のものの上に構築され、遭遇するあらゆる構図転送シナリオのための完全なツールキットを提供します。

ComfyUIをマスター - 基礎から上級まで

完全なComfyUI基礎コースに参加して、基本から高度なテクニックまですべてを学びましょう。買い切りで生涯アクセス、すべての新しいモデルと機能の更新付き。

完全なカリキュラム
買い切り
生涯アップデート
コースに登録
買い切り • 生涯アクセス
初心者歓迎
本番環境対応
常に最新