/ AI画像生成 / Flux 2: Black Forest Labsの革命的なAI画像モデルについて知る必要があるすべて
AI画像生成 2 分で読めます

Flux 2: Black Forest Labsの革命的なAI画像モデルについて知る必要があるすべて

Flux 2は、マルチリファレンスサポートと40%高速なパフォーマンスで4MPのフォトリアリスティック画像を提供します。バリアント、セットアップ、ハードウェア要件、競合他社との比較について学びましょう。

Flux 2: Black Forest Labsの革命的なAI画像モデルについて知る必要があるすべて - Complete AI画像生成 guide and tutorial

Black Forest LabsがFlux 2をリリースし、AI画像生成の状況は一夜にして変わりました。これは段階的な更新ではありません。4メガピクセルのフォトリアリスティック出力を押し出し、最大10枚の参照画像を同時に処理し、コンシューマーRTX GPUで40%高速に動作する完全なアーキテクチャ再設計について話しています。

AI画像生成をフォローしている場合、Stable Diffusionの背後にあるチームによって設立されたBlack Forest Labsが、業界を定義するものではないものをリリースすることはめったにないことを知っています。Flux 2は、Flux 1をプロトタイプのように見せる改善でその伝統を続けています。

クイックアンサー: Flux 2は、Black Forest Labsの320億パラメータの画像生成モデルで、最大10枚の画像のマルチリファレンスサポート、4MP解像度出力、改善されたテキストレンダリング、強化されたフォトリアリズム、およびVRAMを40%削減しながら、以前のFluxモデルよりも高速にプロフェッショナル品質の結果を提供するNVIDIA RTX最適化を特徴としています。

Flux 2とは何か、なぜ重要なのか?

Flux 2は、Black Forest LabsのAI画像合成への第2世代アプローチを表しています。生成と編集を異なるモデルに分離したFlux 1とは異なり、Flux 2はすべてを単一の320億パラメータアーキテクチャに統合します。

モデルは、整流フロートランスフォーマーとMistral-3、240億パラメータのビジョン言語モデルを組み合わせています。このハイブリッドアプローチにより、Flux 2は従来の拡散モデルが完全に欠いている真の「世界知識」を獲得します。「木製テーブルの上の大理石の彫刻」をプロンプトすると、Flux 2は大理石が光を反射する物理学と、木目がさまざまな条件下でどのように見えるかを理解します。

Black Forest Labsは2025年11月にFlux 2をリリースし、コミュニティの反応は即座でした。48時間以内に、開発者はそれをComfyUIに統合し、クラウドプラットフォームはAPIサポートを追加し、クリエイターはプロの写真と区別がつかない結果を投稿していました。

Flux 2の背後にあるチーム

Black Forest Labsは、Stable Diffusionを作成した元のStability AI研究者で構成されています。Stability AIを離れた後、彼らは1つの目標を持ってBlack Forest Labsを設立しました。妥協なしで技術的に最も洗練された画像生成システムを構築することです。

彼らの最初のリリースであるFlux 1は、MidjourneyやDALL-E 3のような閉じたモデルと競争できることを証明しました。Flux 2は、それらを超えることができることを証明しています。

Flux 2がFlux 1と異なる点は何ですか?

Flux 1を使用したことがある場合、そのフォトリアリズムとプロンプト遵守に精通しています。Flux 2はそれらの強みを取り、制限を排除します。

アーキテクチャのオーバーホール

Flux 1は、デュアルテキストエンコーダーを備えた120億パラメータモデルを使用していました。Flux 2は320億パラメータにジャンプし、単一のMistral Small 3.1テキストエンコーダーに切り替えます。これにより、空間関係と物理的特性の理解が劇的に向上しながら、複雑さが軽減されます。

整流フローアーキテクチャは残りますが、Black Forest Labsは、より鮮明な詳細とより良いテキストレンダリングのためにVAE(Variational Autoencoder)を完全に再トレーニングしました。Flux 1 LoRAはFlux 2では機能しません。SDXL ControlNetも機能しません。これは、これまでのすべてからのクリーンブレークです。

マルチリファレンスサポートはすべてを変える

Flux 1は、IP-Adapter実装を通じて単一画像参照を処理できました。Flux 2は、現在利用可能な任意の画像モデルで最高のキャラクターと製品の一貫性を持つ、最大10枚の参照画像を同時にネイティブにサポートします。

異なるポーズ、照明条件、背景で同じキャラクターを維持したいですか? Flux 2に複数の参照画像をフィードします。異なる角度で一貫したブランディングを持つ製品ショットが必要ですか?同じアプローチです。モデルは参照画像間の関係を理解し、従来のワークフローで手動編集に数日かかるビジュアルの一貫性を維持します。

この機能だけでも、ブランドの一貫性が重要な商業作業にとって、Flux 2が頼りになる選択肢になります。

解像度が4メガピクセルにジャンプ

Flux 1は約1メガピクセルの実用的な解像度に達しました。Flux 2は4メガピクセル、約2048x2048ピクセルまで押し上げます。これは、ソーシャルメディア消費だけでなく、プロフェッショナルプリントワークフローと高解像度ディスプレイアプリケーションをターゲットにしています。

解像度の向上は速度を犠牲にしません。NVIDIA最適化とFP8量子化のおかげで、Flux 2は、Flux 1が1MP出力を生成したよりも高速に4MP画像を生成します。

テキストレンダリングが実際に機能するようになりました

テキストレンダリングはFlux 1のアキレス腱でした。Flux 2は、読みやすい細かいテキストで複雑なタイポグラフィ、インフォグラフィック、ミーム、UIモックアップを処理します。これにより、マーケティング資料、UIプロトタイプ、ブランドコンテンツを作成するデザイナーにとって、まったく新しいユースケースが開かれます。

再トレーニングされたVAEはここで功績を認められます。Black Forest Labsは特にテキストの明瞭さの改善に焦点を当てており、結果はそれ自体を物語っています。

適切なFlux 2バリアントを選択する方法

Black Forest Labsは、特定のユースケースとハードウェア構成用に最適化された4つの異なるバリアントでFlux 2をリリースしました。

Flux 2 Pro

これはフラッグシップの商用APIティアです。Flux 2 Proはローカルで実行しません。Black Forest Labsのマネージドインフラストラクチャを通じてアクセスします。

Flux 2 Proは、より良いプロンプト遵守と競合APIよりも低い推論コストで、Midjourney v6およびDALL-E 3に匹敵する最先端の品質を提供します。本番アプリケーションを構築する企業にとって、これが最も信頼性の高いオプションです。

価格設定は、ボリューム割引を伴う画像ごとのモデルに従います。Black Forest Labsは正確な数値を公開していませんが、初期のレポートでは、解像度と参照画像数に応じて、生成あたり0.02〜0.05ドルを示唆しています。

Flux 2 Dev

これは、開発者と研究者をターゲットにした高度なオープンウェイトモデルです。Flux 2 Devは、Proと同じコアアーキテクチャを提供しますが、非商用ライセンスを持っています。

モデルの重みは320億パラメータで、フル精度で大量のVRAMを必要とします。ただし、FP8量子化バージョンは、適切な最適化を行えば、RTX 4090およびRTX 5090で快適に動作します。

Flux 2 Devは、マルチリファレンス入力、詳細な制御のためのJSONプロンプト、完全な4MP解像度機能を含むすべての機能をサポートしています。商用使用を妨げるライセンス制限なしでFlux 2をローカルで実験したい場合、これが出発点です。

Flux 2 Schnell

Schnellはドイツ語で「速い」を意味し、このバリアントはその名に恥じません。Flux 2 Schnellは、印象的な品質を維持しながら、速度とVRAM消費の削減を最適化します。

無料のComfyUIワークフロー

この記事のテクニックに関する無料のオープンソースComfyUIワークフローを見つけてください。 オープンソースは強力です。

100%無料 MITライセンス 本番環境対応 スターを付けて試す

モデルは、より少ない推論ステップで優れた結果を生成し、リアルタイムの反復、クイックプレビュー、およびプロンプトバリエーションのテストに最適です。Flux 2 SchnellはApache 2.0ライセンスを使用し、制限なしで完全な商用自由を許可します。

迅速な反復サイクルが必要で、絶対的な最大品質を必要としないクリエイターにとって、Schnellは速度、品質、アクセシビリティの最良のバランスを提供します。

Flux 2 Klein(近日公開)

Kleinは、アクセスの民主化に対するBlack Forest Labsのコミットメントを表しています。このサイズ蒸留モデルは、フルFlux 2ベースから派生していますが、コンシューマーハードウェアでの展開を容易にするためにパラメータ数を削減しています。

KleinはApache 2.0オープンソースライセンスを使用し、スクラッチからトレーニングされた同様のサイズの同等のモデルよりも強力で開発者にやさしいものにします。初期の兆候は、Kleinが12〜16GB VRAM構成で快適に動作し、SDXLを超える品質を維持することを示唆しています。

Flux 2の主な機能と能力は何ですか?

見出しの改善を超えて、Flux 2は、画像生成ワークフローへのアプローチを変えるいくつかの技術的能力を導入します。

ネイティブポーズ制御

Flux 2には、サブジェクトまたはキャラクターのポジショニングを明示的に指定するための直接ポーズ制御が含まれています。これにより、外部ControlNet実装の必要性がなくなり、より信頼性の高い結果が得られます。

特定のヨガポーズでキャラクターが欲しいですか?プロンプトまたは構造化されたJSON入力を通じて、ポーズパラメータを直接定義します。モデルは骨格構造と物理的制約を理解し、解剖学的にもっともらしい結果を生成します。

多言語テキストサポート

Mistral-3テキストエンコーダーは、堅牢な多言語理解をもたらします。Flux 2は、複数の言語での複雑なプロンプトを処理し、生成された画像内でさまざまな書記体系でテキストを正確にレンダリングできます。

これは、ローカライズされたマーケティング資料を作成するグローバルブランドや、英語以外の市場で働くクリエイターにとって重要です。

材料全体での改善されたフォトリアリズム

Flux 2は材料レンダリングに優れています。皮膚のテクスチャは毛穴、表面下散乱、現実的な照明応答を示します。生地は適切な織りパターンとドレープ物理学を表示します。金属表面は環境を説得力を持って反射します。

モデルはトレーニング中に物理的特性を学習し、異なる材料が光とどのように相互作用するかをシミュレートできます。この知識は、AI生成ではなく写真としてカジュアルな検査に合格する結果を生成します。

より良い照明と環境理解

ビジョン言語モデルを通じた世界知識のFlux 2の統合により、洗練された照明理解が可能になります。モデルは、屋外の日光がスタジオ照明とどのように異なるか、一日のさまざまな時間帯に影がどのように振る舞うか、反射面が環境とどのように相互作用するかを理解します。

複雑さをスキップしたいですか? Apatero は、技術的なセットアップなしでプロフェッショナルなAI結果を即座に提供します。

セットアップ不要 同じ品質 30秒で開始 Apateroを無料で試す
クレジットカード不要

これにより、特定の照明ムードを達成するために伝統的に必要とされた試行錯誤の多くが取り除かれます。

JSON構造化プロンプト

高度なユーザーの場合、Flux 2は、生成パラメータ、参照画像の重み、地域プロンプト、および構成制約に対する詳細な制御を提供するJSON形式のプロンプトをサポートしています。

この構造化されたアプローチにより、特定のバリエーションを持つ大きなバッチにわたって一貫した結果が必要なプログラマティック生成ワークフローが可能になります。

ComfyUIでFlux 2を設定する方法

ComfyUIはFlux 2のゼロデイサポートを追加し、コンポーネント要件を理解していれば、インストールプロセスは簡単です。ComfyUIワークフローが初めての場合は、まず包括的なComfyUI初心者向けガイドをご覧ください。

ハードウェア要件

量子化されていないFlux 2 Devモデルは、完全にロードするために約90GB VRAMを必要とします。つまり、フル精度操作にはNVIDIA H100またはA100 GPUが必要です。

コンシューマーハードウェアの場合、Black Forest LabsとNVIDIAは、VRAM要件を40%削減するFP8量子化で協力しました。FP8バリアントは、RTX 4090(24GB)、RTX 5090、さらには積極的なオフロードを伴うRTX 4080(16GB)で快適に動作します。

フル解像度でのスムーズな動作には、24GB VRAMが推奨される最小仕様です。CPU オフロードと解像度の削減を使用して16GBカードでFlux 2を実行できますが、生成時間は大幅に増加します。

システムRAMは、より小さいモデルよりも重要です。64GB以上のシステムRAMを持つことで、VRAMが逼迫したときのより良いオフロード戦略が可能になります。

段階的なインストール

まず、ComfyUI ManagerからComfyUIを最新バージョンに更新します。Flux 2サポートには、古いリリースにはない最近のコミットが必要です。

Hugging Faceからモデルファイルをダウンロードします。Flux 2 Devには3つのコンポーネントが必要です。

メインモデルファイルは、フル精度用のflux2-dev.safetensorsまたは量子化バージョン用のflux2-dev-fp8.safetensorsとして利用できます。これをComfyUI/models/diffusion_modelsフォルダーに配置します。より積極的な量子化のためにGGUFバリアントを好む場合、それらはComfyUI/models/unetに入ります。

他の115人の受講生に参加

51レッスンで超リアルなAIインフルエンサーを作成

リアルな肌の質感、プロレベルのセルフィー、複雑なシーンを持つ超リアルなAIインフルエンサーを作成。1つのパッケージで2つの完全なコースを取得。技術をマスターするComfyUI Foundationと、AIクリエイターとして自分を売り込む方法を学ぶFanvue Creator Academy。

早期割引終了まで:
--
:
--
時間
:
--
:
--
完全なカリキュラム
買い切り
生涯アップデート
$200節約 - 価格は永久に$399に上昇
初期の学生向けの早期割引。私たちは常により多くの価値を追加していますが、あなたは$199を永久にロックします。
初心者歓迎
本番環境対応
常に最新

Flux 2 VAE(flux2-vae.safetensors)をダウンロードし、ComfyUI/models/vaeに配置します。

Mistral-3テキストエンコーダーは、BF16(mistral_3_small_flux2_bf16.safetensors)またはFP8(mistral_3_small_flux2_fp8.safetensors)バージョンで提供されます。VRAM制約に基づいて選択し、ComfyUI/models/text_encodersに配置します。

ComfyUIを起動し、Flux 2ワークフローをロードします。ワークフローは、拡散モデルノードをテキストエンコーダーとVAEに接続し、他のComfyUIセットアップに似ていますが、Flux 2固有のノードタイプを使用します。

各ノードでダウンロードしたファイルを選択し、プロンプトを入力して生成します。初回ロードは、モデルがVRAMにロードされるため、時間がかかります。

低VRAMの最適化のヒント

16GBカードを実行している場合は、ComfyUI設定でCPUオフロードを有効にします。これにより、必要に応じてシステムRAMとVRAM間でモデルの重みがストリーミングされ、速度を犠牲にしてメモリ効率をトレードします。

バッチサイズを1に減らし、出力解像度を1024x1024または1536x1536に下げるのではなく、フル2048x2048にします。より低い解像度でも品質は優れたままであり、VRAM要件は大幅に低下します。

city96などのコミュニティクリエイターからのGGUF量子化モデルを使用します。Q4およびQ5 GGUFバリアントは、非商用作業に受け入れ可能な品質劣化を伴う大規模なVRAM節約を提供します。

生成中に他のVRAM集約型アプリケーションを閉じます。特に複数のタブを持つWebブラウザは、現代のGPUで数ギガバイトのVRAMを消費する可能性があります。

クラウドとAPIの代替

ローカルハードウェアが実行可能でない場合、いくつかのクラウドプラットフォームがリリースから数日以内にFlux 2サポートを追加しました。

Apatero.comは、インストール、VRAM要件、技術的な複雑さなしで、Flux 2へのブラウザベースのアクセスを提供します。マルチリファレンスサポート、すべてのバリアント、および機能するだけの事前に構築されたワークフローを備えたフルFlux 2 Devモデルを取得します。ローカルセットアップの面倒なしに結果を望むクリエイターにとって、Apateroは透明な生成ごとの価格設定で即座にアクセスを提供します。

Cloudflare Workers AIは、Flux 2 Devをサーバーレスプラットフォームに統合し、グローバルエッジ展開でAPIアクセスを提供しました。これは、画像生成機能を必要とするアプリケーションを構築する開発者にとってうまく機能します。

ReplicateはFlux 2をモデルライブラリに追加し、従量課金制の価格設定と簡単なAPI統合を提供しました。

Flux 2を実行するために実際に必要なハードウェアは何ですか?

正直な答えは、選択するバリアントと受け入れる品質/速度のトレードオフに基づいて劇的に異なります。

RTX 4090セットアップ(推奨)

24GB VRAMを搭載したRTX 4090は、ローカルFlux 2展開のスイートスポットを表しています。FP8量子化を使用すると、適度なバッチサイズのための余地を持ってFlux 2 Devを完全にVRAMにロードできます。

快適なヘッドルームのために、4090を64GBシステムRAMとペアにします。32GBで実行できますが、複数のLoRAまたはControlNetを含むより大きなワークフローで制限に達する可能性があります。

2048x2048画像の生成時間は、ステップ数、サンプラーの選択、ワークフローの複雑さに応じて45〜90秒の範囲です。これは、数十のバリエーションを生成する反復作業のクラウドAPIレイテンシを上回ります。

RTX 4080および4070 Tiオプション

RTX 4080(16GB)および4070 Ti(12GB)は、より積極的な最適化戦略でFlux 2を実行できます。FP8またはGGUF Q5量子化を使用し、CPUオフロードを有効にし、出力解像度を1536x1536に減らします。

生成時間は90〜150秒に増加し、フル解像度のフル精度出力と比較して一部の詳細を犠牲にします。ほとんどのユースケースでは、品質の違いは最小限のままであり、4090と比較してコスト節約は大きいです。

AMDとApple Silicon

ROCmを通じたAMD GPU上のFlux 2サポートは実験的です。一部のユーザーは、ComfyUIでDirectMLバックエンドを使用してRX 7900 XTXカードで成功を報告していますが、互換性の問題とNVIDIA同等品よりも遅いパフォーマンスを期待してください。

Apple Silicon Mシリーズチップは、MPS(Metal Performance Shaders)バックエンドを通じて技術的にFlux 2を実行できますが、パフォーマンスはNVIDIAハードウェアと比較して貧弱です。128GBユニファイドメモリを搭載したM3 Maxは、Flux 2 Schnellを合理的にうまく処理しますが、M1およびM2システムは苦労します。他のFluxモデルでApple Siliconでのパフォーマンスが遅い場合は、Apple Silicon Flux最適化ガイドが特定の修正をカバーしています。

Flux 2に真剣なAppleユーザーにとって、クラウドAPIまたはApateroの方がローカル展開よりも理にかなっています。

1000ドル以下の予算オプション

ハイエンドGPUに1500ドル以上を正当化できない場合、クラウドサービスとオンラインプラットフォームは、ミッドレンジハードウェアを購入するよりも優れた経済性を提供します。

中古のRTX 3090(24GB)は、半額で4090と同様のVRAMを提供しますが、生成時間は大幅に遅くなります。3090には、FP8操作を加速する40シリーズカードのTensor Coreの改善がありません。

あるいは、RunPodまたはVast.aiなどのサービスを通じて月に50〜100ドルをクラウドGPUレンタルに費やします。これにより、前払いの資本支出なしで、A100またはH100 GPUにオンデマンドでアクセスできます。

Apateroのサブスクリプションモデルは、プロフェッショナルワークフローで無制限のFlux 2アクセスに月額30ドル未満がかかり、ローカル展開を必要としないクリエイターにとって最もコスト効果の高いオプションになります。

(続く...)

AIインフルエンサーを作成する準備はできましたか?

115人の学生とともに、51レッスンの完全なコースでComfyUIとAIインフルエンサーマーケティングをマスター。

早期割引終了まで:
--
:
--
時間
:
--
:
--
あなたの席を確保 - $199
$200節約 - 価格は永久に$399に上昇