ComfyUI.Tokyo

SD15_Florence2Run: Florence2Runによるインペイント

ComfyUIのFlorence2Runノードは、MicrosoftのFlorence-2モデルを活用して、画像と言語の処理を行う強力なノードです。以下にその概要と使い方をまとめました。

Florence2Runノードとは？

Florence2Runは、画像とテキスト入力を使って、以下のような視覚と言語の統合タスクを実行できます：

画像キャプション生成（caption, detailed_caption, more_detailed_caption）
物体検出（region_caption, dense_region_caption）
領域提案（region_proposal）
OCR（文字認識）（ocr, ocr_with_region）
セグメンテーション（referring_expression_segmentation）
文書質問応答（DocVQA）：画像内の文書に対して質問し、回答を得る

使用するモデル：Florence-2

Florence2Runノードは、Microsoftが開発したFlorence-2モデルを使用します。これは、126万枚の画像に対して54億件のアノテーションを含むFLD-5Bデータセットで学習された、非常に高性能な視覚基盤モデルです。

利用可能なモデル例：

モデル名	特徴
Florence-2-base	汎用的な画像と言語処理に対応
Florence-2-large	より高精度な処理が可能
Florence-2-DocVQA	文書画像に対する質問応答に特化
PromptGenモデル	画像からプロンプト生成に最適

主な入力パラメータ

`image`: 処理対象の画像
`text_input`: 一部のタスクで使用するテキストプロンプト（例：DocVQAやセグメンテーション）
`task`: 実行する処理の種類（例：caption, ocr, region_captionなど）
`florence2_model`: 使用するFlorence-2モデル
`fill_mask`: セグメンテーション時にマスクを塗りつぶすかどうか
`keep_model_loaded`: モデルをVRAMに保持するかどうか（連続処理に便利）
`num_beams`: 「ビームサーチ」の探索幅を指定するパラメータ.デフォルト値は 3

出力内容

`out_tensor`: 処理結果の画像テンソル（例：キャプション付き画像）
`out_mask_tensor`: セグメンテーションマスク
`out_results`: バウンディングボックス、信頼度、テキストなどの構造化データ

活用例

SNS投稿画像に自動キャプションを付ける
商品画像からタグを抽出してECサイトに活用
スキャンした領収書から金額や日付を抽出（DocVQA）
画像からプロンプトを生成してStable Diffusionに活用

もっと詳しく知りたい場合は、[Florence2Runの公式ドキュメント](https://www.runcomfy.com/comfyui-nodes/ComfyUI-Florence2/Florence2Run)や[GitHubのComfyUI-Florence2リポジトリ](https://github.com/kijai/ComfyUI-Florence2)も参考になります。