ComfyUI.Tokyo

Qwen2-VL (Qwen-image) のプロンプト文法 特徴一覧

  1. テキスト記述 / 特殊記号
    • " " (ダブルクォーテーション):
      • 画像内に実際に表示するテキストを記述するために使用します。
      • 例: "Hello World"と書かれた看板 → 画像内に "Hello World" という文字が描画されます。
  2. レイアウト・位置指定
    • (left) / (right) /(top) / (bottom) / (center):
      • オブジェクトやテキストを画像内の特定の位置に配置するように指示します。
      • 例: (left) 車 → 画像の左側に車が描画されます。
      • 例: (center) "Qwen" → 画像の中央に "Qwen" という文字が描画されます。
    • (foreground) / (background):
      • オブジェクトを前景または背景に配置するように指示します。
      • 例: (background) 山 (foreground) 犬 → 山を背景に、犬を前景に描画します。
  3. スタイル指定
    • (style: [スタイル名]):
      • 画像の全体的な芸術的なスタイルを指定します。
      • 利用可能なスタイル例: realistic (写実的), cartoon (漫画), oil painting (油絵), sketch (スケッチ), pixel art (ピクセルアート), cyberpunk (サイバーパンク) など。
      • 例: (style: oil painting) 海の風景 → 油絵風の海の風景が描画されます。
      • (style: cyberpunk AND steampunk)のように、AND で繋ぐことで、二つの異なるスタイルや概念が融合した画像を生成できます。これにより、単一のスタイルだけでは表現できない、より複雑でユニークな世界観を作り出すことが可能になります。
    • (color: [色名]):
      • 特定のオブジェクトや背景のを指定します。
      • 例: (color: red) りんご → 赤いりんごを描画します。
      • 例: (color: blue) 空 → 青空を描画します。
    • 強調・修飾の表現
      • (emphasis) や (blur), (glow) など、視覚効果を指定するタグがあると、演出の幅が広がります。
      • 例: (glow) sword → 光る剣
    • 時間・季節・天候の指定
      • (time: morning), (season: winter), (weather: foggy) のようなタグで、シーンの雰囲気を明確化。
      • - 例: (season: autumn) park → 秋の公園
    • カメラアングル・構図指定
      • (angle: low), (shot: close-up), (perspective: isometric) などで、構図をより具体的に。
      • 例: (shot: close-up) cat face → 猫の顔のアップ
    • 動作・状態のタグ化
      • (action: running), (expression: surprised) のように、動きや感情をタグで明示。
      • 例: (action: jumping) child → 跳ねている子供
    • ネガティブプロンプトの明示
      • (exclude: text), (exclude: watermark) のように、避けたい要素を明示する構文。
      • 例: (exclude: blur) → ぼやけを避ける
      • 例: (negative: bad art, blurry, low resolution) のように、カンマ区切りで複数のネガティブ要素をひとまとめにする方法や、各要素に重み付けを付ける方法(例: (negative: blurry:1.5))などがあります。
      • 一般的なエラー: "blurry, distorted, low quality, extra limbs, unnatural colors"
      • 不要な要素: "watermarks, logos, text errors, unwanted objects"
      • スタイルの逸脱: "cartoonish (if aiming for photorealistic), overly simplistic"
    • 言語指定のタグ
      • (lang: ja) や (lang: en) を使って、表示テキストの言語を明示。
      • 例: (lang: ja) "こんにちは" → 日本語で「こんにちは」と表示
      • 例:A vibrant anime-style poster of a Japanese festival, with a large banner displaying "祭り 2025" in bold red Japanese kanji at the top, and "Matsuri Festival" in smaller white English text below it, centered, with cherry blossoms in the background.
      • 例:The whiteboard has the letter (font: gothic) (lang: ja) "おはよう こ”さ” い ます。 " in bold Japanese Hiragana, written on it in magic marker. A Smiling sexy young female with large breasts in a tank top is standing next to a whiteboard and looking at the camera. (angle:above).

        ご は、こ + 全角の”、ざ は、さ + 全角の”で置き換えます。うまくいくことがあります。
        ご、ざ など濁点文字の後に半角スペースを一つ二ついれると、うまく書けることもあります。
    • ウェイト(重み付け)の明確化
      • (detailed face:1.2), (simple background:0.8) のように、要素の後に :数値 を付けることで重み付けを指定します。数値は1.0が基本で、大きくすると強調、小さくすると弱化します。
  4. 構成・リスト表現
    • ・ (中黒) や - (ハイフン), 数字:
    • 一般的なマークダウンと同様に、箇条書きリストを使って画像の構成要素を明確に列挙することができます。モデルはこれらの要素を組み合わせて解釈します。
    • 例:
      以下の要素を含む公園の絵:
      • (left) 滑り台がある遊具
      • (center) 砂場で遊ぶ子供
      • (right) ベンチに座る老人
      • (background) 桜の木
    このように書くことで、要素の漏れを防ぎ、複雑なシーンを構築しやすくなります。
  5. シーンとオブジェクトの詳細記述
    • 詳細な説明文:
      • 自然言語でシーンの状況、オブジェクトの状態、人物の動作や感情などを詳細に記述することができます。
      • 例: 「雨上がりの夕方、水たまりに映るネオンサインを見つめる猫」
      • 例: 「笑顔でカメラに向かって手を振る、眼鏡をかけた女性の全身ショット」
    • アスペクト比の指定
      • プロンプトの最初や最後に 16:9, 1:1, 9:16 などの比率を書くことで、画像のアスペクト比を指定できる場合があります。
      • 例: 16:9 夕日が沈む海岸線の風景
      •   
  6. 複数画像の入力と参照 (Interleaved Vision-Language)
    • タグ:
      • プロンプトの中に という特殊タグを埋め込むことで、複数の入力画像を参照させることができます。これがQwen-VLシリーズの最大の特徴の一つです。
      • ユーザーは画像をアップロードし、その画像に対して質問をしたり、画像を基に新しい画像を生成するように指示できます。
      • 例 (キャプション生成): この画像の詳細な説明を書いてください。
      • 例 (比較): と の2枚の猫の写真で、似ている点と違う点を教えて。
      • 例 (画像編集): の背景を海に変えて、漫画風で生成して

プロンプトの基本構造

これらの要素を組み合わせて、効果的なプロンプトを構築します。

基本的な形式 例:

  • [レイアウト指定] [オブジェクト/人物] , [詳細な説明] , (スタイル指定) , (色指定) , "表示テキスト"
  • 主体→背景→ディテール→ライティング→特殊効果→"テキスト"
  • [Main subject], [visual style/medium], [environment & background details], [lighting], [extra effects], ["exact text if any"]
    例:A futuristic sports car, photorealistic style, parked under neon city lights, reflections on wet streets, cinematic lighting, "Night Racer" in metallic chrome text on the hood

良いプロンプトの例:

  • (style: cyberpunk) (color: neon pink) (left) "Qwen"と光る看板 , (center) ハイテクな車が走る雨の舗道 , (background) 未来的な高層ビル

このプロンプトは、「サイバーパンクスタイルで、ネオンピンクの光る『Qwen』看板が左にある、未来的な高層ビルを背景に、中央でハイテクな車が雨の舗道を走っている画像」を生成するように指示しています。

要点:

  • 英語と日本語の両方が利用可能ですが、英語の方が性能が安定している場合があります。
  • 指示はできるだけ明確かつ具体的に書くことが重要です。
  • これらの文法は絶対的な規則というよりも、モデルがよく理解できる「パターン」です。新しいバージョンで追加や変更がある可能性があります。

Workflow

Prompt

  • (style: cyberpunk) (color: neon pink) (left) "Qwen"と光る看板 , (center) ハイテクな車が走る雨の舗道 , (background) 未来的な高層ビル

アップスケールには、ControlNet tileも使うことができます。

Workflow

SDXL_CotrolNet_Tile_Up-Scale.json

Qwen-Imageで生成した画像

SDXL CotorlNet tile によるアップスケール画像 ( 2 倍 Face Detailer 使用)


Link