ComfyUI.Tokyo

Qwen2-VL (Qwen-image) のプロンプト文法特徴一覧

テキスト記述 / 特殊記号
- " " (ダブルクォーテーション):
  - 画像内に実際に表示するテキストを記述するために使用します。
  - 例: "Hello World"と書かれた看板 → 画像内に "Hello World" という文字が描画されます。
レイアウト・位置指定
- (left) / (right) /(top) / (bottom) / (center):
  - オブジェクトやテキストを画像内の特定の位置に配置するように指示します。
  - 例: (left) 車 → 画像の左側に車が描画されます。
  - 例: (center) "Qwen" → 画像の中央に "Qwen" という文字が描画されます。
- (foreground) / (background):
  - オブジェクトを前景または背景に配置するように指示します。
  - 例: (background) 山 (foreground) 犬 → 山を背景に、犬を前景に描画します。
スタイル指定
- (style: [スタイル名]):
  - 画像の全体的な芸術的なスタイルを指定します。
  - 利用可能なスタイル例: realistic (写実的), cartoon (漫画), oil painting (油絵), sketch (スケッチ), pixel art (ピクセルアート), cyberpunk (サイバーパンク) など。
  - 例: (style: oil painting) 海の風景 → 油絵風の海の風景が描画されます。
  - (style: cyberpunk AND steampunk)のように、AND で繋ぐことで、二つの異なるスタイルや概念が融合した画像を生成できます。これにより、単一のスタイルだけでは表現できない、より複雑でユニークな世界観を作り出すことが可能になります。
- (color: [色名]):
  - 特定のオブジェクトや背景の色を指定します。
  - 例: (color: red) りんご → 赤いりんごを描画します。
  - 例: (color: blue) 空 → 青空を描画します。
- 強調・修飾の表現
  - (emphasis) や (blur), (glow) など、視覚効果を指定するタグがあると、演出の幅が広がります。
  - 例: (glow) sword → 光る剣
- 時間・季節・天候の指定
  - (time: morning), (season: winter), (weather: foggy) のようなタグで、シーンの雰囲気を明確化。
  - - 例: (season: autumn) park → 秋の公園
- カメラアングル・構図指定
  - (angle: low), (shot: close-up), (perspective: isometric) などで、構図をより具体的に。
  - 例: (shot: close-up) cat face → 猫の顔のアップ
- 動作・状態のタグ化
  - (action: running), (expression: surprised) のように、動きや感情をタグで明示。
  - 例: (action: jumping) child → 跳ねている子供
- ネガティブプロンプトの明示
  - (exclude: text), (exclude: watermark) のように、避けたい要素を明示する構文。
  - 例: (exclude: blur) → ぼやけを避ける
  - 例: (negative: bad art, blurry, low resolution) のように、カンマ区切りで複数のネガティブ要素をひとまとめにする方法や、各要素に重み付けを付ける方法（例: (negative: blurry:1.5)）などがあります。
  - 一般的なエラー: "blurry, distorted, low quality, extra limbs, unnatural colors"
  - 不要な要素: "watermarks, logos, text errors, unwanted objects"
  - スタイルの逸脱: "cartoonish (if aiming for photorealistic), overly simplistic"
- 言語指定のタグ
  - (lang: ja) や (lang: en) を使って、表示テキストの言語を明示。
  - 例： (lang: ja) "こんにちは" → 日本語で「こんにちは」と表示
  - 例：A vibrant anime-style poster of a Japanese festival, with a large banner displaying "祭り 2025" in bold red Japanese kanji at the top, and "Matsuri Festival" in smaller white English text below it, centered, with cherry blossoms in the background.
  - 例：The whiteboard has the letter (font: gothic) (lang: ja) "おはようこ”さ” います。 " in bold Japanese Hiragana, written on it in magic marker. A Smiling sexy young female with large breasts in a tank top is standing next to a whiteboard and looking at the camera. (angle:above).
    
    ご　は、こ　＋　全角の”、ざ　は、さ　＋　全角の”で置き換えます。うまくいくことがあります。
    ご、ざ　など濁点文字の後に半角スペースを一つ二ついれると、うまく書けることもあります。
- ウェイト（重み付け）の明確化
  - (detailed face:1.2), (simple background:0.8) のように、要素の後に :数値を付けることで重み付けを指定します。数値は1.0が基本で、大きくすると強調、小さくすると弱化します。
構成・リスト表現
- ・ (中黒) や - (ハイフン), 数字:
- 一般的なマークダウンと同様に、箇条書きリストを使って画像の構成要素を明確に列挙することができます。モデルはこれらの要素を組み合わせて解釈します。
- 例:
  以下の要素を含む公園の絵:
  - (left) 滑り台がある遊具
  - (center) 砂場で遊ぶ子供
  - (right) ベンチに座る老人
  - (background) 桜の木
このように書くことで、要素の漏れを防ぎ、複雑なシーンを構築しやすくなります。
シーンとオブジェクトの詳細記述
- 詳細な説明文:
- アスペクト比の指定
複数画像の入力と参照 (Interleaved Vision-Language)

タグ:

プロンプトの中にという特殊タグを埋め込むことで、複数の入力画像を参照させることができます。これがQwen-VLシリーズの最大の特徴の一つです。
ユーザーは画像をアップロードし、その画像に対して質問をしたり、画像を基に新しい画像を生成するように指示できます。
例 (キャプション生成): この画像の詳細な説明を書いてください。
例 (比較): との2枚の猫の写真で、似ている点と違う点を教えて。
例 (画像編集): の背景を海に変えて、漫画風で生成して

プロンプトの基本構造

これらの要素を組み合わせて、効果的なプロンプトを構築します。

基本的な形式例:

[レイアウト指定] [オブジェクト/人物] , [詳細な説明] , (スタイル指定) , (色指定) , "表示テキスト"
主体→背景→ディテール→ライティング→特殊効果→"テキスト"
[Main subject], [visual style/medium], [environment & background details], [lighting], [extra effects], ["exact text if any"]
例：A futuristic sports car, photorealistic style, parked under neon city lights, reflections on wet streets, cinematic lighting, "Night Racer" in metallic chrome text on the hood