ComfyUI.Tokyo

SD1.5 VAE

SD1.5 comfUI 基本画像生成でvae-ft-mse-840000-ema-pruned.safetensorsを別に設置することでどのような利点があるのでしょうか。

ComfyUIのStable Diffusion 1.5 (SD1.5) において、vae-ft-mse-840000-ema-pruned.safetensors を別途設置して使用することには、以下のような明確な利点があります。

VAEの役割

まず、VAE (Variational AutoEncoder) の役割を理解することが重要です。

Stable Diffusionのような画像生成モデルは、画像を「潜在空間」と呼ばれる圧縮された形式で扱います。

VAEは、この潜在空間と通常のピクセル空間（私たちが目にする画像）の間を変換する役割を担っています。

エンコーダー (Encoder): ピクセル空間の画像を潜在空間に圧縮します。

デコーダー (Decoder): 潜在空間の情報をピクセル空間の画像に展開します。

画像生成のプロセスでは、モデルが潜在空間で画像を生成した後、VAEのデコーダー部分がその潜在表現を最終的な画像に変換します。

vae-ft-mse-840000-ema-pruned.safetensors を使用する利点

この特定のVAEモデルは、Stability AIによって公開されているもので、SD1.5系のモデルで広く推奨され、使用されています。

これを別途設置して使用する主な利点は以下の通りです。

画質の向上（特に細部）:
- 顔や目の改善: 最も顕著な利点の一つは、生成される人物の顔や目のディテールが大幅に改善されることです。デフォルトのVAEや、品質の低いVAEを使用した場合に発生しがちな、目が歪んだり、顔が不自然になったりする問題を軽減します。
- 手足の表現: 手や指など、Stable Diffusionが苦手とする部分の表現も、このVAEを使用することでより自然になる傾向があります。
- 全体的なシャープネスと鮮明さ: 画像全体の鮮明さやディテールが向上し、より高品質でプロフェッショナルな印象の画像が生成されます。
色の再現性と一貫性:
- 色の歪みや不自然な色合いを修正し、より正確で自然な色表現を可能にします。特に、コントラストや明るさのバランスが改善されることが多いです。
モデルの互換性と柔軟性:
- 多くのSD1.5系のチェックポイントモデルは、このVAEが組み込まれていないか、あるいは汎用的なVAEが使用されている場合があります。vae-ft-mse-840000-ema-pruned.safetensors を別途読み込むことで、どのモデルを使用しても一貫して高品質なデコード結果を得ることができます。
- これにより、様々なモデルを試す際に、VAEの品質に起因する問題に悩まされることが少なくなります。
ファイルサイズの効率性:
- pruned の名前が示す通り、このVAEは不要な部分が取り除かれており、ファイルサイズが最適化されています。これにより、VRAMの使用量を抑えつつ、高品質なデコードが可能です。

では、なぜ別途設置するのでしょうか

多くのStable Diffusionモデル（チェックポイントファイル）には、VAEが「焼き込み」または「内蔵」されています。しかし、その内蔵されているVAEの品質はモデルによって様々です。

vae-ft-mse-840000-ema-pruned.safetensors のような高品質なVAEを別途読み込むことで、モデルに内蔵されたVAEよりも優れたデコード能力を利用し、最終的な画像品質を向上させることができます。

ComfyUIでは、VAEを明示的にロードするノードがあるため、この高品質なVAEを簡単にワークフローに組み込むことができます。

結論として、ComfyUI SD1.5で基本的な画像生成を行う場合でも、vae-ft-mse-840000-ema-pruned.safetensors を別途使用することは、生成される画像の全体的な品質、特に顔や手などの細部の表現、色の再現性を大きく向上させるため、非常に推奨されるプラクティスです。

Workflowの出展元 OpenArt Workflows

workflow

SD15_VAE.json

Link

SD1.5_VAE

SD1.5_VAE_CLIP