・Abstract
私たちは、条件付き敵対ネットワークを、イメージ - イメージ変換問題の汎用ソリューションとして研究します。
これらのネットワークは、入力画像から出力画像へのマッピングを学習するだけでなく、このマッピングを訓練するための損失関数を学習する。
これにより、伝統的に非常に異なる損失処方を必要とする問題に同じ一般的なアプローチを適用することが可能になる。
このアプローチがラベルマップから写真を合成し、エッジマップからオブジェクトを再構成し、画像を色づけるのに効果的であることを実証します。
この結果は、私たちがもはや損失関数を手作業で作ることなく、リーズナブルな結果を達成できることを示唆しています。

画像処理、CG、およびCVにおける多くの問題は、入力画像を対応する出力画像に「翻訳」することととらえることができる。
概念が英語またはフランス語で表現されるように、シーンはRGB画像、勾配場、エッジマップ、セマンティックラベルマップなどとしてレンダリングされます。
自動言語変換と同様に、十分な訓練データ(図1参照)があれば、シーンの可能性のある表現を別の表現に変換するという問題として、画像間変換を定義することができます。
言語の翻訳が難しい理由の1つは、言語間のマッピングが一対一であることはめったにないためです。
いずれの概念も、ある言語では他の言語よりも表現しやすいからです。
同様に、ほとんどのイメージからイメージへの変換の問題は、多対1(CV。写真をエッジ、セグメント、セメンティックラベルに変換する)か、または一対多(CG。マッピングラベルやスパースな入力を写実的な画像に変換する)である。
伝統的に、これらのタスクの各々は、別個の専用機械(例えば、[7,15,11,1,3,37,21,26,9,42,46])で取り組まれてきたが、ピクセルからピクセルへの変換という設定は全て同じです。
本稿の目標は、これらの問題の共通の枠組みを構築することです。

コミュニティはすでに、この方向で重要なステップを踏んでおり、CNN(畳み込みニューラルネット)がさまざまな画像予測問題の背後にある一般的な機能になっています。
CNNは、結果の質を評価する目的である損失関数を最小限に抑えることを学びます。
学習プロセスは自動ですが、効果的な損失の設計には多くの手作業が必要です。
言い換えれば、私たちはまだCNNに最小限に抑えたいものを伝える必要があります。
しかし、Midasのように、私たちは欲しいものを慎重に選ばなければなりません。
素朴なアプローチをとって、予測された真のピクセルと真の真のピクセルとの間のユークリッド距離を最小にするようにCNNに依頼すると、ぼやけた結果が生じる傾向があります[29、46]。
これは、すべてのもっともらしい出力を平均化することによってユークリッド距離が最小化され、ぼやけが生じるからです。
CNNに、実際に鮮明で現実的な画像を出力するなど、実際に欲しいことを強制的に行う損失関数を与えるのは未解決の問題であり、一般的に専門家の知識が必要です。

本稿では、条件付き設定でGANを探索する。
GANがデータの生成モデルを学ぶのと同様に、条件付GAN(cGAN)は条件付き生成モデルを学習する[14]。
これにより、cGANは、イメージからイメージへの変換タスクに適しています。
ここでは、入力イメージを処理し、対応する出力イメージを生成します。
GANは過去2年間に精力的に研究されており、本書で探求している多くの手法はこれまでに提案されています。
それにもかかわらず、以前の論文は特定のアプリケーションに焦点を当ててきましたが、画像 - 条件付きGANが画像 - 画像変換の汎用ソリューションとしてどのくらい有効であるかは不明です。
私たちの主な貢献は、さまざまな問題について、条件付きGANがリーズナブルな結果を生むことを実証することです。
我々の第二の貢献は、良い結果を達成するのに十分な単純なフレームワークを提示し、いくつかの重要な設計上の選択の効果を分析することです。

1. Related work
Structured losses for image modeling
画像から画像への変換の問題は、多くの場合、ピクセルごとの分類または回帰として定式化される[26,42,17,23,46]。
これらの形式は、各出力ピクセルが入力画像の他のすべてのピクセルに対して条件付きで独立していると見なされるという意味で、出力空間を非構造的であるとして扱います。
条件付きGANは、代わりに構造化された損失を学習します。
構造化された損失は、出力の結合構成にペナルティを与える。
条件付きランダムフィールド[2]、SSIMメトリック[40]、特徴マッチング[6]、ノンパラメトリックロス[24]、畳み込み擬似事前[41]、および一致する共分散統計値に基づく損失[19]などの多くの文献は同様の条件付き損失を持つ。
私たちの条件付きGANは、損失が学習され、理論上、出力とターゲットの間で異なる可能性のある構造にペナルティを課すことができる点で異なります。

Conditional GANs
私たちがGANに条件付き設定を最初に適用したわけではありません。
以前に、離散ラベル[28]、テキスト[32]、画像において条件付きGANが研究されました。
画像条件付きモデルはインペインティング[29]、ノーマルマップ[39]からの画像予測、ユーザ制約[49]、将来フレーム予測[27]、将来状態予測[48]、プロダクト写真生成[43]、スタイル転送[25]に取り組んできました。
これらのメソッドのそれぞれは、特定のアプリケーションに合わせて調整されました。
私たちのフレームワークは、アプリケーション固有のものがないという点で異なります。
これにより、セットアップは他のほとんどのものよりもかなり簡単になります。
我々の方法はまた、これらの先行研究とは、発生器および弁別器のいくつかのアーキテクチャ上の選択肢が異なる。
過去の研究とは異なり、我々のジェネレータでは、U-Netベースのアーキテクチャ[34]を使用し、我々の識別器には畳み込みの "PatchGAN"分類器を使用し、画像パッチの規模でのみ構造をペナルティする。
同様のPatch-GANアーキテクチャは、ローカルなスタイル統計を捕捉する目的で[25]で以前に提案されました。
ここでは、このアプローチがより広い範囲の問題に効果的であることを示し、パッチサイズの変更の影響を調べます。

2. Method
GANは、ランダムノイズベクトルzから出力画像yへの写像(G:z->y)を学習する生成モデルである[14]。
対照的に、条件付きGANは、観測された画像xとランダム雑音ベクトルzから画像yへの写像(G:{x,z}->y)を学習する。
ジェネレータGは、ジェネレータの「フェイク」を検出する際に可能な限り行うように訓練された対抗訓練された弁別者Dによって「実際の」画像と区別できない出力を生成するように訓練される。
このトレーニング手順は図2に示されています。