テキストから画像を生成するニューラルネットワーク「DALL·E」

2021年1月9日 17:38

OpenAIは5日、テキストの内容に合わせた画像を生成するというニューラルネットワーク「DALL·E」を発表した(OpenAIのブログ記事、 VentureBeatの記事、 Neowinの記事、 The Next Webの記事)。

DALL·Eは自己回帰言語モデルGPT-3の120億パラメーター版で、画像に対するキャプションぐらいの短いテキストから逆に画像を生成するよう、テキストと画像のペアからなるデータセットを学習させたものだという。その名前は芸術家サルバドール・ダリとピクサーのアニメーション映画「WALL·E」からとったそうだ。

ブログ記事にはさまざまなテキストから生成された画像が掲載されており、動物の種類や色、素材などテキストの一部は複数の選択肢から切り替えて表示することが可能だ。中にはテキストのみではなく、画像とテキストによる指定や、テキストの指定に合わせて一部分だけ提示された画像を補完するといったものもある。

掲載画像は512点生成したうち、テキストと画像を結びつけるニューラルネットワークCLIP (こちらも同日発表された)でランキング付けした上位32点と説明されているが、各30点しかないようだ。画像の出来は別として多くが指定内容に沿った画像になっているが、中には指定を完全に解釈できなかったような画像もある。帽子と手袋、シャツ、ズボンの色をそれぞれ指定する例では4つとも正しい色を適用できたものは少ないといい、4つとも同じ色を指定した場合でも、違う色が使われたものがみられる。

国・地域と事物を指定して写真風の画像を生成する例では、日本の野生生物はすべてサルだった。中国の野生生物も29点まではサルだったが、1点のみ何かわからないものがある。他の国や地域ではもう少しバリエーションがあるようだ。不気味な生物も数多い。

リーディングビュー