テキストから画像を生成するニューラルネットワーク「DALL·E」
OpenAIは5日、テキストの内容に合わせた画像を生成するというニューラルネットワーク「DALL·E」を発表した(OpenAIのブログ記事、 VentureBeatの記事、 Neowinの記事、 The Next Webの記事)。DALL·Eは自己回帰言語モデルGPT-3の120億パラメーター版で、画像に対するキャプションぐらいの短いテキストから逆に画像を生成するよう、テキストと画像のペアからなるデータセットを学習させたものだという。その名前は芸術家サルバドール・ダリとピクサーのアニメーション映画「WALL·E」からとったそうだ。
ブログ記事にはさまざまなテキストから生成された画像が掲載されており、動物の種類や色、素材などテキストの一部は複数の選択肢から切り替えて表示することが可能だ。中にはテキストのみではなく、画像とテキストによる指定や、テキストの指定に合わせて一部分だけ提示された画像を補完するといったものもある。
掲載画像は512点生成したうち、テキストと画像を結びつけるニューラルネットワークCLIP (こちらも同日発表された)でランキング付けした上位32点と説明されているが、各30点しかないようだ。画像の出来は別として多くが指定内容に沿った画像になっているが、中には指定を完全に解釈できなかったような画像もある。帽子と手袋、シャツ、ズボンの色をそれぞれ指定する例では4つとも正しい色を適用できたものは少ないといい、4つとも同じ色を指定した場合でも、違う色が使われたものがみられる。
国・地域と事物を指定して写真風の画像を生成する例では、日本の野生生物はすべてサルだった。中国の野生生物も29点まではサルだったが、1点のみ何かわからないものがある。他の国や地域ではもう少しバリエーションがあるようだ。不気味な生物も数多い。
すべて読む
| ITセクション
| グラフィック
| 人工知能
| idle
|
関連ストーリー:
朝日新聞社メディアラボ、機械学習モデルが自動生成したフィクション記事を公開
2020年11月21日
耳の画像から顔を推定する試み
2020年06月11日
Microsoft Garage、画像認識を利用した英語語彙学習ツールのプロトタイプを発表
2019年05月28日
OpenAI、ディープニューラルネットワークで音楽を生成するツールのプロトタイプを公開
2019年04月30日
Microsoft 365、OneDriveとSharePointで動画と音声の文字起こし提供計画
2018年09月02日
人工知能によって人工知能を作る研究が進められる
2017年01月26日
米IT界の著名人らがAI研究組織「OpenAI」を創設
2015年12月17日