ノーマルビュー

Stable Diffusionなどの画像生成モデル、学習データとほぼ同じ画像を出力することもある

著者: headless
2023年2月5日 11:09
高品質な画像生成で注目を集める Stable Diffusion などの拡散 (diffusion) モデルが学習データを記憶しており、条件によっては元の画像とほぼ同じ画像を生成させることも可能だという研究成果を Google や DeepMind、バークレー大学などの研究グループが発表した (Ars Technica の記事論文アブストラクト)。

拡散モデルは学習データと似たようなものではない全く新しい画像を生成できる点が魅力であり、学習データのプライバシーも保護できると考えられている。これは拡散モデルが学習データを記憶したり再生成したりしないという前提に基づくものであり、その前提が覆されればプライバシー侵害や著作権侵害の問題が発生する可能性がある。

研究では Stable Diffusion と Google の Imagen を用い、記憶された画像の特定を試みている。Stable Diffusion を用いた実験では学習データのうち最も重複している 35 万点のサンプルを選び、それぞれ 500 点の候補画像を生成。これにより生成された 1 億 7,500 万点の画像のうち、109 点の見た目が学習データとほぼ同じだったという。これにより 50 点の記憶された画像が特定されているが、特に学習データの重複数が 100 件を超えるものに集中していたとのこと。記憶された画像の 58 % は人物を特定可能な写真であり、このほかの画像は販売物 (17 %) やロゴ・ポスター (14 %)、アート・グラフィックといったものだったそうだ。

Imagen でも同じ手順で実験を行っているが、計算上の都合により重複数の多い画像トップ 1,000 のプロンプトに絞って各 500 点の画像を生成させている。結果としては Stable Diffusion よりもはるかに多い画像が記憶されており、1,000 点中 23 点が特定されたとのこと。

最新の拡散モデルでは GAN と比べて 2 倍以上の画像を記憶しており、より役立つ拡散モデルほど記憶している画像が多い。これは時間の経過に伴って脆弱性が増していくことを示すものだという。論文ではプライバシー侵害や贋作生成のリスクを低下させるための対策として、重複データを減らすことや、本研究の攻撃手法やその他の監査技術を用いてリスクを推定すること、プライバシー保護の実用的な技術が利用可能になったら可能な限り使用することを挙げ、本研究が拡散モデルのプライバシーへの過度な期待を緩和することを望んでいる。

すべて読む | ITセクション | グラフィック | 人工知能 | デベロッパー | IT | プライバシ | この記事をTwitterでつぶやく この記事をFacebookで共有 この記事をGoogle Plusで共有 このエントリーをはてなブックマークに追加

関連ストーリー:
中国「AI生成マークの表示」を義務化&AIユーザーも実名登録制へ 2022年12月16日
クリスタが「画像生成AIパレット」の試験実装を発表も、批判殺到で中止に 2022年12月07日
NovelAI、イラスト無断転載サイトを学習データに使用か? 2022年10月29日
ゲーム開発者やアーティストはAIアートの盛り上がりをどう思っているか 2022年10月27日
米著作権局、AI がアートワークを生成したグラフィックノベルを著作権登録 2022年09月24日
Getty Images、AIが生成した画像を禁止 2022年09月23日
画像生成AI「Midjourney」が美術品評会で1位を取ってしまい騒動に 2022年09月03日
アップロードされた絵と同じ特徴の絵を生成するAIサービスが登場も1日でサービス停止に 2022年09月01日
画像生成AIサービスが人気に、オープンソースのモデルも登場 2022年08月24日
画像生成AI『DALL·E 2』、データセットの偏りを補正するための単純なハック実施 2022年08月03日

❌