リーディングビュー

How Anthropic Built Claude: Buy Books, Slice Spines, Scan Pages, Recycle the Remains

🤖 AI Summary

**要約(日本語)**

Anthropicはチャットボット「Claude」の学習データ作成のため、極秘プロジェクト「Project Panama」を実施したことが訴訟で明らかになった。

- **大規模書籍取得・スキャン**
- 数百万冊の実体書籍を購入し、背表紙を切り離してページをスキャン。
- スキャン対象は5万〜200万冊規模と見積もられ、購入先はBetter World BooksやWorld of Booksなどの小売業者。
- スキャン後の残骸はリサイクル業者へ回収された。

- **費用と人材**
- 数千万ドル規模の投資が行われた。
- 元GoogleのGoogle Booksプロジェクトに関わったトム・ターベイ氏がプロジェクトに参加。

- **それ以前のデータ入手**
- 共同創業者ベン・マンは2021年6月に、違法コピーサイトLibGenから11日間で多数の書籍をダウンロードし、同僚に共有していた。
- メタ(Meta)でも、マーク・ザッカーバーグの承認の下、従業員がトレントで書籍を取得していたと訴訟資料は指摘。

- **訴訟結果**
- Anthropicは2023年8月に1.5億ドル(15億ドル)の和解金を支払って訴訟を解決したが、違法行為の認否は行っていない。

この一連の行為は、AI学習用データの取得に際して著作権侵害の疑いが強く、AI企業のデータ収集手法への倫理的・法的課題を浮き彫りにしている。
Court documents unsealed last week in a copyright lawsuit against Anthropic reveal that the AI company ran an operation called "Project Panama" to buy millions of physical books, slice off their spines, scan the pages to train its Claude chatbot, and then send the remains to recycling companies. The company spent tens of millions of dollars on the effort and hired Tom Turvey, a Google executive who had worked on the legally contested Google Books project two decades earlier. Anthropic bought books in batches of tens of thousands from retailers including Better World Books and World of Books. A vendor document noted the company was seeking to scan between 500,000 and two million books. Before Project Panama, Anthropic co-founder Ben Mann downloaded books from LibGen, a shadow library of pirated material, over 11 days in June 2021. He later shared a link to the Pirate Library Mirror site with colleagues, writing "this is awesome!!!" Meta employees similarly downloaded books from torrent platforms after approval from Mark Zuckerberg, court filings allege, though one engineer wrote that "torrenting from a corporate laptop doesn't feel right." Anthropic settled for $1.5 billion in August without admitting wrongdoing.

Read more of this story at Slashdot.

  •  
❌