「どのLLMがロシアのプロパガンダに対抗するのに優れているか?」がわかるベンチマークをエストニア政府が発表
2026年6月5日 13:17
🤖 AI Summary
タイトル: エストニア政府が「どのLLMがロシアのプロパガンダに対抗するのに優れているか?」を測るベンチマークを公開
エストニア言語研究所は、大規模言語モデル(LLM)のロシア宣伝への耐性を評価する「Propaganda Resistance」ベンチマークを発表しました。結果ではAnthropicのClaude Opus 4.7が総合首位となり、NVIDIAやAlibabaのモデルも上位にランクインしています。
このベンチマークは、ロシアの戦略的ナラティブに対処する能力を測定するもので、3言語で75問が出題され、14種類の宣伝ナラティブが評価対象です。回答には人間の専門家に近い判定モデルを使用し、結果は1点から5点で採点されました。
Claude Opus 4.7は、質問の約77%で最上位評価を得ました。Anthropicの他のモデルも優れた成績を収め、NVIDIAとAlibabaのオープンウェイトモデルも上位に位置しています。一方、OpenAIのGPT-5.4は比較的高い得点を得ましたが、古いモデルであるGPT-3.5 Turboは下位になりました。
エストニア言語研究所は、このベンチマークが基盤モデル自体の能力を測るものであり、外部の検索やツールを使わないことを確認しています。
エストニア言語研究所は、大規模言語モデル(LLM)のロシア宣伝への耐性を評価する「Propaganda Resistance」ベンチマークを発表しました。結果ではAnthropicのClaude Opus 4.7が総合首位となり、NVIDIAやAlibabaのモデルも上位にランクインしています。
このベンチマークは、ロシアの戦略的ナラティブに対処する能力を測定するもので、3言語で75問が出題され、14種類の宣伝ナラティブが評価対象です。回答には人間の専門家に近い判定モデルを使用し、結果は1点から5点で採点されました。
Claude Opus 4.7は、質問の約77%で最上位評価を得ました。Anthropicの他のモデルも優れた成績を収め、NVIDIAとAlibabaのオープンウェイトモデルも上位に位置しています。一方、OpenAIのGPT-5.4は比較的高い得点を得ましたが、古いモデルであるGPT-3.5 Turboは下位になりました。
エストニア言語研究所は、このベンチマークが基盤モデル自体の能力を測るものであり、外部の検索やツールを使わないことを確認しています。