ノーマルビュー

gzipを使用した言語判定モデル、精度がほとんどのニューラルモデルを上回る

著者: nagazou
2023年7月20日 06:04
言語判定には、ディープニューラルネットワーク(DNN)が広く使われているが、この方法は計算量が大きいことから大量のデータとリソースが必要であり、実際の利用時や最適化、新しいデータへの適用にはコストがかかるという問題が起きるそうだ。そこで、簡単で軽量かつ汎用的な代替手法がACL 2023で提案されたという。手法としてはタレコミにあるように、シンプルなコンプレッサ(gzipなど)とk近傍法を組み合わせたないようだという(ACL アンソロジーStephen Diehl氏のツイート)。

Patilise 曰く、

ACL 2023でk近傍法とgzipを組み合わせた言語判定モデルが発表された。軽量(大量のデータと処理能力が不要)、パラメータ調整不要でPythonスクリプトにして14行という簡素なものだったが、ほとんどのニューラルモデルと同程度または上回る精度となった。すべてのデータセットでgzipを上回る精度が得られたのはBERTだけだった。

情報元へのリンク

すべて読む | テクノロジー | 人工知能 | この記事をTwitterでつぶやく この記事をFacebookで共有 この記事をGoogle Plusで共有 このエントリーをはてなブックマークに追加

関連ストーリー:
JavaScriptをPNGに圧縮するテクニック 2015年05月14日
JavaScriptで実装されたMPEG1デコーダー「jsmpeg」 2013年05月10日
Googleがzlibライブラリ互換のZopfilライブラリを公開 2013年03月04日
GNU gzipに脆弱性、1.4リリース 2010年02月05日

❌