gzipを使用した言語判定モデル、精度がほとんどのニューラルモデルを上回る

2023年7月20日 06:04

言語判定には、ディープニューラルネットワーク（DNN）が広く使われているが、この方法は計算量が大きいことから大量のデータとリソースが必要であり、実際の利用時や最適化、新しいデータへの適用にはコストがかかるという問題が起きるそうだ。そこで、簡単で軽量かつ汎用的な代替手法がACL 2023で提案されたという。手法としてはタレコミにあるように、シンプルなコンプレッサ（gzipなど）とk近傍法を組み合わせたないようだという（ACL アンソロジー、Stephen Diehl氏のツイート）。

Patilise 曰く、

ACL 2023でk近傍法とgzipを組み合わせた言語判定モデルが発表された。軽量（大量のデータと処理能力が不要）、パラメータ調整不要でPythonスクリプトにして14行という簡素なものだったが、ほとんどのニューラルモデルと同程度または上回る精度となった。すべてのデータセットでgzipを上回る精度が得られたのはBERTだけだった。

情報元へのリンク

すべて読む | テクノロジー | 人工知能 |

関連ストーリー：
JavaScriptをPNGに圧縮するテクニック 2015年05月14日
JavaScriptで実装されたMPEG1デコーダー「jsmpeg」 2013年05月10日
Googleがzlibライブラリ互換のZopfilライブラリを公開 2013年03月04日
GNU gzipに脆弱性、1.4リリース 2010年02月05日