ガジェット

gzipを使用した言語判定モデル、精度がほとんどのニューラルモデルを上回る

言語判定には、ディープニューラルネットワーク(DNN)が広く使われているが、この方法は計算量が大きいことから大量のデータとリソースが必要であり、実際の利用時や最適化、新しいデータへの適用にはコストがかかるという問題が起きるそうだ。そこで、簡単で軽量かつ汎用的な代替手法がACL 2023で提案されたという。手法としてはタレコミにあるように、シンプルなコンプレッサ(gzipなど)とk近傍法を組み合わせたないようだという(ACL アンソロジーStephen Diehl氏のツイート)。

Patilise 曰く、

ACL 2023でk近傍法とgzipを組み合わせた言語判定モデルが発表された。軽量(大量のデータと処理能力が不要)、パラメータ調整不要でPythonスクリプトにして14行という簡素なものだったが、ほとんどのニューラルモデルと同程度または上回る精度となった。すべてのデータセットでgzipを上回る精度が得られたのはBERTだけだった。

情報元へのリンク

すべて読む

| テクノロジー

| 人工知能
|
この記事をTwitterでつぶやく
この記事をFacebookで共有
この記事をGoogle Plusで共有
このエントリーをはてなブックマークに追加

関連ストーリー:

JavaScriptをPNGに圧縮するテクニック
2015年05月14日

JavaScriptで実装されたMPEG1デコーダー「jsmpeg」
2013年05月10日

Googleがzlibライブラリ互換のZopfilライブラリを公開
2013年03月04日

GNU gzipに脆弱性、1.4リリース
2010年02月05日

Source: スラッシュドット