言語判定には、ディープニューラルネットワーク(DNN)が広く使われているが、この方法は計算量が大きいことから大量のデータとリソースが必要であり、実際の利用時や最適化、新しいデータへの適用にはコストがかかるという問題が起きるそうだ。そこで、簡単で軽量かつ汎用的な代替手法がACL 2023で提案されたという。手法としてはタレコミにあるように、シンプルなコンプレッサ(gzipなど)とk近傍法を組み合わせたないようだという(ACL アンソロジー、Stephen Diehl氏のツイート)。
Patilise 曰く、
ACL 2023でk近傍法とgzipを組み合わせた言語判定モデルが発表された。軽量(大量のデータと処理能力が不要)、パラメータ調整不要でPythonスクリプトにして14行という簡素なものだったが、ほとんどのニューラルモデルと同程度または上回る精度となった。すべてのデータセットでgzipを上回る精度が得られたのはBERTだけだった。
| テクノロジー
| 人工知能
|
関連ストーリー:
JavaScriptをPNGに圧縮するテクニック
2015年05月14日
JavaScriptで実装されたMPEG1デコーダー「jsmpeg」
2013年05月10日
Googleがzlibライブラリ互換のZopfilライブラリを公開
2013年03月04日
GNU gzipに脆弱性、1.4リリース
2010年02月05日
Source: スラッシュドット