AIの学習データが不足する「2026年問題」｜困った時に役立つPCマガジン

ChatGPTなどに使われるAIの大規模言語モデル（LLM）の開発には多くの学習データが必要だ。この件に関しては2026年問題という問題があるそうで、Yahoo!ニュース個人の記事でまとめられている（Yahoo!ニュース個人、Business Insider）。

現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。これにより、機械学習の進歩は減速する可能性もある。

これ以外にも学習データの収集に関しては、さまざまな問題が指摘されている。多くは著作権的なものだが、データ収集のためのボット操作によるツイッターのアクセス集中もこの問題を浮き彫りにしたと言われている。大規模言語モデルの開発におけるこうした従来の手法は限界に近づいており、AI研究者たちは、合成データや他の手法で解決策を模索しているという。

オープンAIや他のAI企業は、メディアとの契約を結び、高品質のデータを取得している。また、AIによって作成された合成データも利用が広がっているが、データ汚染やモデル崩壊といった懸念も指摘されている。実際、米スタンフォード大学の調査によると、ChatGPTの簡単な数学を解く精度やセンシティブな話題に対する判断力が劇的に低下する現象も起きているそうだ（GIGAZINE）。

すべて読む

| テクノロジー

| 人工知能
|