ChatGPTなどに使われるAIの大規模言語モデル(LLM)の開発には多くの学習データが必要だ。この件に関しては2026年問題という問題があるそうで、Yahoo!ニュース個人の記事でまとめられている(Yahoo!ニュース個人、Business Insider)。
現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。これにより、機械学習の進歩は減速する可能性もある。
これ以外にも学習データの収集に関しては、さまざまな問題が指摘されている。多くは著作権的なものだが、データ収集のためのボット操作によるツイッターのアクセス集中もこの問題を浮き彫りにしたと言われている。大規模言語モデルの開発におけるこうした従来の手法は限界に近づいており、AI研究者たちは、合成データや他の手法で解決策を模索しているという。
オープンAIや他のAI企業は、メディアとの契約を結び、高品質のデータを取得している。また、AIによって作成された合成データも利用が広がっているが、データ汚染やモデル崩壊といった懸念も指摘されている。実際、米スタンフォード大学の調査によると、ChatGPTの簡単な数学を解く精度やセンシティブな話題に対する判断力が劇的に低下する現象も起きているそうだ(GIGAZINE)。
| テクノロジー
| 人工知能
|
関連ストーリー:
AIグラビアアイドル「さつきあい」の写真集、発売中止に
2023年06月08日
OpenAI、テキストを書いたのが AI か人間かを区別するよう学習させた分類ツールを公開
2023年02月03日
「GitHub Copilotはオープンソースライセンスを侵害」OSS開発者が集団訴訟を開始
2022年11月07日
NovelAI、イラスト無断転載サイトを学習データに使用か?
2022年10月29日
Source: スラッシュドット