国立国会図書館は4月25日に、日本語のOCR処理プログラム「NDLOCR」とパブリックドメインOCR学習用データセットの二つを公開した。NDLOCRは国立国会図書館が、モルフォAIソリューションズに委託して制作されたOCR処理プログラムの研究開発事業の成果物をCC BY 4.0ライセンスで公開したものとなっている。商用非商用を問わず自由な改変、利用が可能であるとしている(OCR処理プログラム及び学習用データセットの公開について、NDLOCRリポジトリ)。
パブリックドメインOCR学習用データセットに関しては、同様にLINEに委託したデジタル化資料のOCRテキスト化事業[PDF]において制作されたOCRの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたものを公開したものだという(パブリックドメインOCR学習用データセット(令和3年度OCRテキスト化事業分)リポジトリ)。
| 日本
| ニュース
|
関連ストーリー:
国立国会図書館の個人向けのデジタル化資料送信サービス、5月に開始予定
2022年01月20日
国会図書館、年間納本数の約5%弱しか電子化能力がないことが判明
2020年08月14日
Predatory Journals対策
2019年05月09日
「架空の文字」を集めて分析した「修訂 絹と立方体 : 架空の文字の大図典」、電子版が無料公開される
2018年05月11日
Source: スラッシュドット