ガジェット

国会図書館、OCR処理プログラム及び学習用データセットを公開

国立国会図書館は4月25日に、日本語のOCR処理プログラム「NDLOCR」とパブリックドメインOCR学習用データセットの二つを公開した。NDLOCRは国立国会図書館が、モルフォAIソリューションズに委託して制作されたOCR処理プログラムの研究開発事業の成果物をCC BY 4.0ライセンスで公開したものとなっている。商用非商用を問わず自由な改変、利用が可能であるとしている(OCR処理プログラム及び学習用データセットの公開についてNDLOCRリポジトリ)。

パブリックドメインOCR学習用データセットに関しては、同様にLINEに委託したデジタル化資料のOCRテキスト化事業[PDF]において制作されたOCRの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたものを公開したものだという(パブリックドメインOCR学習用データセット(令和3年度OCRテキスト化事業分)リポジトリ)。

すべて読む

| 日本

| ニュース
|
この記事をTwitterでつぶやく
この記事をFacebookで共有
この記事をGoogle Plusで共有
このエントリーをはてなブックマークに追加

関連ストーリー:

国立国会図書館の個人向けのデジタル化資料送信サービス、5月に開始予定
2022年01月20日

国会図書館、年間納本数の約5%弱しか電子化能力がないことが判明
2020年08月14日

Predatory Journals対策
2019年05月09日

「架空の文字」を集めて分析した「修訂 絹と立方体 : 架空の文字の大図典」、電子版が無料公開される
2018年05月11日

Source: スラッシュドット