国会図書館、OCR処理プログラム及び学習用データセットを公開
パブリックドメインOCR学習用データセットに関しては、同様にLINEに委託したデジタル化資料のOCRテキスト化事業[PDF]において制作されたOCRの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたものを公開したものだという(パブリックドメインOCR学習用データセット(令和3年度OCRテキスト化事業分)リポジトリ)。
関連ストーリー:
国立国会図書館の個人向けのデジタル化資料送信サービス、5月に開始予定
2022年01月20日
国会図書館、年間納本数の約5%弱しか電子化能力がないことが判明
2020年08月14日
Predatory Journals対策
2019年05月09日
「架空の文字」を集めて分析した「修訂 絹と立方体 : 架空の文字の大図典」、電子版が無料公開される
2018年05月11日