AI開発・運用、AI人材の育成サービスを提供する株式会社SIGNATE(本社:東京都千代田区、代表取締役社長:齊藤 秀、以下 SIGNATE)は、データサイエンスプラットフォーム「SIGNATE®」にて、凸版印刷株式会社(本社:東京都文京区、代表取締役社長:麿 秀晴、以下 凸版印刷)主催のくずし字OCRに関するコンペティション『くずし字認識チャレンジ』を、本年3月22日(火)より開催いたします。今回は、行領域認識部門と行内文字認識部門で2本のコンペティションを同時開催いたします。
コンペティションページ:
① 行領域認識部門
② 行内文字認識部門
■コンペティション開催の背景
一説によると、日本国内に数億点あるとも推測されている古文書や古記録などの歴史資料の多くはくずし字で書かれ、現代では専門家以外には解読が困難になっています。また、これらの資料は、大学などの研究機関などで厳重に管理されているもの以外にも、地方の名士や名家の蔵などに保管されているものも多く、損傷や紛失・焼失など、保存・保管上の問題もあります。このような事情が、歴史研究や文化継承の妨げになることも少なくありません。
そのため、凸版印刷では、2021年より古文書解読とくずし字資料の利活用サービスとして「ふみのは®」を提供してきました。これまでに、多くの研究機関への導入が進んでおり、将来、専門家レベルのくずし字OCR認識精度を実現することが強く望まれています。
今回、SIGNATEが保有する国内最大規模のAI開発技術者ネットワークを活用することで、凸版印刷がこれまで培ってきたくずし字OCR技術に最先端のAI技術を取り入れ、最高品質のくずし字OCR技術実現を目指します。
■コンペティションの詳細 <開催概要> 名称 :凸版印刷株式会社 くずし字認識チャレンジ 「行領域認識部門」「行内文字認識部門」 主催 :凸版印刷株式会社 賞金 :「行領域認識部門」 1位 ¥800,000/2位 ¥500,000/3位 ¥200,000 「行内文字認識部門」 1位 ¥800,000/2位 ¥500,000/3位 ¥200,000 参加資格:SIGNATE会員(登録無料) で、コンペティション参加規約に同意した方。 開催期間:2022年3月22日(火)~2022年5月23日(月) 選考結果公表:2022年6月14日(火)当社サイトにて公表いたします。
<タスク説明>
「行領域認識部門」
あるページの行領域を検出するアルゴリズムを作成していただきます。
出典:人文学オープンデータ共同利用センター
『日本古典籍くずし字データセット』に含まれる『吉利支丹物語』(国文学研究資料館所蔵、doi: 10.20730/200006665、
CC BY-SAにて配布、新日本古典籍総合データベースより)を加工した画像
加工内容:行領域を4点ポリゴンで囲って赤枠で表示
「行内文字認識部門」
あるページで切り取られた1行に対して、書かれているくずし字を認識するアルゴリズムを作成していただきます。
出典:人文学オープンデータ共同利用センター
『日本古典籍くずし字データセット』に含まれる『飯百珍伝』(国文学研究資料館撮影/味の素食の文化センター所蔵、doi: 10.20730/100249476、
CC BY-SAにて配布、新日本古典籍総合データベースより)を加工した画像
加工内容:行領域の切り出し処理を行い、記載内容を表示
■SIGNATEとは
「SIGNATE®」は、2022年3月時点で約63,000人のAI/データ分析人材が登録する国内最大のデータサイエンスプラットフォームです。登録ユーザの73%が社会人、27%が学生で、高度な知識やスキルを有した方々のコミュニティとなっています。
主な機能は、実社会のデータ分析課題に挑戦できる『SIGNATE Competition』、AI/データ分析のe-learningサービス『SIGNATE Quest』です。それぞれの登録ユーザに合った形で、企業や行政機関とのマッチングを通した「成長」と「活躍」の機会を提供しています。