2024年11月18日(月)

Wedge SPECIAL REPORT

2022年1月20日

人間とAIの役割分担 
翻刻で高める古文書の価値 

 AIと市民が助け合う──。近未来の話のようだが、実はもうすでに成果を挙げている事例がある。2017年に京都大学古地震研究会が始めた「みんなで翻刻」だ。元々は、過去の地震を記録した歴史資料の解読を目的に、地震学をはじめとする全国各地の研究者が情報共有するプラットフォームとして立ち上げられた。

 〝みんな〟の輪が広がる契機となったのは、同研究会のメンバーで、国立歴史民俗博物館の橋本雄太助教が開発した「くずし字学習支援アプリKuLA」だ。くずし字が読めなければ、江戸時代より前の古文書は読めない。そこで、橋本氏が中心となり同アプリを作成すると、1カ月で1万ダウンロードと予想を上回る反響があった。「古文書を読みたい人がこんなにいるのかという驚きとともに手ごたえを感じた」と橋本氏。市民科学として歴史資料の翻刻を行う海外の先行事例も後押しとなり、現在の市民参加型のプロジェクトに発展した。

スマホアプリでくずし字を学び、古文書を読む (YUTA HASHIMOTO)

 市民参加型に拡張した「みんなで翻刻」には、これまで約5000人が参加、2000万字を超える史料が翻刻されている。参加者の年代や属性はさまざまだ。かつて国文学を学んでいたセミプロや1人で100万字を翻刻した強者もいれば、まったくの初心者もいる。そこでAIの出番だ。凸版印刷、人文学オープンデータ共同利用センターがそれぞれ開発した2種類のAIが使用されている。

 くずし字を機械学習したAIはいくつかの候補を提示し、初心者はその中から最適と思われる解を選ぶ。ただし、現在のレベルではAIは100%正確にくずし字を認識できず、精度は高くて95%。一方、人間は背景知識や文脈の流れから意味を斟酌することができる。「AIと人間では得意なことが異なり、だからこそ役割分担ができる」と橋本氏。翻刻後は参加者同士で相互に、多重チェックが行われている。過去に3万4000字分を検証したところ、人とAIが協業したその精度は98.9%に達した。「専門家の翻刻には及ばないが、内容は理解できるので、地震学の研究者が資料を絞り込む際など、キーワード検索をかけるには十分な精度と考えていえる」と橋本氏は話す。

Win-Winの関係が
プロジェクトの屋台骨

 さらに驚くべきはその作業効率だ。当初は東京大学所蔵の地震関連の史料114点を2年かけて翻刻する見通しだったが「みんなで翻刻」はこれを4カ月で読了。19年までの2年間で約500点の史料が翻刻された。研究会メンバーで東京大学地震研究所の加納靖之准教授は「私は研究会に参加してから古文書を読み始め、自力で読めるようになるには数年かかった」と話す。さらに「これまで自分で古文書を読んで研究できる人は限られていたが、翻刻した内容をデータベース化することで学問としての検証可能性も高まったと思う」とその意義を語る。参加者からも、翻刻を通じて、自分たちの居住地域で発生した過去の被災状況を知り、防災意識が高まったとの声が寄せられた。

 ここまで多くの協力が得られる理由について橋本氏は「最初は労働力の搾取だという声も一部あったが、今では生涯学習として取り組むユーザーが多い」と分析。そこで19年からは対象とする古文書のジャンルを拡大した。妖怪が登場する「化物七段目」については、参加者が翻刻の成果を活用し、電子書籍としてリバイバル出版を果たしている。江戸の医療と養生をテーマとした翻刻も参加者発のプロジェクトとして21年に始動。歴史災害についても、これまではあまり研究対象とされてこなかった個人の日記などから、新たな記録が見つかる可能性もある。

 一方、翻刻で大量に得られたテキストも、まだ人間の読み込みを必要とする。そこでさらに利用価値を高める試みとして、新たに「みんなでマークアップ」が始まった。地震の史料について場所や日時、被害状況などの情報をマークし、コンピューターで解析しやすい形でデータ化する。地図上に情報を集約することも可能となる。翻刻の経験者はもちろん、新たな参加者も歓迎されている。「第一弾は、安政江戸地震の資料を対象にしている。場所は緯度経度を特定し、日時は西暦に変換していくことで、地図と情報を紐づけて可視化できるようにしたい」と橋本氏。地震学をさらに深めるツールとなることが期待される。

 AIと人間、専門家と一般市民。上下関係ではないWin-Winの関係がこのプロジェクトの屋台骨だ。


新着記事

»もっと見る