失われた言語で書かれた文書を解読するアルゴリズム
失われた言語の解読は人間の専門家がしばしば数十年の時をかけて骨の折れる作業の末に実現されてきた。研究グループのうち3名は昨年、ウガリット語や線文字Bといった失われた言語をアルゴリズムが解読できることを示しているが、対象言語の語族がわかっていることや、単語の境界が示されていることが前提となっていた。
これらの前提を2つとも満たさない未解読の言語として、イベリア語が挙げられる。イベリア語の文書では単語同士が必ずしも分離されておらず、近縁の言語についても研究者の意見が一致していない。今回のアルゴリズムはこういった前提条件を緩和し、主に言語的制約を手掛かりとして解読を行う。
言語的制約はこれまでも利用されていたが、研究グループは言語の進化の過程で特定の音韻が失われた場合には類似した音韻に置き換えられる可能性が高く、全く異なる音韻に置き換えられる可能性は低いといった言語的制約を追加。これにより、文書を単語単位に分割し、近い関係にある言語の同根語に割り当てることが可能となる。
新しいアルゴリズムはイベリア語のほか、既に解読されているゴート語やウガリット語を使用した検証を行い、単語間の分割が不十分な言語を効果的に解読できることが示された。副産物として、失われた言語の語族を検出できることも確認されている。また、アルゴリズムが各音韻の特徴を多次元的にマッピングするため、失われた言語の発音の復元に向けた出発点になることも期待されるとのことだ。
すべて読む
| サイエンスセクション
| 人工知能
| サイエンス
|
関連ストーリー:
スコットランドの伝統言語「ゲール語」が消滅の危機
2020年07月08日
白紙と思われていた死海文書の断片に肉眼では見えない文字
2020年05月26日
炭化した古代巻物をCTスキャンを使って復元
2016年10月01日
大英図書館が約700年前の剣に刻まれた暗号の解読協力を募集
2015年08月14日
2115年の世界ではどんな言語が話されているか
2015年01月04日
氷河期から使われていた単語
2013年05月12日
Google、危機に瀕する言語を救う「Endangered Languages Project」を公開
2012年06月24日
世界の言語の起源解明か
2011年04月16日
「ヴォイニッチ手稿」の羊皮紙の作成年代が特定された
2011年02月16日
ヒトの言語はネアンデルタール人よりも前に始まっていた?
2008年07月15日
古文書を読んで画像認証
2007年10月03日
インカ文字は7ビット2進法?
2003年07月02日