AI揭开古代文献的神秘面纱,从“古卷轴”到楔形文字,或者重写历史。
AI的飞跃可能会开辟我们了解古代世界的新方法。想象一下,如果ChatGPT能够「上古卷轴」在文本洪流上接受训练,我们将有机会直接与历史对话。
Federicaa于2023年10月发送了一封电子邮件 在Nicolardi的手机上,其中一张图片将永远改变她的研究。
这个秘密药物是纸莎草的碎片,这个秘密药物在公元79年维苏威(Vesuvius)火山爆发时被烧毁——也就是庞贝古城被埋在地下的灾难。

在18世纪,人们在意大利庞贝城周围Herculeaneum的一个豪华罗马别墅遗址中发现了数百种秘密药物,其中一种就是这种烧焦的秘密药物。

在过去的几百年里,研究人员试图剥去秘密药物上的弱碳化层,探索内部记录的秘密,但都失败了,许多秘密药物变成了碎片。
学者只能接受这些「上古卷轴」一直无法打开的事实。

意大利那不勒斯大学(University of Naples)Nicolardi是一位纸莎草纸学家,他试图使用AI来阅读这些难以辨认的内容。

现在最新的结果已经发出来了,AI把文字还原成了希腊字母,整齐清晰。-这是一篇过去2000年无法打开的文本。
甲骨文,从希腊语,拉丁语,到中国。(Oracle Bone Script),AI正准备重塑我们对古代世界的看法。

重建古代文本
在过去的几十年里,计算机已经被用来对数字文本进行分类和分析,AI的加入使得研究人员有望处理以前无法理解的巨大档案。
所以,比过去几个世纪获得的数据更多的是大量的新文本。
2010年代,将深度学习应用于古代文本的早期尝试是基于文本的数码照片(拍摄纸莎草纸或棕榈叶原件)。
这一时期最常用的网络是CNN,光学字符识别图像(OCR)。
研究甲骨文的团队使用模型来恢复不完整的字母图像,拼接碎片,以及如何随着时间的推移进化字符。

同时,RNN网络也发挥了处理时间序列数据的优势,用于搜索、翻译和填补翻译文本的空白。例如,RNN用于猜测数百个公式化行政和法律文本中古巴比伦文本中缺失的字符。
神经网络除了加快繁琐的任务外,还有助于建立人类专家无法发现的关系。
英国牛津大学于2017年开展了首个展示AI潜力的项目:破解来自西西里岛的希腊铭文。
这些古文字读起来很复杂,储存得很差。他们中的一些人缺乏方言,研究人员不确定铭文的具体归属和日期。
以往的研究人员一般都是利用自己对类似当前文本的理解来解释新的信息,他们通常是具体时间和地点的专家。
但是一个人不可能掌握所有与新文本相关的信息,所以AI出现了。

在公元7世纪至公元5世纪之间,研究人员对数以万计的希腊铭文进行了RNN模型的训练:Pythia。接着要求模型文本在以前从未见过的文本中预测缺失的单词或字符。
在2022年,他们再次使用流行的Transformer来训练一个名为Ithaca的模型,并在此前的基础上增加了预测未知文本日期和发源地点的能力。
Transformer捕捉比RNN更复杂的语言模式,并根据前后文对其进行加权,通过并行分析输入不同的特征(字符或单词)。

最终,Ithaca以62%的准确率恢复了古代文本中人工产生的空白,相比之下,人类专家的准确率为25%。当Ithaca与专家合作时,预测准确率达到72%。
另外,Ithaca还以71%的准确率确定了铭文的地理来源,并且日期预测接近公认的时间。
在Ithaca免费开源之后,创始人每周都会收到数百次访问。到目前为止,Ithaca做出贡献的例子包括重新确定雅典政治法律的日期,以及对公元4世纪泥板的调查等。

海量档案
对于古代文献来说,另一个完全不同的挑战是信息量。
例如,研究人员处理的世界上最大的历史文件之一包括数十万篇文章,包括27位韩国国王(14世纪至20世纪初)的统治时间。
这是一个完整的记录,来源也是众所周知的,但是几乎没有人能读懂,因为它是用古汉字写的,不同于现代汉字或者韩语。

一个由政府翻译组成的小团队,正在努力将这些文字手工翻译成现代韩文,但是这个任务可能需要几十年的时间。
来自纽约大学(New York University)首席机器翻译研究员 Kyunghyun 在Transformer的网络上,Cho与同事合作,训练了自动翻译这些记录。
团队采用多语言方法,因为没有足够的数据来训练这样的模型。专家指出,AI的翻译(描述国事访问、惩罚内奸、音乐会等事件)比古代翻译更准确、更容易阅读,甚至在某些情况下比现代翻译更好。
另外一方面,研究人员使用神经网络来处理只有少量文字存活下来的古代语言。
通常需要大量的数据来训练Transformer,这并不适合这种情况,因此研究人员回到了以前的模型。
例如,Katerinas大学,希腊Patras大学。 与同事一起使用RNN从克里特岛克诺索斯·克里特岛克诺索斯斯ileiou(Knossos, Crete)迈锡尼泥板1,100块(Mycenaean tablets)缺失的文本已经恢复,包括公元二千年写的羊群记录。(Linear B)。

前十个模型的预测准确率在人工测试中达到72%,而在实际应用中,其性能一般可以与人类专家进行平衡。
Papavassileiou希望添加视觉数据(例如不完整字母的痕迹),而不仅仅是依靠音译文本,以进一步改进结果。她仍在研究「迁移学习」,将模型从一系列泥板中学到的知识应用到其它泥板中。
看起来不可能的任务
让我们回到最初的例子,阅读赫库兰尼姆(Herculaneum)秘密药物涉及克服两大问题。
第一,软弱的秘密药物不能进行。计算机科学家为了看到它们的内部 Brent 开发Seales花了几年时间「虚拟进行」该技术包括对秘密药物的内部结构进行高分辨率计算机断层扫描(CT),并且在横截面的每一帧中手工绘制可见表层,然后用算法将表面制作成平面图像。
2015年,研究人员从以色列恩戈地区使用了这项技术。(EnGedi)一种烧焦、无法打开的秘密药物(公元3世纪左右)阅读了完整的文本,证明它来自圣人。 经的章节。

与EnGedi的秘密药物相比,Herculaneum的秘密药物每卷有数百次,而且像缎子一样薄。为捕捉高分辨率的CT数据,该团队将几种秘密药物运送到牛津附近的Diamond Light 粒子加速器用于Source。
但是,EnGedi秘药和其他后期内容中的墨水通常都含有铁,在CT扫描过程中会发出明亮的光彩,而Herculaneum的抄袭者使用碳基墨水,由于其密度与使用的莎草纸相同,在扫描过程中是看不见的。
Seales团队意识到,虽然他们不能直接看到墨水,但他们可能会检测到它的形状。-如果裸露的纸莎草纤维与涂有墨水的纤维相比表面纹理略有不同,也许它们可以训练神经网络来捕捉这种差异。

但对Seales的小团队来说,这一工作量太大了,因此他们在2023年3月与硅谷企业家Nat Friedman合作发起了维苏威火山争霸赛(Vesuvius Challenge),并且提供了丰厚的现金奖励。
Seales团队发布了秘密药物表面的扁平图像,并要求参与者训练神经网络找到墨水。超过1000个团队参加了比赛,每天都有100多人在比赛的Discord频道上讨论进展。
最终在2024年2月,计算机专业的学生Youssef Nader、Luke Farritor和Julian Schilliger 获得700,000美元的奖品。
获胜者使用TimeSformer,这是Transformer的一种组合,通常用于分别处理视频数据中的时间和空间水平。

这些散落在那不勒斯、巴黎、伦敦和牛津的东西「上古卷轴」,这一时代的AI有望让它重新看到光明。
参考资料:
https://www.nature.com/articles/d41586-024-04161-z
本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




