AI进入古代文本研究:神经网络算法正成为解读古代文本的钥匙
“碎片集”项目正在数字化成千上万的楔形文字。图为天文文本。
人工智能,从金融到医学。(AI)它正在深刻地改变现代生活。如今,它已经开始进入古代文本研究:从希腊和拉丁经典到中国甲骨文,神经网络算法正在成为解读古代文本的关键。它不仅可以控制广阔的档案,填补字符空缺,还可以解码几乎找不到的稀有或灭绝语言,让古代智慧在现代科技的光芒下再现辉煌。
2023年10月,费德里卡·尼科拉尔迪收到一封电子邮件,附带的一张图片彻底改变了她的研究。这张图显示了一卷莎草纸遗骸,存活于公元79年的维苏威火山大灾难中,18世纪在赫库兰尼姆古城的一座豪宅别墅遗址中被发现。这些历经沧桑的莎草纸曾经是数百本古籍之一,但由于时间的腐蚀,它们变得脆弱,大多数都无法进行。
尼科拉尔迪是意大利那不勒斯大学的莎草纸学者。她参加了一项利用人工智能读取难懂汉字的研究。现在,她见证了一个奇迹:在图片上,一张莎草纸上覆盖着希腊字母,在黑暗中重生。
这个名为“维苏威挑战”的项目只是AI重塑古代历史探索的“冰山一角”。
古代文本重建神经网络
在过去的几十年里,计算机一直被用来对数字文本进行分类和分析,但现在最令人兴奋的是神经网络的使用。神经网络由相互连接的节点组成,尤其是多层“深层”神经网络。
卷积神经网络(CNN)模型可以从这些图像中准确捕捉网格数据结构。CNN模型不仅在光学字符识别领域大放异彩,还开辟了其他多样化的应用方法。例如,在实践甲骨文时,中国研究团队巧妙地使用这些模型来恢复受到严重腐蚀的文本图案,深入分析甲骨文随着时间的进化轨迹,再次拼接受损的文物残片,再现历史原貌。
同时,循环神经网络(RNN)作为一种专门为处理线性序列数据而设计的模型,它开始显示出搜索、翻译和填充已经转录的古代文本缺失内容的巨大潜力。RNN已经被用来为古巴比伦阶段数百种严格格式的行政和法律文本提供缺失字符的智能建议。
那么,神经网络能否在历史的碎片中找到人类专家难以找到的联系?2017年,英国牛津大学的一次合作开始了探索之旅。当时,两名研究人员面临着解决西西里希腊铭文的问题。
古典学者通常依靠对现有文本的理解来解释新材料,但很难完全理解所有相关材料。牛津大学的研究人员认为,这是一个机器学习可以发挥作用的领域。他们使用基于RNN的Pythia模型,并使用数以万计的希腊铭文进行训练,最终成功地预测了文本中缺失的单词和字符。
在2022年,他们再次推出了Ithaca模型,不仅可以预测缺失的内容,还可以为未知文本提供日期和来源建议。Ithaca采用了Transformer模型的突破,可以捕捉到更复杂的语言模式。目前,以Transformer模型为基础的OpenAIChatGPT是一种流行的聊天机器人。
翻译恢复浩瀚的历史档案
韩国研究人员有一个棘手的任务:整理世界上最大的历史文件之一。该文件详细记录了14世纪至20世纪初统治期间27位朝鲜帝国国王的日常生活,包括数十万篇文章。纽约大学机器翻译专家金亨俊说,这些文本数据极其庞大。
人工将这些文本翻译成现代韩语需要几十年的时间。金亨俊与韩国同行合作,使用Transformer网络训练自动翻译系统。数据显示,AI翻译在准确性和易读性方面远远优于古代韩语,有时甚至优于现代韩语。
对于只剩下少量文字的古代语言,研究人员也会使用神经网络进行破解。卡特里娜·帕帕瓦西里欧及其团队在希腊帕特拉斯大学使用RNN恢复了克里特岛诺索斯迈锡尼泥板中缺失的线性文本B。测试显示,模型预测准确性高,往往符合人类专家的建议。
验证和利用面临着双重挑战
使用AI破解古代文字仍然面临许多挑战。AI技术使非专业人士能够接触到大量的古代文献,如何保证研究成果的准确性成为主要挑战。虽然神经网络的力量引人注目,但其偶尔的误导性结果,即“幻觉现象”,也让人担心结果的稳定性。
英国《自然》杂志指出,为了解决这个问题,人文科学家和计算机科学家需要共同研究和验证AI的解读结果。与此同时,为了提高探索的透明度和可验证性,提倡对所有相关数据(包括原始文本、扫描文件、培训模型和算法)进行开源。这种做法被称为“数字源链”,旨在构建一个完整的链条,从原始数据到最终结论,方便任何人追溯和验证研究过程。
此外,随着数字文本数量的快速增加,如何有效利用这些庞大的数据,从中提炼出关于古代社会的重要信息,也是科研人员面临的新课题。这就要求研究人员从单一的文本分析转变为对整体文化的深刻理解,尝试将不同地区、不同时期的文本数据联系起来,从而获得更全面的认识。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




