谷歌新模型盲测刷屏:AI秒破18世纪'天书'账本,预测式架构有'天花板'?
近期,谷歌AI Studio上的一个神秘模型成功识别200多年前一位商人的“天书”账本,还修正了其中格式错误和模糊表述,其推理能力令历史学家震惊。
谷歌是否已悄然解决了AI界的两大古老难题?
前不久,谷歌AI Studio上的神秘模型引发关注,历史学家Mark Humphries用200多年前一位奥尔巴尼商人的“天书”账本,测试大模型在手写文本识别(HTR)上的能力。

令人惊讶的是,该模型自动手写识别接近满分,还纠正了原账本书写格式错误,优化了模糊表述。这表明它不仅能识别字母,还能理解背后逻辑和知识背景,且这些能力是在未被提示下展现的。专家级手写文字识别和无需显式规则的推理能力的实现,标志着AI模型能力的跃迁。网友推测该神秘模型可能是谷歌今年将推出的Gemini - 3,但未获官方确认。
破解历史学家难题
Mark Humphries是Wilfrid Laurier大学的历史学教授,他关注AI在历史专业领域是否达到人类专家级推理水平。他认为识别历史手写体是检验大模型整体能力的黄金测试,因为这不仅是视觉任务,还需了解历史背景知识,缺乏这些知识,准确识别和转写历史文献几乎不可能,而这也是历史文献最难识别的部分。
随着大模型发展,其在HTR上识别准确率超90%,但剩下10%才是关键。Humphries指出,如今的大模型(Transformer架构)本质是预测式的,而历史文献中的拼写错误和风格不一致是不可预测、低概率的答案。所以,要准确转写像“the cat sat on the rugg”这类内容,模型需逆着训练分布倾向来做,这也是大模型在转写不熟悉人名、地名、日期或数字时不擅长的原因。Humphries认为,“最后一英里的准确性”是历史手写文本识别能被人类使用的前提。
预测式架构是否存在「天花板」?
为衡量手写转写准确性,Humphries与Lianne Leddy博士做了包含50份文档、约1万词的测试集,并确保文档不在大模型训练数据里。该测试集涵盖不同书写风格和工具拍摄的图像,代表了研究18、19世纪英语文献的历史学家常遇到的类型。
他们用字符错误率(CER)和词错误率(WER)衡量转写错误比例。研究显示,非专业人士WER在4 - 10%,专业转写服务保证1%的WER(文本清晰易读时),这基本是准确度上限。

去年,Gemini - 2.5 - Pro在测试集上严格CER为4%,WER为11%;排除大小写和标点错误后,CER降至2%,WER降至4%。Humphries发现,每一代模型都在稳步改进,Gemini - 2.5 - Pro比Gemini - 1.5 - Pro提升约50 - 70%,后者又比GPT - 4提升约50 - 70%,这印证了扩展规律:模型变大,其在这类任务上的表现可大致由规模预测。
新模型的表现
在相同数据集下,他们测试谷歌新模型,上传图片到AI Studio并输入固定提示词。Humphries挑选错误最多、最难辨认的文档,最终选了5份。

结果惊人,新模型转写的5份文档(超1000词)严格CER为1.7%,WER为6.5%,即约每50个字符错1个,且几乎所有错误在大小写和标点,“词”层面错误极少。排除这类错误后,CER降至0.56%,WER降至1.22%,表明该新Gemini模型在HTR上达人类专家级水准。
秒破200多年前账本「谜团」
随后,Humphries用200多年前奥尔巴尼商人的日记账继续测试。这是荷兰籍店员用英语记录的流水账,拼写和字母书写不规则,夹杂荷兰语与英语,账目用旧式英镑/先令/便士写法和速记格式。如今,多数人对非十进制货币单位陌生,且交易记录无标准格式,大模型处理此类账本一直有问题,因训练数据少且无规律,常能辨名字和商品,但在数字上易迷失,复杂页面还会“搞崩”模型。

然而,谷歌新模型识别该日记账页面接近完美,数字全部正确,还纠正了格式小错误。如将店员记的“每个2/”转写为“@2/0”。此外,模型把“To 1 loff Sugar 145 @ 1/4 0 19 1”转写为“To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1”。经考证,Gemini正确推断出1、4、5是重量单位数值,通过总价反推重量,在不同进制体系间换算。


Humphries推测推理过程:糖单价1先令4便士(16便士),总价229便士,用总价除以单价得14.3125,即14磅5盎司。在他的测试中,其他模型无此表现。这一例子中,AI跨过了专家长期认为现有模型无法越过的边界,能推断缺失上下文,进行多步换算和抽象推理。Humphries认为可能是一种涌现的、隐式的推理,若假设成立,“糖锭条目”不仅是出色的转写,更标志着模式识别开始跨越“理解”界限,说明大模型能以人类专家级准确度转写历史文献,还开始理解背后的经济与文化系统,或许预示着机器开始能进行真正的抽象、符号化推理。
参考资料:
https://generativehistory.substack.com/p/has-google-quietly-solved-two-of
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




