10分钟校对40万字,《大辞海》AI审校还有什么优势?

04-02 14:16

AI在各个领域崭露头角时,《大辞海》也加入其中,推出了AI审校系统。3月25日,上海辞职出版社与百度、鲸汤(上海)智能科技有限公司正式发布上海最新产品“辞职智能知识审核系统”。该产品是《大辞海》权威知识库与百度文心大模型深度融合的创新成果,意味着出版业智能化转型进入新阶段。


上海世纪出版集团副总裁、上海辞职出版社社长秦志华表示,目前“辞职智能知识审查系统”系统可在10分钟内完成40万字的文本审查,错误识别准确率达到80%,审查效率加倍提高,有效解决了传统文本审查在知识和逻辑上的痛点。


国内首个结合权威工具书资源智能审查解决方案


“辞文”作为中国第一个结合权威工具书资源智能审校的解决方案,完成了四大技术突破:一是准确的知识追溯能力。当发现错误时,系统不仅可以指出问题,还可以通过Agent技术准确定位大辞海的相关内容,展示完整的知识链,让用户不仅知道“错在哪里”,还能更好地理解“什么是正确的”;第二,强大的多轮推理能力,可以深入验证文本的多维合理性,找出隐藏的逻辑谬误。例如,当审批一篇关于历史人物的文章时,系统不仅仅是一个简单的验证时代,而是通过多重推理来验证人物、时代背景、事件顺序等多个维度的合理性。第三,动态知识更新机制,确保验证结果跟上学术发展的前沿。当大辞海数据库更新时,系统可以自动同步知识;第四,通过有效控制大模型的发散和幻觉问题,智能互动审校流程提供了个性化的审校建议。这种人机合作方式不仅保留了人工审校的专业判断,而且充分发挥了AI的效率优势。


“辞文智能知识审校系统”与市场上现有的智能审校系统相比,其优势在于其所依赖的“大辞海”数据库。


《大辞海》共收词近30万条,5000多万字,包括目前所有的一级、二级学科,是自然科学、人文社会科学、语言文字等学科名词、术语、概念等知识的大成者。


"大辞海就像是这样 AI配备了‘权威知识放大镜和显微镜’。”秦志华说,在知识审查领域,内容数据的真实性决定了整个建筑的稳定性。依托《大辞海》,“辞文”智能知识审查系统可以快速准确地识别各种文本中的微小知识谬误,准确验证历史时代,严格遵守木语规范,确保人物事实的准确性。


实现跨越“文字纠错”到“知识审核”的能力


近年来,文本审校工具如雨后春笋般涌现,从早期的黑马校对、方正校对,到I校对、凤凰智能校对系统、蜜度校对、果麦AI校对王等商品。


依托《大辞海》,“辞文”系统将定位为“知识审校”。“从2023年8月开始实施的《图书编校质量错误判断与计算方法》要求,一般错别字,每个计算一个错误;知识和逻辑错误,每个计算两个错误,可见知识和逻辑错误对于编校质量控制极其重要。但随着知识专业化分工的日益精细化,单个学校审核员很难完全掌握跨学科知识,市场迫切需要一套智能、高效、准确的学校审核系统。它不仅是新闻出版机构、内容发布平台的把关工具,也是整个内容创作行业的前置工具。”秦志华说。


上海辞书出版社在此背景下,早已关注到“智能审校”。「辞文智能知识审校系统」并非我们一时兴起赶潮流的数字产品。最初开发智能审校系统的想法,可能要追溯到2019年。据秦志华介绍,当时上海辞书出版社正在围绕“辞海”数字出版云平台的建设,开发工具书协同编制的分系统,包括历史纪念日、古今地名、规范汉字、引文、统一翻译等自动审查功能。在那个时候,他们把智能审校这个知识服务方向放在了出版融合的“代理清单”里。


2023年6月,上海辞文出版社与百度文心合作,正式启动“辞文”智能学校审查项目。随后,鲸汤(上海)智能科技有限公司加入,密切配合数据、算法、算率,推动大辞典与大模型紧密结合。经过三轮外部测试,“辞文智能知识学校审核系统”正式启动,实现了从“文字纠错”到“知识学校审核”的能力跨越。


AI的质量和差异主要来自于数据,这种基于大辞海权威的智能审校产品,基础非常好。”百度 AI 技术生态副总经理周奇说,在大模型时代,软件产品是“火”的,可以根据数据、用户反馈、大模型本身的增长不断迭代,依靠文心。 飞桨的关键技术,百度致力于与硬件合作伙伴、技术合作伙伴、数据合作伙伴共创生态,搭建技术与行业专业知识的桥梁,打通大模型垂直领域使用的工程化“最后一公里”。


“辞文”系统秦志华介绍


保护知识传播的准确性和严肃性


在新闻发布会上,秦志华展示了一些“辞文”应用的例子。针对上海历史主题50多万字的付款稿件,上海辞书出版社选择了“辞文”进行深度检测。该系统标记了471个潜在错误。经专业编辑团队逐一核实,最终确认采用了87个知识性错误(包括历史事件误记、人物角色移位、地理沿革错误等。),错误类型涵盖上海开埠史、租界制度、地方文献等专业领域。横向对比测试数据显示,“辞文”系统检测出471个地方,确定采用87个地方;市场上另一批学校检测出262个地方,确定采用0个地方。


王敏分享使用经验


编辑部也体验到了“咬文嚼字”的产品。上海咬文嚼字文化传播有限公司总经理王敏介绍了试用情况。通过测试一些已知错误的文本,修订“辞文”系统值得参考。比如在一段文本中,苏轼的诗《多情总是被无情惹恼》被误写为“来自元好问之手”,“辞文”系统首次将其改为“不是来自元好问之手”,第二次直接将其改为“来自苏轼之手”。


“两次智能校改内容不同,第二次修改内容有进步。”王敏认为,在模型的帮助下,这款产品有很大的潜力通过人机协作。


他说:“我做新闻20多年了,最怕白底黑字印出来的知识出错。” 经济日报上海记者站站长 李治国感叹,记者编辑在做新闻报道时,难免会错过海量数据,比如历史事件的日期、科技概念的定义等。,这些都是跨领域的内容。“辞文”系统不仅具有AI的高效性,而且根植于大辞海的权威知识结构,可以在几秒钟内完成交叉验证,帮助我们守住事实的底线。通过前沿技术,媒体的价值在于权威性和准确性,我们可以提高工作效率,致力于更具创意的工作。”


秦志华表示,“辞文”突破了过去各种文本审查工具的局限性,实现了从“文本纠错”到“知识审查学校”的能力跨越,但其价值在于保护知识传播的准确性和严肃性。据悉,该产品已成功应用于出版领域的文本审查,如人文社会科学和科技。未来将拓展到新闻媒体、教育科研等场景,致力于成为内容生产领域的“数字质量检查员”。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com