刚刚,DeepSeek发布“终极版”模型,V3系列要迎来终章?

09-24 06:30

DeepSeek又有新动作啦!


9月22日晚间,DeepSeek在其官方API平台发布了最新升级的DeepSeek - V3.1 - Terminus模型(Terminus在拉丁语里意为终点、界限),不久后还宣布该模型开源。


官方文档显示,DeepSeek - V3.1 - Terminus在保留原模型能力的基础上,改进了DeepSeek - V3.1上线后出现的语言一致性、偶发异常字符等Bug,还进一步优化了编程和搜索智能体的表现。



DeepSeek官方在微信公众号公布了新旧DeepSeek - V3.1的基准测试对比。从结果来看,在非Agent类的基准测试中,DeepSeek - V3.1 - Terminus相对DeepSeek - V3.1实现了0.2% - 36.5%不等的表现提升,不过部分测试成绩有小幅度下滑。


DeepSeek - V3.1 - Terminus在HLE(人类终极测试)上的性能提升最为显著,该测试主要考察专家级的高难度知识以及模型的多模态、深度推理等能力。



在Agent测评中,DeepSeek - V3.1 - Terminus在网页浏览、简单问答和多项编程测试中的表现有小幅提升。


DeepSeek官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek - V3.1 - Terminus。智东西第一时间调用DeepSeek - V3.1 - Terminus的API进行体验,尝试复现此前的多个Bug,并感受模型的最新性能。


开源地址:


https://huggingface.co/deepseek - ai/DeepSeek - V3.1 - Terminus


https://modelscope.cn/models/deepseek - ai/DeepSeek - V3.1 - Terminus



01.两大神秘Bug消失,DeepSeek - V3.1终于不再“犯迷糊”


今年8月,DeepSeek - V3.1上线后,有用户反馈在使用API调用模型时,会偶尔出现一个严重Bug:模型会不受控制地随机输出“极”、“極”、“extreme”等字样,这严重影响了日常使用。如果未经仔细检查就使用含有这一Bug的代码,很可能导致编译失败。



智东西调用了最新的DeepSeek - V3.1 - Terminus API,尝试复现上述问题。网传能复现这一问题的“高危”提示词包括要求模型写Go语言、完成版本号相关任务、处理时间等。


不过,在测试中DeepSeek - V3.1 - Terminus并未因上述提示词而出现Bug,这意味着该问题大概率已被修复。



DeepSeek - V3 - Terminus没有因“高危”提示词而产生Bug


还有海外用户反映,此前的DeepSeek - V3.1存在多语言问题,尤其是在翻译小语种时。一位Reddit网友分享,DeepSeek会把中、英、俄三种语言混用,问题文本的比例有时能达到5%。



智东西让DeepSeek - V3 - Terminus将“人工智能正在改变我们的世界,它带来了巨大的机遇,也需要我们认真思考其挑战。”这句话翻译成7种小语种。


DeepSeek - V3 - Terminus的回答没有出现语言混杂问题,看来这一Bug也已被修复。



02.小球弹跳效果惊艳,还能快速交叉搜索信息


除了修复Bug,DeepSeek - V3.1 - Terminus的编程和搜索智能体能力的提升也值得关注。


在编程任务方面,智东西让DeepSeek - V3.1 - Terminus尝试实现小球弹跳。模型输出的网页采用简约风格,模拟的重力、摩擦力效果十分逼真。要实现这样的效果,模型不仅要有很强的编程能力,还需具备对物理学的理解能力。



该模型打造的动画效果也不错,轨迹和碰撞都比较自然:



在搜索智能体能力测试中,我们让DeepSeek - V3.1 - Terminus推荐几款适合新手阳台盆栽的植物。此测试考察模型能否找出完全符合“阳台盆栽”、“生长快”、“可生食”、“对儿童安全”所有条件的植物。此外,模型还要交叉验证信息的可靠性,并进行整合提炼和风险提示。


可以看到,DeepSeek - V3.1 - Terminus给出的答案考虑周全,经人工核查事实无误,可读性也很好。



03.结语:DeepSeek - V3.1,迎来终极版?


DeepSeek - V3.1 - Terminus中的“Terminus”,在拉丁语里是“终点”或“界限”的意思。我们让DeepSeek自己解读这一命名,它称这一命名可能象征着DeepSeek - V3.1是这个系列架构的终极版本,代表了当前技术路径的成熟和完善。



也有网友认为,Terminus可能意味着模型在编程终端里的表现更好了。不过,正如DeepSeek所说,具体的命名寓意还是由官方解释更为准确。


此前,已有外媒报道称,DeepSeek今年年底即将推出Agent模型。或许,DeepSeek的下一次重大更新已经不远了。


本文来自微信公众号“智东西”(ID:zhidxcom),作者:陈骏达,编辑:李水青,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com