Deepseek再次出连技术:刚刚发布了超越DALL-E3的多模态模型

01-29 11:08

作者 | Li Yuan


编辑| 靖宇


AI 时代如此悄然而至。


也许没有人想到,今年春节,打得最热的不再是传统的因特网红包大战,谁与春晚合作,而是 AI 企业。


随着春节的临近,各大模型公司一点也不放松,更新了一波模型和商品,但最受关注的是去年的崭露头角。「大模型公司」DeepSeek(深度追求)。


1 月 20 日晚,DeepSeek 公司发布推理模式 DeepSeek-R1 正式版,用低廉的训练成本直接训练出来不输。 OpenAI 推理模型 o1 性能,而且完全免费开源,直接造成工业地震。


第一次在国内生产 AI 世界范围内的大规模,特别是美国,引起了科技界的振动。开发人员纷纷表示,正在考虑使用。 DeepSeek「重构一切」,经过一周的发酵,甚至一月份刚刚发布的这一波浪潮, DeepSeek 移动应用程序,快速登顶美区苹果应用商店免费 App 排名第一,不仅超越了排名。 ChatGPT,同时也直接超越了美国其它热门应用。


DeepSeek 成功甚至直接影响到美股,没有使用大量昂贵的股票。 GPU 训练出来的模型,让人们重新思考。 AI 直接让练习路径 AI 英伟达第一股的最大跌幅达到 17%。


而且还没有结束。


1 月 28 日凌晨,除夕前一天晚上,DeepSeek 其多模态模型再次开源。 Janus-Pro-7B,宣布在 GenEval 和 DPG-Bench 在基准测试中被击败 DALL-E 3(来自 OpenAI)和 Stable Diffusion。


DeepSeek 真的要屠杀 AI 圈子了吗?从推理模型到多模态模型, DeepSeek 重构一切,是蛇年开年的第一个主题吗?


01 Janus Pro,验证多模态模型创新架构


DeepSeek 这次深夜共发布了两个模型,Janus-Pro-7B 和 Janus-Pro-1B(1.5B 参数量)。


由命名可以看出,模型本身来自于以前。 Janus 模型升级。


2024 年 10 月,DeepSeek 刚刚第一次发布 Janus 模型。和 DeepSeek 一贯的招数是一样的,模型采用了创新的结构。在许多视觉生成模型中,模型采用统一的方式。 Transformer 构架,可同时处理文生图和图生文任务。


而 DeepSeek 它提出了一个新的思路,解耦了理解(图片生成)和生成任务(图片生成)的视觉代码,提高了模型训练的灵活性,有效缓解了使用单一视觉代码引起的冲突和性能瓶颈。


这也是 DeepSeek 为什么要命名模型? Janus (杰纳斯)。Janus 作为古罗马门神,被描述为各自面对对方的两张脸。DeepSeek 表示命名为 Janus,指模型可以相似 Janus 同样,用不同的眼睛看视觉数据,编码自己的特点,然后用同一个身体。 (Transformer) 处理这些输入信号。


在 Janus 在这一系列模型中,这一新思路已产生了良好的效果,团队表示,Janus 模型指令具有很强的跟随能力,具有多语言能力,而且模型更加聪明,能够阅读。 meme 图像。也可以同时处理 latex 公式转换、图形代码转换等任务。


但在 Janus Pro 在系列模型中,团队部分修改了模型的练习过程,直接做到了。 GenEval 和 DPG-Bench 在基准测试中被击败 DALL-E 3 和 Stable Diffusion。



伴随着模型本身,DeepSeek 也发布了 Janus Flow 新式多模态 AI 框架,旨在统一图像理解和生成任务。


Janus Pro 该模型可以使用简短的提醒提供更稳定的导出,具有更好的视觉质量,更丰富的细节,以及生成简单文本的能力。


模型不仅可以生成图像,还可以描述照片,识别地标景点(如杭州西湖),识别图像中的文字,并且可以识别图片中的知识(例如「猫和老鼠」蛋糕)讲解。


X 很多人已经开始尝试新模型了。



上图左边是图像识别的检测,右边是图像生成的检测。



可以看到,在高精度读图上,Janus Pro 还做得很好。能识别数学表达式和文字的混合排版。将来组合推理模型的使用,可能会有更大的意义。


02 1B 和 7B 或者可以解锁新应用领域的参数,


当多模态理解任务时,新模型 Janus-Pro 选用 SigLIP-L 支持视觉编码器, 384 x 384 图像输入像素。但是当图像生成任务时,Janus-Pro 使用来自特定来源的分词器,降低采样率。 16。


相对而言,这种图像的大小仍然很小。X 上面有用户分析认为,Janus Pro 模型更多的是方向验证,如果验证可靠,就会推出能投入生产的模型。


但值得注意的是,这一次, Janus 新发布的模型,不仅在结构上对多模态模型具有创新意义,而且在参数上,也是一种新的探索。


此次 DeepSeek Janus Pro 对比模型,DALL-E 之前公布的参数数量是3。 120 亿,而 Janus Pro 只有大尺寸模型 70 十亿参数。如此紧凑的尺寸,Janus Pro 能达到这个效果已经很好了。


特别是 Janus Pro 的 1B 模型,只使用 15 一亿参数。一些用户已经在网上添加了对模型的支持 transformers.js。也就是说,模型现在可以了。 WebGPU 上面的浏览器 100%运行!



虽然截止了发稿,但作者还没有成功地在网页版上使用。 Janus Pro 新的模型,但是参数小到可以直接在网页端运行,仍然是一个令人惊叹的进步。


这意味着图片生成/照片理解的成本正在进一步降低。我们有机会看到更多本来无法使用生图和图片理解功能的区域。 AI 应用,改变我们的生活。


2024 一年一大热点,就是加入了多模态理解。 AI 硬件,如何介入我们的生活?然而,参数越来越少的多模态理解模型可能会让我们期望在端侧运行模型,这可能会使我们 AI 硬件进一步爆发。


03 DeepSeek 过年的时候,一切都可以用中国。 AI 重做一遍?


AI 世界一日万里。


去年春节前后,全世界都在搅拌。 OpenAI 的 Sora 模型,而且一年下来,中国企业已经完全在视频生成方面奋起直追,让年底 Sora 这次发布看起来有点暗淡。


而且今年的搅拌世界,变成了中国。 DeepSeek。


DeepSeek 虽然不是传统的科技公司,但它的使用远远低于美国大型公司 GPU 卡片和成本,做出了极具创新性的模型,直接让美国同行感到震惊——美国人纷纷感叹:R1 模型训练,只需花费 560 一万美元,甚至相当于一万美元, Meta GenAI 团队中任何高管的薪水,这是什么神秘的东方力量?


模仿DeepSeek 创始人梁文峰的parody帐户直接从 X 上面发布了一张有趣的图片:



照片采用爆红的方式 2024 全球爆红的土耳其枪击运动员梗。


100项射击项目在法国巴黎奥运会 51米手枪决赛 年轻的土耳其枪击手迪凯奇只戴了一副普通的近视眼镜和一对睡眠耳塞,以洒脱的姿态单手插在口袋里,稳稳地把银牌放进口袋。在场的其他所有枪手都需要两个专业镜头和一副防噪音耳塞来聚焦和挡住光线,才能开始比赛。


自打 DeepSeek「破解」了 OpenAI 推理模式,美国各大科技公司开始承受巨大压力。今日,Sam Altman 最后还是承受不住压力,回应了一个官方演讲。



2025 2008年,将是中国 AI 一年的冲击美国理解?


DeepSeek,手中还藏着什么秘密——这注定是一个不平凡的春节。


极客一问


你今天有没有DeepSeek?


本文来自微信公众号“极客公园”,作者:LiYuan,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com