最强大的开源模型一夜易主

2024-06-11

Qwen2，开源界最强大的语言模型，来了！

智慧东西6月7日报道，今天，阿里云正式开源Qwen2通义千问系列模型，其中，Qwen2-72B变成全球性能最强的开源模型。

Qwen2有多强？总而言之：在全球权威评估中，性能超过美国最强。开源模型3-70BLlama3-，还超过了文心4.0、豆包pro、许多中国人，如混合元pro等。闭源大模型。

为什么Qwen2可以打破大型开源模型的性能天花板？如今，阿里云不仅开放了Qwen2系列模型免费下载，还首次披露了背后的炼模“秘密”，有关重要技术的细节将被公开。

Qwen2下载链接：https://modelscope.cn/organization/qwen

▲所有人都可以在魔法社区和Hugging Qwen2系列模型Face免费下载。

把Llama干掉 3-70B，赶超闭源模型，Qwen2最强开源能力列表

这一次，新开源的Qwen2系列包括五个大小的预训练和指令微调模型是：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。

▲Qwen2系列包含五个尺寸模型版本。

Qwen2与今年2月推出的通义千问Qwen1.5相比，完成了跨代飞跃的综合性能。

在OpenCompass的权威模型评估列表中，之前开源的Qwen1.5-110B已经领先于中国的闭源模型，如文心4.0。这也意味着新开源的Qwen2-72B继续扩展和这些闭源模型的领先优势。

▲Qwen1.5-110B已经领先于多个闭源模型

对比3-70BLlama3-、Mixtrl-8x22B等待当前最佳开源模式，Qwen2-72B还可以实现全面超越的能力。

但是在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、在LiveCodeBench等十多项国际权威评估中，Qwen2-72B一举夺得世界冠军，在自然语言理解、知识、代码、数学、多语言等方面表现突出，毫无悬念地登上了世界上最强的开源模式。

▲Qwen2-72B超过了目前十几个全球权威检测中最好的开源模型

但是在小模型方面，Qwen2系列模型基本上可以超过最佳的开源模型，甚至更大的规模。Qwen2-7B-Instruct仍然可以在多种评价方面取得显著的优势，尤其是在代码和中文理解方面。

▲Qwen2-7B-Instruct在多种评估方面具有显著优势。

目前，Qwen2系列已经推出了魔法社区ModelScope和阿里云百炼平台。开发者可以在魔法社区感受和下载模型，也可以通过阿里云百炼平台调用模型API。

一年发三代模型，稳坐开源大模型铁王座，阿里云首次披露创新“秘密”

在阿里云今年2月推出Qwen1.5之前，Qwen2的发布只有三个多月。

Qwen2与上一代Qwen1.5相比。逻辑性判断，多语言能力，长文本处理，代码，数学等待能力全面提升。

1、代码，数学能力大大提高，滚压Llama 3

在代码方面，CodeQwen1.5的成功经验融入到Qwen2的研发中，在各种编程语言中取得了显著的效果；在数学方面，基于大规模、高质量的数据，Qwen2-72B-Instruct在多个评价中超越了Llamama 3-7B-Instruct。

▲代码和数学能力的Qwen2大大提高了Qwen2

2、开源智能体方案支持128k长文本。

如图所示，在Needle in a Qwen2-72B-Instruct可以在Haystack测试集中完美处理。128k前后文长度中的信息提取任务。

与此同时，Qwen2系列中其它模型的表现也非常突出：Qwen2-7B-Instruct几乎完美地处理了近128k的前后文；Qwen2-57B-A14B-Instruct可以处理64k的前后文长度；而且这个系列中的两个小模型支持32k的前后文长度。

▲在长文中，Qwen2系列表现突出。

除长前后文模型外，阿里云这次还开源了一个模型。智能化解决方案，前后文用于有效处理100万tokens级别。

3、增强安全性，与GPT-4相当。

以下是四种多语言不安全查询类型的大型模型，包括违法活动、欺诈、色情、隐私暴力等有害响应比例。

Qwen2-72B-Instruct模型通过显著性检测(P值)在安全性方面和GPT-4性能相当，且明显优于Mixtral-8x22B模型。Llama 三是在处理多语言提醒方面表现不佳，所以没有将其纳入比较。

▲在安全性方面，Qwen2-72B-Instruct与GPT-4相当。

模型迭代的速度和力量，让阿里云稳坐开源大模型铁王座。

2023年8月，阿里云成为国内首次宣布开源自研模型科技企业，Qwen推出通义千问第一代开源模型；2024年2月，Qwen1.5发布了1.5代开源模型；Qwen2开源不到4个月，从而实现了全尺寸、全模式开源。

不到一年，Qwen系列72B、110B模型数次登上HuggingFace 的Open LLM 开源模型列表，如Leaderboard，。

▲Qwen-HuggingFace开源大模型72B登顶榜单

▲Qwen1.HuggingFace开源大模型5-110B排名榜单

▲Qwen2-72B登顶HuggingFace开源大型模型排行榜

▲Qwen2-72B在阿拉伯语名单中排名第一。

同时，阿里云也是如此Qwen2研发背后的许多创新方法首次披露。。

据通义千问技术博客介绍，在Qwen1.5系列中，只使用了32B和110B模型GQA(分组查询注意力)。这次，所有的尺寸模型都使用了GQA，这样模型就可以了大大加速了推理，显著减少了显存占用。。

前后文长度方面，Qwen2系列模型全部在32k前后的数据上进行练习，可以支持128k前后处理；为了提高模型的多语言能力，团队还对除中英文以外的模型进行处理。27种语言加强了语言转换问题，并有针对性地改善了语言转换。

▲Qwen2强化了除中英文以外的27种语言。

就模型训练而言，团队融合了监管微调，反馈模型训练以及在线DPO等待方法，还是采用了网上模型合并减少对齐税的方法。所有这些做法都很大提高了模型的基本能力和智能水平。。

模型后期精调过程中，通义千问团队在场训练规模化同时，尽量减少人工标注，采用自动方法获取高质量的指令和偏好数据，包括拒绝数学采样、代码执行反馈和指令遵循的代码执行反馈、创意写作的翻译、角色扮演的Scalable Oversight等。

不久之后，通义千问团队将推出Qwen2完整的技术报告。

超级豪华生态阵容，下载模型超过1600万，孵化模型应用超过1500个。

虽然大模型开源和闭源之争的话题还在继续，但开源对大模型生态的积极意义已经成为行业共识，这也是阿里云坚持大模型开源的核心原因。

中国信息化百人会执委、阿里云副总裁安筱鹏曾以“攀登珠峰”生动阐述开源的价值:“生态的价值就是开源的价值，也就是我派了一架直升机，把你从海拔0米的地方运到珠峰本营5000米，剩下的3000米你再爬。”

高质量的开源模型，可以促进大模型生态的繁荣，使大量的开发者创新地站在巨人的肩膀上，这种生态逻辑在阿里云Qwen系列开源社区的反馈中确实有效。

据阿里云官方资料显示，Qwen系列模型在过去一个月内总下载量翻了一番，已经突破1600万次。与此同时，国内外开源社区已经超越。1500款基于Qwen二次开发模型和应用。

事实上，自今年2月Qwen1.5发布以来，已经有大量的开发者催促Qwen2。6月7日Qwen2上线后，多个开源生态伙伴是重要的包括TensorRTT在内的快速宣布支持Qwen2。-LLM、OpenVINO、OpenCompass、XTuner、LLaMA-Factory、Firefly、OpenBuddy、vLLM、Ollama等。

▲Qwen系列有许多重要的开源生态伙伴。

除美国Llama开源生态外，通义千问Qwen系列也成为全球开发者的另一个主流选择，从全球开源大模式的竞争格局来看。

一年前，业内人士普遍认为开源模型和闭源模型之间存在一定的差异；如今，开源模型已经表现出超越最强闭源模型的势头，关于“开源模型不如闭源模型”的说法已经成为一种谬论。

开源模式和闭源模式相互追逐，不断上升，会带来更广泛、更丰富的模型组合选择，更低的AI落地门槛，更好的应用效果。

结论：大模型竞赛升级，开源模型大进化，闭源派出招募。

近几个月来，开源大模型和闭源大模型相互追逐，这场拉锯战愈演愈烈。

首先，Llamama发布于今年4月的Meta。超越Geminini3-70B Pro 像1.5这样的闭源模型被视为“开源模型将一举超越GPT-4高峰”的象征；然后，阿里云今天推出的Qwen2-72B再次屠杀榜单，不仅超越了Llama 3-70B，还干翻了一大批闭源模型，进一步推动了大模型生态的发展。

虽然通用人工智能是通用的（AGI）大门刚刚打开，但大模型应用创新的奇点还远未到来。正如阿里云智能集团首席执行官周靖人所说，大模型还有很大一部分潜力没有真正被发现。当越来越多的开发者和公司融入这个过程时，会带来巨大的变化。

坚持开源开放是加快这一进程的最佳途径。自2023年8月以来，不到一年的时间，阿里云就陆续推出了Qwen、Qwen1.5、第三代Qwen2开源模型，完成了全尺寸、全模态开源，为大模型开源生态提供了强大的引擎。

开源和闭源都是大型产业的中坚力量。在开源力量大踏步前进的时候，下一步，闭源派将如何应对，我们拭目以待！

本文来自微信微信官方账号的“智东西”（ID：zhidxcom），作者：三北，原标题为“阿里云发布最强开源大模型Qwen2，干倒Llamama” 3、比闭源模型更强”，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

国产AI对决高考作文

每天有48,000名出入境旅客！北京港端午节假期迎客流小高峰

月薪几万，才敢开越野车工作？

主持歌星沈梦辰太尴尬了：还不如让侯佩岑来！

端午节假期，文明旅游的正确开启方式