最强大的开源模型一夜易主

2024-06-11

Qwen2,开源界最强大的语言模型,来了!


智慧东西6月7日报道,今天,阿里云正式开源Qwen2通义千问系列模型,其中,Qwen2-72B变成全球性能最强的开源模型


Qwen2有多强?总而言之:在全球权威评估中,性能超过美国最强。开源模型3-70BLlama3-,还超过了文心4.0、豆包pro、许多中国人,如混合元pro等。闭源大模型。


为什么Qwen2可以打破大型开源模型的性能天花板?如今,阿里云不仅开放了Qwen2系列模型免费下载,还首次披露了背后的炼模“秘密”,有关重要技术的细节将被公开。


Qwen2下载链接:https://modelscope.cn/organization/qwen


▲所有人都可以在魔法社区和Hugging Qwen2系列模型Face免费下载。


把Llama干掉 3-70B,赶超闭源模型,Qwen2最强开源能力列表

这一次,新开源的Qwen2系列包括五个大小的预训练和指令微调模型是:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。


▲Qwen2系列包含五个尺寸模型版本。


Qwen2与今年2月推出的通义千问Qwen1.5相比,完成了跨代飞跃的综合性能。


在OpenCompass的权威模型评估列表中,之前开源的Qwen1.5-110B已经领先于中国的闭源模型,如文心4.0。这也意味着新开源的Qwen2-72B继续扩展和这些闭源模型的领先优势


▲Qwen1.5-110B已经领先于多个闭源模型


对比3-70BLlama3-、Mixtrl-8x22B等待当前最佳开源模式,Qwen2-72B还可以实现全面超越的能力。


但是在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、在LiveCodeBench等十多项国际权威评估中,Qwen2-72B一举夺得世界冠军,在自然语言理解、知识、代码、数学、多语言等方面表现突出,毫无悬念地登上了世界上最强的开源模式。


▲Qwen2-72B超过了目前十几个全球权威检测中最好的开源模型


但是在小模型方面,Qwen2系列模型基本上可以超过最佳的开源模型,甚至更大的规模。Qwen2-7B-Instruct仍然可以在多种评价方面取得显著的优势,尤其是在代码和中文理解方面。



▲Qwen2-7B-Instruct在多种评估方面具有显著优势。


目前,Qwen2系列已经推出了魔法社区ModelScope和阿里云百炼平台。开发者可以在魔法社区感受和下载模型,也可以通过阿里云百炼平台调用模型API。


一年发三代模型,稳坐开源大模型铁王座,阿里云首次披露创新“秘密”

在阿里云今年2月推出Qwen1.5之前,Qwen2的发布只有三个多月。


Qwen2与上一代Qwen1.5相比。逻辑性判断,多语言能力,长文本处理,代码,数学等待能力全面提升。


1、代码,数学能力大大提高,滚压Llama 3


在代码方面,CodeQwen1.5的成功经验融入到Qwen2的研发中,在各种编程语言中取得了显著的效果;在数学方面,基于大规模、高质量的数据,Qwen2-72B-Instruct在多个评价中超越了Llamama 3-7B-Instruct。


▲代码和数学能力的Qwen2大大提高了Qwen2


2、开源智能体方案支持128k长文本。


如图所示,在Needle in a Qwen2-72B-Instruct可以在Haystack测试集中完美处理。128k前后文长度中的信息提取任务。


与此同时,Qwen2系列中其它模型的表现也非常突出:Qwen2-7B-Instruct几乎完美地处理了近128k的前后文;Qwen2-57B-A14B-Instruct可以处理64k的前后文长度;而且这个系列中的两个小模型支持32k的前后文长度。


▲在长文中,Qwen2系列表现突出。


除长前后文模型外,阿里云这次还开源了一个模型。智能化解决方案,前后文用于有效处理100万tokens级别。


3、增强安全性,与GPT-4相当。


以下是四种多语言不安全查询类型的大型模型,包括违法活动、欺诈、色情、隐私暴力等有害响应比例。


Qwen2-72B-Instruct模型通过显著性检测(P值)在安全性方面和GPT-4性能相当,且明显优于Mixtral-8x22B模型。Llama 三是在处理多语言提醒方面表现不佳,所以没有将其纳入比较。


▲在安全性方面,Qwen2-72B-Instruct与GPT-4相当。


模型迭代的速度和力量,让阿里云稳坐开源大模型铁王座。


2023年8月,阿里云成为国内首次宣布开源自研模型科技企业,Qwen推出通义千问第一代开源模型;2024年2月,Qwen1.5发布了1.5代开源模型;Qwen2开源不到4个月,从而实现了全尺寸、全模式开源。


不到一年,Qwen系列72B、110B模型数次登上HuggingFace 的Open LLM 开源模型列表,如Leaderboard,


▲Qwen-HuggingFace开源大模型72B登顶榜单



▲Qwen1.HuggingFace开源大模型5-110B排名榜单


▲Qwen2-72B登顶HuggingFace开源大型模型排行榜


▲Qwen2-72B在阿拉伯语名单中排名第一。


同时,阿里云也是如此Qwen2研发背后的许多创新方法首次披露。


据通义千问技术博客介绍,在Qwen1.5系列中,只使用了32B和110B模型GQA(分组查询注意力)。这次,所有的尺寸模型都使用了GQA,这样模型就可以了大大加速了推理,显著减少了显存占用。


前后文长度方面,Qwen2系列模型全部在32k前后的数据上进行练习,可以支持128k前后处理;为了提高模型的多语言能力,团队还对除中英文以外的模型进行处理。27种语言加强了语言转换问题,并有针对性地改善了语言转换。



▲Qwen2强化了除中英文以外的27种语言。


就模型训练而言,团队融合了监管微调,反馈模型训练以及在线DPO等待方法,还是采用了网上模型合并减少对齐税的方法。所有这些做法都很大提高了模型的基本能力和智能水平。


模型后期精调过程中,通义千问团队在场训练规模化同时,尽量减少人工标注,采用自动方法获取高质量的指令和偏好数据,包括拒绝数学采样、代码执行反馈和指令遵循的代码执行反馈、创意写作的翻译、角色扮演的Scalable Oversight等。


不久之后,通义千问团队将推出Qwen2完整的技术报告


超级豪华生态阵容,下载模型超过1600万,孵化模型应用超过1500个。

虽然大模型开源和闭源之争的话题还在继续,但开源对大模型生态的积极意义已经成为行业共识,这也是阿里云坚持大模型开源的核心原因。


中国信息化百人会执委、阿里云副总裁安筱鹏曾以“攀登珠峰”生动阐述开源的价值:“生态的价值就是开源的价值,也就是我派了一架直升机,把你从海拔0米的地方运到珠峰本营5000米,剩下的3000米你再爬。”


高质量的开源模型,可以促进大模型生态的繁荣,使大量的开发者创新地站在巨人的肩膀上,这种生态逻辑在阿里云Qwen系列开源社区的反馈中确实有效。


据阿里云官方资料显示,Qwen系列模型在过去一个月内总下载量翻了一番,已经突破1600万次。与此同时,国内外开源社区已经超越。1500款基于Qwen二次开发模型和应用。


事实上,自今年2月Qwen1.5发布以来,已经有大量的开发者催促Qwen2。6月7日Qwen2上线后,多个开源生态伙伴是重要的包括TensorRTT在内的快速宣布支持Qwen2。-LLM、OpenVINO、OpenCompass、XTuner、LLaMA-Factory、Firefly、OpenBuddy、vLLM、Ollama等。


▲Qwen系列有许多重要的开源生态伙伴。


除美国Llama开源生态外,通义千问Qwen系列也成为全球开发者的另一个主流选择,从全球开源大模式的竞争格局来看。


一年前,业内人士普遍认为开源模型和闭源模型之间存在一定的差异;如今,开源模型已经表现出超越最强闭源模型的势头,关于“开源模型不如闭源模型”的说法已经成为一种谬论。


开源模式和闭源模式相互追逐,不断上升,会带来更广泛、更丰富的模型组合选择,更低的AI落地门槛,更好的应用效果。


结论:大模型竞赛升级,开源模型大进化,闭源派出招募。

近几个月来,开源大模型和闭源大模型相互追逐,这场拉锯战愈演愈烈。


首先,Llamama发布于今年4月的Meta。 超越Geminini3-70B Pro 像1.5这样的闭源模型被视为“开源模型将一举超越GPT-4高峰”的象征;然后,阿里云今天推出的Qwen2-72B再次屠杀榜单,不仅超越了Llama 3-70B,还干翻了一大批闭源模型,进一步推动了大模型生态的发展。


虽然通用人工智能是通用的(AGI)大门刚刚打开,但大模型应用创新的奇点还远未到来。正如阿里云智能集团首席执行官周靖人所说,大模型还有很大一部分潜力没有真正被发现。当越来越多的开发者和公司融入这个过程时,会带来巨大的变化。


坚持开源开放是加快这一进程的最佳途径。自2023年8月以来,不到一年的时间,阿里云就陆续推出了Qwen、Qwen1.5、第三代Qwen2开源模型,完成了全尺寸、全模态开源,为大模型开源生态提供了强大的引擎。


开源和闭源都是大型产业的中坚力量。在开源力量大踏步前进的时候,下一步,闭源派将如何应对,我们拭目以待!


本文来自微信微信官方账号的“智东西”(ID:zhidxcom),作者:三北,原标题为“阿里云发布最强开源大模型Qwen2,干倒Llamama” 3、比闭源模型更强”,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com