假开源真噱头?大型开源模型与您想象的不同

2024-11-02

25年前,著名的计算机程序员、开源软件运动旗手Eric S·Raymond出版了《大教堂与市场》一书,首次提出开放源代码。(Open Source)概念,倡导软件源代码可以被任何人查看、修改、分发。从那以后,开源对互联网行业的每个角落都产生了深远的影响。


随着模型和GenAI的兴起,开源再次成为业界关注的焦点,关于开源和闭源的争论长期未能平复。然而,与传统软件开源相比,大型开源的情况更加复杂。开源的概念、特点、开源内容、开源策略都有完全不同的标准和内容。


所以,“开源派”的帽子并不容易戴。


“开源”大模型再次掀起波澜。


十月二十九日,全球权威开放源代码促进会议(Open Source Initiative,OSI)关于“开源AI定义”的发布。(OSAID)"1.0版本,正是这个定义在业界引起了不小的波澜。



根据OSAID,AI模型要想被视为“开源”,就必须提供足够的信息,让每个人都能“实质性”重建模型。根据新定义,AI模型要想被视为开源有三个要点:


首先,训练数据透明度。必须提供足够的信息,使任何人都能“实质性”地重建这个模型,包括训练数据的来源、处理方法和获取方法;


其次,完整的代码。完整的源代码需要公开用于训练和运行AI,显示数据处理和训练的规范;


三是模型参数。需要提供相关的访问限制,包括模型的权重和配置。


OSAID还列出了开发者在使用开源AI时应该享有的使用权,例如,他们可以在不获得他人许可的情况下为任何目的使用和修改模型。


OSI表示,新定义是为了防止目前行业对“开源大模式”的过度营销和误解。按照这个标准,目前市场上表面开源的大模式基本都是“不真实”的,包括著名的“开源大模式”标杆Meta的Llama和谷歌的Gemma。


在过去的两三年里,OSI发现传统软件行业的“开源”与大型模型有着本质的区别,其定义并不适用于目前流行的AI大型模型。因为AI模型比传统开源软件要复杂得多:它不仅包含代码,还包括大量的数据、复杂的模型结构和训练过程中的各种参数。而且这些数据的收集、整理、标记等过程对模型的性能和结果都有重要影响。这些新元素不能完全包含在传统的开源定义中,导致AI领域的适用性不足。


目前,世界上许多创业公司和大型科技公司都称其AI模型的发布策略为“开源”。因为把大模型描述为“开源”,开发者会觉得更容易开发,成本更低,资源更多。然而,研究人员发现,许多开源模型实际上只是名义上的开源模型,这限制了用户对模型做什么,实际训练模型所需的信息是保密的,运行这些模型所需的计算能力超出了许多开发者的能力。例如,Meta要求在使用Llama模型之前,每月活跃用户超过7亿平台获得特殊许可。


巧合的是,今年六月,《Nature》一份报告指出,很多科技巨头声称自己的AI模型是开源的,但实际上并不完全透明。这些模型的数据和训练方法通常不公开,这种行为被称为 开源漂白,严重阻碍了科学研究的可重现性和创新性。



Andreasrease,荷兰拉德堡德大学的人工智能研究学者。 Markiesenfeld和运算语言学家 Dingemanse还发现,虽然“开源”这个词被广泛使用,但很多模型最多只是“开放权重”,其他大部分关于系统建设的方面都被隐藏起来。


举例来说,Llama和Gemma虽然自称开源或开放,但实际上只是开放权重,外部研究人员可以访问和使用预训练模型,但是不能检查或定制模型,也不知道如何对模型进行微调。


到底什么是“开源”大模型开放?


源代码是社区开源软件的核心。开发者可以通过阅读源代码来掌握软件的所有细节,从而为软件开发新的功能,提供检测、修复bug和进行代码评估。


开发者将自己的代码提交给开源项目,合并后形成新版本。这就是开放式合作开发,这是开源软件的基本开发方式。与一般软件的开发过程没有本质区别,但开发者在地理位置上是分散的。他们依靠一些远程合作平台,比如GitHub。、Gitee 等等,通过开放治理的方式进行合作。


但对于大型模型来说,信息是除了源代码之外更重要的核心资产。大型模型是基于深度学习技术,通过大量数据练习的深度学习模型。大型模型可以基于自然语言生成和理解文本,通过输入数据获得导出,从而完成多种通用任务。


在模型运行方面,主要有两个过程:练习和推理。训练过程就是大模型产生的过程。训练过程的基本原理是在深度学习框架上运行特定的模型结构,然后将训练数据集输入到结构中,然后通过复杂的计算进行几次迭代,最终获得一套想要的权重。这套权重是训练后的结果,也叫预训练模型。


预训练模型通过部署后,在深度学习框架的支持下,根据给定的输入内容获得相应的输出结果。这个过程就是推理过程。


但需要注意的是,在模型训练和推理过程中,计算能力和资源通常有很大的不同。在训练过程中,需要多次迭代计算,并且需要大量的GPU计算率来支持,这样才能在合理的时间内完成一个完整的训练过程。


另外,在推理过程中,所需的算率资源相对较小,因为一般类型的推理可以在消费GPU和普通GPU上完成。


从目前的情况来看,市场上大多数开源模型只开放一套权重,即预训练模型。如果开发者想要再现开源模型的训练过程,他们需要通过优化数据和方法来训练一个高质量的模型,他们需要数据、训练过程和源代码。然而,大多数开源模型在开源时没有提供上述内容,即使开发者掌握了计算率,也无法再现。


与传统软件相比,市场上这些大型开源模型更像是一个开放的二进制包,比如.exe文档,只是闭源,免费开放使用,它实际上是一个“免费软件”,而非“开源软件”。


其实大模型中所谓的“开源”有三个目标,源代码只是其中之一。只有同时具备算法、高计算能力和大数据三个要素,才能最终得到一个类似于ChatGPT的拔群模型。


大模型的源代码在于算法,算法的核心部分主要包括模型结构和训练方法,两者都有相应的源代码。获取源代码只是第一步,高计算能力和大数据是大多数企业无法逾越的门槛。与高计算能力相比,大数据是最难获得和最有价值的部分。


所以,在没有提供数据集和源代码的情况下,开源大模型是否不能进行合作?并非如此。


基于实现大模型的原理和技术特点,开发者可以通过微调的方式拓展预训练大模型的能力,通过额外的数据集进行进一步的训练,优化模型在特定领域的效果,获得新的衍生模型。


微调数据的规模可以大也可以小,但是一般比原始训练数据集小很多,所以产生微调模型所需的算率成本也低很多。


所以,在开源大模型界,出现了一些基于主流预训练模型的微调大模型,并形成了谱系。



大型模型根本没有“真”开源?


从目前各大模型厂商的宣传来看,大部分都采用了“偏概全”和“敷衍了事”的方式,让人很容易混淆模型开源和软件开源的概念,让开发者或单位误以为开源模型和开源软件的开源水平是一样的。


无论是大模型还是软件,发挥开源优势,本质上都是为了吸收开发者对大模型或软件的改进。但事实上,目前所谓的开源大模型并不能真正依靠社区开发者的参与来提高效果和性能,就像开源软件一样。应用开源大模型的公司很难迭代和优化这些模型,以至于无法有效应用于公司场景。


对于什么是开源大模型,业界并未像开源软件那样达成明确的共识。


总的来说,大模型的开源和软件开源在概念上确实有相似之处,都是鼓励社区围绕开放、共享、合作的原则参与开发和优化,促进技术进步,提高透明度。


但是,在推广和需求上存在着显著的差异。


软体开源主要针对应用工具等,开源资源需求较低,而大型开源涉及大量的计算资源和高质量的数据,而且可能会有更多的使用限制。所以,虽然两者的开源都是为了促进创新和技术传播,但是大型开源面临着更多的复杂性,社区贡献的方式也各不相同。


以前国内也有过太多关于模型开源和闭源的讨论。百度创始人李彦宏多次强调两者的区别。大模型开源不等于代码开源:“模型开源只能获得一堆参数,需要再次进行SFT(监管微调)、安全对齐。即使你得到了相应的源代码,你也不知道你用了多少比例和比例的数据来训练这些参数。你不能移动人们的心。如果你得到了这些东西,你就不能站在巨人的肩膀上迭代发展。”


从这个角度来看,开源大模型的改进主要是通过微调来实现的,但是由于微调不涉及核心框架和参数,模型的能力和性能无法从根本上改变。


即便是“真开源”,由于技术特点和培训成本的限制,开放式合作对于大模型性能的提升效果也是有限的。


大模型训练过程需要花费大量的计算率,计算率成本仍然很高。即使创作者有开源数据和训练细节,一般开发者也很难承担复制训练过程中高昂的训练成本,模型能力也很难因为开放而得到本质的提高。


数据显示,ChatGPT一次完整的模型训练费用超过8000万元。若进行10次完整的模型训练,费用将高达8亿元。


从企业的角度来看,要根据组织的实际需要和战略目标来选择大型产品或应用。


李彦宏认为,评价一个模型有很多因素,不仅要看榜单上的很多能力,还要看效果和效率。当大型模型加速进入商业应用时,真正的评价指标应该是模型能否满足用户的需求,在追求高效率和低成本的前提下,在实际应用中产生价值。


大型应用包括“技术” 一套完整的服务解决方案,单方面的忽视或考虑不足,会影响公司的“降低成本”效果,甚至会产生“增加成本、降低效率”的负面效果,需要通过“总账计算”综合考虑。


对于如何选择大模型,公司不需要太纠结。他们应该关注哪个大模型更容易使用,如何满足自己的具体业务需求,然后选择最适合企业内部需求场景的大模型平台,然后致力于应用开发。那么企业如何选择呢?


第一,计算硬件资源的成本。一些大型商业模型将支持相应的工具链,包括培训工具链和推理工具链。这些工具链可以起到很好的降低成本的作用。对于企业来说,培训阶段可以节省10~20%左右的硬件成本,而推理阶段可以节省更多。业务规模越大,节省越多。


第二,要看模型带来的业务收益。有些业务对90%或95%的准确率没有那么敏感。但是有些业务,比如商业广告,CPM、CTR差一点。对于广告平台来说,一天可能有几千万的进出。这个时候对模型效果要求越高,公司越愿意买效果更好的模型。


三是要考虑经济成本和人工成本。在一些大型商业模型中,制造商会根据企业的项目需求适应模型和硬件,并将其调整到最佳状态,使企业能够直接复制成熟的经验,从而大大降低了模型在适应过程中的计算率和人力成本。


面对行业内大模型开源闭源、真伪开源的纠纷,我们不需要用道德绑架来要求所有大模型都开源,因为这涉及到大量的技术、资源和安全考虑,需要平衡开放性、安全性、创新性和责任性。就像科技领域的其他方面一样,多样化的奉献可以构建更丰富的技术生态系统。


真正的大模型开源时间还远远没有到来,就像开源和专有软件一起塑造了今天的软件生态一样,大模型的开源和开源程度并不完全相反,各种技术路线的共存和发展是推动AI技术不断发展、满足不同应用场景需求的重要动力。最后,用户和市场会做出适合自己的选择。


本文来自微信微信官方账号“科技云报道”(ID:ITCloud-BD),作者:科技云报告,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com