「小模型」有更多的机会
昨天有人提到,为什么要研究语言模型。
主要有两个原因:
首先,乔姆斯基认为语言是思考的工具。要理解人类的心智,我们必须研究语言。语言与心智密切相关。我们的主要观点是“压缩论”,人工智能可以反映为一种压缩方式。
第二,语言非常重要。没有语言,人类就无法进行高级思考。所以,语言不仅仅是知识的载体,更是一个高度抽象的符号系统。
那为什么要选择语言模型来研究,而不是图像、声音或其它类型的数据呢?非常简单,数据压缩语言文本更加方便,也更加经济。
听课的内容我总结了一下,仔细看了一下,发现历史发展的脉络很有意思,总结起来就是四个字:压缩就是智能。
为什麽这么说?在14世纪,英格兰有一位名叫威廉·奥卡姆的逻辑学家(大约在1285-1349年),他提出了一个著名的原则。「奥卡姆剃刀」。
这一原则意味着:
如果一件事可以用简单的规则来解释,那么这个简单的解释一般是正确的;听起来可能有点抽象,但很容易理解。中文里有句老话:“如果没必要,不要增加实体”,这就是原因。
举个例子:
如果我给你一个数学列:1, 2, 3, 5, 8.让你猜下一个数字,你可能会想到13。因为这个数字列是斐波那契数字列,每个数字都是前两个数字的和。这个解释很简单,也很合理。
那么为什么我们认为13是正确的,而不是随便猜一个数字呢?
随便说一个数字,然后编一个非常复杂的理由来解释它,尽管我也可以写一个程序来证明这个数字是正确的,但是它会非常复杂。
奥卡姆剃刀告诉我们的就是,假如一种现象可以用简单的规则来解释,那么它通常是正确的;所以,最初的研究者普遍遵循奥卡姆剃刀的原则。
随后,一个人提出了不同的观点。
这个人的名字叫雷·所罗门诺夫(1926-2009)。他曾经参加过达特茅斯大会,也是大会的发起者之一。他的研究相对不受欢迎。他觉得根据奥卡姆剃刀的原理,并不是所有的数字都有可能成为正确的答案。
一般情况下,如果更容易描述一个规律,那么它更有可能是正确的。因为我们的世界本质上可能很简单。宇宙的底层规则很可能是一个简单的原则,而不是一个复杂的原则。
所以,生活中的大部分现象都可以通过规律来预测。但是具体怎么做呢?
我们可以把这些规则写成图形灵机(模型和公式),然后同时模拟所有可能的图形灵机;我们给它更多的时间来操作简单的图形灵机;如果很复杂,就给它更少的时间。
通过这种方法,我们可以构建一个“普遍分布”,这意味着如果你给我一个数列,让我预测下一个数字,我可以给出一个概率,虽然我不确定具体是哪个数字。
这种“普遍分布”可以说是对任何序列推理问题的最佳预测;但是,这个东西虽然客观存在,可以理解,但实际上是无法计算的。因此,它更多的是一种哲学思维,而不是一种应用于实践的工具。
之后,有一个人叫柯尔莫果洛夫(1903-1987),他说:
所罗门诺夫是对的,但是我们怎样判断一个图灵机或一个模型是简单的还是复杂的呢?不能仅仅依靠概率分布。
所以,他提出了柯氏复杂度的公式概念。简而言之,如果一个序列是正确的,那么就可以用一个图灵机来描述它。图形灵机越简单,这个序列的复杂性就越低。
这是柯氏复杂度的公式:
K(x) = min{|p| : T(p) = x}
在这个公式中 KK是用来预测某事物的。 图灵机xx CC的长度。假如 CC运行后的结果是 xx,那么 CC的长度越小,复杂性越小。 KK越低。
举个例子:
设置一个数列:2, 4, 6, 8, 十。您发现这个数列的规律是“每次加2”。所以,你可以用一句话来形容它:“从2开始,每次加2。”这个句子很短,所以这个数列的“复杂性”很低。
再次查看另一个数列:3, 1, 4, 1, 5。这个数字列看起来不规则。你只能用愚蠢的方式来描述:“第一个数字是3,第二个数字是1,第三个数字是4,第四个数字是1,第五个数字是5。”这个句子很长,这个数列的“复杂性”非常高。
需要注意的是,柯氏的复杂性是一个理论概念,虽然可以定义,但在实践中无法准确计算。
随后,有人质疑柯尔莫果洛夫的理论。他的名字叫尤尔根·施密德胡伯,他被称为长期和短期记忆。(LSTM)鼻祖。
他说:
柯尔莫果洛夫的理论并不完全正确。简单不仅仅是用一个简单的图灵机生成序列。如果这个图灵机需要运行100年才能产生结果,这还能算是一个成功的描述吗?
简单性应包括图灵机的启动速度。
换言之,生成序列所需的计算时间越短,其复杂性就越低。他提出了“速率优先”的原则。所以,优先考虑计算速度是非常重要的。
为什么速度要优先?
还有一点,因为之前的研究是基于符号主义。什么是符号主义?(Symbolic AI 或 Logical AI)?简而言之,用符号和规则来表达知识,然后通过逻辑判断来解决问题。
比如我们知道“鸟会飞”和“企鹅是鸟”,符号主义就会推断“企鹅会飞”。但事实上,企鹅不会飞。这是个问题。
这里有两个主要困难:
第一,限制柯尔莫果洛夫的复杂性。复杂的系统可以产生简单的东西,但是简单的系统不能产生复杂的东西。这是一个基本的不等式。例如,一个复杂的程序可以产生一个简单的数列,但是一个简单的程序不能产生一个复杂的数列。
其次,人脑是一个黑盒子,模拟人脑的功能需要多高的复杂性?我们猜测它应该是非常复杂的,因为人类研究了这么多年,还没有完全理解。这说明大脑非常复杂,可能是一串大数字。
如果我们试图用符号主义的方法,通过编写规则或程序来模拟人类的智力,这几乎是不可能的。
举个例子:
我们从网上抓取大量数据,抓取世界上所有网页的文字。这些信息有多大?可能是几百个PB(大数据单位)。它非常复杂。
虽然这些文字是人类写的,可能有一定的规律,可以压缩得更小,但它们仍然非常复杂。这种复杂性甚至可能超过人脑的复杂性。
如果我们在某个模型中添加这些信息,我们可能会实现类似于人脑的智能功能,从而解决符号主义的根本缺陷。因此,转变为数据驱动的方法是不可避免的。没有数据,你不知道复杂性从何而来。
由于复杂性已经很高了,我们仍然希望这是可以解释的,这就更难了。
你只能在某些方面解释它,但你不能完全理解它的原理。就像研究人脑一样,你可以研究一些局部机制,但几乎不可能完全理解整体原理。因为人类只能理解简单的事情。
我们今天的大语言模型是什么?它是一个相对较小但仍然复杂的模型,使用高复杂度的数据,通过算法压缩。这种模式可以更准确地预测语言。
有了这个模型,我们只需要补充一点信息,就可以恢复原始数据。所以,大语言模型实际上是一个数据压缩过程,而模型本身就是数据压缩的结果。
加拿大阿尔伯塔大学教授Rich直到2019年3月才加强学习领域的重要人物。 Sutton写了一篇名为“《The Bitter Lesson》,把中文翻译成“苦教训”。
本文总结了过去70年人工智能领域的发展历程。许多企业,如OpenAI,都遵循本文的原则,Rich Sutton发表了一个重要观点:
自20世纪50年代以来,在人工智能的研究中,研究人员经常感到自己非常聪明,发现了一些巧妙的方法,然后将这些方法设计成智能算法, 在短时间内,这种行为确实有用,可以带来一些改善,也可以让人感到骄傲,觉得自己特别强大。
但是从长远来看,这种行为是行不通的, 由于再聪明的人,也不可能一直聪明下去。假如只做这样的研究,最终反而会干扰进步。
真正取得巨大突破的不是精致的设计,而是在计算学习上投入更多的资源。虽然这种方法看起来很愚蠢,但它可以带来革命性的改善。
历史上,人工智能的每一次重大进步都伴随着这种“苦教训”。但是人们通常不喜欢吸取这个教训,因为它有点反人类。
我们更喜欢赞美人类的智慧,设计一些巧妙的算法,认为这是先进的。然而,用大量的数据和计算率来训练模型并不“聪明”,尽管它可以成功。
这一“大力出奇迹”的成功,常常被人看不起。但事实一次又一次地证明,这种看似愚蠢的方法真的很有效;这也解释了我们为什么要做一个大模型——因为只有通过大规模的计算学习,我们才能取得真正的突破。
所以,开发大型模型并不是为了展示技术水平,而是因为它确实可以带来显著的效果,这就是为什么我们要在基础设施上投入更多的资源来支持这些大型模型的实践和发展。
所以,压缩就是智能。模型可以通过压缩数据提取更深层次的特征和规律,从而显示智能行为。那谁提出了这种“压缩即智能”的说法呢?
自2006年以来,德国人工智能研究员Hutter 每年Prize都会举办一场比赛。这个项目叫做,Hutter Prize for Lossless Compression of Human Knowledge(简称 Hutter 奖)
这场比赛的目的是:将1GB的维基百科数据压缩到110兆。

假如你能比这更小地压缩,那就意味着你的压缩方法更聪明,这场比赛的总奖金是50万美元,目前已支付超过29万美元。
然而,在七八年前,这场比赛可能相当有意义。但是今天,1GB的数据量似乎有点小。毕竟现在的模型总是处理数百GB甚至更多的数据。
假如你感兴趣,可以试试这场比赛,里面有很多符号主义的方法,大模型的思路还没有完全运用。
所以,如何提高压缩效果呢?主要有几种方法:
第一,算法更聪明;以前使用n-gram的统计方法效率很低。虽然数据量大,但模型效果一般。现在有了更聪明的算法,比如深度学习,可以更高效的利用数据,训练出更多的模型,不会过度拟合。
第二,更多的数据;数据越多,模型效果越好。但是问题是,网络上的数据已经差不多了,还能从哪里找到更多的数据呢?
在这两个方面,用较小的模型将本地知识垂直到行业。(local knowledge)让大家在中间使用,然后,小模型投喂给大模型,最后加上训练时间。
尤尔根·施密德胡伯(LSTM鼻祖)提出,速度也很重要。如果你花更多的时间进行训练,模型效果可能会更好。这也是OpenAI等公司走的路线。
所以,如果你相信“压缩就是智能”的观点,那么在相同的数据量下,如果小模型能达到和大模型一样的效果,那么小模型显然更聪明。
谈到这个,不妨想一想:为什么今天还要研究大模型?
根据柯尔莫果洛夫的复杂性,只有足够大的模型才能接近通用人工智能的目标。虽然小模型的研究也有意义,但大模型最终不可避免地会实现通用人工智能。
所以,一个结论是:假如你的目标是AGI,那么做大无疑是最好的选择,你的目标是细分垂直,小模型最划算。理解了这一点,也就明白了,大厂为什么要追求大模型,但往往,小模型,有更多的机会点。
本文来自微信微信官方账号“王智远”(ID:作者:王智远,36氪经授权发布,Z201440)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




