寻找智能飞轮:下一个“AlphaGo"会出现在哪里?
开源大型LLaMA 2会不会扮演类似安卓的角色?正如我们在《》中提到的,AlphaGo已经达到了基于数据飞轮的人工智能的高度,现在没有人来了。它用自己的数据训练自己,快速达到围棋领域的高点,远远超过人类。
可以实际上用数据飞轮来形容这个过程有点偏概全,智能飞轮是数据飞轮的一部分。我有一个做人工智能算法的朋友,经常把自己的工作描述成大型炼丹师。智能飞轮是什么?基本上是九转金丹的药方(算法)。、炉子(计算率)和材料(数据飞轮)的组合。我拿到了九转金丹的高概率,但是吃了之后基本上马上就升仙了。什么是智能飞轮,有哪些关键影响因素,什么领域更容易出现新的智能飞轮?
智能飞轮
(数据飞轮AlphaGo)
从技术角度来看,智能飞轮与计算率、算法和数据有关。(比技术更重要的是场所。参考“OpenAI成功的关键点是什么?谁能做好大模型?”,这里就不重复了。)算率基本靠资本,算法靠团队,所以数据比较复杂,不仅仅是有钱。
就智能飞轮而言,算率真的是炼丹炉。算法决定了这个轮子有多大或者是什么样的轮子。数据飞轮决定了智能飞轮是否能转动。举例来说,AlphaGo已经转动,但仅限于围棋;chatGPT还没有转动,如果转动,整个世界都会转动,因为它的轮子太大了,包括世界上太多的知识。
算率算法实际上类似于过去的其他商业场景。人工智能和其他不同的核心在于数据。坏消息是,由于生产和消费的失衡,数据很快就会缺乏隐性。
把模型训练看作是消费者,把人和事的一切行为看作是生产者,那么消耗的速度明显大于产生的速度。在几次训练中,可以消耗几十年积累的数据。
而且数据的生成并不像想象的那么容易。
哪里有有效的数据?
并不是所有的数据都对模型有用。就像我们训练小爱这样的唤醒词一样,如果你有大量的数据但都是铁岭人,那么无论数据有多少,训练结果在广东肯定不好。
因此数据第一,要有效,第二是海量。。
对人工智能情境中的数据,从玄学和哲学的角度来看,可能更容易抓住关键。
假设我们有一个“元真”的世界,元真的世界只有本质,比如圆的规律、面积、起点等关系。,而我们的现实世界其实是各种本质的表现(希腊先哲称之为苍白拷贝)。
现在大模型是通过大量的实际数据反向接近实质和元真世界,那么此时此刻,得到的现实表达类型越完整,那无疑就越接近。比如给出的脊椎动物种类越多,每种类型给出的特征就越丰富,模型就越能找到脊椎动物的本质并包括在内。只给一条鳄鱼或者所有的鳄鱼,很难接近脊椎动物的本质。
很多时候,我们不知道哪一种是脊椎动物。
在智能飞轮中,这是最大的挑战,能花钱把过去的数据整理出来给模型,问题是什么?
对于上面脊椎动物的例子,如果后续的增量大部分是鳄鱼,那就和过去重叠了。重叠对接近实质的帮助很小。如果帮助很小,智力就不会提高,自然就没有智能飞轮了。(总是给鳄鱼会导致不像鳄鱼或脊椎动物的结果。)
这个问题不能通过算法来解决。
新算法更有可能是放大轮子的大小或结构,对飞不起来没有太大帮助。对于建立更好的应用程序是非常有帮助的。
那么,在哪里可以找到这种多样化的数据来接近本质和元真呢?
目前看看有两种方法:一种方法是增加收集范围和强度,换言之,等待现实世界的生产,但是拿得更全;一个是自生成。使人工智能产生的数据有助于人工智能的进化。前一种对应多模式,后一种是领域本身的特点。
多模态解决问题吗?
2010年左右开始的人工智能浪潮从多模式开始。虽然不同的企业家通常从不同的层面开始,但最大的两个支部:视觉和语音依赖于声、光、电、热、磁几个关键感知层面的声跟光。需要补充的是,声音不仅是一种常见的识别,还包括声纹、噪声检测、故障检测等。光线不仅包括面部识别,还可以用红外线检测物体的质量和问题,深度摄像头可以感知三维场景。
多模态是传感器低成本、精度提高的基础。
多模态肯定可以解决数据量问题,而质量问题则不太好。
每天都能得到大量的信息,只需要一定量的摄像头。
但是质上边因为你布置了多少维度的传感器就有多少维度的信息,真正得到这些数据,纯粹靠自己也需要慢慢布置累积;依赖合作就更难了,因为数据交易运行本身举步维艰,所有权、使用权都不清楚。所以多模态可以帮助长时间线上缓慢解决问题,但是注定要花费大量的成本和时间,不可能帮助启动智能飞轮。
它就像一辆大排量的汽车配备了一个小的供油管,怎样使劲给油也是不够的。
是否可以自己生成数据?
这些数据自然产生了谬论。
如果元真和本质配合全规则,生成数据,那么本质的表达就足够了,这样你产生的信息就多样有价值,对智能飞轮肯定有好处。但是,如果规则是局部的,则会产生大量的重复数据,这些数据在原始范围内等于垃圾数据。它们也只能回到一些规则和本质。
这时,问题的核心就变成了在那里寻找随机性,这种随机性的结果在领域或特定范围内是真实的。你创造了一些脊椎动物的数据,所以你必须像蛇或其他任何东西一样,恐龙,否则会污染脊椎动物的概念。
从这个角度来看,大模型的幻觉是有益的,它带来了原始的可能性。但是这种幻觉有助于构建一个虚拟的世界,而对于现实问题却是不可能的。假如让它幻想下来,可能会有一个智能飞轮,但是没有人知道它能飞到哪里去。
(这种幻觉缺陷可能不是数据生成场所真正的缺陷)来自https。://www.arxiv-vanity.com/papers/2306.08302/
那么为什么AlphaGo可以呢?
因为AlphaGo恰好正好这条规则是明确的,所有符合围棋规则的尝试都是真实的一部分。此时“幻觉”反而有利于穷尽的可能性。
从这里我们可以梳理出数据自产生的关键:“幻觉” 规则。为了实现目标,当然还有目标反馈,比如成败。幻觉加规则可以快速输出,结果可以快速反馈,这对数据生成至关重要。
下一个AlphaGo在哪里?
那么还有哪些领域符合这一特点,能像AlphaGo一样启动智能飞轮吗?
从前面的描述中,我们可以发现这个领域的特点是外部的,但与算法和数据的现状关系不大。满足这个特点意味着九转金丹更有可能快速炼成。
除了游戏之外,我立刻能想到的是编程。
编译器等保证了编程的规则足够清晰,几乎不行;
通过测试驱动开发的方法,可以在许多场景中定义最终结果是否正确;
过去的信息量也足以点燃第一把火。性能、稳定性等非功能性指标也可以进行量化衡量。
当新领域来临时,编程的难点在于,要能够将这一需求抽象地描述为一个可衡量的数字目标。通过这种方式,软件产品将成为一个清晰的对错系统,在这种情况下,内部的各种构建可以使模型完成。
假如这是真的,那么程序员这一行业肯定会面临巨大的变化。
并非消灭这个职业,而是说工作的意义与过去大不相同。
医疗是什么情况,虽然很多读者都会关注这个领域,但是很不幸。医学界并非有智能飞轮的行业,需要的是靠算法等进步一点一点向前推进。(并非AI对它没有帮助,没有机会,沃森系统肯定会出来)
因为疾病不是很清楚,“幻觉”和规则无法产生有效的数据。如果模型是基于这样的模拟数据,然后指导真人看病,然后在反馈中调整,这是不靠谱的。反馈的成本太高了。也许人类已经死了,验证幻觉是不够的。
什么是企业经营管理的情况?相反,这是部分能力。
这种情况似乎有些分歧,理论上医院也是一家公司,为什么医院不行,公司就行?
因为公司内部差距很大,既有封闭系统,又有开放复杂系统。
事实上,公司的情况和任务是在封闭和开放之间持续的,比如总有外卖兄弟和首席执行官的工作,前者是封闭的,后者是开放的。然后,不同的企业有不同的工作比例。比如工厂或者保洁公司封闭度高,大学可能开放度高。
这一比例决定了组织的特点。
因此,在许多接近封闭场景的地方,实际上可以找到最优解,关键是界限要明确。切到极端其实和围棋是一样的。比如即使不需要大型物流,也可以用算法(求解器)求解,因为边界清晰。
最后想说的是反转明显的行业,比如股票交易,会比较困难。从理论上讲,股票和游戏非常相似,数据非常充分,获取数据并不难。幻想在规则对应的结果中立即得到反馈。但是股市的反身性太明显了,导致几乎没有规则。在这种情况下,AlphaGo这种意义上的智能飞轮转动是没有用的,需要其他的角度和方法。
总结
结论是智能飞轮的存在与否是一个领域特征,与算率、算法关系不大。这个领域是错误的,没有数据飞轮,在没有数据飞轮的情况下,适合打呆仗,结合多模式逐步积累。也就是说,在我们所说的系统超级应用对应的长尾曲线中,有智能飞轮效应的会跑在前面。
对于纯大模型的R&D人员,他们负责推广;对于系统超级应用的R&D方来说,核心是找到有智能飞轮的行业,并根据这些策略进行准备;对于长尾曲线的应用,更适合快速输出体验。AI未来的格局越来越清晰。
本文来自微信微信官方账号:琢磨事情(ID:zuomoshi),作家:老李话一三
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




