这次采访回应了AI的所有焦点问题,他是AI最重要论文的合作者。
简单扩展模型规模带来的边际效益正在下降,推理能力将成为未来的突破口——从“买更多的算率”到“给AI更多的思考时间”。
AI飞速发展的时代,真的要结束了吗?
伴随着scaling 新闻报道称,全球科技圈和金融市场对大模型发展触及天花板的讨论越来越激烈。那么,AI发展放缓了吗?未来会如何发展?如何突破商业模式?
针对人工智能领域最具影响力的一系列焦点问题,论文《Attention Is All You Need》Cohere联合创始人兼CEO的联合作者 Aidan 在采访中,Gomez分享了他对AI发展的深刻看法。
他认为,LLM的发展已经进入了平台期,推理能力将成为未来的突破口,并将带来新的商业模式和市场机会。同时,他还提醒投资者警惕模型的价格倾销,注意 AGI 发展趋势。
对scaling来说 Gomez认为,简单扩展模型规模带来的边际效益正在减少law放缓的问题。
例如,Gomez指出,LLM 在发展初期,就像用大画笔高效地完成基础构图一样。然而,随着模型需要处理更详细的任务,就像绘画需要越来越详细的画笔来改善细节一样,模型改进所需的数据也越来越精细,这导致获取高质量数据的成本越来越高。最终,模型的大规模发展将受到人类知识和专家数据获取难度的限制。
在推理能力方面,Gomez表示,推理能力可以使推理能力 LLM 不但仅仅是简单的记忆输入输出对,还可以像人类一样多步思考和推理,处理更复杂的问题。这带来了一个革命性的变化——公司可以通过增加推理时间来实现,而不是投入高额的固定成本来提高AI能力。通俗地说,就是从“买更多的算率”变成了“多给AI一点思考时间”。
Gomez还认为,推理时间计算的增加也会影响芯片层和数据中心的建设。未来需要开发更适合处理推理任务的芯片,建设更适合分布式计算的数据中心。

《Attention Is All You Need》作者和黄仁勋,Aidan Gomez(上图左三)
01
大语言模型 (LLM) 发展进入平台期
推理能力成为突破口
问:LLM 发展是否已进入平台期?未来的突破在哪里?
Gomez:
LLM 性能提升已经进入平台期,边际效益下降。[2, 6] 简单的扩展模型规模带来的性能提升是有限的,就像油画创作从大画笔的构图阶段到需要用越来越细的画笔来改善细节一样。
改进模型需要越来越详细的数据。LLM 在处理简单常见的任务时,可以快速提高,但在处理更专业、更敏感的领域(如科学、数学)时,由于训练模型需要更精细、更专业的数据。
推理能力将成为 LLM 未来发展的新突破。[3, 5] 推理能力可以让步 LLM 不但仅仅是简单的记忆输入输出对,还可以像人类一样进行多步思考和推理,处理更复杂的问题,如多项式解决。
问题:影响模型规模发展的因素有哪些?
Gomez:
生成数据可以帮助模型提高某些领域(如代码和数学)的性能。因为这些领域的答案很容易验证,所以可以通过生成大量的数据来训练模型。
但是在其它需要真实世界知识的行业(例如生物、化学),获取数据比较困难,需要依靠专家知识。
最终,模型的大规模发展将受到人类知识的边界和专家数据的难度的影响。
02
推理能力将带来新的商业模式和市场机会
问题:推理能力将如何改变行业格局?
Gomez:
推理能力的出现将带来新的商业模式。
客户可以通过增加推理时间计算来获得更智能的模型,而无需等待几个月的新模型培训。这意味着客户可以根据自己的需求灵活调整模型性能,获得更好的产品体验。
这是一种资本支出(CAPEX)在不承担高昂的训练成本和时间成本的情况下,方式向消费模式的转变会吸引更多的客户来解决问题。
推理时间计算的增加也会影响芯片层和数据中心的建设。未来需要开发更适合处理推理任务的芯片,构建更适合分布式计算的数据中心。
问题:怎样理解推理能力?
Gomez:
目前的 LLM 缺乏像人类一样的“内心独白”,无法进行多步推理和思考。他们只能根据输入直接给出导出,而不是像人类一样思考、尝试和纠正问题,最终找到解决方案。
推理能力的加入将使推理 LLM 可以像人类一样多步思考和推理。这种能力将通过使用人类数据和合成数据来准确地收集人们的内心想法并练习来实现。
问题:哪种类型的问题更适合使用推理能力?
Gomez:
任何应该通过多步解决的问题都更适合通过推理能力来解决。比如人类在处理这类问题时,需要将其转化为多个步骤,逐步解决,最终得到答案。现在 LLM 这种问题只能通过记忆来解决。
问题:市场普遍低估了推理时间计算的哪些方面?
Gomez:
推理时间计算在提供智能方面的作用尚未得到市场的深刻认识。
推理能力的加入为顾客提供了一个新的选择:顾客可以通过增加推理时间计算来获得更智能的模型。
03
独立开发模型
创造差异化竞争优势
问:Cohere 为何选择自主开发模式?
Gomez:
虽然开源模型提供了基本模型,但是微调效果不如自主开发。
独立开发能够控制参数和训练过程,为用户提供更多的定制选项。
问:LLM 是否适合所有领域?
Gomez:
尽管 Transformer 模型可以解决很多问题,但是在某些领域,例如图形结构数据,效率可能很低。
为了达到更高的效率,这些领域可能需要更专业的模型。
04
对模型价格倾销保持警惕
关注 AGI 发展趋势
问:市场上 LLM 降价是否意味着模型商业化?
Gomez:
在市场上,模型价格下跌并不是商业化的标志,而是价格倾销的结果。
建模需要很高的技术能力,只有少数企业掌握核心技术。
未来市场将受到增长压力和投资回报的影响,目前以亏损或免费提供昂贵技术的做法是不可持续的。
问题:如何看待 AGI 的发展?
Gomez:
AGI 这不是一个非黑即白的概念,而是一个可持续发展的过程,我们在构建通用智能机器的道路上取得了长足的进步。
超智能化的快速发展和提升自身并不会像电影《终极者》中那样导致人类灭绝。
人们将利用人工智能技术创造财富,而非依靠“上帝”般的超级智能。
本文来自微信公众号“硬AI”,作者:硬AI,编辑:硬AI,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




