采访面壁智能李大海:大模型能力迭代并未减缓,而是在加速。

2024-06-27

文章来源:时代周报 作家:申谨睿


面壁智能创始人,CEO 李大海


通向 AGI 这条路并不容易走。所以,为了留在牌桌上,一批大型公司各展所长。


阶跃星辰坚信,从单模态到多模态,再从多模理解和产生的统一走向世界模型,就是到达世界模型, AGI 必由之路;月亮的暗面认为长文本是打开的。 AGI 大门的钥匙;零一万物、科大讯飞、商汤科技等公司 C 终端用户发布了一系列 AI 商品,以“落地为王”为方向。


在赶赴 AGI 在壮大的军队中,面壁智能略显特殊——大多数公司都有参数规模,但面壁智能希望尽可能减少参数。事实上,许多由大规模参数支撑的大型模型并没有最大限度地提高效率。


面壁智能创始人在接受时代周报记者采访时,CEO 李大海多次提到“高效率”这个词。在他看来,“高效率的大模型通常是 AGI 更加现实的路径。要创造更加有效的 Scaling Law增长曲线(模型能力与尺度之间的渐进关系)可以达到同等参数性能更好、同等性能参数更小的效果。"


创建于面壁智能 2022 年 8 月亮,专注于大模型技术创新和应用转换。创业者主要来自清华大学自然语言处理实验室。CEO 李大海是 Google 2015年中国创始员工 2023年加入知乎 每年担任面壁智能的董事和董事 CEO。今年 6 月 5 日,李大海辞去了知乎 CTO,清华大学计算机科学与技术系副教授刘知远不再担任执行董事;另一位创始人、首席科学家刘知远。


面壁智能是李大海的第四个创业网站,也是他第一次担任公司一号位。对于李大海, AGI、大型模型的前景非常乐观。谈到最近辞职知乎 CTO 不再担任执行董事,他解释说,这只是一个正常的工作激励和计划,没有什么特别值得夸大和解释的地方。


“高效率”理念贯彻面壁智能团队。刘知远认为,高效率和通用性就是 AI 可持续发展与应用的本质,也是面壁做大模型的核心。面壁智能 CTO 曾国洋也曾经说过,他并不太担心落后的问题。在他看来,OpenAI 技术路线可能不常见,需要根据自身情况和特点制定发展战略。“盲目追求模型参数是不可能的,大模型的效率会至关重要”。


在试图“高效”着陆的过程中,面壁智能发现了端侧模型的巨大潜力。与云侧相比,端侧模型更接近客户。虽然云侧大模型的性能相对较好,但端侧有其生态位置。“端云协同基本被业界认可为未来大模型的主流应用模式,苹果推出 Apple Intelligence,带头做个示范。”


李大海认为,端侧对芯片计算能力和内存有严格的要求,必须是一个充分高效的大模型,这就要求R&D部门对大模型有足够深入的底层洞察,积累大量。 Know-How,在模型 Scaling Law 以外建立 Scaling Prediction(利用小型模型测试数据预测大型模型性能水平)的能力。


“面壁智能的长期征程是 AGI。而且大模型必须是通向的 AGI 目前所有的技术都可以走得最远,但是它能不能直接到达,还有许多未知因素。”李大海总结道。


"现在的商业模式并非终极形式"


时代周报:为什么面壁智能不选择直接从大模型走向应用,而是把大模型和大模型 Agent(智能体)率先结合?


李大海:关于 AI Agent 有各种各样的观点和说法。但是,归根结底,就是把大模型能力,向外输出,转化为解决实际问题的能力。


大型模型就像汽车发动机。但是,要制造一辆完整的汽车,除了发动机之外,还需要转向系统、底盘、内饰和其它所有必要的部件。同样,为了充分发挥大模型的潜力,我们还需要在这个“引擎”的基础上增加一系列先进的技术,比如强化记忆力和使用工具的能力,从而开拓更广泛的应用领域和想象空间。而 AI Agent 正是集合这些技术能力的载体。


时代周报:现在的“大模型” Agent “进展如何?”


李大海:在公司成立的第一天,我们的目标就是做出最好的大模型。公司的英文名称 ModelBest ,事实上,倒下的顺序是 Best Model。一位朋友评论说,面壁智能是最了解的。 Agent 大模型公司。事实上,我们本质上是一家大型企业,Agent,包括我们在 2021、2022 年最早做的 Infra,事实上,这一切都是为了做好大模型。


对我来说,现在的大模型主要是作为知识压缩; Agent 技术,无论是外化的 Agent 技术,或者未来内在的大模型内部。 Agent 技术,将大语言模型与大语言模型相结合,能更好地到达。 AGI 最终目标。


时代周报:如今,一些大型互联网公司也跻身于应用跑道,如果未来网络层爆发,大模型很可能会被淡化。而且 to B 另外,还要面对单纯做大模型交付,实际商业链接较短的局限性。您如何看待这两种商业模式?


李大海:当前大模型技术仍处于快速发展阶段,商业模式也在不断地构建和迭代,无论是 to B 还是 to C,我认为每个人都在处理“让智能更好地为人服务”的共同问题。他们也走以大模型为主要智能来源的技术道路,没有优劣之分。


无论如何,不可否认 to B 还是 to C,一项技术能够被大规模广泛使用的前提必须是技术的使用成本低于一定的临界点。考虑到技术阶段、计算率等诸多因素,整个行业还在加速向这个临界点迈进,所以目前的产品和商业模式还在探索中,而不是终极形式。


时代周报:面壁智能是如何接近这个临界点的?


李大海:基于端侧的大模型解决方案是通过技术手段提升用户体验,让用户在端侧拥有更可靠、更隐私、更有保障的端侧智能;同时也实现了目前端侧的充分开发计算率,从而通过技术降低维护成本。


我们不仅要打造更强大的大模型,还要打造高质量、低成本的大模型,让每个人都能用得起大模型的通用智能。MiniCPM 出现正是基于这种愿景和智能会无处不在的分析。未来面壁的发展将集中在端侧大模型上。


时代周报:您刚刚提到模型迭代的核心承受能力仍然是技术,但是 GPT-4o 发布后,很多业内人士认为,大模型能力迭代的速度普遍较慢。


李大海:在我看来,大模型能力的迭代速度并没有放慢,而是在加快。从国内到国外,大模型领域每天都有新的想法,新的技术在尝试,新的产品落地形式与各行各业相结合,变化很快。面墙智能应该没有迭代慢的问题,正在开发一些令人兴奋的新产品。


高效率的竞争


时代周报:在模型能力方面,中外结构差异不大,数据质量和数据能力是造成差距的主要因素。面墙智能是会选择消耗昂贵的成本来丰富和标注数据,还是会专注于与数据质量较高的互联网公司合作来缩小与国外公司的差距?


李大海:现在大家都在谈论如何把模型做大。我认为大模型的“智能密度”也是一件非常重要的事情。有可能有一天会实现。 AGI 那天,还要做的就是今天庞然大物这样的大模型已经足够微型化了。


举例来说,如果要用一个 10 达到万亿参数模型 AGI 达到的智能水平,从能否把握住? 10 数以万亿计的模型参数值降至 1 万亿、降至 1000 亿,这也是一件需要不断突破的事。


时代周报:专注于中国,大型模型制造商很难产生明显的竞争优势,因为他们使用类似的培训方法和类似的语料材料。面壁智能在这方面有哪些考虑?


李大海:我认为核心是“高效率”。目前,公司已完成大模型全栈技术生产线布局,实施高效培训、高效落地、高效推理。


在高效训练方面,2024 年初发布的“性能小钢炮” MiniCPM,它已经代表了面墙大模型高效训练模式的完全运行。我们做了上千次面墙“模型沙盒测试”,对大模型训练过程进行了精准的建模和预测,创造了更高效的 ScalingLaw 增长曲线,提供智能实现的最佳解决方案,速度更快,成本更低。


在高效落地方面,面壁智能将采用 AI Agent 在最后一公里内继续推进这一大模型的落地应用。


在高效推理方面,我们以“衔尾蛇投机取样”为代表的协同推理技术,构建了云侧大小模型之间的协同,大大提高了云侧大模型的服务速度。结合面壁侧模型,有望实现端云两侧协同推理的新范式,进一步显著降低大模型的维护成本。


时代周报:所以,在坚持高效率的前提下,你对 Scaling Law 还会有不同的理解?


李大海:对大型模型的发展,Scaling Law 这是一个公认的体验公式。但是训练模型本身的训练方法 Scaling Law、对智能的影响相当显著。由于目前参数规模在不断上升,因此很难让端芯片支持一个固定规模范围的模型。因此,要实现足够好的智能化,数据质量和训练方法变得非常重要。


所以,我们更关注的是如何让模型“有效地训练更多的数据”,而不是“把模型做大”。


时代周报:面壁智能是否擅长错位竞争的选手?


李大海:我认为“高效率”也可以用来解释竞争层面的问题。就像我们做终端一样,我们看到终端可以更早更快地落地。最近有机构做了一个调查,发现全国 10 一亿用户手机端侧的算率,相当于几乎相同 100 万片 H100。这个数字很夸张。若能充分利用不同手机上的算率,很多应用程序都能落地。


当然,现阶段,包括现在到未来,都需要端侧和云侧模型的协调。端侧有端侧优势,具有隐私性好、可靠性好、响应快的优点。但是目前云模型肯定比端侧有更强的现有能力,这是我们需要和所有其他模型公司合作的事情。


时代周报:您一直认为百花争艳才是春天,当前大模型打开价格战这对中小型制造商和整体行业是否利空?


李大海:目前所谓的价格战或多或少都有一些营销成分,但我相信未来会比现在的价格更低,每个人都会盈利。这是一种健康的方式,真的可以让各行各业的应用落地。


时代周报:英伟达 A100、H100 产品价格暴涨,一卡难找,助推了国内计算率租赁市场的繁荣。最近,英伟达面临反垄断调查。你认为国内计算能力的发展空间可持续吗?


李大海:计算率只是基础设施的一部分。即使面对不确定的情况,也应该有一个替代方案来更新基础设施。毕竟未来大模型释放出巨大的需求,产生可观的效益后,肯定会有人做好配套设施。利益的驱动力不容小觑。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com