大型AI模型站在十字路口,不断突破或陷入低谷?

2024-09-22

AI轰炸的情况下,普通人已经筋疲力尽,应用落地也没有惊人的突破,AI大模型的发展似乎已进入瓶颈期。


在云起大会之前,行业充满了对AI的攻击,这似乎是历史的转折点。就像2017年上一代对AI的深入学习一样,在经历了行业的亮点之后,大模型似乎进入了一个漫长的技术积累和应用阶段。


但是AI大模型的发展真的放缓了吗?


"技术的发展速度仍然很快"、“落地不觉得太难,但都是机会”。在为期两天的交流中,大型创业公司、云厂商、AI企业服务公司、行业内所有实际从事业务的公司都对光锥智能表示乐观,对AI前景持乐观态度。


“o1的推理能力确实达到了一个很大的水平。”阶跃星辰创始人姜大昕在2024年云栖大会上表示,“o1也首次证实,大语言模型可以拥有缓慢的思维能力,这也带来了Scaling。 Law的新方向。


也就是说,有了OpenAI, 发布o1模型,生成式AI从最初的预训练时代,进入了大规模推理时代。


然而,AI仍处于发展初期。


他说:“现在我们还处于L2发展的早期阶段,但是AI仍然在加速发展,在接下来的18个月里,L4级别甚至可能会有突破。 ——现在业界对AI未来的总体预测,都过于保守。”生数科技首席科学家朱军说。


阿里集团CEO、在2024云栖大会上,阿里云智能集团董事长兼首席执行官吴泳铭也表示:“在过去的22个月里,AI的发展速度已经超过了任何历史阶段,但是我们仍然处于AGI变革的早期阶段。 生成AI最大的想象,绝不是在手机屏幕上做一两个新的非常app,而是接管数字世界,改变物理世界。



阿里集团CEO、吴泳铭,阿里云智能集团董事长兼CEO。


毫无疑问,目前AI模型的发展已进入转折点,未来18个月,也将是决定我们是否能够进入AGI时代的关键。


进入推理时代的大模型


这项技术仍然在爆炸


与自动驾驶系统分类相似,OpenAI也将最终到达AGI终点,分为五个级别:


L1:具有对话能力的聊天机器人AI。L2:推理者,AI,像人类一样能解决问题。L3:智能体,不仅可以思考,还可以付诸行动的AI系统。L4:能帮助科技发明的AI开创者。L5:规划者,能完成组织工作的AI。


在这些模型中,以GPT为代表的大语言模型属于L1阶段,而以o1为标志,则开启了L2推理时代。


其背后的逻辑是,GPT的训练方法是Predict。 Next Token ,也就是说,预测接下来会发生什么。即使GPT4可以将复杂的问题分解成几个步骤,然后分布处理,它仍然是一种没有反向推理和思维能力的直线思维。


因此,GPT只能实现类似于人脑系统1的思维方式。这是我们的“快速思维”系统,更多的是依靠人体的条件反射能力,而不是思维能力。



o1采用了强化学习的练习框架,使得大模型具有思维能力,即系统2。它和系统1最大的区别在于,系统2可以探索不同的路径,反思自己,纠正错误,然后不断尝试和犯错,直到找到正确的方法。


“这个o1结合了之前的模仿学习和强化学习,促使一个模型同时具备人脑系统1和系统2的能力,意义重大。”姜大昕说。


同时,他还说:“o1还没有到一个非常成熟的阶段,只是开始了。事实上,OpenAI已经为我们找到了一条上限很高的路,我们可以继续前进。”


业内也有观点认为,o1暂时扭转了大模型没有进步的空间论调,是大模型。 “泡沫” 继续生活。毕竟之前的大模型训练已经陷入了Scaling 在模型参数规模扩大之后,Law的瓶颈性能提升逐渐放缓。


然而,在姜大昕、杨植麟、朱军等人看来,在过去的18个月里,大型技术的迭代并不缓慢,仍处于加速发展的时期。


他说:“一般来说,每个人都可能没有感觉到。 就技术而言,当今技术发展曲线越来越陡峭。” 科技首席科学家朱军说。


另一方面,从大模型数量的角度来看,新模型、新产品、新应用每个月都会出现。


OpenAI在2月份发布了Sora,GPT-4o在5月份发布,o1在上周发布,其对手Anthropic拥有Claude系列,Gemini系列、LLaMA系列等。


姜大昕说:“原来OpenAI一家独大,今年也逐渐成为群雄并起,你追我赶的局面,各家都在加速。”


另一方面,从大模型能力的角度来看,从单一模型到多模式融合,从多模式理解到多模式生成,从模仿学习到强化学习,我们可以看到大模型的能力正在垂直(理解多维物理世界)和水平(思维能力,即智力)的双向发展。


OpenAI在GPT-4o发布之前,有一个独立的视觉理解模型GPT4V。、Sora视觉生成模型、Whisper等声音模型,而随着GPT-4o的发布,原本这些独立模型全部融合在一起。


为什么把这件事结合起来很重要?


“因为我们的物理世界本身就是一个多模式的世界,多模式的结合一定有利于大模式更好地建模物理世界,更好地模拟世界。”姜大昕说。


多模式融合可以让大模式更好地理解多模式的物理世界,而o1的强化学习可以让大模式独立思考物理世界中事物发展的逻辑。


与此同时,姜大昕还提到,智驾是一个从数字世界向物理世界真正应用的非常具有代表性的领域。 特斯拉FSD V12的意义不仅在于智能驾驶本身,还在于如何将智能产品与未来的大模型结合起来,更好地探索物理世界,指明一个方向。


此外,朱军还提到,大模型技术加速发展背后的核心原因是大家对这条路线的认知和准备都达到了更好的水平。“在物理条件方面,比如云基础设施、计算资源等都做好了充分的准备,不像ChatGPT刚出来的时候,大家更是不知所措。”


如果你想变得富有,你应该先修路。AI模型的加速发展也离不开AI基础设施的快速迭代,以阿里巴巴云为代表的云厂商在其中发挥着越来越重要的作用。


“AI计算正在加速演变,成为计算系统的主导地位。”吴泳铭说:“在新的计算率市场上,由AI驱动的新需求超过50%,AI计算能力需求已经占据主流地位。”


各行各业,都需要性能更强、规模更大、更适合AI需求的基础设施。


在这次云起大会上,阿里巴巴云还升级了一系列产品家族,用于底层基础设施。全面重构底层硬件、计算、存储、网络、数据库、大数据,并与AI场景有机适应和结合,加快模型开发和应用。


AI基础设施的完善,无疑为大型技术的升级迭代提供了强有力的支撑。


然而,正如业内广为流传的“无法落地的技术毫无价值”一样,如何推动大模型的真正落地应用,也是当前行业的一大难题。


大型落地应用程序


工具链已经成熟


大型技术浪潮通常会带动整个产业链向前发展。大模型的建设只是起点。目标是将技术落地到产业场景中,创造财富


对朱军来说,现在所有大模型的落地应用最终都指向两个方向:


一是为C端客户提供娱乐数字内容工具等;


一是面向B端公司,降低行业发展成本,提高社会生产力水平。


然而,与C端相比,“B端的应用目前相对清晰,许多大型模型已经广泛应用于许多场景,几乎涵盖了所有行业。”智源研究院院长王仲远此前说过。


然而,对于企业来说,他们需要一个大模型来真正解决实际场景中的某个问题,而不是在100个场景中处理70%-80%的问题。同时,在这个阶段,公司对大模型的需求更加务实,不仅要关注模型技术的领先地位,还要看如何整合需求场景,如何降低成本解决实际问题。


所以,如何帮助企业打破大模型技术落地的障碍?


将大模型技术与上层应用的中间件连接起来,也就是大模型时代原生工具链的成熟,成为关键。


中间工具链层,可分为两类玩家:


一类是以阿里巴巴云、腾讯云等为代表的云厂商,这些云厂商构建了从PaaS到MaaS再到SaaS的全栈系统工具链能力。


阿里巴巴云底层基本大模型包括大语言模型通义千问和覆盖文学图片和文学视频的场景模型通义万象。在两个模型的基础上,用户可以根据自己的需求使用其他模型产品。


阿里巴巴云的MaaS服务平台百炼,为开发者和公司提供一站式AI模型开发工具,包括完整模型服务工具全链接应用开发套件,预设丰富的能力插件,提供API、SDK等便捷的集成方式,高效完成大模型应用建设。



魔法社区汇集了行业内领先的大模型产品,让开发者可以一站式调用自己想要的模型。同时,阿里巴巴云还为用户和企业提供模型应用,包括通义灵码、实时监控、PPT创作、翻译助手等。


他说:“我们希望企业和开发者能够以最低的成本进行AI。、使用AI,让每个人都可以使用最先进的大型模型。”阿里云CTO周靖人说。


其他云厂商在整个工具链架构上与阿里巴巴云类似,也能为开发商和企业提供专门精细的工具链平台,这也是云厂商的优势。


另外一种,就是针对各个领域的玩家,比如OceanBasease,致力于数据库。、制作生成数据平台的51Sim,制作物理AI训练平台的松应科技,面向游戏赛道的巨人网络等。


这类玩家专注于某个细分市场,并为该市场的客户提供完善的平台工具链产品。


比如在数据领域,大模型的发展离不开高质量的数据,但真实数据的绝对数量相对较少。因此,近年来,数据的生成逐渐成为行业发展的关键趋势之一。


在云起大会上,致力于生成数据平台的51Sim也展示了相关技术。它为3D数据生产构建了大量高质量的生成数据和工具链,并实现了量产,帮助传统产业进行数字化转型,并致力于有效服务AI模型培训。


另外,值得注意的是,在计算率方面,除云厂商外,还有一批创业企业专注于AI。 Infra跑道,要做计算能力的“卖铲人”。


无问芯圆业务以大模型能效提升工具包为核心,与多家国产芯片企业联动,服务大模型算法公司(通过智能计算云服务、智能计算机等形式)。),协同算率、算法和生态,促进行业大模型的高效落地。


计算率、算法和数据是AI大模型发展的基础。在这三个领域,除了云厂商,还有不同的公司,做一个小巧精致的工具链平台。前后两者共同为大模型落地应用提供了完善的工具链,使得大模型落地更加顺畅。


PMF应用于大型落地应用


“我们还处于行业发展的初始阶段,其中一个特点就是技术驱动商品的比例会更高。”月亮暗面创始人杨植麟说:“所以很多时候,产品研发其实是在观察当前的技术发展,然后努力最大化它的价值。”


而且随着o1的发布,加强学习的训练模式,无疑会给产品的使用带来新的范式。


杨植麟还表示,产品形式也会发生变化。“引入这种思维模式后,AI可能会执行分钟、小时甚至天级的任务,产品形式会更接近人或“助手”的概念。”


事实上,目前AI大模型应用的思路主要是TPF(技术/商品匹配度),而不是PMF(商品/市场匹配度)。


然而,随着大模型技术的快速迭代,技术的可用性也有了很大的提高。大模型已经具备了文本、语音和视觉的多模式能力,可以开始完成复杂的指令。


未来以PMF为主的大型新应用趋势将逐渐成为主流,只有真正基于市场需求,才能创造出真正的杀手级应用。



在这种趋势下,面对人形机器人、教育、汽车、制造、交通等诸多领域,许多基于大模型的最新应用加速了落地应用。同时,在目前的大模型落地应用中,大概有四类:创作伙伴、效率工具、专业助手、拟人交互。


比如在汽车领域,为了解决人类驾驶的双手问题,智能驾驶技术发展迅速,“端到端”模型是目前备受关注的自动驾驶解决方案。


“以前的自动驾驶技术,靠人写算法规则,几十万行代码,还是不能把所有的驾驶场景都用光。选择‘端到端’大模型技术训练后,AI模型可以直接学习大量的人类驾驶视觉数据。”吴泳铭说。


在大型模型的加持下,人形机器人拥有聪明的“大脑”、敏捷的“小脑”、灵活的“身体”。清华大学交叉信息研究院助理教授、星动时代创始人陈建宇说:“我们基于语言和视觉信号的输入,探讨了人形机器人的大型操作模型,促使人形机器人具备举一反三的能力,只需少量数据即可学习相关技能。



在教育领域,在大模型完善之前,人类历史上所有的技术都无法实现教师的一对一辅导。随着大模型技术的发展,世界上第一位超拟人一对一AI老师在2024云起大会上精准学布。


“就像你花200-300元/小时邀请的一对一老师一样,AI老师可以有计划、有系统地对他们进行一对一的学习指导,AI老师可以利用不同的教学技巧实时调整课程内容,帮助学生养成良好的学习习惯。”精准学习集团创始人杨仁斌说。


“超拟人一对一AI老师”的出现,代表了大模型真正从千篇一律的“AI解题工具”演变为一个普遍的教学应用领域,开始成为一名“系统的教学导师”。


事实上,从聊天机器人,到AI搜索,再到AI视频生成,大模型的落地应用可以说引起了一个又一个行业热潮,但回归到真实的用户体验,却是“没那么好用”。


归根结底,目前大模型技术的发展还处于起步阶段,技术推动产品的发展,而非技术成熟后,市场需求推动产品。


不过, AI具有创造性,帮助人类解决复杂问题的途径,已清晰可见,同时也打开了AI在各个行业场景中得到广泛应用的可能性。


“今天o1出来后,强化学习已经泛化到一个更高的阶段,AI的能力上限也变得更高了,这里面会有很多机会。”姜大昕也说过。


面向未来,“由于整体发展加快,有时我们预测一般过于保守。我预计未来18个月可能会有一个令人兴奋的进展。希望L3基本实现。”朱军说。


吴泳铭还表示,“AI驱动的数字世界与具有AI能力的物理世界相连,将大大提高整个世界的生产力,对物理世界的运行效率产生革命性的影响。”


本文来自微信微信官方账号“光锥智能”(ID:guangzhui-tech),作者:关注前沿技术,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com