大模型战争:智能体成关键,刷榜风光不在。

2024-12-11

2025年被认为是智能体(Agent)落地第一年,顾客更加注重智能体的效果,因此生态多方已经跃跃欲试。


智能化采购,逐渐成为市场热点。


“假设2023年项目中标重点关注智算中心、模型中台的建设,从今年下半年开始,众多客户的招标内容全部转变为应用。,而且越来越细分。” 众多信科创始人汪中告诉数智前线,智能体开始走上舞台


智能机构已经成为客户、大型公司和各种服务提供商关注的关键故事。即使一个企业能够做好智能机构,他也能超越大工厂,成功中标。


对于大型企业来说,智能体技术和工具链的支撑能力已经成为基本要求。如果在这方面表现不佳,很难与其他模型竞争。单纯依靠刷榜的优势,现在很难得到客户的认可。


然而,业界对智能体的概念和具体内容尚未达成共识。有些人认为OpenAI 推出的 GPTs 是智能体;也有人认为只有能调用工具的才是智能体。从形式上看,对话机器人和各种形式的大模型应用都属于广义上的智能体。


但是有一点是业界公认的,那就是智能体必须能够专注于解决业务问题,至少在降低成本方面需要有所帮助。 10 倍、20 双重提升,才能得到客户的认可。因为业内人士越来越意识到,大模式很难实现商业闭环,简单的烧钱方式基本上是困难的。


而且行业内的这种认知,不但重构了软件架构,而且促进了大型生态企业重塑商业模式。正如王坚博士所说,AI 革命不应被视为工具,而应被视为革命的工具。


01 顾客需要10倍~20倍的效果。


"你说电商直播数字人好,那你就帮我卖货。一单二三十元,我给你2元。“中科深智CTO宋健告诉数智前线,从事生成式AI虚拟人研发。在电子商务领域,今年的客户在购买工具时变得格外谨慎。他们更喜欢根据效果付费,选择佣金或CPS(根据销售付费)。宋健预测,到明年,他们的直播电商数字客户可能是 100% 这种模式将被采用。


“国内外智能体差异很大。海外可能仍然类似于传统。 SaaS 方法,只是利用智能体重来构建过去的软件架构。 宋健表示,国内的情况比较激进。在电子商务等一些竞争激烈的行业,软件架构不仅得到了重构,商业模式也得到了重塑。


因为顾客关注的是智能体能是否专注于解决问题。”不管是降低成本还是提高效率,至少要综合起来。 10 倍、20 双重提升才行。” 宋健进一步解释说。



现在顾客已经对大模型技术祛魅了。。“众多信科汪中直言不讳地向数智前线表示,这些客户要求智能体在降低成本、提高效率或拓展新业务方面创造财富,从以往简单的基础购买转变为以应用效果为导向。


汪中说:“顾客不在乎你是怎么实现的,只看效果。当前行业内的采购模式一般是:技术制造商首先迅速为用户提供一个 PoC(概念验证)情景验证,虽然语料的范围可能较小,交互形式也比较简单,但是要确认能够完成客户场景中的领域模式,并利用客户的专业知识。之后,顾客将开始采购流程。自然,他们也愿意为这些创新付出一定的代价。


信科最近做的一个PoC是气象局的应急预警方案助手。厦门每年都遭受台风袭击。气象局预测后,需要向港务局、城管等部门发送应急通知。这些应急报告原本需要四个专家三个小时才能完成。PoC的演示效果显示,借助助手,一个专家只需要一个小时就能完成,效率提高了12倍左右。


另外一种情况下,原本无法实现的事,现在已经成为可能。大学生培养计划中,有很多评价方面。假如依靠现有的编程技术,对于超过一万甚至上万的学生,只能进行一些通用的评估,很难实现个性化定制。本案中,针对课堂环节,多个智能体合作,完成了创新。比如有的智能体负责转录讲座语音,有的分析比较教学水平;有的在课堂上生成小试卷,有的现场批改试卷;有些人进一步推荐学习资料,以满足每个学生的弱点... 所以,在学生评价体系中,增加了多个评价层次。


每个步骤背后都有智能体的支撑。 汪中总结道,随着基本模型能力的发展,智能体能和形态更加丰富,已初步具有协同基础。汪中说,他们在实践中意识到,每个智能机构都应该扮演人类的社会角色,进行社会分工和输出,从而形成群体智慧。智能机构不再是单一的工具,未来也不仅仅是单一超级智能理论的出现。


为了达到这种状态,智能体需要有三个主要特征:沟通和理解;根据反馈和结果进行反思和自我规划;与业务系统、其他智能体、工具级应用等外部能力模块互动协作。


在智能体的应用过程中,客户从购买产品到购买服务的转变趋势越来越明显。智能体与以往信息技术的区别在于,需要不断优化和优化,但目前客户很难完全依靠自己的力量来实现这一点。汪中发现,以项目规模在200万元左右为例,从过去的信息项目来看,后续年度服务费的比例已经从 10%~15% 提高到 25%~30%


但是在竞争更加激烈的电子商务领域,变化日新月异。宋健注意到,电商直播数字人的迭代速度已按天计。当销售工具转变为提供服务时,所涉及的环节将变得极其复杂。例如,我们需要密切关注平台的各种规则及其调整和变化;以前,R&D、产品和业务之间的分离是不可行的。现在,我们必须共同努力。技术人员要深入前线,每天查看数据,分析运营情况,进行优化迭代;当优化措施不再有效时,我们应该果断更换商品,调整客户群。“CPS 这种模式的优点是,多方更容易达成共识。”


02 所有的生态都在移动


在智能体的巨大变化中,虽然大厂商仍然是目前的主要推动者,但人们认为,未来行业智能体的输出来源将是两类玩家,因为智能体更注重对客户需求的反应:


一种是具有AI原生能力的服务商。另一类是行业传统信息服务商。智能体落地并不容易。核心技能包括场景选择、知识提取、智能体练习和安排。如果不了解需求场景和大模型的能力边界,技术响应、经验和效率都会很低。这样就需要人工智能和业务人员双向前进。


在这个过程中,大公司将在生态系统中发挥普及作用。百度、阿里、字节、腾讯等大公司都推出了一站式智能体开发平台。他们走的是标准路线,旨在降低智能体的落地门槛、应用广度和深度。例如,无论是百度、智谱还是浪潮云,最近发布的新产品都在关注智能体接管手机等设备的能力。,实现某些拟人操作。


现在每个人都在基于自己的大模型,构建一个整体的智能体生态。。“IDC中国高级分析师杨雯告诉数字智能前线,区别在于不同的应用领域和数据积累,优先情况和方向选择也不同。据业内人士透露,这些公司在智能体支持策略上也有很大差异:


业内反馈,百度生态布局覆盖比较全面。,具有基本模型,APP builder、Agent builder平台还有相应的硬件,比如一体机,可以直接安排在客户机房。百度还支持联合计划开发,定制产品适应。业内分析,这与李彦宏呼吁业内不要卷模型和应用有关。


有人建议,千帆平台可以加强除文心以外的商业化模型纳管,并且支持开发更多常见的网络服务插件。



就智能体而言,百度于今年11月推出Agent工具流。"Agent去年出来的时候特别火,但是后来一盆冷水泼了下来,大家发现很难使用。在我们的客户中,90%是RAG,10%是Agent。"千帆AppBuilder产品负责人朱广翔告诉数智前线。由于要完成一项企业级任务,可能需要几个步骤甚至更多,如果每个步骤的准确率是95%,多个步骤下来,衰减就会特别快。这不能支持长期的思考和推理。选择工作流的方式,专家对流程进行了很好的描述,Agent就会平稳很多,落地也会更多。


阿里的通义千问国内模型能力较强、反馈良好,其开源模式在行业中得到了广泛的应用。通过云形式支持阿里的应用,私有支持较少。这可能与阿里巴巴云的“AI驱动、公共云优先”战略有关。在智能体产品方面,阿里通义实验室推出了新的自适应布局智能体的多模态检索OmniSearch,可以模拟人类,逐步拆解复杂问题进行智能检索规划。


目前,字节正在大力推广纽扣私有化部署商品。,也就是今年八月推出的HiAgent公司专属AI应用创新平台。和年初拉响大模型价格战一样,这一次,仍然通过价格战占领市场。。不过,目前还没有组合模型,即字节豆包模型还没有私有化。;没有应用,没有硬件,试着教客户基于HiAgent平台建立Agent应用程序。它的打法和支撑条件还需要系统化,这与它刚刚开始大型私有化业务线有关。



腾讯智能设备的布局,以及模型落地的布局优先赋能自己产品矩阵的“全家桶”战略类似,更注重与自己拥有巨大流量的自己产品的融合。例如今年九月,腾讯元器推出的新功能支持微信官方账号运营者自主打造专属智能体应用。,为提高用户体验和公私域运营效率,在微信官方账号内提供陪伴、互动、答疑、知识交流等智能功能。



除大厂外,“AI六小虎”智谱AI最近不断创新智能体技术。智谱的优点是科研能力强。,一些开发者反馈说,其模型的某些性能超过了通义千问。但是现在在生态方面的支持还有待提高。


不久前举行的智谱Agent 在OpenDay上,智谱CEO张鹏表示,Agent可视为大型通用操作系统的雏形,理论上可将其推广到移动端、PC端。、在各种智能产品上,如汽车端,实现基于大模型的数据共享。



“未来的智能体必须由跨系统控制,这是0和1的区别,而不是60和70的区别。”一位资深行业人士观察到,跨系统、跨应用的能力已经成为目前的战略要地。


今年9月,中国电信开始开发智能体平台,近期展出了星辰智能体应用平台。中国电信相关人士告诉数智前线,目前正在建设市企标杆项目。



虽然大工厂不断行动,但业内预计支持智能体的速度会更快。“目前的速度跟不上客户的普遍需求。更多的领域模型没有得到充分体现,即客户专属知识与大模型技术的结合,这也是业界非常关注的。这表明,大型公司仍然需要一个向客户方向靠拢的过程。


03 什么时候爆发智能体?


智能体的大方向已经成为,但是什么时候才能真正爆发呢?


很多业内人士都告诉数智前线,这很大程度上取决于模型能力的发展和市场教育的进程。


"我们有一个简单的判断,GPT5何时能出来,将是一个非常直观的对比时间点。。”众多信科创始人汪中说。


智谱AutoGLM 项目负责人刘潇还告诉数智一线,去年智能体只能满足用户10%-20%的预期,客户不愿意购买。今年,它达到了50%-60%。一些用户开始意识到这件事是有用的,当智能体能满足用户70%-80%的预期时,应用程序会非常快地铺开。他判断大模型能力达到标准大约需要半年时间。


宋健,中科深智CTO,表达了不同的观点。他认为,如果Agent真的爆发了,它必须真正渗透到这个行业,但是To B链的爆发,“明年应该还不到特别大的规模。”。


中国IDC高级分析师杨雯也告诉数字智能前线,对于B端来说,如果大模型的幻觉问题不能完全解决,达到100%的精度,大规模应用还是很难实现的。估计智能体爆发需要1-1.5年的时间。


杨雯说:“目前智能体还处于市场混战阶段,距离成为终极入口标准还有很长的路要走。


但不可否认的是,面对这个确定的方向,处于智能体爆发前夕的玩家无一例外都在通过各种工程能力和一系列技术提前抓住机会,因为他们没有足够的能力来填补模型。


他说:“我们测试了大量的基本模型,他们的Function 在10个工具中选择Call能力,还是挺准的,如果超过10个,精度就会急剧下降。,但在实际应用场景中,执行步骤的概率超过10个,为更好地实现业务可控性,我们首创了基于状态机的智能体workflow(工作流),实现精确可控的业务,同时保证智能体自规划、自治能力不受影响。汪中说。


智谱刘潇还透露,他们正在通过更好的强化学习方法,使智能体能够执行更长的步骤。


现在业界也在研究工作流程。”因为工作流,我们发现虽然只增加了一层,但是Agent的落地增长非常快,很快就能看到20%。。”百度朱广翔说,预计未来两年,Agent将逐渐超过RAG应用程序。,因为RAG场景很少,只是问答;但是Agent可以实现客户服务、营销、公司调度、一站式平台,天花板更高。


一些业内人士认为,智能应用程序可以从低到高分为三个应用级别。,现在市场上已经出现了许多初级应用和中级应用,高级应用还需要进一步实现。


例如豆包、kimi、文章小言等,被认为是最初级的智能体。。他们有简单的语言交互和理解任务的能力,能够理解人类的话语,并能够根据指令执行一些简单的操作。“目前,大多数智能机构都是简单智能机构的初级应用,包括许多GPTs,可以简单地执行问答等任务。”IDC杨雯说。


中级应用更深层次,更深层次。,展示形式已经脱离了简单的Chatbot形式,不再仅仅是对话框模式,规划能力和复杂性也进一步提高。使用的工具不再是简单的插件,如网络搜索和天气查询,而是在情景中需要具备相应的专业插件和能力,可以完成更复杂的情景任务。


“比如智能客服就是一个非常典型的Agent应用程序,可能比以前有10倍甚至20倍的变化。现在我们接到的很多电话其实都是新的Agent打出来的。如果你和它聊了很久,你可能会认为它是一个真实的人。”宋健说,与传统客服相比,软件开发变得更加简单。


他说:“第三个层次,也是我们现在正在努力实现的。除交互形式外,能完成复杂的任务,还会增加2个标签。汪中告诉数智前线。


一是能了解情景背后的领域模型和知识脉络。。他说:“它可能不再通用,但是它的专业性更强。如果没有,它也会主动寻求这些行业知识的支持。


第二,从使用插件和工具的能力来看,,能读懂现有的业务系统,将现有的业务系统作为其能力插件来源的一部分,而且不再只能使用为其定制的插件。


比如汪中说,他们正在与船舶货运公司进行港务调度助理的研发试点,这在他看来是一个高级应用。


一艘船靠岸后,通常需要大量的工作,如卸货、转运、洗舱、船员登记、物资供应等。原来这些工作主要是手动安排调度,然后登记到相应的几个系统,如车辆管理系统、补充管理系统等,由相应的执行单位执行。如今,客户建议使用AI智能系统帮助现场员工。在复杂的信息流和工作流中,智能系统会收集、分析和提出初步的信息,成为现场员工的“数字同事”。


诚然,更先进的应用,仍然依赖于模型能力和工程能力的提高。


本文来自微信微信官方账号“数智前线”(ID:作者:赵艳秋,szqx1991) 36氪经授权发布周享玥。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com