李彦宏解释说，百度没有做Sora的理由。

2024-11-13

文｜周鑫雨

编辑｜苏建勋

在2024年11月12日举行的百度世界大会上，“什么是有价值的AI应用”成为主题。

百度集团创始人、董事长兼首席执行官李彦宏表示，将会议主题定为“应用”，代表百度对当前大模型和生成型人工智能时代的认知和判断。

△文心大模型日均调用量发生变化。

目前，文心大模型的日均调用量已超过15亿。李彦宏认为，如果文心大模型的调用量每年能增加10倍，就意味着市场需求确实存在。他提到，事实上，文心的调用量在半年内增长了近10倍。

李彦宏在会上提出了一些共识：

首先，检索增强（RAG）已成为行业共识，因为清除“幻觉”，是模型产业落地的必要条件。在过去的24个月里，李彦宏认为，大模型的最大变化是“幻觉”的基本消除。

其次，智能机构是AI应用的主流形式，是AI原生时代内容、信息和服务的新载体。

“智能体”无疑是世界大会中出现频率最高的术语。李彦宏将智能体比作PC时代的网站和移动时代的自媒体。不同的是，智能体更像人和智能。

它提到了智能体的四个应用方向：企业类(例如销售客户服务)、角色类(如数字人直播)、工具类(如智能生成行业报告)、行业类。

技术的商业价值，这也是李彦宏在演讲中反复提到的主题。

举例来说，他认为iRAG的商业价值在于无幻觉、超真实、无成本、立即可取。

△李彦宏讲话

具体到0代码开发工具“秒”的发布，李彦宏认为产品的价值在于完成了生产力的无限扩张。用他的话来说，这是一个前所未有的时代，只有通过思考才能赚钱。

就产业落地而言，李彦宏提到，大型模型带来的价值增长，体现在两个层面：降低成本和提高效率。

目前，百度智能云千帆大模型平台已经调整了3.3万个模型，开发了77万个企业应用，超过一半的中央国有企业是千帆的用户。

库存与网盘融为一体

在2024年9月的结构调整中，百度网盘回归MEG，被划分为图书馆BU-这也为两种内容工具的生态应用奠定了基础。

百度副总裁、百度文库和百度网盘负责人王颖认为，过去文库和网盘的客户有以下两个问题：

另一方面，不同的形式、类别、格式材料，不能在同一平台上编辑操作，也不能生成任何形式、格式内容；

另外，文库中的公域知识，以及网盘中的私域知识，都是分开存储的，不能协同形成完整的知识。

百度图书馆推出的“自由画板”功能已经成为打开图书馆和网盘内容的桥梁。在李彦宏看来，自由画板本质上是一个工具智能体。

就像智能白板一样，用户可以随意选择和组合文库和网盘上需要操作的内容，如选择、对话和框架。

基于MoE(混合专家模型)架构和背后的多模态模型，自由画板可以支持文本、图像、视频等文件的跨模态处理，最终可以生成图文等跨模态内容。

而且这些通过自由画板产生的多模态内容，适合微信朋友圈、小红书的图片。文、视频文章内容生态，还可以生成带有图表的研究报告等专业内容。

△根据要求，自由画板生成了孙悟空现代冒险的小说、漫画和视频。

目前，AI工具型产品苦寻变现模式，王颖却认为，网盘和文库的商业模式自然与大型商品十分匹配。

本质上，她告诉《智能出现》、文库和网盘的收费模式，与用户分佣，为了提高用户的留存率和付费率，产品可以给用户带来价值，帮助他们赚钱。

“AI能力能够扩大产品功能的边界，使产品组合更多，给用户带来更多的权益，同时也会提高付费转化率。”王颖告诉《智能出现》。

在做Sora之前，先解决“幻觉”

即使李彦宏提到RAG(检索增强)技术的结合已经取得了成效，但他也指出，图像和RAG技术的结合远远不够。

“由于幻觉问题尚未解决，目前多模态模型尚未得到大规模应用。”李彦宏在讲话中指出。

这种认知也决定了百度对Sora的态度。李彦宏提到，当Sora出现时，百度的决定不是跟进，而是解决多种模式的幻觉问题。

会上，百度发布了iRAG，这是一项基于检索和强化的文学绘图技术。用李彦宏的话来说，iRAG可以消除生成图像的“机器味”。

△一张基于iRAG的照片。

在会上，百度CTO王海峰介绍了iRAG实现可控生图的技术链接：

第一，大模型对用户需求进行分析理解，自动规划精确或泛化方案，例如增强哪些实体；

然后，在增强阶段，对需要增强的实体进行检索，并选择相应的参考；

最后，在生成阶段，百度开发了多模态可控生图技术。一方面，通过局部注意力计算，在保证物理特性不变的前提下，大模型可以实现图像的高泛化生成；另一方面，通过整体注意力计算，可以实现图像的高精度生成。

小度做了一副AI眼镜

2023年更换大模型“大脑”的小度，这次推出的不再是音响，而是百度的第一副眼镜：小度AI眼镜。

△小AI眼镜。

在硬件方面，这款眼镜的重量只有45g，低于行业平均重量49g。为了提高成像效果，眼镜配备了1600万像素超广角和AI防抖算法；为了提高声音识别的准确性，减少漏音，眼镜采用了四麦阵型和开放式防漏扬声器设计。

在续航能力方面，小AI眼镜可以用30分钟充满电，实现56小时待机，持续听力时间超过5小时。这三个指标都超过了行业标杆水平。

把小AI眼镜和普通眼镜区分开来，还是在“AI”上。

DuerOS基于文心大模型。 AI原生操作系统，小AI可实现第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘、歌单等功能。

根据百度集团副总裁、小度科技CEO李莹的说法，小度AI眼镜将于2025年上半年上市。

一种0代码开发工具，就是一个智能团队。

会上，百度还正式宣布了“秒哒”，一个0代码应用开发平台，将于2025年在Q1上线。

与其它0代码开发平台相比，秒哒的特点是，应用的开发过程，由多个多智能体进行合作。

△“秒哒”。

举例来说，在网页制作过程中，网页的代码编写和部署由程序员智能体完成，网页中的文案由写作智能体完成，文案中的最新信息由检索机器人在线查询，其中的图片由擅长生图的智能体完成。

最后，负责质量检验的智能体，还会运用反思能力，运行测试代码，发现bug，并配合程序员智能体进行修改。

多智能体合作，不仅适用于初学者开发者的“秒哒”，也适用于专业程序员的文心快码Comate。

据王海峰介绍，Comate已迭代到3.0版本。整个R&D过程中，Comate 在3.0中，不同的智能体可以实现自动代码质量检验、代码补充等功能，旨在提高程序员的工作效率和效果，使他们能够在探索和创新上投入更多的精力。

欢迎交流！

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

抖音下架240部非法微短剧，点名《女帝》等导向不良、低俗擦边

年度收官战拉响，银行再一次吹响“开好局”号角。

双11优衣库线下店，店员和顾客都在忙着网上购物。，但是他们并不快乐

数学学家和他的“天才捕手”计划

介绍参展作品｜陈泽远：2024年《蚀刻》