李彦宏解释说,百度没有做Sora的理由。

2024-11-13

文|周鑫雨


编辑|苏建勋


在2024年11月12日举行的百度世界大会上,“什么是有价值的AI应用”成为主题。


百度集团创始人、董事长兼首席执行官李彦宏表示,将会议主题定为“应用”,代表百度对当前大模型和生成型人工智能时代的认知和判断。



△文心大模型日均调用量发生变化。


目前,文心大模型的日均调用量已超过15亿。李彦宏认为,如果文心大模型的调用量每年能增加10倍,就意味着市场需求确实存在。他提到,事实上,文心的调用量在半年内增长了近10倍。


李彦宏在会上提出了一些共识:


首先,检索增强(RAG)已成为行业共识,因为清除“幻觉”,是模型产业落地的必要条件。在过去的24个月里,李彦宏认为,大模型的最大变化是“幻觉”的基本消除。


其次,智能机构是AI应用的主流形式,是AI原生时代内容、信息和服务的新载体。


“智能体”无疑是世界大会中出现频率最高的术语。李彦宏将智能体比作PC时代的网站和移动时代的自媒体。不同的是,智能体更像人和智能。


它提到了智能体的四个应用方向:企业类(例如销售客户服务)、角色类(如数字人直播)、工具类(如智能生成行业报告)、行业类。


技术的商业价值,这也是李彦宏在演讲中反复提到的主题。


举例来说,他认为iRAG的商业价值在于无幻觉、超真实、无成本、立即可取。



△李彦宏讲话


具体到0代码开发工具“秒”的发布,李彦宏认为产品的价值在于完成了生产力的无限扩张。用他的话来说,这是一个前所未有的时代,只有通过思考才能赚钱。


就产业落地而言,李彦宏提到,大型模型带来的价值增长,体现在两个层面:降低成本和提高效率。


目前,百度智能云千帆大模型平台已经调整了3.3万个模型,开发了77万个企业应用,超过一半的中央国有企业是千帆的用户。


库存与网盘融为一体


在2024年9月的结构调整中,百度网盘回归MEG,被划分为图书馆BU-这也为两种内容工具的生态应用奠定了基础。


百度副总裁、百度文库和百度网盘负责人王颖认为,过去文库和网盘的客户有以下两个问题:


另一方面,不同的形式、类别、格式材料,不能在同一平台上编辑操作,也不能生成任何形式、格式内容;


另外,文库中的公域知识,以及网盘中的私域知识,都是分开存储的,不能协同形成完整的知识。


百度图书馆推出的“自由画板”功能已经成为打开图书馆和网盘内容的桥梁。在李彦宏看来,自由画板本质上是一个工具智能体。


就像智能白板一样,用户可以随意选择和组合文库和网盘上需要操作的内容,如选择、对话和框架。


基于MoE(混合专家模型)架构和背后的多模态模型,自由画板可以支持文本、图像、视频等文件的跨模态处理,最终可以生成图文等跨模态内容。


而且这些通过自由画板产生的多模态内容,适合微信朋友圈、小红书的图片。 文、视频 文章内容生态,还可以生成带有图表的研究报告等专业内容。



△根据要求,自由画板生成了孙悟空现代冒险的小说、漫画和视频。


目前,AI工具型产品苦寻变现模式,王颖却认为,网盘和文库的商业模式自然与大型商品十分匹配。


本质上,她告诉《智能出现》、文库和网盘的收费模式,与用户分佣,为了提高用户的留存率和付费率,产品可以给用户带来价值,帮助他们赚钱。


AI能力能够扩大产品功能的边界,使产品组合更多,给用户带来更多的权益,同时也会提高付费转化率。”王颖告诉《智能出现》。


在做Sora之前,先解决“幻觉”


即使李彦宏提到RAG(检索增强)技术的结合已经取得了成效,但他也指出,图像和RAG技术的结合远远不够。


由于幻觉问题尚未解决,目前多模态模型尚未得到大规模应用。”李彦宏在讲话中指出。


这种认知也决定了百度对Sora的态度。李彦宏提到,当Sora出现时,百度的决定不是跟进,而是解决多种模式的幻觉问题。


会上,百度发布了iRAG,这是一项基于检索和强化的文学绘图技术。用李彦宏的话来说,iRAG可以消除生成图像的“机器味”。



△一张基于iRAG的照片。


在会上,百度CTO王海峰介绍了iRAG实现可控生图的技术链接:


第一,大模型对用户需求进行分析理解,自动规划精确或泛化方案,例如增强哪些实体;


然后,在增强阶段,对需要增强的实体进行检索,并选择相应的参考;


最后,在生成阶段,百度开发了多模态可控生图技术。一方面,通过局部注意力计算,在保证物理特性不变的前提下,大模型可以实现图像的高泛化生成;另一方面,通过整体注意力计算,可以实现图像的高精度生成。


小度做了一副AI眼镜


2023年更换大模型“大脑”的小度,这次推出的不再是音响,而是百度的第一副眼镜:小度AI眼镜。



△小AI眼镜。


在硬件方面,这款眼镜的重量只有45g,低于行业平均重量49g。为了提高成像效果,眼镜配备了1600万像素超广角和AI防抖算法;为了提高声音识别的准确性,减少漏音,眼镜采用了四麦阵型和开放式防漏扬声器设计。


在续航能力方面,小AI眼镜可以用30分钟充满电,实现56小时待机,持续听力时间超过5小时。这三个指标都超过了行业标杆水平。


把小AI眼镜和普通眼镜区分开来,还是在“AI”上。


DuerOS基于文心大模型。 AI原生操作系统,小AI可实现第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘、歌单等功能。


根据百度集团副总裁、小度科技CEO李莹的说法,小度AI眼镜将于2025年上半年上市。


一种0代码开发工具,就是一个智能团队。


会上,百度还正式宣布了“秒哒”,一个0代码应用开发平台,将于2025年在Q1上线。


与其它0代码开发平台相比,秒哒的特点是,应用的开发过程,由多个多智能体进行合作。



△“秒哒”。


举例来说,在网页制作过程中,网页的代码编写和部署由程序员智能体完成,网页中的文案由写作智能体完成,文案中的最新信息由检索机器人在线查询,其中的图片由擅长生图的智能体完成。


最后,负责质量检验的智能体,还会运用反思能力,运行测试代码,发现bug,并配合程序员智能体进行修改。


多智能体合作,不仅适用于初学者开发者的“秒哒”,也适用于专业程序员的文心快码Comate。


据王海峰介绍,Comate已迭代到3.0版本。整个R&D过程中,Comate 在3.0中,不同的智能体可以实现自动代码质量检验、代码补充等功能,旨在提高程序员的工作效率和效果,使他们能够在探索和创新上投入更多的精力。


欢迎交流!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com