百度文心大模型5.0发布，引领AI创作“后真相”时代

2025-11-19

作者：花花小萌主

在日常工作生活中，你是否借助过AI的帮助，比如做旅游攻略、寻找海报设计灵感或进行文案创作？像万能助手Deepseek、创作助手豆包、即梦AI、文心一言等，大家或多或少都有使用过。

近年来，AI工具不断升级迭代。在2025百度世界大会上，文心大模型5.0正式亮相。百度创始人李彦宏介绍，该模型具备全模态理解、创意写作、指令遵循及智能体规划等能力。发布会上，2.4万亿参数的数据十分亮眼，据悉这一参数达到业界已公开参数的模型之最。

目前，文心大模型5.0 Preview已同步上线文心App，用户可直接体验。开发者和企业用户也能通过百度千帆大模型平台，调用文心大模型5.0 API服务。据百度CTO王海峰介绍，文心5.0是原生全模态大模型，具有原生全模态建模、理解与生成一体化等特点。当文本、图像、音频、视频不再相互孤立，当AI能像人类一样“看图说话”“听声辨意”，甚至“以文生画”，一个原生全模态的智能时代似乎正快步向我们走来。

文心一言七年的进化之路

在深入了解文心大模型5.0之前，我们先来了解一下文心一言的发展历程。在人工智能发展浪潮中，百度在2019年就敏锐察觉到其巨大潜力，投入大量资源进行基础研究。当年3月，百度正式发布知识增强的文心大模型ERNIE1.0，该版本聚焦文本理解，解决了机器对人类语言的基础认知问题；同年7月，百度文心大模型升级到2.0版本，通过持续学习框架，在16个中英文任务上取得全球最好效果；到2021年，文心3.0推出，首次在千亿级预训练模型中引入大规模知识图谱，实现“多模态融合”，但生成能力仍局限于单一模态。

从2019年到2021年，从早期的词法分析、句法分析，到语义理解、知识图谱构建，文心一言不断为多模态奠定基础。

2023年，在百度世界大会上，李彦宏宣布文心大模型4.0正式发布，实现了基础模型的全面升级，在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力显著提升。不过当时比较可惜的是，模型能“看”图，却无法“听”懂视频里的对话；能“写”文章，却无法根据一段语音描述直接生成配图。

到了2025年接近尾声时，文心大模型5.0出现了。百度创始人李彦宏在大会上表示，“智能本身是最大的应用，而技术迭代速度是唯一护城河”。

文心5.0的原生全模态有哪些特征？

不同于以往以“单点突破”技术为主，本次文心5.0带来的是一场“感官融合革命”，其核心特征可概括为两点：

一是原生全模态建模。这是文心5.0的核心突破，百度首席技术官王海峰介绍，业界多数多模态模型采用后期融合方式，如文本模型只能处理文字，图像模型只能处理图片，容易丢失跨模态关联信息。而文心5.0采用统一的自回归架构进行原生全模态建模，理解与生成一体化。从训练开始便融合语言、图像、视频、音频等多模态数据，使多模态特征在统一架构下充分融合并协同优化，实现原生的全模态统一理解与生成，就像人类大脑通过视觉、听觉、触觉协同感知世界。

二是智能体规划与工具应用能力。文心5.0“统一建模”的技术路径，让AI从“专才”进化为“通用智能体”，基础能力全面升级。在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出，拥有强大的理解、逻辑、记忆和说服力。

从发布会可知，依托飞桨深度学习框架，文心5.0采用超稀疏混合专家架构进行庞大的全模态训练，总参数规模超过2.4万亿，激活参数比例低于3%，在保持模型强大能力的同时有效提升推理效率。同时，基于大规模工具环境，合成长程任务轨迹数据，并采用基于思维链和行动链的端到端多轮强化学习训练，显著提升了模型的智能体和工具调用能力。

此前在11月8日，LMArena大模型竞技场最新排名显示，文心模型ERNIE - 5.0 - Preview - 1022在文本任务评测中位列全球并列第二、中国第一。在40余项权威基准的综合评测中，文心5.0 Preview在语言、视觉理解、音频理解、视觉生成上，超过多款国内外主流模型，其语言与多模态理解能力与Gemini - 2.5 - Pro、GPT - 5 - High等模型持平，图像与视频生成能力与垂直领域专精模型相当，达到全球领先水平，验证了原生全模态大模型的能力和潜力，尤其在创意写作、事实性智能体规划与工具应用等方面表现较好。

实操文心5.0Preview，创作门槛的消亡与重构

文心大模型5.0已上线百度千帆平台，用户登录即可调用，但部分能力暂未支持，如视频生成。为验证其效果，我们进行了一个简单实操，分别在文心大模型4.5Turbo和文心5.0Preview输入同一个简单指令——“武汉两日一夜游攻略，尽可能细致，包含线路美食交通等”，结果如下：

结果显示，同样参考自9个网页，文心5.0Preview的攻略比文心4.5Turbo更加全面细致，行程有具体时间安排，美食有人均价格提醒，整个攻略的串联性与完整性上，文心5.0的安排更合理且符合事实。经过对比可知，文心5.0的分析理解力更胜一筹。

我们还上传相关视频让文心5.0Preview解读，它能准确读出视频的大概主旨及拍摄细节，解决了之前能“看”图却无法“听”懂视频对话的瓶颈。文心5.0就像我们雇佣的实习生，能帮助我们在生活工作中提前梳理。

从发布会信息及实操中可以发现，文心5.0对互联网内容创作的影响，远超“工具替代”的表层逻辑，大概展现出三个内在逻辑。

一是创作门槛的“极致降低”。以前，生产高质量的“图文 + 视频”内容，需要掌握多项技能或多人协同工作，花费大量时间精力；如今，“小白”用户只需输入一段文本，就能生成专业级内容。

二是内容形态的“融合革命”。之前AI以单一形态为主，文心5.0推动的“多模态融合”正在重构内容消费习惯。比如，广告可能不再是“静态海报”，而是“动态视频 + 交互设计 + 个性化推荐”的沉浸式体验。这种“融合”提升了信息传递效率，也重新定义了“内容”的边界。

三是创作者角色的“价值重构”。当AI能完成“生成内容”的基础工作，人类创作者的价值不再是“执行”，而是补充与创意。AI带来的信息是片面的，人类需要去验证并补充完整真相。在这个过程中，人类要发挥创意，具备“跨模态叙事能力”，比如设计“文本 - 图像 - 视频”的联动逻辑，引导AI生成符合情感需求的内容，在AI生成的“信息洪流”中提炼独特观点。

这三个内在逻辑似乎昭示着，文心5.0的发布正引导AIGC加快进入“多模态、高拟真、低门槛”的“后真相”时代。所谓“后真相时代”，就是人们把情绪放在真相之前，由情绪引导认知的时代。英国学者赫克托·麦克唐纳在《后真相时代》一书中提出“竞争性真相”的概念，即通过许多不同方式描述一件事物，这些描述具有同等真实性，但只包含片面的真相。在后真相时代，围绕“叙事”的较量成为认知域战场的重要阵地，人类创作者与AI的默契协同尤为关键。

结语

李彦宏在大会上提出“只有当AI被内化为原生的内在基因，才能真正实现效果涌现并创造社会红利”，并强调未来AI的衡量标准将从技术演示转向实际价值创造。

从2019年开始，文心一言不断进化，直到如今文心5.0发布，围绕原生全模态建模，展示智能体规划与工具应用能力。文心5.0不仅让AI更“懂”世界，更让人类重新思考“创造”的本质。后真相时代关键在于情绪引导，未来人类与AI的关系，将是“创意的引导者”与“执行的放大器”的协同——我们负责定义“为什么创造”，AI负责解决“如何创造”。

文心5.0开启的，不仅是技术的跃迁，更是人类对“智能”本质的重新认知。当机器开始“看”“听”“说”，人类的“创造”将走向更辽阔的疆域。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

2025年南宁市科技小院成果交流活动圆满举行

华为灵犀手写笔今日10:08开卖，适配MateTV系列，售价999元

湖北首获此冠！宜昌孙佳俊助力夺金

杨阳：以法槌彰显正义，用司法温暖人心

沪游简报：非洲游戏市场，埃及收入领先，尼日利亚玩家众多