百度文心大模型5.0发布,引领AI创作“后真相”时代
作者:花花小萌主
在日常工作生活中,你是否借助过AI的帮助,比如做旅游攻略、寻找海报设计灵感或进行文案创作?像万能助手Deepseek、创作助手豆包、即梦AI、文心一言等,大家或多或少都有使用过。
近年来,AI工具不断升级迭代。在2025百度世界大会上,文心大模型5.0正式亮相。百度创始人李彦宏介绍,该模型具备全模态理解、创意写作、指令遵循及智能体规划等能力。发布会上,2.4万亿参数的数据十分亮眼,据悉这一参数达到业界已公开参数的模型之最。
目前,文心大模型5.0 Preview已同步上线文心App,用户可直接体验。开发者和企业用户也能通过百度千帆大模型平台,调用文心大模型5.0 API服务。据百度CTO王海峰介绍,文心5.0是原生全模态大模型,具有原生全模态建模、理解与生成一体化等特点。当文本、图像、音频、视频不再相互孤立,当AI能像人类一样“看图说话”“听声辨意”,甚至“以文生画”,一个原生全模态的智能时代似乎正快步向我们走来。

文心一言七年的进化之路
在深入了解文心大模型5.0之前,我们先来了解一下文心一言的发展历程。在人工智能发展浪潮中,百度在2019年就敏锐察觉到其巨大潜力,投入大量资源进行基础研究。当年3月,百度正式发布知识增强的文心大模型ERNIE1.0,该版本聚焦文本理解,解决了机器对人类语言的基础认知问题;同年7月,百度文心大模型升级到2.0版本,通过持续学习框架,在16个中英文任务上取得全球最好效果;到2021年,文心3.0推出,首次在千亿级预训练模型中引入大规模知识图谱,实现“多模态融合”,但生成能力仍局限于单一模态。
从2019年到2021年,从早期的词法分析、句法分析,到语义理解、知识图谱构建,文心一言不断为多模态奠定基础。

2023年,在百度世界大会上,李彦宏宣布文心大模型4.0正式发布,实现了基础模型的全面升级,在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力显著提升。不过当时比较可惜的是,模型能“看”图,却无法“听”懂视频里的对话;能“写”文章,却无法根据一段语音描述直接生成配图。
到了2025年接近尾声时,文心大模型5.0出现了。百度创始人李彦宏在大会上表示,“智能本身是最大的应用,而技术迭代速度是唯一护城河”。
文心5.0的原生全模态有哪些特征?
不同于以往以“单点突破”技术为主,本次文心5.0带来的是一场“感官融合革命”,其核心特征可概括为两点:
一是原生全模态建模。这是文心5.0的核心突破,百度首席技术官王海峰介绍,业界多数多模态模型采用后期融合方式,如文本模型只能处理文字,图像模型只能处理图片,容易丢失跨模态关联信息。而文心5.0采用统一的自回归架构进行原生全模态建模,理解与生成一体化。从训练开始便融合语言、图像、视频、音频等多模态数据,使多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成,就像人类大脑通过视觉、听觉、触觉协同感知世界。

二是智能体规划与工具应用能力。文心5.0“统一建模”的技术路径,让AI从“专才”进化为“通用智能体”,基础能力全面升级。在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。
从发布会可知,依托飞桨深度学习框架,文心5.0采用超稀疏混合专家架构进行庞大的全模态训练,总参数规模超过2.4万亿,激活参数比例低于3%,在保持模型强大能力的同时有效提升推理效率。同时,基于大规模工具环境,合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。
此前在11月8日,LMArena大模型竞技场最新排名显示,文心模型ERNIE - 5.0 - Preview - 1022在文本任务评测中位列全球并列第二、中国第一。在40余项权威基准的综合评测中,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成上,超过多款国内外主流模型,其语言与多模态理解能力与Gemini - 2.5 - Pro、GPT - 5 - High等模型持平,图像与视频生成能力与垂直领域专精模型相当,达到全球领先水平,验证了原生全模态大模型的能力和潜力,尤其在创意写作、事实性智能体规划与工具应用等方面表现较好。

实操文心5.0Preview,创作门槛的消亡与重构
文心大模型5.0已上线百度千帆平台,用户登录即可调用,但部分能力暂未支持,如视频生成。为验证其效果,我们进行了一个简单实操,分别在文心大模型4.5Turbo和文心5.0Preview输入同一个简单指令——“武汉两日一夜游攻略,尽可能细致,包含线路美食交通等”,结果如下:
结果显示,同样参考自9个网页,文心5.0Preview的攻略比文心4.5Turbo更加全面细致,行程有具体时间安排,美食有人均价格提醒,整个攻略的串联性与完整性上,文心5.0的安排更合理且符合事实。经过对比可知,文心5.0的分析理解力更胜一筹。
我们还上传相关视频让文心5.0Preview解读,它能准确读出视频的大概主旨及拍摄细节,解决了之前能“看”图却无法“听”懂视频对话的瓶颈。文心5.0就像我们雇佣的实习生,能帮助我们在生活工作中提前梳理。

从发布会信息及实操中可以发现,文心5.0对互联网内容创作的影响,远超“工具替代”的表层逻辑,大概展现出三个内在逻辑。
一是创作门槛的“极致降低”。以前,生产高质量的“图文 + 视频”内容,需要掌握多项技能或多人协同工作,花费大量时间精力;如今,“小白”用户只需输入一段文本,就能生成专业级内容。
二是内容形态的“融合革命”。之前AI以单一形态为主,文心5.0推动的“多模态融合”正在重构内容消费习惯。比如,广告可能不再是“静态海报”,而是“动态视频 + 交互设计 + 个性化推荐”的沉浸式体验。这种“融合”提升了信息传递效率,也重新定义了“内容”的边界。

三是创作者角色的“价值重构”。当AI能完成“生成内容”的基础工作,人类创作者的价值不再是“执行”,而是补充与创意。AI带来的信息是片面的,人类需要去验证并补充完整真相。在这个过程中,人类要发挥创意,具备“跨模态叙事能力”,比如设计“文本 - 图像 - 视频”的联动逻辑,引导AI生成符合情感需求的内容,在AI生成的“信息洪流”中提炼独特观点。
这三个内在逻辑似乎昭示着,文心5.0的发布正引导AIGC加快进入“多模态、高拟真、低门槛”的“后真相”时代。所谓“后真相时代”,就是人们把情绪放在真相之前,由情绪引导认知的时代。英国学者赫克托·麦克唐纳在《后真相时代》一书中提出“竞争性真相”的概念,即通过许多不同方式描述一件事物,这些描述具有同等真实性,但只包含片面的真相。在后真相时代,围绕“叙事”的较量成为认知域战场的重要阵地,人类创作者与AI的默契协同尤为关键。

结语
李彦宏在大会上提出“只有当AI被内化为原生的内在基因,才能真正实现效果涌现并创造社会红利”,并强调未来AI的衡量标准将从技术演示转向实际价值创造。
从2019年开始,文心一言不断进化,直到如今文心5.0发布,围绕原生全模态建模,展示智能体规划与工具应用能力。文心5.0不仅让AI更“懂”世界,更让人类重新思考“创造”的本质。后真相时代关键在于情绪引导,未来人类与AI的关系,将是“创意的引导者”与“执行的放大器”的协同——我们负责定义“为什么创造”,AI负责解决“如何创造”。
文心5.0开启的,不仅是技术的跃迁,更是人类对“智能”本质的重新认知。当机器开始“看”“听”“说”,人类的“创造”将走向更辽阔的疆域。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



