对话百度文库钟昊:AI 重塑内容创作生态之路

08-07 07:00

在当下,当大模型从技术奇点迈向产业基座,智能体从实验室走入产线诊室,人工智能的第三次浪潮正以锐不可当之势重构全球经济格局。中国在这场变革中具有双重优势,既是超大规模应用场景的试验田,又在芯片突围、算法开源等关键领域发起冲锋。一条独具东方特色的 AI 发展路径正加速形成。

7 月 26 日,以“智能时代 同球共济”为主题的世界人工智能大会(WAIC 2025)盛大举行,众多科技巨头、学术先锋与政策制定者齐聚一堂。这场涵盖技术、伦理、艺术的盛会,标志着 AI 已从“产业变量”转变为“文明常量”。

36 氪不仅作为产业观察者,更以产业连接者的身份深度参与此次大会,在展馆搭建了“氪星直播间”,通过对话的形式,揭开人工智能产业进阶的底层逻辑。在对谈中,百度文库产品负责人钟昊透露,百度文库经过 AI 重构,能精准理解用户意图、高效满足用户需求,一站式解决用户问题。百度文库从一开始就采用 MoE(混合专家模型)架构,并通过 Genflow 进行全局调度,旨在让 AI 成为人类的得力助手,助力用户更好地进行内容创作与消费。

以下是对谈实录,经 36 氪编辑整理:

36kr:请先介绍一下您自己和业务情况。

钟昊:我是百度文库的产品负责人。大家熟知百度文库是个资料库,经过两年多的 AI 重构,我们将 AI 能力与专业资料深度融合。如今百度文库是一站式 AI 内容获取和创作平台,拥有几百个多模态 AI Agent,能端到端解决用户的创作难题。大家可以到 APP 或 PC 端网页体验全新的百度文库。

36kr:参加这次 WAIC 有什么感受和收获?

钟昊:百度文库网盘今年也参展了。AI 行业发展迅猛,大模型在不断进化,文生文、文生图、视频等模态的应用边界大幅拓展,有很多有趣的应用展示。无论是初创企业还是大公司,都加大了投入。今年的展会可谓百花齐放,既有共识之处,也有突破边界的尝试。我更期待看到更多有想象力的突破,而非过早陷入局部最优或短期共识的解决方案。

36kr:哪个展台给您留下的印象最深刻?

钟昊:每个展台都有特色,文库网盘更注重场景化和端到端解决具体问题。我们最早关注的是用户对最终交付内容的采纳率和使用率。文库和网盘的展台按用户场景设计,在学习、办公、生活、娱乐等不同场景下,都有相应的解决方案,让用户的需求得到充分满足。

36kr:在百度文库 AI 重构过程中,最大的技术难点是什么?最好用的 AI 功能是哪个?

钟昊:最好用且最深入的功能是智能 PPT,我们在国内率先推出这一能力,针对十几个场景进行了细化。用户不仅能根据指令生成 PPT,还能基于图片、文档、素材甚至个人网盘内容生成,支持上传和自定义模板,还能直接生成图表、数据等。基于智能 PPT 的思路,我们将其拓展到多个场景,现在文库能生成长短文、研报、思维导图、AI 绘本、海报等。技术难点在于,文库的 AI 重构不仅要构建 AI agent,更要理解用户意图,让 AI 智能调度多个 Agent 解决问题。比如大学新生策划社团活动方案,可能不会明确提出具体需求,AI 需要根据专业内容和类似场景解决方案,主动提供综合交付,调度不同 Agent 完成任务。这对技术要求极高,需要深入挖掘用户需求,具备场景挖掘、需求理解和解决方案的能力,同时还需要细颗粒度、灵活的 Agent 以及 AI 阅读器、编辑器等基建支持。

36kr:百度文库作为国民级产品,经历 AI 原生重构后,带来了哪些颠覆性变化?

钟昊:最大的变化是,过去作为资料库,百度文库只能满足用户部分需求,用户下载内容后需求往往未得到完全解决。现在,文库不仅能高效找到内容,还能从零开始或基于现有内容完成综合任务。通过 AI 实时人机交互理解需求,借助 AI 融合编辑器等基建,用户可边思考边创作,调度 AI 完成任务。用户无需切换多个软件,在一个应用中就能快速完成工作,产品从资料库转变为一站式平台,这正是用户所期望的。

36kr:大模型结合 AI 技术时,会面临成本、效果、时延等“不可能三角”问题,文库网盘是如何解决的?

钟昊:百度文库重构时采用了 MoE 架构。当时行业流行 Prompt 工程,但我们发现其难以突破模型能力边界,还会遇到“不可能三角”问题。我们先针对具体场景优化 Agent,在每个场景中找到最佳平衡点,局部解决“不可能三角”问题。例如 PPT 配图时,直接调取文库内容可能又好又快。在分场景的细节打磨中,我们找到了最佳平衡点,让用户能快速获得高质量交付。在此基础上,我们推出 GenFlow 调度中枢,即将推出 2.0 版本。GenFlow 能根据用户意图自动调度 Agent 解决问题,选择更“多快好省”的方案。最底层是 MoE,中间是细分场景 Agent 打磨,实现局部最佳平衡,再通过 Genflow 全局调度。理解用户需求和意图是解决问题的关键,只有贴近场景、用心打磨,才能找到最优解。

36kr:这其实是在具体场景内灵活调整。

钟昊:没错,通过 PMF 满足用户需求。比如文库的研报能力刚上线时,为避免生成冗余内容,我们根据用户需求调整,既节约成本时间,又解决了“不可能三角”问题。很多时候,答案就在场景细节中,沉下心打磨才能更接近目标。

36kr:能做到这一点,还是基于百度在 AI 技术上的积累。

钟昊:是的,我们投入较早,坚持采用 MOE 架构。作为应用端产品,我们在文心系列模型基础上探索边界,将技术积累与用户和场景相结合,让技术发挥最大价值。

36kr:GenFlow 是如何将模型转化为生产力的?在多智能体协作上有什么优势?

钟昊:我们构思 GenFlow 是为了解决用户不了解平台众多能力的问题。很多用户带着诉求与 AI 交互,但普通用户没必要挖掘所有功能,AI 应更主动提供服务。我们希望 AI 像人一样主动工作,在交互中允许用户追问和提建议,并行提供解决方案,多线程处理工作。GenFlow 2.0 版本将推出干预模式、并行模式和主动思考能力,能主动挖掘用户过往沟通内容和记忆库,并行处理多个任务。这是我们在行业中的创新,目前大多数 AI 是串行解决任务,而我们实现了并行处理,推出干预模式让用户可随时打断、补充、修改内容,AI 能根据用户历史对话和授权资料主动灵活解决问题,流畅交流。我们的出发点是解决人机交互问题,目标是让 AI 更主动、全面地服务人类。

36kr:展望未来 3 到 5 年,随着技术成熟,行业会有哪些变化?战略上会有新部署吗?

钟昊:未来人机交互将更加深入全面,渗透到工作、学习、生活、娱乐各个领域,交互方式的边界将更加模糊,更多是人类与 AI 共同完成任务。就像文库、网盘推出 GenFlow,我们希望 AI 成为人类的好伙伴,帮助大家更好地进行内容创作和消费。未来,我们可能会尝试新的办公和学习形式,无需电脑,用一个便携设备就能在短时间内完成复杂工作。在娱乐方面,AI 能将小说轻松转化为动画,降低创作门槛,让每个人的创意都能得到展现。AI 能理解用户需求,推荐优质内容,提高效率,节省时间。我非常期待这样一个充满创造力的新世界。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com