Gemini桌面端首测：姗姗来迟的答卷为何略显粗糙？

04-17 06:39

再等等或许会更好。

北京时间4月16日凌晨，Google终于补上了一项「早该完成的任务」：正式推出Gemini桌面应用（目前仅支持macOS）。

这次发布并非突然。过去数月，关于Gemini将推出桌面客户端的消息已在外媒间多次流传，彭博社就曾多次爆料Google正在推进Gemini macOS桌面端的开发，只是进度一再延迟。相比之下，OpenAI和Anthropic推出ChatGPT与Claude桌面应用的时间：

都在2024年。

毫不夸张地说，Google在这方面确实「落后」了，在国内外主流大模型厂商中，仅有DeepSeek、Grok尚未推出桌面应用。因此，当Gemini终于登陆macOS时，这件事本身并不令人意外，反倒更像是一次迟到的「补课」。

过去很长一段时间里，Gemini在桌面端的使用方式始终局限于浏览器：打开网页、进入对话、完成任务，再切回原有工作流。这个路径本身没问题，但在「随时可用」的竞争中，显得过于繁琐。尤其是当AI开始频繁介入写作、信息整理、复杂任务处理后，调用路径本身就成了影响体验的关键因素。

Gemini桌面端首先要解决的，正是这个问题。

一个快捷键、一个悬浮窗口，就能将AI嵌入正在进行的工作流。这套思路并不新鲜，却已被证明有效。也正因如此，Gemini此次上线，更值得关注的并非「有无」，而是「做得如何」。

换句话说，问题不在于Google终于把Gemini带到了macOS，而在于在已有成熟对手的前提下，它准备呈现怎样的体验。

Gemini桌面端初体验：处处透着「粗糙感」

Gemini算是我最常用的AI之一，但网页端始终存在使用不够便捷等缺点，所以我对Gemini桌面端早已期待已久。但说实话，至少目前上线的版本，相当粗糙。

第一眼只能说无功无过，沿用了ChatGPT定义的对话框主界面，但默认不显示侧边的对话列表。

默认不显示是对的。因为一打开就会觉得「丑」，与网页端对比，这种感觉会更强烈。究其原因，桌面端采用了明显更大、更粗的字号，但字间距和行间距又太小，视觉上显得十分拥挤、不协调。

真不知道是Google没了设计师，还是这个版本是用Gemini模型「凭感觉编码」出来的。

当然，这些并不影响功能使用。

真正上手后，会发现Gemini桌面端最直观的体验变化是「唤起方式」。在网页版中，使用Gemini的前提是打开浏览器、进入页面、再开始对话。这个过程本身不算复杂，但每一步都意味着体验中断：你需要离开当前任务，切换到另一个环境，再切回来。

桌面端将这一步压缩成一个动作——快捷键唤出，在macOS上为避开苹果自带的Spotlight（聚焦搜索）并兼顾便利性，默认通常是Option + 空格键（也有双击Option的方式）。

一个悬浮窗口叠在当前界面上，无需切换应用，也不用进入完整页面。这种差异看似微小，但在频繁调用的场景中，会被不断放大。写作、查资料、修改内容这类操作往往是碎片化的，路径越短，越容易被真正用起来。

不过这个交互设计早已成为「标准」。至少以我的使用经验来看，几乎所有AI助手或浏览器的桌面端都标配了这个功能。硬要说区别的话，主要在于「位置」，比如ChatGPT桌面端提供「中下」「左下」「右下」以及「记住上次位置」选项，而Gemini则强制使用上次位置。

另一个明显变化是「分享窗口」功能。

简单来说，在获得系统相应权限授权后，可以将某个应用窗口作为上下文来源交给Gemini。与网页版相比，「分享窗口」是完全新增的能力，因为浏览器里的Gemini很难直接接触系统内其他App的内容。

不过从实际体验来看，这个功能的实现方式并不复杂，本质仍是基于截图的图像理解，甚至可以理解为「持续截图」。开启后，Gemini会在每次发出提示词时，对相应App当前窗口的画面进行截图，作为对话上下文。它的价值在于降低操作成本。

ChatGPT桌面端的类似功能叫「屏幕截图」，但每次都需要手动触发截图，再发起新请求。而Gemini是一次开启后，可在对话过程中持续使用。这在处理文档、表格或网页内容时，会更顺手一些。

但它能看到的仍然只是「画面」。对于应用内部的结构、状态，或是更细粒度的信息，当前版本并未表现出更深入的理解能力。这一点在复杂任务中会逐渐显现，比如需要精确定位、跨区域引用内容时，仍需回到手动补充信息的方式。

其他核心功能方面，Gemini桌面端目前已与网页版对齐，包括支持制作图片、音乐、视频，以及Canvas、Deep Research、学习辅导模式等。

比较大的问题是，很多管理、设置仍需跳转至网页版调整，比如记忆管理，目前在客户端中只是一个入口，点击后会直接跳转到浏览器才能继续查看和管理。

甚至，Gemini桌面端的对话界面里还保留了「在浏览器打开」这样的选项。

从这个设计来看，Gemini桌面端的产品团队应该也清楚当前版本还很粗糙，在简单使用需求和场景下或许够用，但一旦涉及更完整的管理和配置，仍需回到网页版。

整体来看，刚上线的Gemini桌面端确实解决了之前Gemini无法全局快速调用、需要反复手动截图的问题，但远远称不上好用。尤其是与已迭代很久的其他竞品相比。

从产品角度看，Gemini与ChatGPT、Claude差距明显

将Gemini与ChatGPT、Claude的桌面端（仅考虑macOS版）放在一起使用，很难再用「感觉」来评价，差距基本体现在具体功能上，而且是一上手就能察觉的差别。

先说说ChatGPT的桌面端，它已不只是一个对话窗口，还在尝试打造以ChatGPT为核心的应用生态。实际使用中，可直接调用macOS本地应用，也能接入一批已打通的第三方工具，比如Adobe Photoshop、Canva、Figma、Apple Music、OpenTable等。

这类能力更重要的是改变了使用方式。直接在当前流程中，把相关内容交给ChatGPT，由它完成分析、生成，甚至部分操作。这个过程中，AI相当于直接嵌入日常的生活和工作流程，比如直接基于Figma让AI快速修改原型设计等。

另一方面，虽然核心功能与ChatGPT差不多，但Claude从大模型层面不像GPT、Gemini那样重视多模态，而是更注重Agent代理功能。这一点也体现在桌面端应用上。

事实上，Claude最早在2024年10月就尝试推出基于桌面端的Computer Use代理功能，让AI能直接代理操作。不过后续发现从模型、智能体框架到生态都未准备好，于是从代码出发打造了Claude Code，又延伸出Claude Cowork，让AI通过CLI命令行、GUI图形界面直接代理操作计算机。