Gemini桌面端首测:姗姗来迟的答卷为何略显粗糙?
北京时间4月16日凌晨,Google终于补上了一项「早该完成的任务」:正式推出Gemini桌面应用(目前仅支持macOS)。
这次发布并非突然。过去数月,关于Gemini将推出桌面客户端的消息已在外媒间多次流传,彭博社就曾多次爆料Google正在推进Gemini macOS桌面端的开发,只是进度一再延迟。相比之下,OpenAI和Anthropic推出ChatGPT与Claude桌面应用的时间:
都在2024年。
毫不夸张地说,Google在这方面确实「落后」了,在国内外主流大模型厂商中,仅有DeepSeek、Grok尚未推出桌面应用。因此,当Gemini终于登陆macOS时,这件事本身并不令人意外,反倒更像是一次迟到的「补课」。

过去很长一段时间里,Gemini在桌面端的使用方式始终局限于浏览器:打开网页、进入对话、完成任务,再切回原有工作流。这个路径本身没问题,但在「随时可用」的竞争中,显得过于繁琐。尤其是当AI开始频繁介入写作、信息整理、复杂任务处理后,调用路径本身就成了影响体验的关键因素。
Gemini桌面端首先要解决的,正是这个问题。
一个快捷键、一个悬浮窗口,就能将AI嵌入正在进行的工作流。这套思路并不新鲜,却已被证明有效。也正因如此,Gemini此次上线,更值得关注的并非「有无」,而是「做得如何」。
换句话说,问题不在于Google终于把Gemini带到了macOS,而在于在已有成熟对手的前提下,它准备呈现怎样的体验。
Gemini桌面端初体验:处处透着「粗糙感」
Gemini算是我最常用的AI之一,但网页端始终存在使用不够便捷等缺点,所以我对Gemini桌面端早已期待已久。但说实话,至少目前上线的版本,相当粗糙。
第一眼只能说无功无过,沿用了ChatGPT定义的对话框主界面,但默认不显示侧边的对话列表。
默认不显示是对的。因为一打开就会觉得「丑」,与网页端对比,这种感觉会更强烈。究其原因,桌面端采用了明显更大、更粗的字号,但字间距和行间距又太小,视觉上显得十分拥挤、不协调。


真不知道是Google没了设计师,还是这个版本是用Gemini模型「凭感觉编码」出来的。
当然,这些并不影响功能使用。
真正上手后,会发现Gemini桌面端最直观的体验变化是「唤起方式」。在网页版中,使用Gemini的前提是打开浏览器、进入页面、再开始对话。这个过程本身不算复杂,但每一步都意味着体验中断:你需要离开当前任务,切换到另一个环境,再切回来。
桌面端将这一步压缩成一个动作——快捷键唤出,在macOS上为避开苹果自带的Spotlight(聚焦搜索)并兼顾便利性,默认通常是Option + 空格键(也有双击Option的方式)。

一个悬浮窗口叠在当前界面上,无需切换应用,也不用进入完整页面。这种差异看似微小,但在频繁调用的场景中,会被不断放大。写作、查资料、修改内容这类操作往往是碎片化的,路径越短,越容易被真正用起来。
不过这个交互设计早已成为「标准」。至少以我的使用经验来看,几乎所有AI助手或浏览器的桌面端都标配了这个功能。硬要说区别的话,主要在于「位置」,比如ChatGPT桌面端提供「中下」「左下」「右下」以及「记住上次位置」选项,而Gemini则强制使用上次位置。
另一个明显变化是「分享窗口」功能。
简单来说,在获得系统相应权限授权后,可以将某个应用窗口作为上下文来源交给Gemini。与网页版相比,「分享窗口」是完全新增的能力,因为浏览器里的Gemini很难直接接触系统内其他App的内容。

不过从实际体验来看,这个功能的实现方式并不复杂,本质仍是基于截图的图像理解,甚至可以理解为「持续截图」。开启后,Gemini会在每次发出提示词时,对相应App当前窗口的画面进行截图,作为对话上下文。它的价值在于降低操作成本。
ChatGPT桌面端的类似功能叫「屏幕截图」,但每次都需要手动触发截图,再发起新请求。而Gemini是一次开启后,可在对话过程中持续使用。这在处理文档、表格或网页内容时,会更顺手一些。

但它能看到的仍然只是「画面」。对于应用内部的结构、状态,或是更细粒度的信息,当前版本并未表现出更深入的理解能力。这一点在复杂任务中会逐渐显现,比如需要精确定位、跨区域引用内容时,仍需回到手动补充信息的方式。
其他核心功能方面,Gemini桌面端目前已与网页版对齐,包括支持制作图片、音乐、视频,以及Canvas、Deep Research、学习辅导模式等。
比较大的问题是,很多管理、设置仍需跳转至网页版调整,比如记忆管理,目前在客户端中只是一个入口,点击后会直接跳转到浏览器才能继续查看和管理。
甚至,Gemini桌面端的对话界面里还保留了「在浏览器打开」这样的选项。

从这个设计来看,Gemini桌面端的产品团队应该也清楚当前版本还很粗糙,在简单使用需求和场景下或许够用,但一旦涉及更完整的管理和配置,仍需回到网页版。
整体来看,刚上线的Gemini桌面端确实解决了之前Gemini无法全局快速调用、需要反复手动截图的问题,但远远称不上好用。尤其是与已迭代很久的其他竞品相比。
从产品角度看,Gemini与ChatGPT、Claude差距明显
将Gemini与ChatGPT、Claude的桌面端(仅考虑macOS版)放在一起使用,很难再用「感觉」来评价,差距基本体现在具体功能上,而且是一上手就能察觉的差别。
先说说ChatGPT的桌面端,它已不只是一个对话窗口,还在尝试打造以ChatGPT为核心的应用生态。实际使用中,可直接调用macOS本地应用,也能接入一批已打通的第三方工具,比如Adobe Photoshop、Canva、Figma、Apple Music、OpenTable等。

这类能力更重要的是改变了使用方式。直接在当前流程中,把相关内容交给ChatGPT,由它完成分析、生成,甚至部分操作。这个过程中,AI相当于直接嵌入日常的生活和工作流程,比如直接基于Figma让AI快速修改原型设计等。
另一方面,虽然核心功能与ChatGPT差不多,但Claude从大模型层面不像GPT、Gemini那样重视多模态,而是更注重Agent代理功能。这一点也体现在桌面端应用上。
事实上,Claude最早在2024年10月就尝试推出基于桌面端的Computer Use代理功能,让AI能直接代理操作。不过后续发现从模型、智能体框架到生态都未准备好,于是从代码出发打造了Claude Code,又延伸出Claude Cowork,让AI通过CLI命令行、GUI图形界面直接代理操作计算机。

此外,Claude还能通过「连接器」接入Slack、设计工具、文档平台等,将不同工具里的信息整合处理。
而这些都是Gemini缺失的。不过也要说明,有些问题是桌面端特有的,有些则不是。尤其是在生态方面,Google似乎受制于自身强大但有限的生态,并未像OpenAI和Anthropic那样积极介入其他第三方软件和平台,导致对很多人来说,无法无缝融入实际工作流程。
所以可以说,这一版Gemini桌面端更像是一个起点,它才刚刚解决了把Gemini带到桌面的问题,但还没回答一个更关键的问题:
当AI已能参与工作流时,这个桌面端准备让用户在这里完成多少事情?
本文来自「雷科技」,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com






