o1不是聊天模型,前SpaceX工程师:这样使用o1就可以解决复杂的问题
Ben 从最初对o1的不满到逐渐掌握使用技巧,Hylak成功地将其转化为处理重要问题的有效工具。本文探讨了如何正确使用o1,解锁其强大的报告生成和推理分析能力。
「怎样才能从讨厌o1到每天用它来处理我最重要的问题?
我知道怎样正确使用它。」
Ben Hylak曾经是SpaceX软件工程师,苹果VisionOS人机交互设计师,然后辞职成立Dawn。 Analytics。
起初,Ben Hylak对o1充满了怀疑,但现在它已经成为o1的活跃用户。

o1不是聊天模式,这是根本。
o1 Ben刚刚宣布推出pro,就果断订阅了。归根结底,只要它每月能够取代1-2名工程师的工作量,每月200美元的订阅费就是值得的。
不过,经过一整天的精心尝试,Ben得出结论:这个模型简直太糟糕了。
每次提问,Ben都要等5分钟,但结果却是一堆不合逻辑的废话,莫名其妙地附上了结构图和优缺点分析目录。
Ben在网上吐槽,很多人同意,但也有人强烈反对。这些观点来自行业一线的专业人士,有些人对o1表示同意。 pro的表现令人惊叹。
Ben逐渐意识到自己完全错了,他一直把o1当作聊天模式,但是o1根本不是聊天模式。

假如o1不是聊天模型,那它究竟是什么?
这更像是一个「报告生成器」。
它通常可以完美地解决问题,只要能提供足够的上下文信息,并且能清楚地说明所需的输出内容。

提供足够的背景信息
提供大量的上下文信息。无论你感觉如何。「海量」多少,在此基础上乘以10倍。
比如Claude 3.5 Sonnet或4o聊天模型通常从一个简单的问题和一些语境信息开始。如果模型需要更多的语境,它通常会问你问题。
聊天模式就是通过互动从你那里获得更多的前后文本。

o1只能根据你的问题字面意思来回答,不会轻易从你那里得到上下文信息。
所以,你应该尽可能多地向o1提供前后文本。
即使只是问一个简单的工程问题,也请做好以下几点:
- 详细说明你尝试过的所有方法,以及为什么这些方法不起作用。
- 为所有数据库架构提供完整的导出文件。
- 讨论公司的业务内容,规模,并定义独特的术语。
简而言之,就把o1当作新员工来对待。

为o1提供上下文的简单技巧:直接用Mac或手机上的语音备忘录通过语音描述整个问题场景,并在1-2分钟内粘贴转录的文本。
聚焦「要什么」而非「如何做」
在为o1提供尽可能多的背景信息之后,关键是要了解你所期望的最终导出结果。
如果要以资深软件工程师的身份,我们习惯于告诉模型如何回答,仔细思考后再回答。
但是o1的使用方法不同。不要告诉o1该怎么做,只说你想要什么,然后让o1自己去,它会计划和解决后续的步骤。
这样可以充分发挥o1的自我推理能力,实际操作效率可能高于手工审批、对话交流的方式。

您必须了解实际需要,例如,是否希望o1能够实现某一特定的结构,或者创建最小化的测试应用程序。
第一次能够产生正确答案的能力的确令人惊叹。除成本和延迟外,o1在大多数其它方面都更加出色。
O1的优缺点
o1的优势
一次性生成单个或几个文档。:只要粘贴大量与正在构建内容相关的代码和上下文信息,就可以一次形成整个文档(甚至多个文档)。产生的内容几乎没有错误,会严格遵守代码库中现有的方法。
很少产生幻觉:总的来说,o1在理解问题时似乎很少产生混乱。
医学诊断:对医学专业人士来说,o1通常可以给出非常接近正确答案的诊断。
解释概念:O1在解读极其复杂的工程概念方面表现突出。
评定:o1显示了作为评估工具的潜力,在上下文信息有限的情况下,往往可以判断生成结果是否正确。
o1尚未实现
写作的特定语气/风格:o1在写作中表现不佳,尤其是在模仿特定的语气或风格时。它有自己丰富的学术/公司报告风格,而且总是这样。这可能是因为大量的推理token将语气引向了这个方向。
构建一个完整的应用:o1有很强的一次性生成单个或几个文档的能力,但不能直接构建完整的SaaS应用,至少需要大量的反复调整。但基本上可以一次生成完整的前功能模块或者简单的后端功能模块。

最新评论:o1/pro是我用过的第一个能很好地完成高级软件架构的模型!
参考资料:
https://www.latent.space/p/o1-skill-issue
https://x.com/daniel_mac8/status/1878423666309902404
本文来自微信微信官方账号“新智元”,作者:英智,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




