吴恩达的最新演讲：AI Agent推动下一个创新浪潮

2024-06-19

Luminary在2024年Snowflake峰会开发者日的演讲中，Landing AI创始人兼首席执行官吴恩达阐述了AI智能体工作流及其潜力。与下一代基础模型相比，吴恩达认为AI智能体工作流可能会带来更多的AI进步。在演讲中，吴恩达重点讲述了AI智能体工作流如何迭代进行任务，从而比传统的零样本提醒方式产生高质量的结果。

同时，吴恩达也分享了Landing。 AI团队在视觉智能体方面的最新进展，展示了视觉智能体在复杂任务中的应用，进一步证明了智能体工作流的有效性和普遍应用价值，分析和展望了其局限性和未来发展趋势。他呼吁开发者关注和参与AI智能体技术的发展，共同推动这一激动人心的趋势。

他指出，虽然技术仍有缺陷，但AI智能体的工作流已经开始从一个新颖的“玩具”转变为一个真正的实用阶段，这将为未来的开发者带来前所未有的高效创新感受。吴恩达认为，通过开源和社区合作，这些技术将不断发展，开发者的能力将得到显著提高。

下面是演讲内容目录：

01 AI智能体工作流程

02 视觉智能体

03 目前视觉智能体技术不足

01 AI智能体工作流程

因为这是一个开发者大会，我想借此机会和大家分享一些我想和大家分享的人工智能体。 (AI agent) 感到兴奋的事。实际上，我将分享一些从未公开过的新内容。每个人都知道人工智能代理，对吗？许多人习惯于使用大型语言模型来提醒所谓的零样本，这意味着要写一篇文章或回应提醒。这个问题有点像你去找一个人，对他说，请你写一篇关于某一主题的文章，从头到尾一次性写完，不允许使用退格键。尽管这样写作很难——我自己也不能这样写——但是大型语言模型的表现还是相当不错的。

相比之下，智能体工作流 (agentic workflow) 工作流程要迭代得多。你可能会让一个语言模型先写一篇文章大纲，然后问它是否需要在线搜索。如有必要，它会在网上搜索，获取一些信息，然后写原稿。然后看看你的手稿，看看它是否可以改进，然后修改它。

所以，智能体的工作过程看上去更像是这样：模型可以先思考，做一些研究，然后进行修改，然后进行更多的思考。

事实上，这种迭代循环会产生更好的最终产品。如果你考虑用代理人敲代码，情况也是一样的。今天我们经常让一个模型直接敲代码，就像让一个开发者从头到尾一次打程序一样，第一次和最后一个字符都是这样运行代码的，虽然效果出奇的好。然而，代理人的工作流程也可以显著提高工作效果。

我的团队收集了一些数据，这些信息是基于一个叫Human的信息。 Eval的编码标准，这是OpenAI几年前发布的一个标准标准，里面有一些这样的编码问题，比如给出一个非负整数数组，回到一些数据，结果就是这个答案。

事实证明，GPT-在这一评价指标中，3.5的通过率为48%，即在零样本提示下，直接编写代码的准确率为48%。而且GPT-4要好得多，准确率达到67%。但是事实证明，如果把GPT-3.5放到一个代理工作过程中，它的表现会更好。而且GPT-4在这一过程中的表现也特别好。所以，我希望你能从中学到的一点是，尽管从GPT-3.5到GPT-4的进步是巨大的，但是与GPT-3.5在代理工作过程中的进步相比，这一进步实际上是相形见绌的。对所有正在构建应用程序的人来说，我认为这可能显示了代理工作流程的巨大潜力。

02 视觉智能体

我的团队在Landing AI从事视觉AI工作，我想和大家分享一些最新的进展，这是我以前从未展示过的。我们前几天刚开源了这个项目，我很兴奋，就是建立一个视觉智能体（visual agent）。

Dillon项目负责人作为一名狂热的冲浪爱好者，Laird经常看鲨鱼视频。它是一条鲨鱼，它是一个冲浪者在游动。对于这类视频，Dillon非常感兴趣，比如这些鲨鱼离冲浪者有多近。这段视频是产生的，例如鲨鱼离冲浪者6.07米，7.2米，9.4米。现在鲨鱼离冲浪者已经足够远了，所以我们把颜色从红色变成绿色。如果冲浪者离鲨鱼超过10米，颜色就会变绿。

如果你想通过敲击代码来实现这一点，你需要测量对象，测量一些东西，找到边界框，画一些东西。你可以做到，但这很麻烦。敲击代码需要几个小时。现在我想展示一下我们构建这个视频的方法。我们写了一个提醒:你能在视频中检测到任何圆圈或鲨鱼吗？视频中画一条绿线表示冲浪者，假设30像素是1米，多条红线等等。

它是视觉智能论的指令。根据这种自然语言提醒，它将转换成一系列步骤的指令集，例如使用extract_frames工具提取视频帧等。那就是完成这个任务所需要的一系列步骤。之后会对工具进行检索，即函数调用。比如save_video，它是一个能保存一系列帧的实用函数。接下来，我们将对save_video工具或save_video函数进行详细说明。其它工具如closest_box_distance测量鲨鱼和冲浪者之间的距离，同样如此。基于此，我们最终生成了一个代码，当这个自动生成的代码运行时，你之前看到的视频就会产生。因此，我想更深入地解释一下这是如何实现的。

因此，我们建立的视觉代理就是这样工作的。您可以输入一个提醒。这个提醒比我刚才用的稍微简单一点，比如计算鲨鱼和最近的圆之间的距离。我们的视觉代理旨在编写代码来执行您提示的任务，这样您就可以输入单个图像并生成所需的结果。

与编写非图像代码的代理工作流程相似，我们发现对许多应用程序来说，这种方法比零样本提醒要好得多。此外，我们还发现，对于许多图像用户来说，例如，如果你在Snowflake中有10万个图像，那么在大量图像上有一个非常高效的运行代码也是非常重要的，因为一旦你有了代码，你就可以处理大量的图像或视频帧，并通过相对高效的代码处理得到答案。

我想和大家分享一下视觉代理的工作原理。它是开源的，所以请看一看，给我们反馈，也许可以帮助我们改进。视觉代理是由两个代理人组成的。一是编写代码的代理，二是测试代码的代理。给出这样的提醒，编写代码的代理人首先运行一个计划程序，生成一个计划来实现目标所需的步骤。比如载入图像，使用工具检测目标，计算距离等等。接下来，它将对这些工具(即函数)进行详细的描述，最终生成代码。

不知这一切听起来是否有点像法术，但是所有的代码都在GitHub上。看一看，看看我们使用的具体提醒。当你看到细节时，你可能会感到惊讶。虽然你第一次看的时候可能会觉得这些东西像法术，但是如果你看代码和提醒，你可能会发现原理。在你这样做的时候，还有其它的演示。举例来说，检查每个人是否戴口罩，并生成一本Python词典。生成一堆代码，这是一本Python词典，八个人戴着口罩，两个人都没戴。

这是一个不同的提示。事实上，它生成了可视化，并绘制了测试结果。所以这是一个自动生成的新代码。比如它漏掉了一些没戴口罩的人，没有发现没戴口罩的人。

再举一个例子，很有意思。对视频进行分析，每两秒分类一次，看看有没有车祸。输出JSON，显示是否发生车祸。这段视频持续了16秒，我感觉没有人受伤。当你这样做的时候，右边的代码会处理视频，生成JSON，显示此时没有车祸，此时有车祸。虽然我自己也能写出这个代码，但是我的内部团队和一些用户给了我几个小时的反馈。现在可以很快完成。

在计算机视觉领域，我们使用了许多不同的函数。说实话，我经常记不住用哪个函数，语法是什么。只要能正常工作，建立视觉AI的过程真的更容易。

我还想分享其他提高性能的方法，使用测试代理。我展示了编写代码的代理人，这证明你可以提醒一个语言模型来编写测试代码或测试脚本。基于这些，它可以执行测试代码。

目前我们的测试代码主要是类型检查，所以有些有限，但即便如此，我们也可以执行测试代码。如果测试代码失败，我们会将导出反馈给编写代码的代理人，使其反思和重复代码。这样可以进一步提高性能。

就学术文献而言，我们参考最多的两篇论文是Huang等人代理代码论文和Huang等人数据编译论文。若您想了解更多这些技术，可以阅读这些论文。

最后，展示一个演示，它每两秒钟检测一次视频中的摩托车，并高亮显示一次。事实上，这是为了处理闭路电视的监控视频而制作的。像特斯拉汽车一样拼接成视频，普通人认为有趣的地方需要高亮显示。

因此，这是一个很长的提示和YouTube链接。它创建了指令并检索了工具。结果发现代码运行不正常，对吧？所以这个代码实际上失败了好几次。你可以在这里看到一个错误的检索回溯。它将所有这些错误信息反馈给大型语言模型。第三次失败时，没有一个模块叫PyTube。

最终，Pip安装PyTube解决了这一问题，代码运行成功，并生成了四个突出监控摄像头视频，其中包括超过 10 汽车视频短片的效果。对于这一方向，我非常感兴趣，它适用于许多应用程序，包括编程和视觉智能。

03 目前视觉智能体技术不足

我真的很想分享一些限制。在每个人的实验中，失败是很常见的。我们使用通用对象检测系统，有时我们无法检测到目标。例如，一些黄色西红柿被遗漏了。这是常见的错误之一。

对于Landing，我与Snowflake的AI合作令人兴奋，我们最近建立了Landing。 Lens，这个监督学习计算机视觉系统是Snowflake的原始应用。通过监督学习，我认为我们可以减少一些错误。但是它在复杂的推理上表现不佳。例如，每只鸟重半公斤，护栏上总共有多少重量。这个系统会天真地检测出所有的鸟，但是没有意识到有一只鸟在飞，不会施加重量。但是如果你修改提醒，说忽略了飞鸟，它就能正确识别出来。我觉得今天发布的视觉智能体是beta版本，有时候可以正常工作，有时候不行，对提示的措辞有些挑剔，有时候需要更具体的描述步骤。

所以，我不会说这是一个很好的软件，但是有时候它可以工作，我对结果感到很高兴和惊讶。事实上，今天的团队成员也在这里。不管是在这里还是在Landinging，我希望你能和他们谈谈。 AI展位，也可在线访问landing.ai。同时，我们也开放了核心发动机。我认为AI智能体是一个非常重要和令人兴奋的趋势，我们做出了这个小小的开源贡献，希望对大家有所帮助。但愿我们能够一起使智能体变得更好，这将显著提高我们作为开发者的能力。

我看到AI智能体被用于许多不同的应用程序。我想我们中的一些人可能已经在社交平台上看到了Devin的演示。我看到一些团队在做法律工作，比如分析复杂的法律规定，用智能体分析复杂的法律规定。

本人认为AI研究智能体已能够在网上搜索网页，综合大量信息，撰写深入的研究文件。它的确开始兴起了。事实上，我经常玩一些Agentic平台，比如Quora、AutoGen，有时候还有LandGraph和其它平台。许多人基于这些框架建立了很多应用。现在，我发现许多智能体都是为了特定的目的而建造的，但是看看是否会有一个很普通的智能体是非常有趣的。这让我感到非常兴奋。

对许多智能体来说，我认为我们刚刚跨过了从玩具新颖到实用的门槛。例如，AI研究智能体。几个月前，我只是在网上玩，搜索信息，为你写研究论文。大约三个月前，这仍然是一个非常有趣的玩具。但就在过去的几个月里，我的朋友，斯坦福大学的Monica Lam，Storm在她的研究实验室发布，这是一款开源软件，我认为它的确逐渐变得有用。

本文来自微信微信官方账号“乌鸦智能说”（ID:wuyazhinengshuo），作者：智能秃鹫，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

为了Xbox，微软推OEM版Xbox 疯狂的Everywhere

传说宁德时代实行896工作制，外籍员工不强制，内部人士回应。

美女员工向60后副行长表白，背后的万亿大行罚单不断。

2024年新中式餐饮洞察报告：新中式汉堡、新中式茶叶表现突出

投资者嗨，168亿资金造妖…

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂