吴恩达的最新演讲:AI Agent推动下一个创新浪潮
Luminary在2024年Snowflake峰会开发者日的演讲中,Landing AI创始人兼首席执行官吴恩达阐述了AI智能体工作流及其潜力。与下一代基础模型相比,吴恩达认为AI智能体工作流可能会带来更多的AI进步。在演讲中,吴恩达重点讲述了AI智能体工作流如何迭代进行任务,从而比传统的零样本提醒方式产生高质量的结果。
同时,吴恩达也分享了Landing。 AI团队在视觉智能体方面的最新进展,展示了视觉智能体在复杂任务中的应用,进一步证明了智能体工作流的有效性和普遍应用价值,分析和展望了其局限性和未来发展趋势。他呼吁开发者关注和参与AI智能体技术的发展,共同推动这一激动人心的趋势。
他指出,虽然技术仍有缺陷,但AI智能体的工作流已经开始从一个新颖的“玩具”转变为一个真正的实用阶段,这将为未来的开发者带来前所未有的高效创新感受。吴恩达认为,通过开源和社区合作,这些技术将不断发展,开发者的能力将得到显著提高。
下面是演讲内容目录:
01 AI智能体工作流程
02 视觉智能体
03 目前视觉智能体技术不足
01 AI智能体工作流程
因为这是一个开发者大会,我想借此机会和大家分享一些我想和大家分享的人工智能体。 (AI agent) 感到兴奋的事。实际上,我将分享一些从未公开过的新内容。每个人都知道人工智能代理,对吗?许多人习惯于使用大型语言模型来提醒所谓的零样本,这意味着要写一篇文章或回应提醒。这个问题有点像你去找一个人,对他说,请你写一篇关于某一主题的文章,从头到尾一次性写完,不允许使用退格键。尽管这样写作很难——我自己也不能这样写——但是大型语言模型的表现还是相当不错的。
相比之下,智能体工作流 (agentic workflow) 工作流程要迭代得多。你可能会让一个语言模型先写一篇文章大纲,然后问它是否需要在线搜索。如有必要,它会在网上搜索,获取一些信息,然后写原稿。然后看看你的手稿,看看它是否可以改进,然后修改它。
所以,智能体的工作过程看上去更像是这样:模型可以先思考,做一些研究,然后进行修改,然后进行更多的思考。
事实上,这种迭代循环会产生更好的最终产品。如果你考虑用代理人敲代码,情况也是一样的。今天我们经常让一个模型直接敲代码,就像让一个开发者从头到尾一次打程序一样,第一次和最后一个字符都是这样运行代码的,虽然效果出奇的好。然而,代理人的工作流程也可以显著提高工作效果。
我的团队收集了一些数据,这些信息是基于一个叫Human的信息。 Eval的编码标准,这是OpenAI几年前发布的一个标准标准,里面有一些这样的编码问题,比如给出一个非负整数数组,回到一些数据,结果就是这个答案。
事实证明,GPT-在这一评价指标中,3.5的通过率为48%,即在零样本提示下,直接编写代码的准确率为48%。而且GPT-4要好得多,准确率达到67%。但是事实证明,如果把GPT-3.5放到一个代理工作过程中,它的表现会更好。而且GPT-4在这一过程中的表现也特别好。所以,我希望你能从中学到的一点是,尽管从GPT-3.5到GPT-4的进步是巨大的,但是与GPT-3.5在代理工作过程中的进步相比,这一进步实际上是相形见绌的。对所有正在构建应用程序的人来说,我认为这可能显示了代理工作流程的巨大潜力。
02 视觉智能体
我的团队在Landing AI从事视觉AI工作,我想和大家分享一些最新的进展,这是我以前从未展示过的。我们前几天刚开源了这个项目,我很兴奋,就是建立一个视觉智能体(visual agent)。
Dillon项目负责人 作为一名狂热的冲浪爱好者,Laird经常看鲨鱼视频。它是一条鲨鱼,它是一个冲浪者在游动。对于这类视频,Dillon非常感兴趣,比如这些鲨鱼离冲浪者有多近。这段视频是产生的,例如鲨鱼离冲浪者6.07米,7.2米,9.4米。现在鲨鱼离冲浪者已经足够远了,所以我们把颜色从红色变成绿色。如果冲浪者离鲨鱼超过10米,颜色就会变绿。
如果你想通过敲击代码来实现这一点,你需要测量对象,测量一些东西,找到边界框,画一些东西。你可以做到,但这很麻烦。敲击代码需要几个小时。现在我想展示一下我们构建这个视频的方法。我们写了一个提醒:你能在视频中检测到任何圆圈或鲨鱼吗?视频中画一条绿线表示冲浪者,假设30像素是1米,多条红线等等。
它是视觉智能论的指令。根据这种自然语言提醒,它将转换成一系列步骤的指令集,例如使用extract_frames工具提取视频帧等。那就是完成这个任务所需要的一系列步骤。之后会对工具进行检索,即函数调用。比如save_video,它是一个能保存一系列帧的实用函数。接下来,我们将对save_video工具或save_video函数进行详细说明。其它工具如closest_box_distance测量鲨鱼和冲浪者之间的距离,同样如此。基于此,我们最终生成了一个代码,当这个自动生成的代码运行时,你之前看到的视频就会产生。因此,我想更深入地解释一下这是如何实现的。
因此,我们建立的视觉代理就是这样工作的。您可以输入一个提醒。这个提醒比我刚才用的稍微简单一点,比如计算鲨鱼和最近的圆之间的距离。我们的视觉代理旨在编写代码来执行您提示的任务,这样您就可以输入单个图像并生成所需的结果。
与编写非图像代码的代理工作流程相似,我们发现对许多应用程序来说,这种方法比零样本提醒要好得多。此外,我们还发现,对于许多图像用户来说,例如,如果你在Snowflake中有10万个图像,那么在大量图像上有一个非常高效的运行代码也是非常重要的,因为一旦你有了代码,你就可以处理大量的图像或视频帧,并通过相对高效的代码处理得到答案。

我想和大家分享一下视觉代理的工作原理。它是开源的,所以请看一看,给我们反馈,也许可以帮助我们改进。视觉代理是由两个代理人组成的。一是编写代码的代理,二是测试代码的代理。给出这样的提醒,编写代码的代理人首先运行一个计划程序,生成一个计划来实现目标所需的步骤。比如载入图像,使用工具检测目标,计算距离等等。接下来,它将对这些工具(即函数)进行详细的描述,最终生成代码。
不知这一切听起来是否有点像法术,但是所有的代码都在GitHub上。看一看,看看我们使用的具体提醒。当你看到细节时,你可能会感到惊讶。虽然你第一次看的时候可能会觉得这些东西像法术,但是如果你看代码和提醒,你可能会发现原理。在你这样做的时候,还有其它的演示。举例来说,检查每个人是否戴口罩,并生成一本Python词典。生成一堆代码,这是一本Python词典,八个人戴着口罩,两个人都没戴。
这是一个不同的提示。事实上,它生成了可视化,并绘制了测试结果。所以这是一个自动生成的新代码。比如它漏掉了一些没戴口罩的人,没有发现没戴口罩的人。
再举一个例子,很有意思。对视频进行分析,每两秒分类一次,看看有没有车祸。输出JSON,显示是否发生车祸。这段视频持续了16秒,我感觉没有人受伤。当你这样做的时候,右边的代码会处理视频,生成JSON,显示此时没有车祸,此时有车祸。虽然我自己也能写出这个代码,但是我的内部团队和一些用户给了我几个小时的反馈。现在可以很快完成。
在计算机视觉领域,我们使用了许多不同的函数。说实话,我经常记不住用哪个函数,语法是什么。只要能正常工作,建立视觉AI的过程真的更容易。
我还想分享其他提高性能的方法,使用测试代理。我展示了编写代码的代理人,这证明你可以提醒一个语言模型来编写测试代码或测试脚本。基于这些,它可以执行测试代码。
目前我们的测试代码主要是类型检查,所以有些有限,但即便如此,我们也可以执行测试代码。如果测试代码失败,我们会将导出反馈给编写代码的代理人,使其反思和重复代码。这样可以进一步提高性能。
就学术文献而言,我们参考最多的两篇论文是Huang等人代理代码论文和Huang等人数据编译论文。若您想了解更多这些技术,可以阅读这些论文。
最后,展示一个演示,它每两秒钟检测一次视频中的摩托车,并高亮显示一次。事实上,这是为了处理闭路电视的监控视频而制作的。像特斯拉汽车一样拼接成视频,普通人认为有趣的地方需要高亮显示。
因此,这是一个很长的提示和YouTube链接。它创建了指令并检索了工具。结果发现代码运行不正常,对吧?所以这个代码实际上失败了好几次。你可以在这里看到一个错误的检索回溯。它将所有这些错误信息反馈给大型语言模型。第三次失败时,没有一个模块叫PyTube。
最终,Pip安装PyTube解决了这一问题,代码运行成功,并生成了四个突出监控摄像头视频,其中包括超过 10 汽车视频短片的效果。对于这一方向,我非常感兴趣,它适用于许多应用程序,包括编程和视觉智能。
03 目前视觉智能体技术不足
我真的很想分享一些限制。在每个人的实验中,失败是很常见的。我们使用通用对象检测系统,有时我们无法检测到目标。例如,一些黄色西红柿被遗漏了。这是常见的错误之一。
对于Landing,我 与Snowflake的AI合作令人兴奋,我们最近建立了Landing。 Lens,这个监督学习计算机视觉系统是Snowflake的原始应用。通过监督学习,我认为我们可以减少一些错误。但是它在复杂的推理上表现不佳。例如,每只鸟重半公斤,护栏上总共有多少重量。这个系统会天真地检测出所有的鸟,但是没有意识到有一只鸟在飞,不会施加重量。但是如果你修改提醒,说忽略了飞鸟,它就能正确识别出来。我觉得今天发布的视觉智能体是beta版本,有时候可以正常工作,有时候不行,对提示的措辞有些挑剔,有时候需要更具体的描述步骤。
所以,我不会说这是一个很好的软件,但是有时候它可以工作,我对结果感到很高兴和惊讶。事实上,今天的团队成员也在这里。不管是在这里还是在Landinging,我希望你能和他们谈谈。 AI展位,也可在线访问landing.ai。同时,我们也开放了核心发动机。我认为AI智能体是一个非常重要和令人兴奋的趋势,我们做出了这个小小的开源贡献,希望对大家有所帮助。但愿我们能够一起使智能体变得更好,这将显著提高我们作为开发者的能力。
我看到AI智能体被用于许多不同的应用程序。我想我们中的一些人可能已经在社交平台上看到了Devin的演示。我看到一些团队在做法律工作,比如分析复杂的法律规定,用智能体分析复杂的法律规定。
本人认为AI研究智能体已能够在网上搜索网页,综合大量信息,撰写深入的研究文件。它的确开始兴起了。事实上,我经常玩一些Agentic平台,比如Quora、AutoGen,有时候还有LandGraph和其它平台。许多人基于这些框架建立了很多应用。现在,我发现许多智能体都是为了特定的目的而建造的,但是看看是否会有一个很普通的智能体是非常有趣的。这让我感到非常兴奋。
对许多智能体来说,我认为我们刚刚跨过了从玩具新颖到实用的门槛。例如,AI研究智能体。几个月前,我只是在网上玩,搜索信息,为你写研究论文。大约三个月前,这仍然是一个非常有趣的玩具。但就在过去的几个月里,我的朋友,斯坦福大学的Monica Lam,Storm在她的研究实验室发布,这是一款开源软件,我认为它的确逐渐变得有用。
本文来自微信微信官方账号“乌鸦智能说”(ID:wuyazhinengshuo),作者:智能秃鹫,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




