按钮模型广场,将模型评分权交给开发者

2024-06-16

按钮为开发者制作了一个扣子 AI 车间,让开发者能低成本,一键触达大模型。


文|徐鑫 赵艳秋


编|周路平


大型模型不缺热点,价格,参数,工具链,长文本,多模式,竞争激烈,热闹非凡。


AI 应用程序开发者却陷入了困境。底层模型迅速升级变化,怎样更好地跟踪各种模型能力??场景中有不同的模型能力的差异到底在哪里??做一个应用程序,怎样更快地选择合适的模型?


这个真正的烦恼,最近,在字节旗下, AI 应用开发平台扣子联合开发 Intel 推出的 AI 工坊( Coze AI Factory )在活动中,扣子很重“扣子模型广场”上线。许多开发者可以低门槛,普遍参与模型能力评估,为应用开发提供指导。


在模型广场中,用户可以建造两个基于不同底座的模型。 Bot 发出请求,Bot 会匿名回到不同的结果。根据结果,用户可以比较不同模型在特定场景中的表现和评分。“商品好不好,用户会用脚投票”,扣子模型广场,开发者可以通过轻松的战斗方式,在很大程度上投票给大模型的场景能力,降低了评估模型能力的难度


选择合适的底层模型能力,关系到 AI 应用效果,模型广场的出现也有助于 AI 应用程序可以获得更好的用户口碑。


扣子不断地从产品和功能上发力,减少 AI 加快应用开发门槛 AI 应用生态繁荣。


01


好不好,谁说了算


去年,一个 AI 开发者告诉我们使用大模型开发。 AI “有时你不知道是模型问题,还是场景问题,还是你自己的问题,还是三者都有问题,”应用中的纠结。


它看上去就像一个笑话,但实际上反映了当前开发者在使用大模型技术时的群体。典型心态——到底大模型是否可以用在某一特定的场景中,基于这一场景中的模型选择是否正确,要做的工程化工作到底做得不好。


经过一年多的探索,大家对大语言模型能做些什么基本都有了共识和结论,情境与模型匹配阶段却变成了更多的卡点。


市场在不断变化,厂商在不断推新,比如挂载知识库等能力,提供更大的文本窗口等等。细分领域 AI 应用程序开发者,究竟应该如何从这么多模型中选择合适的模型,开发自己的应用程序?


最近,针对这一痛点,纽扣推出了一个非常轻松有趣的功能“模型广场”,一键即可。 PK 每个大型模型在不同场景中的能力。评估大型模型在特定应用领域和规则中的性能有三种方法。—— Bot 对战随机 Bot 对战纯模型对战


Bot 对战模式下面,扣子现在在各种场景中提供了差异。 Bot,使用者可在任何场景中选择 Bot 看看两个匿名大模型的表现。


如果你对“信息分析与处理”场景中不同大模型的能力差异非常清楚,可以选择这个分类下的“ LYi 论文助手" Bot 来检测。


两个基于不同大模型底座构建的界面将出现在界面中。 Bot,模型 A 和模型 B。在发出相同的指令后,他们会给出不同的回应。


在所有回复之后,页面上会跳出一个评分栏,用户需要对两个匿名大模型的场景能力进行评分。


基于回复的内容,我发现模型 A 具有较强的提取和结构化相关参考文献的呈现能力。从背景、研究方向、意义、研究成果和参考文献中更完整地呈现整个任务,更符合现实生活中论文阅读和信息提炼场景中的需求。而模型 B 严格基于“背景与价值”这两个问题的需求,将所有的研究方向都放在有意义的部分。虽然达到了预期的效果,但从结构化能力的角度来看,A 更丰富的答案。


给这次 PK 评分" A 在“表现更好”之后,系统揭开了两个模型的神秘面纱。


在产品界面设计中,纽扣非常注重用户的参与,分享按钮的出现可以直接截图整个过程。如果你对我的评价和评分过程感兴趣,可以横屏看看这张长图中的两个模型。


如果你没有明确的评价方向,随机 Bot 对战模式接下来,系统会自动为您分配一个 Bot 对2个匿名大模型的性能进行评估。之后的体验过程和之前的指定 Bot 战斗完全一样。


还有一种战斗模式,纯模型对战,不要选择任何东西 Bot,只需直接向模型提出要求即可。就拿过去全国高考“甲卷”的作文要求来说,让两个大模型进行对战。


根据结果,两个匿名大型模型基于不同的重点给出了回复。模型 A 强调表达时的自然感,其风格与我提出的请求风格一致。模型 B 强调内容表达的结构性,其分层表达更为严谨。


在这个测试中,我们可以看到两个模型侧重于不同的方向。因此,如果开发者想要应用与人交谈和互动,模型可能是 A 而且如果想做信息提炼类应用,模型更适合, B 那就更符合要求了。把这场比赛的结果分成“两者都不错”。


三种模式,两种模式对战,纽扣的产品界面和设计细节都很有意思。可以看出,它希望每个人都能轻松参与这种评价。


02


访问主流模型,满足整个场景


现在在扣子模型广场上,可以选择对战。 Bot,覆盖了资料分析与处理,知识应用,推理能力,编码能力,任务处理,创作与角色扮演等待多个场景。


其实这也是目前大模型能力比较擅长的情况和领域。做了这么多细分,其实是从开发者的角度出发的。因为到了真正的网络层面,每个开发者都必须看到特定的情况并尝试。


以前市场上有很多评价指标和榜单,只是为了给模型开发者提供一些指导。然而,这些评估大多是裸体模型评估。从应用开发的角度来看,光靠裸体模型可能是不够的。


每个应用程序开发人员都有一个面向细分的场景,他可能需要的不是一个大模型的所有能力,而是充分利用它在某个场景中的潜力。因此,从应用落地开始,真正的尝试是扣子分场景对战。


在这些趋势和安排下,纽扣的思路一目了然。


一方面,通过实际使用效果,可以直观地呈现不同场景中的大模型是否好用。是骡子还是马,拿出来散步,用感觉和效果说话。评价过程中有两种模式是匿名的,评价后才能看到哪种模式有好评,可以大大保证评价的公平性。


现在,扣子已接入。豆包,通义千问,智谱,MiniMax、Moonshot 、Baichuan等待国内主流大语言模式。更多主流大语言模式的访问,代表着更多的人对其进行评估和反馈,解决了开发者的选择困难。


有人说人工智能之所以像人工智能障碍,是因为模型能力差。如果开发者能够根据自己的情况选择情景中能力强的模型,使用效果会更好。从这个角度来看,扣子做的事情也在帮助整个市场扫平。 AI 应用落地难题。


03


遇事不决,用 Bot


除了最新推出的模型广场,扣子还有其他功能和商品,让更多的人感觉更低门槛,更方便。 AI。


扣子也上线了 Bot(机器人)商店,类似苹果的 AppStore,每个 Bot 这是一个小应用程序。


扣子用户在上面建造了各种各样的扣子。 Bot,有高考志愿咨询,有剧本杀戮,动漫,小红书文案,还有哄女朋友神器。 ... 看起来,爱读书的人真的很多,扣子上有很多读书的小助手,比如“认真读一百本书”、“假装读过一万本书”,顾客很多。


店铺里的 Bot 还在继续创新。本月高考刚刚结束,各种相关志愿者咨询 Bot 很受欢迎。


就像高考专业指南 Bot,通过 10 选择题,分析用户的性格特点和对未来生活的愿望,然后给出参考的专业方向。从右边的介绍可以看出,它是基于豆包。 Function call 模型,开发者做了私人工作流程。


我试着做了一个选择题。它向我推荐了计算机和历史管理专业,并给出了这三个专业毕业后的平均起点工资,即 8000、5000 和 6000 元。


如果你说这种应用可以实现之前的一些小程序,那就看看这个高考志愿填报顾问,问:“河北考生,高考总分。 460,选课组合为物理、历史、政治,想报考芯片专业”,它提供了一些参考机构。


除了高考的 Bot,还有许多很有趣的东西 Bot。比如这个橘猫漫画家可以一句话生成一组橘猫漫画,这些可爱的猫太治愈了,以前的小程序很难给人这样的体验。我给它发了一张“一只橘猫失恋了”,它创作了一组四张图片来安慰我。


04


怎样一句话做一个 Bot


我们不但可以在那里 Bot 商店使用各种有趣的东西 Bot,还能创造自己的东西 Bot,而且门槛很低,只要一句话。纽扣就像一个实验车间。难怪有些小学生可以从零开始,做复杂的工作。 Bot。


顺便说一下,现在扣子和 Intel 联合推出了 AI 工坊( Coze AI Factory ),它是一个主题 Bot 征集活动,欢迎您也来试试啊。


我们试图创造一个 Bot,叫图讲故事。点击“建立” Bot ",只需取一个名字,写一个功能介绍。


因为这 Bot 这个角色就是图片讲故事,我要选一些插件来改进。 Bot 技能。纽扣上有一个插件商店,简单来说就是一个辅助程序,可以帮助源程序实现一些需要添加的特定功能。插件商店提供了大量的插件。看名字和一句话的功能介绍,就可以选择了。普通人通过拖动很容易上手。


本人选择了通义万相文生图和 ByteArtist 文生图插件,分别试用效果。


如今,我对 Bot 说“画一只胖猫,夏天在院子里的树下,给孩子们讲传奇故事”。我看见了。 Bot 开始运转,调用通义万相。


这张图是在几秒钟内生成的。


就这么简单,图片讲故事。 Bot 就完成了。


工作流程,串联万物


制作一张图片并不令人满意,我准备制作一本绘本。这个需要 Bot 此外,选择插入绘本制作的工作流程。扣子上还提供了工作流商店。


这一次,我通过搜索,在我的图片中讲故事。 Bot 插入绘本制作的工作流程。


现在,我给猫和老鼠讲了一个故事。 Bot,但是它回答说我很抱歉,我不能制作绘本!我又试了一次,在故事前加上了工作流功能介绍中的“分镜制作”二字,终于运行起来,调用了绘本制作工作流,产生了一个 9 绘本张图。


拥有自己的建立 Bot,哄娃不再令人头痛。您还可以让孩子们一起参与,使用, Bot 制作歌曲和故事。如果说以前的孩子是互联网原住民,那么现在的孩子可能是大模型和大模型。 Bot 的原住民。


最近,大家发现,Bot “添加图像流”的功能再次出现在上面。顾名思义,图像流是处理图像的工作流。它也是通过拖动添加的,所以很容易上手。这是使用 AI 为了降低我们处理图像的门槛,技术。


夏天来了,我想给自己组合一下。我选择了“换衣服”这个图像流,加上我新创作的“ Pattaya "助手的 Bot 里面。再次从图库中找到一张图片,发送给助手,标注“生成穿搭图”。


可以看到,它开始调用照片流换衣服。


几秒钟后,它给出了两张穿着图片,可以点击查看,穿着非常清爽。


您还可以使用照片流来实现智能换脸、换背景、扩图、抠图、多图组合等。有意思的是,我建立的。 Bot,也可选择一键发布到各种社交平台、通讯软件或部署到网站等其它渠道。


我在想,如果以后想做一个卖衣服的电商网站,会变得很简单,可以用扣子一个个建立。 Bot,创建文案,生成模特海报,也能让用户一键换衣服看到效果,当然也可以使用。 Bot 实现财务处理、进销存、物流的自动安排。


将来我们的生活和工作,可以一个个 Bot 串联,并联。


06


知识库让 Bot 更个性化


除了这些尝试,我最近还有一个需求。我和同事们在日常工作中积累了大量的专业文件。上周,我的同事们仍然担心我们组分散的文件。如何建立一个自己的知识库,方便大家搜索查询?


现在,我们发现了 Bot 其实有了新的知识库功能,都是通过拖动来存储各种形式的知识,最多可以上传。 300 一份文件。我要上传一份非常硬核的文件——华擎主板 570。上传之前,我先问了。 Bot 一个问题,让它介绍一下这个主板。可见,它给出的答案是比较笼统的。


接着,我创造了它 Pattaya 知识库,上传华擎主板 570 专业文件。再一次问类似的问题,这一次,它的回复非常具体,也给出了文档中的相关页面。


经过这次尝试,我和同事计划整理一些个性化的知识库,包括案例库、大型知识库等。,以便于我们小组的搜索和重用。我的一个朋友准备把他这两年看鸟的照片做成一个知识库。


还有更多的工具用于扣子。举例来说, Bot 与用户沟通时记忆力更好,纽扣支持将重要内容存储为关键变量和数据库。为了有更好的互动体验,纽扣支持开场词、客户问题建议、快速指令、背景图片、语音等。,并且还支持导出卡片格式。


开发者之间的交流也很活跃。 Bot 除了展示商店、插件商店和工作流商店外,每一家 Bot 右边有社区入口,大家可以交流。


还有很多开发者建立群聊交流,开始直播交流。一些直播,开发者一起讨论,通常是几个小时。


一位开发者说,纽扣让他真正接触到了大模型。在此之前,他四处寻找,有些可能无法支付。如今,纽扣提供了各种模型和工具,就像一个 AI 或者实验室 AI 车间,让大模型触手可及,帮助他开始了未来的旅程。对于普通用户来说,何尝不是!


© 原创内容为数智前线(szqx1991)


未经授权,禁止转载


入群、转载或招商合作联系后台


文章优选


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com