按钮模型广场，将模型评分权交给开发者

2024-06-16

按钮为开发者制作了一个扣子 AI 车间，让开发者能低成本，一键触达大模型。

文｜徐鑫赵艳秋

编｜周路平

大型模型不缺热点，价格，参数，工具链，长文本，多模式，竞争激烈，热闹非凡。

AI 应用程序开发者却陷入了困境。底层模型迅速升级变化，怎样更好地跟踪各种模型能力？？场景中有不同的模型能力的差异到底在哪里？？做一个应用程序，怎样更快地选择合适的模型？？

这个真正的烦恼，最近，在字节旗下， AI 应用开发平台扣子联合开发 Intel 推出的 AI 工坊（ Coze AI Factory ）在活动中，扣子很重“扣子模型广场”上线。许多开发者可以低门槛，普遍参与模型能力评估，为应用开发提供指导。

在模型广场中，用户可以建造两个基于不同底座的模型。 Bot 发出请求，Bot 会匿名回到不同的结果。根据结果，用户可以比较不同模型在特定场景中的表现和评分。“商品好不好，用户会用脚投票”，扣子模型广场，开发者可以通过轻松的战斗方式，在很大程度上投票给大模型的场景能力，降低了评估模型能力的难度。

选择合适的底层模型能力，关系到 AI 应用效果，模型广场的出现也有助于 AI 应用程序可以获得更好的用户口碑。

扣子不断地从产品和功能上发力，减少 AI 加快应用开发门槛 AI 应用生态繁荣。

好不好，谁说了算

去年，一个 AI 开发者告诉我们使用大模型开发。 AI “有时你不知道是模型问题，还是场景问题，还是你自己的问题，还是三者都有问题，”应用中的纠结。

它看上去就像一个笑话，但实际上反映了当前开发者在使用大模型技术时的群体。典型心态——到底大模型是否可以用在某一特定的场景中，基于这一场景中的模型选择是否正确，要做的工程化工作到底做得不好。

经过一年多的探索，大家对大语言模型能做些什么基本都有了共识和结论，情境与模型匹配阶段却变成了更多的卡点。。

市场在不断变化，厂商在不断推新，比如挂载知识库等能力，提供更大的文本窗口等等。细分领域 AI 应用程序开发者，究竟应该如何从这么多模型中选择合适的模型，开发自己的应用程序？

最近，针对这一痛点，纽扣推出了一个非常轻松有趣的功能“模型广场”，一键即可。 PK 每个大型模型在不同场景中的能力。评估大型模型在特定应用领域和规则中的性能有三种方法。—— Bot 对战、随机 Bot 对战和纯模型对战。

Bot 对战模式下面，扣子现在在各种场景中提供了差异。 Bot，使用者可在任何场景中选择 Bot 看看两个匿名大模型的表现。

如果你对“信息分析与处理”场景中不同大模型的能力差异非常清楚，可以选择这个分类下的“ LYi 论文助手" Bot 来检测。

两个基于不同大模型底座构建的界面将出现在界面中。 Bot，模型 A 和模型 B。在发出相同的指令后，他们会给出不同的回应。

在所有回复之后，页面上会跳出一个评分栏，用户需要对两个匿名大模型的场景能力进行评分。

基于回复的内容，我发现模型 A 具有较强的提取和结构化相关参考文献的呈现能力。从背景、研究方向、意义、研究成果和参考文献中更完整地呈现整个任务，更符合现实生活中论文阅读和信息提炼场景中的需求。而模型 B 严格基于“背景与价值”这两个问题的需求，将所有的研究方向都放在有意义的部分。虽然达到了预期的效果，但从结构化能力的角度来看，A 更丰富的答案。

给这次 PK 评分" A 在“表现更好”之后，系统揭开了两个模型的神秘面纱。

在产品界面设计中，纽扣非常注重用户的参与，分享按钮的出现可以直接截图整个过程。如果你对我的评价和评分过程感兴趣，可以横屏看看这张长图中的两个模型。

如果你没有明确的评价方向，随机 Bot 对战模式接下来，系统会自动为您分配一个 Bot 对2个匿名大模型的性能进行评估。之后的体验过程和之前的指定 Bot 战斗完全一样。

还有一种战斗模式，纯模型对战，不要选择任何东西 Bot，只需直接向模型提出要求即可。就拿过去全国高考“甲卷”的作文要求来说，让两个大模型进行对战。

根据结果，两个匿名大型模型基于不同的重点给出了回复。模型 A 强调表达时的自然感，其风格与我提出的请求风格一致。模型 B 强调内容表达的结构性，其分层表达更为严谨。

在这个测试中，我们可以看到两个模型侧重于不同的方向。因此，如果开发者想要应用与人交谈和互动，模型可能是 A 而且如果想做信息提炼类应用，模型更适合， B 那就更符合要求了。把这场比赛的结果分成“两者都不错”。

三种模式，两种模式对战，纽扣的产品界面和设计细节都很有意思。可以看出，它希望每个人都能轻松参与这种评价。

访问主流模型，满足整个场景

现在在扣子模型广场上，可以选择对战。 Bot，覆盖了资料分析与处理，知识应用，推理能力，编码能力，任务处理，创作与角色扮演等待多个场景。

其实这也是目前大模型能力比较擅长的情况和领域。做了这么多细分，其实是从开发者的角度出发的。因为到了真正的网络层面，每个开发者都必须看到特定的情况并尝试。

以前市场上有很多评价指标和榜单，只是为了给模型开发者提供一些指导。然而，这些评估大多是裸体模型评估。从应用开发的角度来看，光靠裸体模型可能是不够的。

每个应用程序开发人员都有一个面向细分的场景，他可能需要的不是一个大模型的所有能力，而是充分利用它在某个场景中的潜力。因此，从应用落地开始，真正的尝试是扣子分场景对战。

在这些趋势和安排下，纽扣的思路一目了然。

一方面，通过实际使用效果，可以直观地呈现不同场景中的大模型是否好用。是骡子还是马，拿出来散步，用感觉和效果说话。评价过程中有两种模式是匿名的，评价后才能看到哪种模式有好评，可以大大保证评价的公平性。

现在，扣子已接入。豆包，通义千问，智谱，MiniMax、Moonshot 、Baichuan等待国内主流大语言模式。更多主流大语言模式的访问，代表着更多的人对其进行评估和反馈，解决了开发者的选择困难。

有人说人工智能之所以像人工智能障碍，是因为模型能力差。如果开发者能够根据自己的情况选择情景中能力强的模型，使用效果会更好。从这个角度来看，扣子做的事情也在帮助整个市场扫平。 AI 应用落地难题。

遇事不决，用 Bot

除了最新推出的模型广场，扣子还有其他功能和商品，让更多的人感觉更低门槛，更方便。 AI。

扣子也上线了 Bot(机器人)商店，类似苹果的 AppStore，每个 Bot 这是一个小应用程序。

扣子用户在上面建造了各种各样的扣子。 Bot，有高考志愿咨询，有剧本杀戮，动漫，小红书文案，还有哄女朋友神器。 ... 看起来，爱读书的人真的很多，扣子上有很多读书的小助手，比如“认真读一百本书”、“假装读过一万本书”，顾客很多。

店铺里的 Bot 还在继续创新。本月高考刚刚结束，各种相关志愿者咨询 Bot 很受欢迎。

就像高考专业指南 Bot，通过 10 选择题，分析用户的性格特点和对未来生活的愿望，然后给出参考的专业方向。从右边的介绍可以看出，它是基于豆包。 Function call 模型，开发者做了私人工作流程。

我试着做了一个选择题。它向我推荐了计算机和历史管理专业，并给出了这三个专业毕业后的平均起点工资，即 8000、5000 和 6000 元。

如果你说这种应用可以实现之前的一些小程序，那就看看这个高考志愿填报顾问，问:“河北考生，高考总分。 460，选课组合为物理、历史、政治，想报考芯片专业”，它提供了一些参考机构。

除了高考的 Bot，还有许多很有趣的东西 Bot。比如这个橘猫漫画家可以一句话生成一组橘猫漫画，这些可爱的猫太治愈了，以前的小程序很难给人这样的体验。我给它发了一张“一只橘猫失恋了”，它创作了一组四张图片来安慰我。

怎样一句话做一个 Bot

我们不但可以在那里 Bot 商店使用各种有趣的东西 Bot，还能创造自己的东西 Bot，而且门槛很低，只要一句话。纽扣就像一个实验车间。难怪有些小学生可以从零开始，做复杂的工作。 Bot。

顺便说一下，现在扣子和 Intel 联合推出了 AI 工坊（ Coze AI Factory ），它是一个主题 Bot 征集活动，欢迎您也来试试啊。

我们试图创造一个 Bot，叫图讲故事。点击“建立” Bot "，只需取一个名字，写一个功能介绍。

因为这 Bot 这个角色就是图片讲故事，我要选一些插件来改进。 Bot 技能。纽扣上有一个插件商店，简单来说就是一个辅助程序，可以帮助源程序实现一些需要添加的特定功能。插件商店提供了大量的插件。看名字和一句话的功能介绍，就可以选择了。普通人通过拖动很容易上手。

本人选择了通义万相文生图和 ByteArtist 文生图插件，分别试用效果。

如今，我对 Bot 说“画一只胖猫，夏天在院子里的树下，给孩子们讲传奇故事”。我看见了。 Bot 开始运转，调用通义万相。

这张图是在几秒钟内生成的。

就这么简单，图片讲故事。 Bot 就完成了。

工作流程，串联万物

制作一张图片并不令人满意，我准备制作一本绘本。这个需要 Bot 此外，选择插入绘本制作的工作流程。扣子上还提供了工作流商店。

这一次，我通过搜索，在我的图片中讲故事。 Bot 插入绘本制作的工作流程。

现在，我给猫和老鼠讲了一个故事。 Bot，但是它回答说我很抱歉，我不能制作绘本！我又试了一次，在故事前加上了工作流功能介绍中的“分镜制作”二字，终于运行起来，调用了绘本制作工作流，产生了一个 9 绘本张图。

拥有自己的建立 Bot，哄娃不再令人头痛。您还可以让孩子们一起参与，使用， Bot 制作歌曲和故事。如果说以前的孩子是互联网原住民，那么现在的孩子可能是大模型和大模型。 Bot 的原住民。

最近，大家发现，Bot “添加图像流”的功能再次出现在上面。顾名思义，图像流是处理图像的工作流。它也是通过拖动添加的，所以很容易上手。这是使用 AI 为了降低我们处理图像的门槛，技术。

夏天来了，我想给自己组合一下。我选择了“换衣服”这个图像流，加上我新创作的“ Pattaya "助手的 Bot 里面。再次从图库中找到一张图片，发送给助手，标注“生成穿搭图”。

可以看到，它开始调用照片流换衣服。

几秒钟后，它给出了两张穿着图片，可以点击查看，穿着非常清爽。

您还可以使用照片流来实现智能换脸、换背景、扩图、抠图、多图组合等。有意思的是，我建立的。 Bot，也可选择一键发布到各种社交平台、通讯软件或部署到网站等其它渠道。

我在想，如果以后想做一个卖衣服的电商网站，会变得很简单，可以用扣子一个个建立。 Bot，创建文案，生成模特海报，也能让用户一键换衣服看到效果，当然也可以使用。 Bot 实现财务处理、进销存、物流的自动安排。

将来我们的生活和工作，可以一个个 Bot 串联，并联。

知识库让 Bot 更个性化

除了这些尝试，我最近还有一个需求。我和同事们在日常工作中积累了大量的专业文件。上周，我的同事们仍然担心我们组分散的文件。如何建立一个自己的知识库，方便大家搜索查询？

现在，我们发现了 Bot 其实有了新的知识库功能，都是通过拖动来存储各种形式的知识，最多可以上传。 300 一份文件。我要上传一份非常硬核的文件——华擎主板 570。上传之前，我先问了。 Bot 一个问题，让它介绍一下这个主板。可见，它给出的答案是比较笼统的。

接着，我创造了它 Pattaya 知识库，上传华擎主板 570 专业文件。再一次问类似的问题，这一次，它的回复非常具体，也给出了文档中的相关页面。

经过这次尝试，我和同事计划整理一些个性化的知识库，包括案例库、大型知识库等。，以便于我们小组的搜索和重用。我的一个朋友准备把他这两年看鸟的照片做成一个知识库。

还有更多的工具用于扣子。举例来说， Bot 与用户沟通时记忆力更好，纽扣支持将重要内容存储为关键变量和数据库。为了有更好的互动体验，纽扣支持开场词、客户问题建议、快速指令、背景图片、语音等。，并且还支持导出卡片格式。

开发者之间的交流也很活跃。 Bot 除了展示商店、插件商店和工作流商店外，每一家 Bot 右边有社区入口，大家可以交流。

还有很多开发者建立群聊交流，开始直播交流。一些直播，开发者一起讨论，通常是几个小时。

一位开发者说，纽扣让他真正接触到了大模型。在此之前，他四处寻找，有些可能无法支付。如今，纽扣提供了各种模型和工具，就像一个 AI 或者实验室 AI 车间，让大模型触手可及，帮助他开始了未来的旅程。对于普通用户来说，何尝不是！

未经授权，禁止转载

入群、转载或招商合作联系后台

文章优选

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

从经典改编到全新创作天津评剧院大戏“盛开”

韩国博主继续“开箱”，曝光了20年前一轮奸案多名嫌疑人的现状。

户外劳动者拥有“清凉港湾”

全便利店“北进”，济南零售战场生变

维迪奇采访：我的孩子们应该了解塞尔维亚的文化，个人喜欢拉爵的管理。

项目推荐

AI云印侠

宾果智能

幸福绩效