Recraft爆红,我们与创始人交谈。
1966年,电脑屏幕上出现了一个简单的符号“>”。这个被称为“命令提示符”的符号已经成为人类与计算机对话的开始。半个世纪后,当研究人员发现AI可以通过精心设计的提示来完成各种任务时,“prompt“成为人工智能时代最重要的术语之一。
现在,当我们与AI交谈时,我们说的每一句话都是一个prompt。无论是让AI生成一幅画,写代码,还是完成一篇文章,我们都需要通过prompt来表达自己的想法。这种人类与AI的对话正在悄然改变我们的工作和生活。
这也是《The Prompt》这个专栏的起源。在这里,我们将与AI领域的企业家进行对话,挖掘创新的AI产品,记录技术变革带来的惊喜时刻。我们希望内容本身也能成为一个prompt,为读者打开思考的空间,在R&D的浪潮中找到观察和理解AI的支点。
2024年下半年社交平台上最热门的图片之一是helloo kitty整顿职场,坐在起火的电脑前,静静地喝着咖啡,用大锤子砸办公室;另一种是“梦核”胶片风格,色彩丰富,对比度高,构图荒谬,被称为“梦幻模拟器”——这两种风格的照片都是由RecraftAI设计软件生成的,Recraft的预置风格来源于后者。Hard Flash”。


● 图片均由Recraft生成,其使用风格为Photorealismism。、Hard Flash。
我们与Rectaft创始人兼CEO,2024年12月。 Anna Veronika Dorogush进行了对话。
毕业于莫斯科国立大学的Dorogush应用数学与计算机科学专业。创业之前, 她在谷歌、微软和俄罗斯最大的搜索引擎Yandex工作过,但她想创造自己的产品。离职 当时,她并没有想到自己到底要做什么,2022年夏天的文生图浪潮。——Stable 8月份Diffusion开源发布,DALL-E 2逐渐开放浏览,Midjourney开始beta测试,让她决定加入这里。
与Midjourney不同,Recraft的初衷是“专注于为平面设计师提供AI辅助工具”。起初,很难获得用户。设计师经常说Recraft很好,但他们不能自己使用它。“这让我们很痛苦,因为他们是目标受众”。所以他们决定开发自己的模型。
Recraft自研模型Recraft2024年 在公开排行榜上,V3排名第一,超过了Midjourney、Ideogram、一群图像生成模型,如FLUX。Recraft还试图让设计师更多地控制生成的图像,例如生成一系列风格一致的图像,模拟效果(Mock up,这也使得Recraft被称为AI版Photoshop,它可以将平面图扩展到立体产品上),并且进行局部修改。
现在,Recraft团队仍然很小,20多人-Dorogush认为已经很大了。由于AI制裁,他们的总部在英国,注册地在美国特拉华州,没有继续在俄罗斯创业。
对Hard来说 意想不到的是,flash模式的流行。Dorogush说,他认为很少有人使用如此小众的风格。
下面是镜相工作室和安娜。 Veronika Dorogush的对话,略经编辑:

● Recraft 创始人兼CEO:Anna Veronika Dorogush
顾客的爱好很难预测,但是找到观众,使用潮就会出现。
镜像工作室:许多人在中国社交媒体上使用Recraft,特别是Hard。 Flash风格。你有没有注意到中国顾客在增加,或者这种风格被更频繁地使用?
Dorogush: 我们真的注意到了。起初,我们不太明白为什么,直到我们和一家初创公司的朋友聊天——他们公司有一个有中国背景的创始人。他向我们解释说,这实际上是一种文化现象。在中国,闪光灯摄影是生活的一部分。人们经常拍照,习惯这种风格。对他们来说,这种风格非常熟悉和自然(feel right)。
它是文化的,也是地域的。老实说,当我们推出这种风格时,我们对此一无所知,这也让我学到了很多。
镜头工作室:你学到了什么?
Dorogush: 所学的是,不同的风格对于不同的人有不同的含义,这是很难预测的。
在推出新风格时,我们会仔细规划,确保它们能够在专业场景中使用。有些风格适合平台,有些更适合博客。我们选择这些风格,希望大家都能在这些场景中使用。有些风格虽然不常见,但是很时尚,效果惊人,比如Hard。 Flash——这太不寻常了,有一种复古感,不是标准构图,而是有不同的视角。
一开始我们觉得有些风格,比如工作室或者单位的照片风格,肯定会很受欢迎。我们预计有些风格可能不会被很多人使用,但它们可以用在特殊的地方。Hard Flash就是这样。但是对于那些习惯用闪光灯拍照的人来说,这种风格特别有趣,所以后来Hard Flash掀起了一股使用热潮。这个问题让我明白,顾客的爱好很难预测,但是一旦某种风格找到了自己的受众,(使用潮)就会发生。



● Hard将被用户使用 生成超现实主义照片的Flash风格被称为“梦核”。
镜像工作室:Recraft等现实主义摄影风格,如Organic Calm和Evening Light,而且都很独特。每个人都是怎么做到的?
Dorogush: 在创建风格的时候,我们会做很多实验,让这些风格能够解决一些任务,或者看起来独特、僵化、刻板。我们还有一个特定的创造力指标,你可以在工具中看到,在生成图像时,有一个创造力控制。(creativity handle),可以使照片更加标准,或者不那么标准。那是我们团队设计师的选择。
镜像工作室:Recraft还有一些非常有创意的功能,比如让照片一键拥有万圣节、圣诞风格,用户也可以直接让Recraft生成meme图片,团队如何设计这个功能?
Dorogush: 这是整个团队都在参与的创造性过程。如果有人提出足够有趣的想法,我们就会实现它。看看界面的抓手。(grabbing hand),你会发现它有六个手指。Recraft的工具中有一些幽默和意想不到的东西,这是文化的一部分。
镜像工作室:是您企业文化的一部分?
Dorogush: 是啊,我们正在构建一些可以让人们生活、工作更有趣的东西,让使用Recraft成为一种愉快的感觉。
"所有用户都是自然增长"
镜像工作室:创业前,你有丰富的工作经验,为什么要在2022年创业?
Dorogush: 我认为我是一个产品人。(product person)。我曾经在谷歌、微软和Yandex工作过。在这些公司里,我从零开始建立了很多产品,这些产品都是我自己想出来的。它们被开发和发展,最终成长为一些成功的项目。Catt就是外界知道的例子。 Boost,这是一个开源库,但是我在这些企业里面还有其它商品。我喜欢做这些事情,一直想建立自己的事情,所以我决定建立一家公司。
起初,我不知道该怎么办。几个月来,我一直在探索不同的选择,与人交谈,做测试和原型。随后,2022年夏天,图像生成浪潮开始了。显然,你可以在设计领域做一些事情。
我有一个姐姐是平面设计师,帮助我了解这个领域。我们公司最早的成员之一是设计师,现在他是我们的设计总监。我们通常和他交谈,探索我们想做什么,他总是在Figma上制作原型。这是公司的故事。
镜像工作室:包括Midjourney在内的很多文化图片企业都是普通人。为什么要把目标群体定位为专业设计师?
Dorogush: 我认为设计世界在AI的作用下正在发生变化。AI为设计专业人士提供了一个新的概率,让设计更容易上手,更多的人可以进入这个领域。这也使得专业客户能够做以前做不到的事情。
目前,在设计领域取得成功的企业并不多。因此,我们和我们的每一个设计选择,以及我们正在开发的每一项新技术,都在塑造行业的未来。我很兴奋能参与定义行业发展的机会。
镜像工作室:这个选择有商业考虑吗?也许专业设计师更愿意为AI工具买单,而普通人想尝试,但不会在AI工具上花太多钱。
Dorogush: 伴随着ChatGPT的出现,客户为AI工具付费已成为常态。不只是专业人士,现在大家都开始明白计算成本高,所以付点订阅费是正常的。
对普通用户而言,他们使用AI进行实验,寻找灵感。大多数情况下,文生图的功能就足够了。但是在专业的设计领域,你脑子里有一个想法。仅仅依靠文生图来实现这个结果是不够的。你需要为用户提供很多控制,让他们向模型解释自己真正想要的是什么。它是一项不同的任务,也是我们技术与其它图像生成企业的不同之处。我们不只是构建文生图,而是构建新的方法来控制生成。





● Recraft上有不同的风格预设,上面的图片是同一个提示词“Hello Kitty is wearing headphones and reading a book on the sofa. The background is a warm room with a fireplace”,各自使用Hard Flash、Retro Snapshot、Multicolor、Grain 2.0、Neon Calm风格。
镜头工作室:Recraft拥有超过200万用户,付费情况如何?
Dorogush: 基于点数,我们从2024年9月开始实施。(credit)订阅系统现在有一批订阅用户。我们有免费产品,每天有50次免费生成机会。对于需要看AI能提供什么的人来说,应该足够了。但是对于需要生成大量图像的专业人士来说,这是不够的,所以他们会付费订阅。
镜相工作室:除了喜欢Hard 中国客户Flash,你有没有发现其他意想不到的事情或者用户群体?
Dorogush: 出乎意料的是成长。一般情况下,我们的用户成长是波浪式的,因为我们所有的成长都是自然的,要么来自于与朋友或同事分享,要么来自于社交媒体。如果某人发现了这一工具,并开始发帖,那么在这一特定的地理区域,我们将会有一大波新客户。在不同的国家,我们都有过这样的增长浪潮,没有人知道它什么时候会发生。
一开始我们真的很想以一种可控的方式成长,这样我们就知道明天的成长会和昨天一样好。但是我们还没有做到,大部分AI领域的公司都没有做到。他们都在自然增长。
镜头工作室:我很惊讶,很多中国AI公司在社交平台上花了很多钱做广告。
Dorogush: 要是效果好就好了。和其它AI创业公司、大公司谈过,对于包括我们自己在内的很多公司来说,带来一个用户的成本高于这个用户能给工具带来的好处——很多用户只是在免费尝试这个工具,使用广告对数据没有意义。我们应该寻找其他销售渠道。
但是自然增长比任何营销都要好。Recraft模型是世界上最好的,因为我们最好的增长来自于发布最新模型——在图像质量公开的基准测试中。看来做到最好是一个很好的营销。当我们获得第一名时,我们获得了许多新客户,仅仅因为这个原因,我们仍然每天获得许多新客户。
使用8个月的自研模型,每个人都没有睡眠。
镜像工作室:你为什么要设计自己的模型?
Dorogush: 文字图形模型有两种模式,可以通过API调用目前的模型,也可以训练自己的模型。API调用只能实现从基本文本到图像的转换。这对于灵感工具来说已经足够了,但是做专业工具是不够的——不能准确控制元素的位置,也不能保持特定的风格一致性,这样模型就可以用你特定的风格生成图像。
起初,我们正在微调开源模型,但后来我们发现,即使我们尽最大努力,开源模型的质量仍然达不到客户的预期,用户留存率也很低。 所以我们决定自己训练模型。我们希望模型可以通过额外的输入来控制,这样用户就可以准确地控制位置、风格、颜色等元素。
2024年1月,我们发布了第一个自主研发模型后,一切都发生了变化。用户保留率稳定,他们开始继续使用这个工具。这让我们知道高质量的图像生成能力对用户有多重要。
镜像工作室:Recraft,您的自研模型 Artificialial3 Analysis Text to Image Model 在Midjourneyyurney上,Leaderboard获得了第一名,超过了Midjourney。、Flux和Stable Diffusion。当你看到结果时,你和团队的感觉如何?

● Artificial Analysis Text to Image Model 排名Leaderboard排名
Dorogush: 这真是太棒了, 到目前为止,我和我的团队仍然很高兴。 这是一个非常困难的月份。我们计划了发布日期,并为自己设置了严格的DDL、机器学习团队、后端和前端团队。 但是随后机器学习团队无法按时完成,我们推迟了几天。 无法在预定DDL之前发布模型,压力很大。 到了发布的时候,大家都很累,睡眠不足。 所以在公开基准测试中获得第一名,对于团队来说意义重大。
这一结果也改变了我们这次发布时的宣传策略。这次发布原本包括几个部分,一是从文字到图像的基本模型;第二, Recraft 作为世界上第一个也是唯一的长文本生成模型,它可以在照片中准确定位内容,文本或其他图像可以根据您的通知模型放置在照片的特定位置。 (作者注:在2024年12月的火山引擎会议上,即梦AI也实现了图片中的文字生成。)
本来打算发布一个展示文本定位服务的视频,但是当模型在基准测试中获胜的时候,全世界都开始关注Recraft。我们认为,好吧,我们不会发布这个视频。让我们专注于新模型及其测试的优势。
镜头工作室:那么拿到第一名后,你和团队能好好休息吗?
Dorogush: 我们不仅有一个模型,还有一个完整的模型,有很多预设的风格和功能。除了文生图,还有图生图功能(我们称之为微调)。、改变图像宽高比、局部修复和外部拓展,所以即使主要模型发布后,仍然有很多工作要做。然而,在主要模型发布两周后,团队的大多数成员都休息了几天。
镜像工作室:公开信息显示你们是个小团队。
Dorogush:刚开始只有5个人,但是现在有20多个人,核心是工程和机器学习团队,我们也有设计部门。现在我们还成立了负责社交媒体运营和博客文章的营销团队。随着产品的发展和用户规模的扩大,我们对功能开发和技术创新的人才需求也在增加。
镜像工作室:Recraft如何使AI能够产生含有长文本的图像?
Dorogush: 当您生成含有文本的图像时,只提供提示词,并提供提示词并添加文本位置。模型看到的数据量是不同的。模型获得的输入数据越多,就越容易产生准确的导出。因此,我们试图为模型提供尽可能多的信息,即文本位置。对于模型来说,遵循指令比只理解提示词容易得多。
它包括许多不同的模型和工作,如协助数据模型的处理、非专业设计师的标记人员和专业设计师参与的标记工作、OCR模型的培训、新建的数据集等。
首先,我们是这样做的企业。相信其它模型供应商也会尝试建立类似的东西,我们对此非常开放。因此,其他企业也可能使用相同的技术来生成文本,因为我们愿意与所有人分享这些信息。
作者注:Recraft 团队在《How To Create SOTA Image Generation with Text: Recraft’s ML Team Insights》他们的训练原理已经得到了解释,包括文本生成器和图像生成器,它们通过绘制文本布局,为模型提供了更详细的输入条件,在图像中生成文本。

● Recraft生成流程图,包含长文本图像。
镜像工作室:你知道中国公司字节跳动最近发布了一个文字图片模型,可以生成长文本的成功功能吗?他们还可以生成包含中英文文本的图像。
Dorogush: 不确定有多少公司可以复制?(replicate)我们。现在图像生成领域很拥挤,很多企业都在微调Stable Diffusion,使用当前的API模型,客户看到很多工具,却不知道该尝试哪一个。可以实际上只有少数几家企业,包括我们在内,真正从零开始训练模型,能够提供极高质量的图像生成。
对于Recraft来说,主要的挑战是突破这些噪音,让人们开始这样做。
镜头工作室:为什么这么少的公司选择创建自己的模型,是因为太难还是太贵?
Dorogush: 两者都是。这个真的很难,你需要一个非常强大的团队,很难建立这样的团队,而且训练自己的模型也非常昂贵。你要么已经是大企业了,要么需要从投资者那里筹集资金,向投资者证明你有一个可以用这笔钱提供世界上最好模式的团队,这是非常具有挑战性的。
镜头工作室:我们注意到Recraft生成的默认是外国面孔而不是亚洲面孔,亚洲人有点不自然。这和数据有关吗?
Dorogush: 这是数据集的误差。建立策略需要优化一些东西,否则模型会默认侧重于它在数据集中看到的东西。比如你不微调模型生成全身人像,它会默认生成半身人像照片。因为数据集中的人像照片太多,需要平衡这一点。
而且要做到这一点,需要提交指标。(metric),确保模型在不同方面具有足够的多样性,包括面部类型、人物形象等各个方面。
目前我们有一系列的质量标准,包括艺术质量指标和正确的解剖学指标。 (作者注:指能产生精确的人体结构,如5根手指) ,基层细节质量标准。对于图像生成来说,我们正在建立一个多样化的指标,这是一个非常重要的部分。但是对于每一个指标,你都需要标注它,这样它才能正确运行。我们正在一步一步地建立它,这些问题将在2025年得到解决。
就寻找投资而言,“我们感到安全”
镜头工作室:有人说Recraft是Photoshop的AI版本。您觉得这个说法怎么样?
Dorogush: 是的,不是的。我们确实在为专业设计师搭建工具。设计师将共同使用Photoshop和Illustrator。前者用于网格图像,后者用于矢量图像。我们同时支持网格和矢量图像。事实上,网格仍然是矢量的,局部修复、微调和清洁器的操作是相同的。
不同的是,Recraft以AI为核心。AI将开始成为设计者的首选工具,这是一种新的工作模式。我不认为Adobe会消失,但是越来越多的新用户将能够在没有这些工具的情况下工作。
所以,我们并非在与Photoshop竞争,而是为设计者提供额外的工具选择,使设计者能够更有效地解决任务,获得更多的灵感和概率。在未来,我们希望成为设计者的主要工具,这样他们就不需要频繁地转换软件。
镜头工作室:Recraft是第一个生成矢量格式图像的文生图模型,Midjourney等模型都做不到这一点,Recraft是怎么做到的,难吗?
Dorogush: 这个问题确实是个难题,但是我相信如果Midjourney投入大量的资源和人才来解决这个问题,他们也许会去做。
矢量格式主要对设计师来说很重要,但普通用户不需要。因为矢量是一种有限的格式,虽然可以无限缩放,但不能表现出复杂的渐变和照片级别的真实感。所以这实际上是市场定位的问题——Midjourney的大多数用户不需要矢量功能,但是我们的用户是设计师,他们需要。若投入大量工作,故意致力于这一问题,其它企业也能做到,但是对于他们来说,可能会偏离战略。
镜头工作室:现在大部分设计师都害怕自己会被AI取代,你接触过的设计师客户对AI工具的看法如何?
Dorogush: 有一种想法认为AI可以代替设计师,参与设计过程的人数可能会减少,但实际情况并非如此。AI已经存在两年了,设计领域没有以任何方式萎缩,人数还在增加。有一个全新的职业叫AI设计师。 在Fiverr上(一个自由职业者在线服务市场平台),AI设计师的数量已达传统图形设计师的五分之一。
回到顾客面前,我们的用户对这项新技术非常满意。她们以为自己是第一批创业者,与技术和行业一起发展,为创新感到骄傲。她们也认为AI很有启发性,因为在文生图中,AI会提供一些意想不到的结果。因此,他们的效率得到了提高。我经常听到这样的故事。比如一个演示设计师分享,现在一天就能完成前一周的工作,他们可以用AI产生更多更高质量的结果,获得更多的报酬。

● Hard使用的风格是 Flash,提示词为“In the snow, a group of friends are having a snowball fight.”
镜像工作室:版权一直是AI图像生成的一个重要问题,包括数据版权和图像生成版权。去年,中国发生了一起诉讼,四名设计师起诉了一家图像生成企业。你遇到过这个问题吗?你觉得版权怎么样?
Dorogush: 目前,该行业的法律尚未完全准备好应对AI,其发展趋势取决于企业如何应对。
比如如何申请AI产生的物品的版权。一般逻辑是,申请版权需要证明你在构建一个角色或者你想申请版权的事情上付出了很多努力。比如处理图像的历史记录可以证明,但是对于AI产生的图像,目前还没有这样的规定。
另外一个问题是 AI 与插画师社区的关系。AI行业没有很好地处理这个问题,这让他们产生了很多恐惧和愤怒。问题是企业没有与插画师社区合作,为他们提供价值。 提供价值的方法有很多。一种方法是帮助他们测试自己的风格,另一种方法是补偿艺术家,我们也在这两个方向努力。我希望在未来一年或几年内,行业会在这方面发生变化。艺术界的所有参与者,或者整个艺术界都可以从AI中获得足够的价值,他们也会对所有这些发展感到满意。
镜像工作室:Recraft下一步打算做什么?
Dorogush: 我们正在构建两个部分。一是技术,即控制模型。它包括图像生成和各种AI图像编辑和设计编辑。
如今,行业、模型和技术还没有达到那个水平,设计师很难得到他们需要的结果。你可能认为这只是一个提示,AI可以产生你想要的图像。但事实并非如此。它需要大量的迭代,在许多情况下,这甚至是不可能的。因此,我们来年的目标是解决这个问题。目标是建立一个能够为用户提供足够控制模型的模型,让他们得到他们需要的结果。
第二部分是工作流程。现在,作为一名设计师,你正在使用Recraft,你正在使用其他一堆工具。你必须为所有工具付费,并在它们之间切换。我们真的很想摆脱这种情况。我们希望我们的用户在不来回切换的情况下,能够在Recraft中完全解决他们的任务。
镜头工作室:现在有没有更多的投资者想投资Recraft?
Dorogush: 在投资者方面,我们一直很幸运,我们从一开始就证明了自己的实力。
投资者关注几个方面。一是增长。我们确实在增加企业的用户数量和付费用户数量。另一个是实现。我们最近开始实现,也有愿意付费的客户。
第三是创新和创新的速度。我们在图像生成和设计领域建立了其他企业所没有的技术,是创新最快的公司之一。我们团队包括极其有才华的人——编程世界的冠军、决赛选手和国际机器学习大赛的冠军,这对公司来说也很重要。它可以帮助我们以如此快的速度做我们正在做的事情。我们基本符合所有条件。
在公司成立的历史上,世界顶级风险投资公司一直有很多兴趣。一开始就是这样,现在也是这样。因此,我们在寻找投资时感到安全。如果我们决定筹集资金,我相信我们应该能够做到。
(作者注:Recraft于2024年1月完成了由Recraft完成的1100万欧A轮融资, Khosla Ventures 和前 GitHub CEO Nat Friedman 领投,RTP Global、Abstract VC、Basis Set Ventures、Elad Gil 参与其他天使投资者)

本文来自微信微信官方账号“镜相工作室”,作者:董慧,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




