豆包再次降价,字节“饱和”攻击仍在继续。
大型应用对决将持续一年,竞争依然激烈。
在12月18日的火山引擎Force冬季会议上,字节跳动“豆包全家桶”迎来了新成员。豆包视觉理解模型正式亮相,具有更强的内容识别、理解和推理、视觉描述等能力;明年1月,豆包视频生成模型也将为企业开放服务。
除了新成员的加入,豆包大模型的各种产品也迎来了更新迭代。比如豆包通用模型pro已经完全对齐GPT-4o。;音乐模型从60秒的简单结构升级为3分钟的完整作品;2.1版本的文生图模型访问即梦AI和豆包App...

用豆包视频理解模型的客户,图源豆包微信微信官方账号
字节正在综合布局和迭代升级,无论是基础层还是网络层。截至目前,字节运营的AI应用约有20个,大部分是2024年以后发布的。
今年下半年,随着越来越多的大型模型应用的出现,行业卷起了一个新的高度:C端卷客户,B端卷价格。
“饱和”攻击豆包,在任何领域都上演了“后来者居上”的戏码。
根据QuestMobile的数据,字节豆包App今年9月的日活已经达到760万,成为中国日活最大的AI产品。
从价格上看,豆包视觉理解模型千tokens的输入价格只有3%,比行业价格便宜85%。%;在此之前,豆包文字大模型0.8%的价格可以处理1500多个文字,比行业便宜99.3%。
“卷王”豆包的另一面是行业正式进入混战后的生存之战。虽然现在讨论“尽管”Killer APP“还为时过早,但商业化是一个无法回避的话题。在疯狂投入之后,豆包也要学会赚钱。
与年初字节跳动CEO梁汝波在全体会议上反思“慢”大不相同,今年字节以豆包家族在模型行业的攻击又快又狠。在行业增长过程中,豆包再一次验证了字节“大力出奇迹”的路线,也给行业带来了新的冲击和思考。
1 减少价格,买入量,豆包拼力谋增长。
今年年初,字节跳动CEO梁汝波在内部演讲中指出“缓慢”二字,直接指出字节对大模型的敏感程度不如创业公司。
梁汝波直言不讳地说:“直到2023年才开始讨论GPT,行业内做得比较好的大型创业公司都是在2018-2021年创办的。
今年5月,大模型名称统一“豆包”后,字节正式走向大模型发展的高速公路。根据DataEye研究院的不完全统计,自去年8月以来,字节跳动在AI领域推出了17个大模型和2个智能体开发平台,包括豆包大模型家族。
在大模型从“百模对决”向应用落地期转变的过程中,每个家庭都在紧紧跟随行业的风口,以求走在前列。
在应用方面,被誉为“APP工厂”的字节更有决心。据不完全统计,自2024年以来,字节已经在国内外推出了包括豆包在内的20多款App,涵盖了AI聊天助手、AI视频工具、AI娱乐应用、办公等诸多领域。

与ChatGPT相比,有“豆包”、对比Sora的“即梦”、与MiniMax旗下的社交AI星野相比,“猫箱”、对比妙鸭相机的“星绘”、比较Suno AI “海棉音乐”…
在12月18日的火山发动机Force冬季会议上,字节跳动正式发布了豆包视觉理解模型和豆包3D模型。会上,火山发动机宣布将于2025年春季推出1.5版豆包视频生成模型,具有更长的视频生成能力,豆包端到端的实时语音模型将很快推出。
在这些生态中,跑得最快的是以豆包为核心的大型生态。
根据量子位智库的数据,今年5-7月,豆包APP日新增用户数量从20万迅速飙升至90万,并在9月份率先成为国内用户数量超过1亿的第一个AI应用;11月份,平均每天有80万新用户下载豆包,每天有近900万活跃用户,MAU仅次于ChatGPT;截至11月底,2024年豆包累计用户已超过1.6亿。
没有字节的“大力出奇迹”,豆包这匹“黑马”飞得如此之快。
从今年年中开始,大型C端应用陷入了激烈的流量竞争。大型厂商可以在线上平台和线下公共场所看到。创业公司和互联网大佬,无一例外地陷入了大模型使用的“客户焦虑”。
根据AppGrowing的统计,截至11月15日,全国十款AI原生应用总额达到15亿元,其中10月份超过3.5亿元,是历史上最高的。在这两种商品中,Kimi和豆包是最疯狂的,各自投入了5.4亿元和4亿元。
从时间线来看,豆包的投流显然更加强烈。根据AppGrowing的统计,2024年4-5月,豆包投放额度预计为1500万-1750万元。六月初,豆包再次推出新一轮大规模的广告投放活动,投放额达到1.24亿元。
背靠抖音这个大流量池,豆包的出现频率也越来越高。在抖音,字节几乎屏蔽了除了豆包之外的所有AI应用,只留给自己的豆包。
必须承认,在移动互联网时代,面对同质化的市场竞争,烧钱换流量是一种常见的做法,而豆包背靠强大的字节生态,具有先天优势。

大模型的特殊之处在于,AI产品仍然存在客户接受度和留存率的考验,无法确定巨额投资是否能被超级应用所取代,但至少目前给豆包带来了肉眼可见的用户增长。
花钱也是一样的。相对于C端的投资,随着大模型推理侧成本的下降,今年B端大模型厂商集体降价,行业从“以分计费”进入“以厘计费”时代。
同样明显的动作是豆包降价。在今年5月的火山发动机Force秋季会议上,豆包主力模型在企业市场的价格比行业价格下降了99.3%,0.8%的价格可以处理1500多个字;在这次火山发动机Force冬季会议上,豆包视觉理解模型千tokens的输入价格只有3%,284张720P的照片一元就可以处理,比行业价格便宜85%。%。
厂商明显降价的意图,让计算率技术普遍受益,同时让企业客户使用AI应用的想法更高端。数据显示,截至12月中旬,豆包通用模型的平均每天使用量已超过4万亿元,比7个月前第一次发布时增加了33倍。
回顾2024年,围绕豆包生态,字节做AI的决心很大,也从资源、速度等方面证明了自己作为互联网巨头的实力。有了成长的信心,下一步的关键是让大模型更容易使用。
2 在提到技术的同时,豆包能否更贴近顾客是关键。
经过两年的AI浪潮,行业不断进入新阶段,不变的是玩家对技术的迭代。
今年下半年,一个明显的变化是,以ChatGPT为代表的大语言模型的局限性越来越明显。
大语言模型不能与物理世界互动,也不具备理解人们价值观的能力。玩家正在寻找下一个更“人类”的模型或应用程序。9月,OpenAI推出了一款可以思考的o1推理模型;12月,李飞飞推出的3D世界模型在这种思维下应运而生。
大型列车高速行驶,对于玩家来说,最重要的是拿到票。另一方面,在中国,豆包可以算是走在技术前列的大模型玩家。
在这次会议上,豆包发布的视觉理解模型具有更强的内容识别、理解和推理、视觉描述等能力。
在新的视频理解模型下,用户可以同时输入与文本和图像相关的问题,使用起来更快;同时,模型可以给出全面的理解能力的准确答案。
换句话说,与之前的文学视频模型相比,这种视觉理解模型可以更好地理解人们的需求,也可以帮助人类提高复杂工作的效率。比如在教育场景中,提高学生的作文和科普知识;在旅游场景中,帮助游客阅读外语菜单,讲解照片中建筑物的背景知识。
据火山引擎介绍,豆包视觉理解模型已经接入豆包App和PC产品。从某种意义上说,视觉理解模型是行业技术迭代的象征。与大语言模型相比,大视频模型可以扩大大模型的能力边界,降低与大模型互动的门槛,为大模型解锁更丰富的使用场景。
视觉能力是大模型能力的关键,已经达成共识。视觉输入占人类互动信息的大部分。为了让大模型离AGI更远,每个人都在加速。
事实上,字节对视觉和多模式模型的重视程度是肉眼可见的提高。12月11日,据智能报道,字节优先考虑即梦产品,尝试在AI时代打造“抖音”。字节计划将更多资源转移到更多模式的产品形式,即梦想将承担更大的希望。
即梦AI属于字节跳动的剪影业务,定位为AI内容平台,支持通过自然语言和图片输入生成高质量的图像和视频。
在这次会议上,剪影业务负责人张楠表示,“即梦,希望成为想象世界的相机”似乎也在回应这一策略。具体来说,即梦AI照片模型2.1正式上线,可以“一句话生成海报”,支持中英文图像海报的快速生成,通过简单的指令控制文字的颜色和位置。

值得注意的是,豆包还发布了3D生成模型,该模型与火山引擎数字孪生平台veOmniverse相结合,可完成智能训练、数据合成和数字货币生产,成为一套物理世界模拟器,支持AIGC创作。
不仅如此,豆包大模型家族的许多产品都迎来了重要的更新。
与5月份相比,豆包通用模型pro新版本的综合任务处理量增加了32%,全面对齐GPT-4o,使用价格仅为后者的1/8,在推理上增加了13%。;
豆包音乐模型4.0支持三分钟全曲创作,支持歌词局部修改、曲风连贯等功能;
豆包文生图模型2.1支持“一键P图”,能高精度地理解指令,对中英文、专有名词“来者不拒”。
到目前为止,在升级豆包全家桶的同时,豆包弥补了其在视觉交互上的不足,开辟了自己模型的场景边界,仍然降低了计算率成本。本质上,它们都是为了让大模型更贴近客户。
今年5月,字节跳动产品与战略副总裁朱骏分享了字节跳动为豆包定义的三个产品设计原则:第一,“拟人”;第二,靠近用户,随时陪伴客户,嵌入客户不同的使用环境,应该是豆包在用户身边,而不是客户在豆包旁边;第三,个性化。
使豆包重新回归客户,让用户了解AI,满足用户对AI的好奇心是非常重要的。根据中国企业家的报道,在豆包官方用户群中,每当新功能发布时,豆包助理都会在群内发布公告,并鼓励用户提供专业反馈。
它还证明,字节作为产品的思维,同样适用于模型领域。如今,大型模型已经经历了卷技术、卷应用和卷用户的阶段。如果你想在下半场拿到机票,字节必须在“接地气”的同时带着豆包“提技术”。
3 拓展场景,商业化,是豆包必须探索的。
今年,除了技术迭代和产品更新速度的较量之外,大型行业还有一个更重要的竞争层面,那就是商业赚钱和场景落地的速度。
玩家进入的热情是多么火爆,市场对回报周期的需求是多么急切。
对于字节这样的巨头来说,无论赚钱速度有多快,都比不上大模型的烧钱速度。计算成本和客户创新都需要真金白银。
豆包还处于投入期,无法避免商业化的问题。

在C端烧钱投流之后,豆包是国内日活最多的AI产品,但是一个突出的问题是用户保留。
这使得字节对豆包的商业化有了新的思考。据智能报道,豆包AI对话产品虽然月活性能不错,但目前豆包的活跃度并不高。豆包一周只活跃2-3天,客户每天只发消息5-6次,一次2分钟,客户人均使用时间只有10分钟。这些信息在过去一年的增长并不明显。
基于此,字节管理层判断,像豆包这样的AI对话产品可能只是AI产品的“中间状态”。从字节内部判断,付费订阅模式在中国不太可能通过。但是时长和轮数太低,导致隐藏的广告空间小,形成了这类产品的隐形天花板。
从长远来看,更低门槛、更“多模式”的产品形式更有可能落地,剪影和即梦可能是合适的入口,这也是豆包把一些重点放在视频模型上的实质性原因。
如果豆包在C端不断探索应用程序与客户付费意愿的适应性,那么豆包在客户付费意愿较强的B端的重点就是探索豆包的大模型与客户的匹配程度。
今年5月,豆包已经确定了B端业务的落地思路:火山引擎负责基础模型和开发者生态的构建,豆包负责应用的开发和调试。
得益于火山发动机“模型更强、成本更低、更容易落地”的发展理念,视觉理解模型进入了“以厘计费”的同时,火山发动机还升级了火山方舟、纽扣、HiAgent三大平台产品,帮助企业建立自己的AI能力中心,高效开发AI应用。

事实上,根据字节期待的飞轮效应,计算率调用测试促进了豆包大型产品的降价,大型产品的降价吸引了B端客户的合作,客户的使用数据给豆包带来了更多的调用。
目前,根据火山发动机的数据,豆包模型已经与80%的主流汽车品牌合作,并接入了手机、PC等多个智能终端,覆盖了约3亿台智能终端。半年内,来自智能终端的豆包模型数量增加了100倍。
此外,在与公司生产力相关的场景中,豆包也有了新的增长。在过去的三个月里,大豆包模型在信息处理场景中的调用量增加了39倍,客户服务和销售场景增加了16倍,硬件终端场景增加了13倍,AI工具场景增加了9倍。
除了针对B、除了C端开放应用之外,豆包还结束了今年的新风口智能硬件产品。——Ola Friend。据报道,这款耳机植入了大豆包模型,并与字节对话AI应用豆包App相结合:佩戴智能耳机后,用户可以通过语音对话随时使用豆包,这款耳机也可以在豆包App上操作。
此外,据ITBEAR报道,字节AI硬件团队为了在更广泛的场景中发挥大模型的强大能力,仍在积极推动豆包大模型与其他手机厂商的智能助手合作。
各种信号表明,豆包正以各种方式打开大模型商业化的大门。商业化是每个玩家面临的共同问题。学会赚钱也是豆包的必修课。
对于豆包来说,用“大力出奇迹”卷起应用程序后,也要有进入下半场的大踏步前进资本,这是一条比较清晰的商业路径。
本文来自微信公众号“连线Insight”,作者:王慧莹,编辑:子夜,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




