“石油危机”爆发了AI数据，内容企业可以轻松赚钱

2024-07-25

如果将AI 与汽车相比，大模型的原始数据是石油。

ChatGPT 的出现和 Midjourney 爆发式选择让 AI 第一次大规模应用已经完成，也就是大模型的普及。

我们所说的大型模型，是指具有大量参数和复杂结构的机器学习模型，可以处理大量的数据，完成各种复杂的任务。

01 版权侵权AI数据

假如是现在的 AI 与汽车相比，大模型的原始数据是石油。无论如何，首先， AI 这个模型需要足够的“石油”。

AI 公司的“石油”来源主要有以下几类：

●在线免费数据源，如维基百科、博客、论坛、新闻资讯等；

●老式新闻媒体和出版社；

●大学等科研机构；

●使用模型 C 端用户。

现实世界中的石油所有权已经有了成熟的法律法规，但是在现实世界中 AI 这是一个天地混乱的行业，“石油”开采权还不清楚，由此引发的纠纷数不胜数。

近日，多家大型音乐品牌起诉AI音乐制作公司Suno和Udio，指控其侵犯版权。这起诉讼类似于去年12月《纽约时报》对OpenAI的诉讼。

一些作家于2023年7月向该公司提起诉讼，控告ChatGPT根据版权保护的内容生成了作者作品的摘要。

同一年十二月，《纽约时报》也对微软和OpenAI提及类似的版权侵权诉讼，控告两家公司使用该报告的内容对人工智能聊天机器人进行培训。

此外，加利福尼亚州还提到了一起集体诉讼，指控OpenAI从互联网上获取用户个人信息，未经用户同意训练ChatGPT。

OpenAI 最后，他们没有为这个指控付出代价。他们说他们不认可《纽约时报》的指控，也不能再现《纽约时报》提到的问题。更重要的是，所谓《纽约时报》提供的数据源对于 OpenAI 这并不重要。

对于 OpenAI 对此，也许最大的教训就是处理好与数据供应商的关系，明确双方的权利和责任。所以，在过去的一年里，我们可以看到 OpenAI 与许多数据供应商达成战略伙伴关系，包含但不限于The Atlantic、Vox Media、News Corp、Reddit、Financial Times、Le Monde、Prisa Media、Axel Springer、American Journalism Project 等等。

将来，OpenAI 这些媒体数据将被正当地使用，这些媒体也将使用它们。 OpenAI 将技术融入到产品中。

02 AI 促进内容平台的实现

不过，OpenAI 与数据供应商达成合作关系最根本的原因不是恐惧起诉，而是机器学习面临的数据匮乏。MIT等研究人员进行了一项研究估计，机器学习数据可能正在进行 2026 年前耗尽全部「优质的语言数据」。

「优质数据」因此成为像 OpenAI 和 Google 这种模型制造商的热点。内容公司多次与AI模型制造商达成合作，开启平躺赚钱模式。

Shutterstock传统媒体平台陆续与Meta， Alphabet, Amazon, Apple, OpenAI, AI企业如Reka达成合作，通过内容授权给AI模型，2023年将年收入提升至AI模型 1.04 亿美金，预估 2027 年产生 2.5 亿美元收益；Reddit 每年授权给谷歌的内容版权收入高达 6000 万美元；苹果还在寻求与主流新闻媒体的合作，每年至少要支付5000万美元的版权费。内容公司从 AI 公司收到的版权费用是 450% 年增长率疯狂上升。

但是在过去的几年里，流媒体以外的内容很难实现，这是内容行业的一大痛点。与网络创业时代相比，AI 它的出现给内容行业带来了更大的想象力和更强的收入预期。

03 高质量的数据仍然稀缺

当然，并非所有的内容都符合要求。 AI 的需要。

前面提到的 OpenAI 与《纽约时报》争论的另一个亮点是数据质量。从石油中提炼石油，一是油本身质量好，二是净化技术好。

OpenAI 特别强调《纽约时报》的内容没有对 OpenAI 模型训练有什么突出的贡献，比较能让模型训练更有效。 OpenAI 自己每年自己掏钱一千多万美元 Shutterstock，《纽约时报》是一种以时效性起家的文字媒体。 AI 时代的宠儿。AI 更加需要深刻而独特的数据。

而且优质数据过于稀缺，AI 公司还开始在“净化技术”和“一站式应用”上下功夫。

6 月 25 日，OpenAI 实时收购数据库企业实时分析 Rockset。该公司主要提供实时动态检索和查询功能，OpenAI将整合其产品 Rockset 提高数据实时实用价值的技术。

购买Rockset，OpenAI 计划使 AI 更好地利用和访问实时动态。这样可以 OpenAI 实时推荐系统、动态数据驱动聊天机器人、实时监控和报警系统等产品支持应用更加复杂。

Rocket是 OpenAI 内置的“石化部门”，将普通数据直接转化为应用所需的优质数据。

04 创造者数据确权是异想天开吗？

网络媒体平台（Facebook、Reddit 等等)的数据很大程度上来自于UGC，也就是用户贡献的内容。许多平台都向 AI 在收取高额数据费的同时，企业也悄悄地在客户条款上加了一条“平台有用户信息训练” AI 模型权力”。

虽然客户条款是正确的 AI 模型训练的权力已经标注出来了，但是很多作者并不知道自己生产的内容具体用在哪些模型上，也不知道是否付费，更难获得应该属于自己的相关权益。

在今年 2 月的 Meta 在季度性能电话会议上，扎克伯格明确表示将使用 Facebook 和 Instagram 上面的图片来训练他 AI 生成工具。

据报道，Tumblr 也已经与 OpenAi 和 Midjourney 内容授权协议的神秘达成，但具体协议的具体内容尚未公开。

图片库平台EyeEm的创作者最近也收到了提醒他们发布的照片将用于图片库平台的通知 AI 模型训练。通知中提到，用户可以选择不使用商品，但是没有提到任何补偿政策。EyeEm 的总公司 Freepik 向美联社透露，该公司已经与两家大型科技公司签订了协议，每张照片 3 人民币上下的价格授权 2 一亿张照片中的大部分图片。CEO Joaquin Cuenca Abela 也就是说，还有五笔类似的交易正在进行，但是拒绝透露买方的身份。

Getty Images、Adobe、Photobucket、Flickr、Reddit 等UGC 主导的内容平台也面临着类似的问题。在巨大的数据实现诱惑下，平台选择忽略客户的内容所有权，将数据打包出售。 AI 模型公司。

整个过程都是在黑暗中进行的，创作者没有机会反抗。甚至很多创作者，估计在未来的某一天，当他们在某个模型中训练出类似自己作品的内容时，就有机会怀疑曾经的作品被某个平台卖给了。 AI 企业进行模型培训。

处理难以保护创作者数据确认和利润的问题，Web3 也许是个不错的选择。当 AI 当美股屡创新高时，企业web3 的 AI 同时，概念币也在飙升。由于其分散性和不可篡改性，区块链在保护创作者权益方面具有独特的优势。

比如图片、视频等媒体内容已经存在。 2021 2008年牛市完成了上链的大规模选择，而社交平台 UGC 内容链也在悄然发生。与此同时，许多 web3 AI 无论是数据所有者，还是训练者，模型平台都在鼓励为模型训练做出贡献的普通用户。

AI 模型指数级发展为数据确认提出了更大的需求，创作者应该思考:为什么我的作品未经我同意就被提出？ 5 一幅元卖给了 AI 模型公司？为什么我在整个过程中不知道，而且得不到任何好处？

媒体平台竭泽而渔也不能减少。 AI 数据确权是模型公司数据焦虑、实现高质量数据、高产量的前提，是创作者、平台和平台。 AI 合理分配模型公司三者的利益。

参照来源

Shutterstock Made $104 Million Licensing Assets to AI Devs Last Year（PetaPixel）

All The Photo Companies That Have Struck Licensing Deals With AI Firms（PetaPixel）

Reddit has a new AI training deal to sell user content（TheEverge）

GPT-4耗尽整个宇宙数据！OpenAI不断上诉，但由于数据不足，UC伯克利教授发出警告(新智元)

OpenAI acquires Rockset（OpenAI）

本文来自微信公众号“硅兔赛跑”（ID：sv_race），作家：江江，编辑：蔓延周，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

一线城市，快速下降，首套房利率有望进入“2”时代？

美联储降息提上日程，哔哩哔哩能否重现过去的资本奇迹？

用塑料瓶再生的新材料，肯德基中国的新制服

宗馥莉请辞“折返跑”的背后，娃哈哈将走向何方？

张一鸣和黄峥，又盯上了同一个市场。