生成式AI掀起 “淘数据热”

qweasjd 27 0

  作者: 后歆桐

  在2000年最鼎盛时期,相片桶(Photobucket)是全球顶级的图像托管网站,一度拥有7000万用户,占据了美国在线照片市场的近一半市场。

  根据分析追踪机构Similarweb的数据,如今只有约200万人仍在使用Photobucket。但该公司首席执行官(CEO)伦纳德(Ted Leonard)透露,目前正在与多家科技公司进行谈判,以授权其130亿张照片和***,让科技公司用于训练生成式人工智能(AI)大模型,使得这些模型能够响应文本提示,生成新内容。目前谈判的每张照片的价格在5美分~1美元之间,每条***的价格都超过1美元,各个买家所需图像、***的类型都存在差异。

生成式AI掀起 “淘数据热”-第1张图片-
(图片来源网络,侵删)

  “许多科技企业告诉我们,他们需要更多AI训练数据。一位潜在买家想要超过10亿个***,比我们平台拥有的还多。突然之间,我们不再担心没生意可做,而是要抓耳挠腮地想,我们去哪里弄那么多数据?”他表示。

  伦纳德以商业机密为由拒绝透露潜在买家的身份,但根据其透露的数据推算,其拥有的数据内容将价值数十亿美元。Photobucket的境遇可谓该行业的缩影。除了对人才的竞争外,科技巨头新一轮竞赛还转向了对AI训练数据。生成式AI革命可能会给这类企业赋予新生命。但同时,这一竞赛背后的数据仍存在一些风险。

  最初,谷歌、Meta和OpenAI等科技巨头使用互联网上免费的大量数据来训练生成式AI模型。这些科技公司表示,这样做既合法,也合乎道德。并且,如果不能使用大量免费抓取的、在他们看来“公开可用”的网页数据,例如非营利机构Common Crawl提供的数据,训练AI模型的成本将难以承受。

  但随着生成式AI领域的热潮和竞争加剧,他们开始面临一系列来自版权持有人的诉讼和监管关注,同时也促使部分内容发布者***取措施阻止科技公司的数据抓取。科技公司还开始需要解释如何获取并使用大量数据来训练他们的模型。

  也因此,在继续为自己行为辩护的同时,科技巨头们也开始悄悄针对一些付费内容进行谈判,涉及的内容从聊天记录到那些已经式微的社交媒体应用程序所拥有的、被遗忘已久的个人照片和***等,使得相关隐***易逐渐火热起来。

  例如,据媒体援引知情人士消息,在ChatGPT于2022年底推出后的数月内,Meta、谷歌、亚马逊和苹果等科技巨头都与图片平台Shutterstock签订协议,以使用其数亿张图片、***和音乐文件进行AI模型训练。Shutterstock的首席财务官亚哈斯(Jarrod Yahes)透露,与大型科技公司的最初交易额在2500万~5000万美元,大多数交易规模后来均有所扩大。一些较小的科技公司也加入了这一“淘数据热”,在过去两个月中加入谈判。

  Shutterstock的竞争对手Freepik也透露,已与两家大型科技公司达成协议,授权拥有的2亿张图片档案中的大部分,每张图片的价格在2~4美分。公司CEO阿布拉(Joaquin Cuenca Abela)表示,目前还有五笔类似交易正在谈判中,但他不愿透露买家身份。

  作为Shutterstock早期客户的OpenAI,还与包括美联社、Axel Springer和汤森路透(Thomson Reuters)等至少四家新闻机构签署了数据授权协议,以帮助训练其AI大语言模型,但未披露具体细节。

  Klaris law律师事务所的克拉里斯(Edward Klaris)称:“目前,科技公司正竞相争取那些拥有私人数据版权的持有者,这些私人数据无法通过网络免费抓取。”他补充称,该事务所也正在为私人数据持有者提供咨询服务,涉及价值数千万美元的交易,通过交易,这些数据持有者会将照片、电影和书籍档案授权给科技公司,用于AI训练。

  对于上述情况,谷歌、Meta、微软、苹果、亚马逊和OpenAI均拒绝置评,不过微软和谷歌提供了包含数据隐私条款的供应商行为准则。谷歌并表示,如果发现数据供应商违规,将立即***取行动,包括终止与其合作协议。

  许多主要的市场研究机构表示,他们尚未开始评估这个不透明的、***的AI数据交易市场的规模,因为在这个市场中,公司通常不会公开协议内容。少数正在试图对该市场进行评估的研究机构,比如Business Research Insights,估计该市场目前价值约25亿美元,预测在未来十年内可能增长至近300亿美元规模。

标签: 数据