3.用数据生成的作品是否受到版权保护?
首先第一个问题,要获取数据,无非就是付费购买,或者收集网上公开的数据。
但需要注意的是,公开的数据并不能等同于授权使用,而且还要看网站是不是有相关的条款对数据爬虫行为做出了限制。
要是直接越过版权方的同意,或者绕过了网站限制强行获取数据,那就是妥妥的非法获取计算机信息系统数据罪。
即使 声称爬的是公开网站的数据,数据爬虫行为本身是否合法,还要看版权方是不是给了授权。
其次,关于数据本身是否受到版权保护。
根据美国的版权法,如果 AI 模型训练所用的数据符合“合理使用”的范围,那就不会构成侵权。
但问题就出在这“合理使用”上。
“合理使用”的构成要件包括是否涉及商用、作品本身是否受版权法保护、所使用部分的数量以及使用之后对作品本身造成的影响这四个标准。
像什么新闻报道、学术研究,适当引用是完全 ok 的。
可 AI 模型上亿万级别的数据使用量、已经商业化的 AI 软件,还能算作“合理使用”吗?
最后,就是AI生成作品的版权问题。
因为训练数据版权理不清, AI 生成的内容自然也会存在版权争议。前几天, Steam 还下架了一款使用了 AIGC 生成的游戏,理由就是版权有问题。
咱就拿 AI 绘画举例子,图像生成相当于一个拆分又重组的过程,虽然最后的结果是完全“新”的,但仍然会保留训练图像的某些特征。
但这种情况到底算不算侵权,各国的说法现在也是众说纷纭。
因为训练数据是人家的,美国版权局认定 AI 生成的作品不受版权法保护,甚至还可能侵犯著作权。
而日本政府的态度则截然不同,表示日本法律不保护 AI 训练所用数据的版权。
至少在现行的法律框架下,上面这些问题很难得到一个统一的答案。
既然监管不给力,那版权方就只有提刀自己干了,该收费的收费,该追偿的也赶紧追偿。
▼被起诉的文件
可以预见,在推特和 之后,可能还会有更多的内容版权方竖起高墙。
这事儿呢,对于平台来说,当然是个挣钱的新路子,科技巨头再不济也就是多砸点儿钱。
但对于整个互联网来说,可算不上一件好事儿。
当年,互联网就是带着开放共享的基因出生的,像什么维基百科、推特,之前常年免费提供 API 接口,开发者调用数据很方便。
但现在如果让数据收费这么一搞,结果会怎么样还真不好说。
毕竟,小开发者没有支付巨额数据费的能力,如果创新只在巨头里发生,这不就是纯纯搞垄断了?
最主要的是,可能很多现在免费能看到的网站之后就要花钱才能看了,这才是对咱们这种普通用户的真实暴击。
其实吧,数据收费这事儿也不能全怪平台,实在是让 AI 巨头给“抢”怕了,算是一种自保的无奈之举。
虽然这次谷歌有“隐私政策”护体,但结果如何还真不好说。
所以,关键还要是看监管的大锤什么时候能落下。
厘清数据版权,是 AI 要发展始终绕不过去的一道坎儿,而现在,似乎也同样关乎着互联网的未来走向。
不知道 AI 这艘船,会将我们推向一个更开放,还是更封闭的时代?