本文概要:
1. 和 利用他们的谷歌改版机器人( 和 )从互联网上收集数据,但最近的和OI呼获版权法对他们的数据抓取工作提出了障碍。
2. AI 模型需要人类生成的吁修内容来提高,但公司应该支付还是权法从互联网获取这些内容是一个问题。
3. 已经开始使用由 创建的训练数据集来训练 GPT-4,但仅依赖这些数据可能导致模型崩溃。数据
站长之家()8月11日 消息: 和 正面临着版权法在其 AI 训练数据收集方面的谷歌改版限制。随着 和 的和OI呼获 Bard 等生成式 AI 系统的普及,对更多数据的吁修需求不断增长。
这些AI系统需要大量的权法文本、图像和视频进行训练。训练 强调 GPT-4是数据通过经过批准和公开可用的数据源进行学习的。然而,谷歌改版由于对互联网抓取数据的和OI呼获担忧, 和 在数据获取方面面临公众的吁修反对。
提高 AI 模型的质量需要人类生成的内容,而问题在于公司是否应该为这些内容付费或者从互联网上获取。未来,人类生成的内容可能以高价销售。
最近开始使用由 创建的数据集来训练 GPT-4,但仅仅依赖这些数据可能导致模型崩溃。这种情况发生在模型从其他模型生成的数据中学习,导致失去准确的数据。此外,未经作者同意或未给予作者名字的使用作品也成为了讨论的话题。上个月,数千名作者签署请愿书,要求 AI 公司停止未经许可使用他们的作品。
目前, 和 都把决定是否允许生成式 AI 挖掘他们的内容的责任放在出版商身上。 建议创建一个类似于 .txt 系统的社区开发标准,允许出版商选择拒绝抓取他们的作品被。
已经采取了初步措施,通过将其添加到网站的 robot.txt 文件中,让网站所有者选择不让 访问。 还与美联社合作,以获取实时数据进行未来的模型训练,并寻求避免法律纠纷并补偿创作者。