在创造新机遇的同时,生成式AI和大模型的安全可控性和伦理问题日渐引人担忧。但其实,早在去年 、等图片生成工具风靡时,不少创作者、艺术家已然发现这类图像生成工具,或许侵犯了自己作品的版权。
侵犯版权,或是生成式AI第一个被公之于众的风险。2023年年初,多名画师对 和提起诉讼,认为这些AI工具在训练时使用的原始素材,包括画师未授权的作品,构成侵权行为。在企业端,etty 起诉 和,认为AI生成算法使用了该平台提供的上百万张高质量照片,涉嫌侵权。
目前图像的版权是否被AI侵犯,在法律层面依然争论不休。但眼下,科技界已有团队推出产品,希望从技术角度,帮助创作者保障自身权益。
36氪日前接触到的Mist,就是一款致力于保护版权的图像预处理产品。据介绍,Mist的三位创始团队成员分别是即将赴南加州大学攻读计算机博士的梁楚盟、上海交通大学计算机硕士在读的吴晓宇和纽约大学法学硕士在读的薛伊铭。2022年10月,他们发现生成式AI和版权保护之间存在不少冲突。于是,兼具法律和IT背景的三人便决定尝试打造一款能解决这一问题的产品。
概要总结,Mist的主要作用是在创作者的图片作品中加上”噪声“,让图像生成模型在使用这些素材时被”噪声”所干扰,从而难以生成和创作者原图风格相似的新图片。
Mist团队表示,这款产品主要受水印思路的启发,通过在图像中注入对抗攻击信息——也就是”噪声”,让图像生成工具的算法难以辨认原始图片的特点,自然也难以生成和原图风格类似的图片。
举个例子,用来被生成式AI学习的原图可能是一只猫的画像,而被Mist处理过、加入了噪声的原图,可以让图像生成算法将猫错认成与之相似但不同的老虎或其他物体,并最终生成一张与猫无关的图片——对拥有猫图版权的创作者来说,这样做避免了自己的作品被拿去免费生成类似图像。
产品效果示例
Mist团队向36氪介绍,对抗攻击的背后,主要是损失函数在发挥作用。
一个常识是,以神经网络为基础的AI均通过优化降低损失函数(loss )来进行训练。损失函数是表示神经网络性能的指标,也就是表明当前的神经网络对监督数据还存在多大程度上的不拟合、不一致。有资料显示,常见的损失函数有均方误差和交叉熵误差。简单总结,一般损失函数越小,意味着神经网络的输出结果越达预期。
Mist团队表示,神经网络中的Loss函数同样也能用来做其他的事情。损失函数可以表示成 L=L(x,θ) 的形式。它既和神经网络的参数有关,又和输入(图像)有关。若固定一个训练好的神经网络参数θ,以增大Loss函数为目标,在一定像素范围内改变输入的图片x ,使其变为x′ ,就可以使得这个神经网络在面对这个特殊的输入x′时,无法输出它本应输出的结果。
Mist团队告诉36氪,研究者们发现,为明显改变神经网络的输出,输入图片需要改变的像素是很少的。这种技术被称为“对抗攻击”。这一技术最简单的应用正如前文所提到的,可以通过为图片添加水印,让一张猫的照片被AI识别为老虎。这次,Mist团队把这一思路用在AI绘画背后的隐式扩散模型( Model)上,从而使得扩散模型无法识别加了水印的图片,进而无法模仿原图风格。
“水印更多是一种工具,可以被注入各种信息。最常见的情况是给水印注入人名,而我们注入的是对抗攻击信息。”Mist团队总结。另一方面,在对原图注入信息时,Mist也进行了一些约束,目标是让原图在未被生成模型使用时不要产生过大的变化,影响本身的观感。
Mist团队表示,其产品中的损失函数主要包括两个维度,一个是语义,另一个是纹理。在具体场景中,语义让模型把图片中的”猫”辨认成噪声或者无意义的图案(目的是让其失去语义),纹理则可以让模型把”猫”生成更像”老虎”的图片。也就是说,Mist产品中的损失函数,希望让模型和原图之间语义差距越来越大,纹理则更偏向于另一张非原图的图片。
之所以这样做,是因为过往不少水印产品会因为裁剪、拉伸等二次处理而丧失效力,Mist则通过语义、纹理的双重维度保障产品在多个“白嫖”场景下都能发挥效力。
产品效果对比
另外,Mist团队表示其产品的另一个特点是速度快。他们介绍,以芝加哥大学开发的Glaze为例,即使在水印添加程序中选择“最快”,耗时也高达20分钟。倘若希望生成更高质量的水印保护图,则预估耗时达到1小时。对比之下,Mist在以默认参数运行时,仅需3分钟便能完成一张图片的处理。至于原理,Mist团队表示生成速度和算法本身的设计相关,Mist的算法设计比较高效,可以减少访问生成式模型的次数。
当前,和Mist技术原理相关的paper已被作为oral paper接收。Mist目前免费提供给有需要的用户,不过,创始团队已搭建起一个200余人的社区,成员包括技术从业者、创作者等。”社区成员可以帮助我们更快地迭代产品。”Mist团队表示。之后,Mist团队希望利用社区的力量,结合自身的技术能力,进一步提升产品的鲁棒性、生成速度等。