而且在大部分用来训练的图片中,手部经常不是最核心的部位,所以角度不同、距离不同、手势不同、还会被阴影和其他物体遮挡。
甚至还有些更加奇特的“手”,它们的手的形状和手指数都不相同,但也都会被标注成“手”,让模型觉得它们的形状——以及它们形状的平均形态,可能都是合理的,也就因此产生了各种崎岖的手。
甚至这些也可以被标注为“手”,图片来源:《精灵宝可梦》《黑猫警长》《机器猫》和《忍者神龟》的动画介绍截图。
另一个有趣的例子是,一家公司的团队照片几乎都是通过人工智能技术生成的。如果仔细看的话,还是能发现一些线索。例如,第一排左起第二个人只带了一个耳环,第二排左起第二个人的耳朵轮廓不太正常。
图片来源: 截取了这家公司的网页截图。
可以看到,和开头的获奖作品不同,AI 作画在写实风格上还是存在不少问题的,但这并不妨碍人们对 AI 作画的尝试和使用,同时还在帮助设计者们对 AI 不断优化。毕竟让机器有创造力一直是人工智能的最高理想之一,所以生成任务就成了衡量机器创造力的标准。
02
AI 也会产生偏见和刻板印象
除了质量问题外,人工智能生成的内容还有可能产生各种伦理问题。比如在语言模型上时常会出现的偏见和刻板印象,在图片生成中也有体现,例如生成“大公司 CEO”大概率会出现一个白人成熟男性的形象。更大的担忧在于大量虚假内容很可能会操纵公众注意力和观点。
每一次修改或生成内容的新技术出现,都会引发这样的担忧。技术的进步让生成虚假内容的门槛变得越来越低,人们认为,AI 技术有可能会让虚假信息空前繁荣,因此伤害社会。除了推动立法外,开发便捷的生成检测技术也是必要的。
03
AI 生成的历史
除了最近非常受欢迎的图片生成,AI 创作还包括文字(问答、对话、诗歌、小说)和视频生成,只不过,AI 在创造上还需要更多的训练和学习。
第一个能保证质量水准的 AI 创造模型是对抗生成网络( ,下简称:GAN),它包括了一个生成器(G)和一个对抗(分类)器(A)。生成器需要不断训练自己,得到逼真的图片,骗过分类器;而分类器则要尽量将生成的图片和真实的图片区分开来。
GAN 的作者伊恩·古德费洛(Ian )在原始论文里用一个假想的警察和假钞犯来举例子:警察不停地使用越来越强的验钞机,逼迫假钞犯露出马脚,但随着验钞机的能力越来越强,假钞机的模仿能力也变得更强。
最早的 GAN 放在今天看,效果其实并不好。图片来源:伊恩·古德费洛等人于 2014 年发表的论文《对抗生成网络( Nets)》
最早的 GAN 其实效果一般,但随后各种 GAN 的变体开始像雨后春笋一样涌现出来。其中,相当有名的是 ,它能生成极为逼真的人脸。这些人脸和任何已有的人脸都不相同,是由计算机全新创作出的面孔。
生成的高清人脸。值得注意的是,这些人脸并非从真人照片中修改而来,而是模型从零开始生成的全新人脸。图片来源:Tero 等人于 2019 年发表的论文《一种基于风格的生成对抗网络生成器架构(A Style-Based for )》。
作为图片生成模型,GAN 仍然有很多缺点。例如,不同的场景需要训练不同的 GAN 模型,但需求的种类是无限的,有些场景也会非常复杂。所以,GAN 只能理解专门用于某个场景的训练图片数据,而无法理解人类的语言,因此不能通过文字控制图片的生成。
04
风格逐渐丰富的 AI 创作
新的模型很大程度上解决了这一问题。2021 年 1 月,美国研究机构OPEN AI 发布了 DALL·E,OPEN AI 随后又在 2022 年 4 月公布了 DALL·E 2。和 GAN 相比,DALL·E 是预先训练好的大模型,也有理解人类语言的能力,所以只需要用户输入一段文字,就能直接生成对应的图片,不再需要每次都根据对应数据集重新训练。
因为不再需要训练模型的专业知识,直接输入文字就能生成效果惊人的图片,DALL·E 2 在国外的社交网络上引起了巨大轰动。大家纷纷尝试用各种各样奇怪的文字输入模型,再把生成的图片公布出来,一度形成了网络迷因。
很快,大家发现,DALL·E 2 不仅能准确地生成各种实体,比如动物、植物、建筑、人,还能按照要求改变绘画风格,从写实照片到数字艺术,从油画到简笔画,从梵高到安迪霍尔,从中国国画到日本浮世绘,从毛线织物到橡皮泥风格。只需要在输入文字中加入一两个描绘风格的词,DALL·E 2 就能自动生成符合这种风格的图片。