图片来源@视觉中国
钛媒体注:本文来源于微信公众号Web3天空之城 (ID:),作者 | 城主,钛媒体经授权发布。
前言:自从前段时间偶然间被当下AI绘画的水平震住之后(超越一切的AI作画神器, 和它创作的234个盔甲美女未来战士) , 作者深感当今AI绘画的飞速进展或许已远超所有人的预期. 而这里的前因后果, 包括AI绘画的历史, 以及最近的突破性进展, 值得好好和大伙儿梳理和分享一下. 因此有了本文.
本文分为如下几小节:
2022, 进击的AI绘画AI绘画的历史AI绘画何以突飞猛进顶级AI绘画模型的PKAI绘画的突破对人类意味着什么2022, 进击的AI绘画
今年以来, 输入文本描述自动生成图片的AI绘画神器突然雨后春笋的冒了出来.
首先是Disco .
Disco 是在今年 2 月初开始爆红的一个 AI 图像生成程序,它可以根据描述场景的关键词渲染出对应的图像:
到了今年4月, 著名人工智能团队 也发布了新模型 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E), 同样支持从文本描述生成效果良好的图像.
而很多读者对AI绘画开始产生特别的关注, 或许是从以下这幅AI作品闹出的新闻开始的:
这是一幅使用AI绘画服务 生成的数字油画,生成它的用户以这幅画参加美国科罗拉多州博览会的艺术比赛, 夺得了第一名. 这件事被曝光之后引发了网络上巨大的争论至今.
目前 AI绘画的技术仍在不断变化发展中, 其迭代之快, 完全可以用”日新月异”来形容.即使把今年年初的AI绘画和现在相比, 效果也有天壤之别.
在年初的时候, 用Disco 可以生成一些很有氛围感的草图, 但基本还无法生成人脸; 仅仅2个月后, DALL-E 2已经可以生成准确的五官; 现在, 最强大的 在画作的精致程度和作画速度上更是有了一个量级的变化.
AI绘画这项技术并不是近年才有的, 但是今年以来, AI产出作品的质量以肉眼可见的速度日益提升, 而效率也从年初的一个小时缩短到现在的十几秒.
在这个变化后面, 究竟发生了什么事情? 就让我们先全面回顾一下AI绘画的历史, 再来理解一下, 这一年多来, AI绘画技术足以载入史册的突破发展.
AI绘画的历史
AI绘画的出现时间可能比很多人想象的要早.
计算机是上世纪60年代出现的, 而就在70年代, 一位艺术家,哈罗德·科恩 Cohen(画家,加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序”AARON”进行绘画创作. 只是和当下AI绘画输出数字作品有所不同, AARON是真的去控制一个机械臂来作画的.
对 AARON的改进一直持续了几十年, 直到他离世. 在80年代的时候, ARRON”掌握”了三维物体的绘制; 90年代时, AARON能够使用多种颜色进行绘画, 据称直到今天, ARRON仍然在创作.
不过, AARON的代码没有开源, 所以其作画的细节无从知晓, 但可以猜测, ARRON只是以一种复杂的编程方式描述了作者本人对绘画的理解 — 这也是为什么ARRON经过几十年的学习迭代,最后仍然只能产生色彩艳丽的抽象派风格画作,这正是 Cohen 本人的抽象色彩绘画风格. 用了几十年时间, 把自己对艺术的理解和表现方式通过程序指导机械臂呈现在了画布上.
(左:ARRON和哈罗德.科恩 右: ARRON 在 1992 年的创作作品)
尽管难说AARON如何智能, 但作为第一个自动作画且真的在画布上作画的程序, 给予它一个AI作画鼻祖的称号, 倒也符合其身份.
2006年, 出现了一个类似ARRON的电脑绘画产品 The Fool. 它可以观察照片, 提取照片里的块颜色信息, 使用现实中的绘画材料如油漆, 粉彩或者和铅笔等进行创作.
以上这两个例子算是比较”古典”方式的电脑自动绘画, 有点像一个学步的婴儿, 有一点样子, 但从智能化的角度来看是相当初级的.
而现在, 我们所说的”AI绘画”概念, 更多指的是基于深度学习模型来进行自动作图的计算机程序. 这个绘画方式的发展其实是比较晚的.
在2012年 两位大名鼎鼎的AI大神, 吴恩达和Jef Dean进行了一场空前的试验, 联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络, 用来指导计算机画出猫脸图片. 当时他们使用了来自的1000万个猫脸图片, 1.6万个CPU整整训练了3天, 最终得到的模型, 令人振奋的可以生成一个非常模糊的猫脸.
在今天看起来, 这个模型的训练效率和输出结果都不值一提. 但对于当时的AI研究领域, 这是一次具有突破意义的尝试, 正式开启了深度学习模型支持的AI绘画这个”全新”研究方向.
在这里我们稍微讲一点技术细节: 基于深度学习模型的AI绘画究竟有多麻烦呢, 为什么2012年已经很现代水平的大规模计算机集群耗时多天的训练只能得出一点可怜的结果?
读者们或许有个基本概念, 深度学习模型的训练简单说来就是利用外部大量标注好的训练数据输入, 根据输入和所对应的预期输出, 反复调整模型内部参数加以匹配的过程.
那么让AI学会绘画的过程, 就是构建已有画作的训练数据, 输入AI模型进行参数迭代调整的过程.
一幅画带有多少信息呢? 首先就是长x宽个RGB像素点. 让计算机学绘画, 最简单的出发点是得到一个输出有规律像素组合的AI模型.
但RGB像素组合一起的并非都是画作, 也可能只是噪点. 一副纹理丰富, 笔触自然的画作有很多笔画完成, 涉及绘画中每一笔的位置, 形状, 颜色等多个方面的参数, 这里涉及到的参数组合是非常庞大的. 而深度模型训练的计算复杂度随着参数输入组合的增长而急剧增长… 大家可以理解这个事情为啥不简单了.
在吴恩达和Jeff Dean开创性的猫脸生成模型之后, AI科学家们开始前赴后继投入到这个新的挑战性领域里. 在2014年, AI学术界提出了一个非常重要的深度学习模型, 这就是大名鼎鼎的对抗生成网络GAN ( , GAN).
正如同其名字”对抗生成”, 这个深度学习模型的核心理念是让两个内部程序 “生成器()” 和”判别器()” 互相PK平衡之后得到结果.
GAN模型一问世就风靡AI学术界, 在多个领域得到了广泛的应用. 它也随即成为了很多AI绘画模型的基础框架, 其中生成器用来生成图片, 而判别器用来判断图片质量. GAN的出现大大推动了AI绘画的发展.
但是, 用基础的GAN模型进行AI绘画也有比较明显的缺陷, 一方面是对输出结果的控制力很弱, 容易产生随机图像, 而AI艺术家的输出应该是稳定的. 另外一个问题是生成图像的分辨率比较低.
分辨率的问题还好说, GAN在”创作”这个点上还存在一个死结, 这个结恰恰是其自身的核心特点: 根据GAN基本架构,判别器要判断产生的图像是否和已经提供给判别器的其他图像是同一个类别的, 这就决定了在最好的情况下, 输出的图像也就是对现有作品的模仿, 而不是创新……
在对抗生成网络GAN之外, 研究人员也开始利用其他种类的深度学习模型来尝试教AI绘画.
一个比较著名的例子是2015年 发布的一个图像工具深梦(Deep Dream). 深梦发布了一系列画作, 一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展.
但如果较真一下, 深梦与其说是AI绘画, 更像是一个高级AI版滤镜, 其滤镜风格一看上面的作品便可明白.
和作品不尴不尬的Deep Dream相比, 更靠谱的是2017年成千张手绘简笔画图片训练的一个模型, AI通过训练能够绘制一些简笔画. (, 《A of 》)
这个模型之所以受到广泛关注有一个原因, 把相关源代码开源了, 因此第三方开发者可以基于该模型开发有趣的AI简笔画应用.一个在线应用叫做 “Draw with a ” ,随意画几笔,AI就可以自动帮你补充完整个图形.
值得注意的是, 在AI绘画模型的研究过程中, 各互联网大厂成了主力, 除了上述所做的研究, 比较有名的是2017年7月, 联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型, 号称创造性对抗网络 (CAN, )
(, 《CAN: , “Art” by About and from Style Norms》)
从下图的作品集可以看出,这个创造性对抗网络CAN在尝试输出一些像是艺术家作品的图画,它们是独一无二的,而不是现存艺术作品的仿品。
CAN模型生成作品里所体现的创造性让当时的开发研究人员都感到震惊, 因为这些作品看起来和艺术圈子流行的抽象画非常类似. 于是研究人员组织了一场图灵测试,请观众们去猜这些作品是人类艺术家的作品,还是人工智能的创作。
结果, 53%的观众认为CAN模型的AI艺术作品出自人类之手, 这在历史上类似的图灵测试里首次突破半数.
但CAN这个AI作画, 仅限于一些抽象表达, 而且就艺术性评分而言, 还远远达不到人类大师的水平.
更不用说创作出一些写实或者具象的绘画作品了, 不存在的.
其实一直到2021年初, 发布了广受关注的DALL-E系统, 其AI绘画的水平也就一般, 下面是DALL-E画一只狐狸的结果, 勉强可以辨别.
但值得注意的是, 到了DALL-E这里, AI开始拥有了一个重要的能力, 那就是可以按照文字输入提示来进行创作了!
接下来, 我们继续去探求本文一开始提出的问题. 不知各位读者是否有同感, 自今年以来, AI绘画的水平突然大涨, 和之前的作品质量相比有本质的飞跃, 恍然有种一日不见如隔三秋的感觉.
事出必有妖. 究竟发生了什么情况? 我们慢慢道来.
AI绘画何以突飞猛进
在很多科幻电影或剧集里,往往会有这么一幕, 主角和特别有科幻感的电脑AI说了一句话, 然后AI生成了一个3D影像, 用VR/AR/全息投影的方式呈现在主角面前.
抛开那些酷炫的视觉效果包装, 这里的核心能力是, 人类用语言输入, 然后电脑AI理解人类的表达, 生成一个符合要求的图形图像, 展示给人类.
仔细一想, 这个能力最基础的形式, 就是一个AI绘画的概念嘛. (当然, 从平面绘画到3D生成还稍有一点距离, 但相比于AI凭空创作一幅具象有意义的绘画作品的难度, 从2D图自动生成对应的3D模型就不是一个量级上的问题)
所以, 无论是用说话控制, 还是更玄乎的脑电波控制, 科幻影视中的酷炫场景实际上描述了一种AI能力 , 那就是把”语言描述” 通过AI理解自动变为了图像. 目前语音自动识别文本的技术已经成熟至极, 所以这本质上就是一个从文本到图像的AI绘画过程.
其实挺牛逼的, 仅靠文字描述, 没有任何参考图片, AI就能理解并自动把对应内容给画出来了, 而且画得越来越好! 这在昨天还感觉有点远的事情, 现在已真真切切出现在所有人的面前.
这一切到底怎么发生的呢?
首先要提到一个新模型的诞生. 还是前面提到的团队, 在2021年1月开源了新的深度学习模型 CLIP( -Image Pre-). 一个当今最先进的图像分类人工智能.
CLIP训练AI同时做了两个事情, 一个是自然语言理解, 一个是计算机视觉分析. 它被设计成一个有特定用途的能力强大的工具, 那就是做通用的图像分类, CLIP可以决定图像和文字提示的对应程度, 比如把猫的图像和”猫”这个词完全匹配起来.
CLIP模型的训练过程, 简单的说, 就是使用已经标注好的”文字-图像”训练数据, 一方面对文字进行模型训练, 一方面对图像进行另一个模型的训练, 不断调整两个模型内部参数, 使得模型分别输出的文字特征值和图像特征值能让对应的”文字-图像”经过简单验证确认匹配.
关键的地方来了, 其实呢, 之前也有人尝试过训练”文字-图像” 匹配的模型, 但CLIP最大的不同是, 它搜刮了40亿个”文本-图像”训练数据! 通过这天量的数据, 再砸入让人咂舌的昂贵训练时间, CLIP模型终于修成正果.
聪明的读者会问, 这么多的”文本-图像”标记是谁做的呢? 40亿张啊, 如果都需要人工来标记图像相关文字, 那时间成本和人力成本都是天价. 而这正是CLIP最聪明的地方, 它用的是广泛散布在互联网上的图片!
互联网上的图片一般都带有各种文本描述, 比如标题, 注释, 甚至用户打的标签, 等等, 这就天然的成为了可用的训练样本. 用这个特别机灵的方式, CLIP的训练过程完全避免了最昂贵费时的人工标注, 或者说, 全世界的互联网用户已经提前做了标注工作了.
CLIP功能强大, 但无论如何, 它第一眼看上去, 和艺术创作似乎没啥关系.
但就在CLIP开源发布几天后, 一些机器学习工程师玩家就意识到, 这个模型可以用来做更多的事情. 比如Ryan , 想出了如何把其他AI连接到CLIP上, 来打造一个AI图像生成器. Ryan 在接受采访时说:“在我把玩它几天后,我意识到我可以生成图像。”
最终他选择了, 一个GAN模型的变种, 并将代码发布为Colab笔记The Big Sleep.
( 注: Colab 是提供的非常方便的 交互式编程笔记本在线服务, 背后是云计算的支持. 略懂技术的用户可以在一个类似笔记本的Web界面上编辑运行脚本并得到输出. 重要的是, 这个编程笔记是可以分享的 )
Big Sleep创作的图画其实略诡异和抽象, 但这是一个很好的开始.
随后, 西班牙玩家@在此基础上发布了CLIP+VQGAN的版本和教程, 这个版本通过被广为转发传播, 引起了AI研究界和爱好者们的高度关注. 而这个ID背后, 正是现在所被熟知的计算机数据科学家 .
在之前,类似VQ-GAN这样的生成工具在对大量图像进行训练后,可以合成类似的新图像,然而,如读者还有印象, 前面说过, GANs类型的模型本身并不能通过文字提示生成新图像, 也不擅长创作出全新的图像内容.
而把CLIP嫁接到GAN上去生成图像, 这其中的思路倒也简单明了:
既然利用CLIP可以计算出任意一串文字和哪些图像特征值相匹配, 那只要把这个匹配验证过程链接到负责生成图像的AI模型 (比如这里是VQ-GAN), , 负责生成图像的模型反过来推导一个产生合适图像特征值, 能通过匹配验证的图像, 不就得到一幅符合文字描述的作品了吗?
有人认为 CLIP+VQGAN是自2015年Deep Dream以来人工智能艺术领域最大的创新. 而美妙的是, CLIP+VQGAN对任何想使用它们的人来说都是现成的。按照 的线上教程和Colab , 一个略懂技术的用户可以在几分钟内运行该系统.
有意思的是, 上一章也提到, 在同一个时间(2021年初), 开源发布CLIP的团队也发布了自己的图像生成引擎DALL-E. DALL-E内部也正是用了CLIP, 但DALL-E并不开源!
所以论社区影响力和贡献, DALL-E完全不能和CLIP+VQGAN的开源实现发布相比, 当然, 开源CLIP已经是对社区做出的巨大贡献了.
说到开源贡献, 这里还不得不提到LAION.
LAION 是一个跨全球的非营利机器学习研究机构,今年3月开放了当前最大规模的开源跨模态数据库LAION-5B,包含接近60亿(5.85 )个图片-文本对, 可以被用来训练所有从文字到图像的的生成模型,也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像生成模型的核心。
除了提供以上的海量训练素材库,LAION 还训练 AI 根据艺术感和视觉美感,给LAION-5B 里图片打分, 并把得高分的图片归进了一个叫 LAION- 的子集。
事实上, 最新的AI绘画模型包括随后提到的AI绘画模型王者 都是利用LAION-这个高质量数据集训练出来的.
CLIP+VQGAN 引领了全新一代 AI图像生成技术的风潮,现在所有的开源 TTI(Text to Image, 文本文本生成图像)模型的简介里都会对 致谢,她是当之无愧的全新一代AI绘画模型的奠基者.
技术玩家们围绕着CLIP+VQGAN开始形成社区,代码不断有人做优化改进,还有账号专门收集和发布AI画作. 而最早的践行者Ryan 还因此被招募进了Adobe担任机器学习算法工程师.
不过这一波AI作画浪潮的玩家主要还是AI技术爱好者.
尽管和本地部署AI开发环境相比, 在Golab 上跑CLIP+VQGAN的门槛相对而言已经比较低, 但毕竟在Colab申请GPU运行代码并调用AI输出图片,时不时还要处理一下代码报错,这不是大众化人群特别是没有技术背景的艺术创作者们可以做的. 而这也正是现在 这类零门槛的傻瓜式AI付费创作服务大放光彩的原因.
但激动人心的进展到这里还远没结束. 细心的读者注意到, CLIP+VQGAN这个强力组合是去年初发布并在小圈子传播的, 但AI绘画的大众化关注, 如开篇所说, 则是在今年初开始, 由Disco 这个线上服务所引爆. 这里还隔着大半年的时间. 是什么耽搁了呢?
一个原因是CLIP+VQGAN 模型所用到的图像生成部分, 即GAN类模型的生成结果始终不尽如人意.
AI人员注意到了另外一种图像生成方式.
如果复习一下GAN模型的工作原理, 其图像输出是内部生成器和判断器的PK妥协结果.
但还有另外一种思路, 那就是模型(扩散化模型).
这个词也很高大上, 但基本原理说出来大家都能理解, 其实就是”去噪点”. 对, 就是我们熟悉的手机拍照(特别是夜景拍照)的自动降噪功能. 如果把这个去噪点的计算过程反复进行, 在极端的情况下, 是不是可能把一个完全是噪声的图片还原为一个清晰的图片呢?
靠人当然不行, 简单的去噪程序也不可能, 但是基于AI能力去一边”猜”一边去噪, 倒是可行的.
这就是扩散化模型的基本思路.
扩散化模型目前在计算机视觉领域的影响力越来越大,它能够高效合成视觉数据,图片生成完全击败了GAN模型, 而在其他领域如视频生成和音频合成也展现出了不俗的潜力.
今年初被大众首先熟知的AI绘画产品 Disco , 正是第一个基于CLIP + 模型的实用化AI绘画产品.
但Disco 的缺点还是有些明显, 如身为专业艺术家的 Stijn 反复尝试了Disco ,认为 Disco 并没有取代人工创作的能力,核心原因有2点:
323AI导航网发布