画图ai软件沉迷AI画图三天后，我逐渐理解了一切

默认分类1年前 (2023)发布 admin

5,032 0 0

2022年10月的第二个星期五，大约是五六点快下班的时候，我的一个微信群里突然开始聊起了AI画图的事情。

正当大家聊的兴起的时候，一个老哥不声不响地发了一段“平平无奇”的神秘代码：

我当时正在兴头上，于是便立刻注册了的用户，输入了他给的这段代码。

原图我就不放了，放了号就没了，我只能说：

画面很逼真，效果很哇塞。

实际上，2022年10月的第二个星期的的确确是属于AI绘画的——一个名为的网站悄然上线。对于这个AI模型，真正有意思的是它的素材——所使用的数据主要来自两处，一部分来自国外的著名二次元网站，另一部分则采集自特殊渠道—站的成色十分清楚——都不是什么正经的地方。

TMD……这帮洋人程序员，果然是懂人性的。

虽然利用技术手段从这两个网站上扒数据进行学习的事情引起了不小的舆论风潮甚至法律纠纷，但毫无疑问的是，成功了。

大获成功之后，国内外的诸多游戏/科技媒体纷纷都在传递着一个消息：AI已经学会画涩图了。

本着“体验前沿科技成果，紧跟技术发展潮流”的精神，局长开始了为期三天的AI画图之旅。

三天后，我好了，除了精神有些萎靡。但，我逐渐理解了一切。

我的AI绘画体验

我选择体验的AI绘画平台是。原因很简单，因为它的训练素材实在是“给了我一个无法拒绝的理由”。

唯一的不足就是需要花钱且有点贵——先交80块钱作为会员，它会送你1000个点券，然后还可以再花80块钱买10000个点券——每出一张图就要花至少5个点券，看样子倒是不贵，但若是想生成一个没有瑕疵、满意的作品，往往需要调整好几次。平均下来，最后生成一张足够满意的图可能需要几十上百个点券。

10000个点券虽然看上去还挺多，实际上一点也不经用。

对这种收费模式，我的朋友表示：的这个生意做的好，让我们这些用户自掏腰包帮他们训练模型。我感觉她内涵我，但我没有证据。

正式进入之后，就可以开始操作了。

所谓的操作，其实就是输入恰当的（提示词）从而实现预期的效果。

莎士比亚说过“一千个观众眼里有一千个哈姆雷特”，在AI作图上也是如此，人们的恶趣味各有不同，所以的内容也五花八门。但总而言之，无非就是一些简单的描述，比如“黑长直的头发，戴眼镜，打湿的白衬衣，紧身牛仔裤”等等……

由于命令AI生成满意的图片往往需要极度详细且冗长的，因此网友们便将promt戏称为“咒语”，调整/输入的过程则被称为“念咒”“施法”或“吟唱”。

一个AI绘图平台竟然能在这个灵气稀薄的末法时代里催生出满地的魔法师，霍格沃茨看了都得高呼内行。

除此之外，的内容还可以分成两类，一类是“你希望实现的效果”，被称为“ ”（正咒），另一类则是“你不希望实现的效果”—— （反咒）——之所以会出现“反咒”，主要还是因为现阶段的AI模型开发得还不算完备，一旦遇到需要精确表达且结构形状复杂的东西就会立刻抓瞎。用户们必须想尽办法来消除掉那些可能毁掉画面效果的瑕疵。

画图ai软件沉迷AI画图三天后，我逐渐理解了一切

比如，当你需要你需要画面中的人物“用手撩着头发”的时候，AI就经常做出一些令人感到迷惑的东西。

不过，虽然这些离谱的bug暂时还没有被修正，但人们显然已经学会了用“反咒”或者其他方式“糊弄”过去——

比如我就经常要求AI把人物的手隐藏起来，反正只要看不见就不能说有问题。

除了精致的人物之外，在风景、场景上的表现也是可圈可点。这个画质虽然肯定比不过顶级的插画师的手艺，但用在一些对画面并不太讲究的地方还是没什么问题的。

相比之下，国内某大厂开发的AI模型就显得有点尴尬了。

在自然景物的呈现上，国产AI模型表现出了极致的效果，选择输出“写实主义”风格的作品时，效果基本已经有了接近照片级的真实感，可以说是吊打。

但一旦要求其绘制人物肖像，一种莫名其妙的诡异感觉便显示了出来。

不过这并不算什么大问题，团队之前是做“AI续写小说”的，在模型搭建的过程中自然会对文学类语言以及影视、动漫形象有更深刻的理解，加上训练素材也大多来自动漫形象或特殊渠道，所以在人物表现力上自然会更强。

“AI作图”背后是什么？如今，AI已经开始渗透到了各行各业——“人工智能”，这个起源于1956年的概念，在近70年的发展史中先后经历了两次起伏，最终在2006年深度学习算法突破后开始进入了新的一轮高潮——2017年以来，AI研究开始呈现爆发趋势，“算力，算法，数据”成为了本轮AI大潮的主要动力。

以为例，提供算力的各种硬件设备当然是最最基础的，联网版本的就不多说了，单机版的极度依赖于电脑显卡的性能——而GPU恰恰就是如今最主流的“算力引擎”之一——说实话，这几年显卡算是彻底火了，前几年是用显卡挖比特币，现在是用显卡画画。

除了算力，数据也是极为重要的。的作品之所以有极为浓厚的二次元和游戏CG风格，正是因为其训练所使用的素材绝大多数都来自于D站和P站——当然，这也解释了为什么生成的图片总有点离谱。

最后则是算法——这可以说是AI的灵魂所在，也就是为什么能做到“从文字生成图像”。目前来看，最热门、最受欢迎的就是 model(扩散模型)，市面上绝大多数需要通过“吟唱”来绘画的AI平台用的都是这个。

model的原理很有意思，简单来说就是不断地“加密”一张图片（添加噪点），直到这张图片变成彻底人鬼莫辨的模糊样子。然后，人们再让AI模型尝试着一步步地将其还原成为最初的样子。

要知道，当加密过程结束后，最后得到的东西是一张已经完全模糊的图片。而当AI模型能够从这样的一团混沌中解析出来正确的图片，也就意味着AI掌握了“无中生有”的能力。

不过，如果只有 model，那顶多也就是一个生成图像的工具，我们还不能随心所欲地“召唤”自己想要的画面——我们只需要一个东西将文字和 model连接起来，而目前，担任这个连接器的东西叫CLIP（ -Image Pre-）——

粗暴点说，它相当于是一个给AI看的“儿童识字图册”，让AI把文字和相关的图像对应起来。

因此，整个AI绘画过程大概是这样的：当我们输入了一大串“咒语”，CLIP就会产生一个相应的结果“A”（学名叫“表征”）。与此同时， model里也会随机生成一张图片，而CLIP也会给一个相应的结果“B”。然后，通过不断地计算A和B的相似程度，让A和B无限接近，最终就能够实现“A=B”，也就是让我们输入的描述和电脑生成的结果一模一样。

简单来说，当前AI的工作原理堪称是“大力出奇迹”——开发人员输入海量的数据，算法平台将根据这些数据来训练模型，最终形成AI技术工具。

整个AI产业链基本可以分为三段：基础层、技术层、应用层。

画图ai软件沉迷AI画图三天后，我逐渐理解了一切

基础层是数据和算力，包括AI芯片、AI基础设施和数据以及服务；技术层则主要指的是基于基础层所开发的算法模型，模型会根据软件框架对数据进行学习，最终获得人工智能技术；应用层则是根据不同场景来运用这些人工智能技术。

在AI领域，中美两国基本上代表了全球最高水准。

AI基础设施领域，随着技术进步，AI算力的基石也发生了改变。在过去，x86服务器是主流，但现在AI芯片、GPU、FPGA、ASIC等芯片为核心的服务器成为了主力——浪潮、华为、曙光、新华三都是国内领先的AI基础设施供应商。如果继续深挖，我们会发现AI基础设施的底层其实还是芯片。事实上，百度、华为、阿里、寒武纪等国内头部科技企业现在都在依托自身的技术和业务优势在布局AI芯片的研发：

华为的升腾910芯片是全球单芯片计算密度最大的芯片，寒武纪的思元370应用了最新的小芯片（也叫芯粒，）技术，功耗大幅度降低，算力也不差。

但需要注意的是，GPU/FPGA/ASIC这些是目前AI芯片行业的主流，GPU仍然是首选，而全世界最强的GPU厂商则是美国的英伟达。

再结合一下最近的新闻，啧啧，你看看，是不是一切都串联起来了。

我只能说：这棋局，大得很呐！

“AI作图”会消灭谁？

另外，只要谈到AI，有一个问题是绕不开的：AI会取代人类吗？

我无意于解答这个问题，在这里，我们先聊一件旧事：

大家都知道，2015年前后，正是中国互联网经济发展最快的时候。在北京的西二旗、杭州的滨江区、深圳的南山区，到处都是满怀创业热情的新兴互联网企业。

那几年，双十一购物节每一年的销售额都要在上一年的基础上进行一场大跳跃，而这一切的背后的原动力，则是中国互联网用户数量的暴涨。

用户在暴涨，意味着服务用户的种种也要暴涨——比如某个著名电商平台页面上的海报。尤其是当如今大数据和算法日益强势，首页上推广的产品逐渐变得千人千面，做海报这件事开始变得越来越难——无数种商品，无数个用户，意味着这个电商平台必须要输出数以亿计的海报。

虽然这些海报很简单，无非就是“产品图+广告语+背景素材”的排列组合，但如果靠人来进行操作，且不说设计师们会不会被累到猝死，光是付给设计师团队的工资就是一笔巨大的成本。

于是，AI登场了——这家企业退出了一个名叫“鲁班”的AI设计师，一秒钟可以制作8000张海报，一天时间制作4000万张海报——不仅能做到超高产量，还能满足千人千面的需求。