前言前几天,我在网上学习NFT制作的时候,发现了一个自动生成NFT作品的网站wombo。我以为是遍历组合身体组件生成新的NFT作品,结果发现是AI通过提供关键词自动生成作品。AI已经可以做艺术品了吗?艾曼
艺术是对事物的理解,是情感的表达,是抽象的阐述。可以从不同角度表达我们的认知。在过去,AI进入艺术文化行业被认为是不可能的。现在看来,这个结论并不成立。它可以通过输入关键词自动生成AI艺术品,每次生成的艺术品都是随机的,也就是说艺术品是独一无二的。
一、技术介绍这个AI是怎么画出来的?答案是多模态生成。
0,指文本、图像、声音等不同形式的信息。多模式是不同类型信息的组合。
艾绘画主要由两个技术组成:剪辑和DC干。
1.剪辑模型以查找图像
如果每张图片都标注了文字描述组成一对,大量使用这样的对来训练AI,它就能理解图片和文字的对应关系。
剪辑过程
Open在2021年1月发布了DALL-E和CLIP,两者都属于图像和文本相结合的多模态模型,其中DALL-E是基于文本生成模型的模型,而CLIP是以文本作为监督信号训练可迁移视觉模型的模型。Wombo工程师在接受采访时还透露,他们的算法中使用了CLIP。
Clip(对比语言-图像预训练)是一种基于文本-图像对对比的预训练方法或模型。
CLIP使用从互联网上收集的4亿对图片和文本进行训练,可以理解颜色和形状,日常物品或建筑,甚至是“印象主义”或“赛博朋克”等抽象艺术风格。对于训练好的模型,如果我们给一个输入文本,它就能找到对应的图片,或者根据图片描述其内容。
想想吧!如果你有办法通过文字找到匹配的图片,有没有可能根据我对事物的描述,画出一个我想要事物的样子的算法?
2.DC-甘模型生成图像接下来,我们要解决图像生成部分。
如果我们有了文字,我们就有能力找到图片。可以根据小说生成电影吗?
没错,就是甘。在这里,甘不得不接受剪辑的调度。至于Wombo的算法用的具体GAN,就不透露了。但根据网络搜集到的信息,甘是最有可能的。DC-GAN于2015年首次提出,它是第一个使用深度卷积网络生成图像的GAN变体。这可以通过输入图像来完成
GAN模型包括生成网络G和识别网络d,生成网络的目的是生成假像使识别网络无法识别真假像,识别网络的目的是试图区分真假像。直到最后,认证网络无法分辨生成网络生成的假图像。
下图是DC氮化镓: DC氮化镓制程示意图。
生成器接收随机噪声Z,然后通过上采样生成图像G(z)。上采样主要采用反卷积算法。g接收一个100维的随机噪声Z,通过投影和整形(实际上是一个全连接层)转换成一个4*4*1024的特征图,然后经过多个反卷积层,生成一个大小为64*64*3的图像。鉴别器的输入是一张图片,经过整个连接层的下采样和处理,然后送到函数输出真假概率。
Wombo生成高分辨率图像,卷积在效率上优于。
二、这个项目的实现方式因为没有开源,而且配置很麻烦,这里我们通过在线URL测试来介绍AI绘画过程。整个过程如下:1 .打开wombo网站。打开网站后,我们可以看到下图所示的界面。(本网站需要科普),在第一行输入绘画关键词,在第二列选择绘画风格,点击生成。
其中包括:
0的顶栏是关键词输入栏,我们在这里输入关键词或者短句,比如动物,一个女孩。1在第二列中,点击选择要生成的图片的样式2选择好样式后,点击创建即可生成作品。
2.作品创作。首先,由DC-甘产生一个随机图像作为种子(搜索)。
然后CLIP对图片和文字描述的相似度进行评分,并反馈给GAN模型,以提高评分为目标不断迭代。
加载是迭代训练的过程,在等待中我们可以看到中间的结果。
将输出满足最终精度的图片,可以自定义作品标题。GAN模型训练中的随机性意味着生成图像的唯一性。
3.下载作品点击保存下载作品。如果对生成的结果不满意,可以点击按钮重新生成。
三。效果显示输入((蒸汽朋克风格)):
中国城市输出结果是:
东京输入(各种风格)3360
地图
生成:
四。总结人工智能艺术品将成为NFT领域的下一个趋势,这也成为最近一个热门话题。事实上,Wombo也有计划进入NFT领域。我们可以在作品生成界面看到发布为NFT作品的按钮。不同的AI艺术模型有不同的特点,有的偏向现实,有的偏向想象。从文化教育行业的角度,我们可以结合不同AI的特点来启发艺术家,或者AI可以提供主题风格,艺术家可以赋予其意义。但是任何事情都有两面性。有人用它创作艺术品,有人用它制作非法资源。请把握好平衡,捍卫法律,坚守道德底线。