哪个ai绘画软件免费 【个人翻译】AI绘画工具DALLE2、MidJourney与Stable Dif

默认分类1年前 (2023)发布 admin
5,018 0
ChatGPT国内版

►译:UTAKi

本文为 作者Emad关于,,三款AI绘画产品区别的讨论——作者认为这三款产品是不同的,又或者说是互补的。

整个AI绘画(text-to-image)领域都建立在CLIP的基础上。CLIP是由在2021年推出的一个神经网络模型,它可以从自然语言中学习视觉概念,从而低成本地进行图像识别。

译者注:要理解CLIP模型的开创性,需要先对此前的AI图像识别有所了解。

过去的AI图像识别建立在“分类”的思维之上。例如,某野生动物园想识别园区里的大象和老虎,那么他们可以分别采集大量大象和老虎的照片,输入到AI模型之中。这样,AI就能学习到两种动物分别的视觉特征,在看到一只动物时,可以确定它的特征更接近“大象”还是“老虎”,从而进行识别。

而CLIP建立在自然语言与图像相对应的思维之上。在训练这个模型时,研究者输入了大量图像和对应的描述文本。CLIP分别学习图片的特征和相应文本的特征,从而建立了一个能将二者对应起来的模型。这样,在看到一张新图片时,CLIP就可以将它直接转化为文字描述。

而既然可以将图片转换为文字,自然也可以反其道而行之,于是text-to-image这一领域出现了。

利用CLIP模型进行的从文本到图像的转换表现出了惊人的效果,许多开发者和艺术家因此开始在这一领域进行大量创造。现在,我可以骄傲地说,我们投资和支持了本领域中大部分的开源工具。这些工具的表现如今已经十分优秀。

DALL·E 2

这是一个AI模型,同时也是一项服务。目前,它专注于特定(而非通用)的用途,但日后它的用途将会扩展。

它最棒的特性是“”。译者注:一个更接近于现实生活中甲乙方沟通的改图功能,可以在生成的图片上选择某些部分让AI加以修改。然而,它生成的图片比较随机,因此(相比于生产用途)更适合寻找灵感。同时,它更适合企业使用,这是因为它只使用了已获授权的图片集来进行训练。译者注:换而言之,掐灭了未来可能的纠纷。纠纷在于:AI对网络图片进行学习,这一行为是否是正当的?应当将其看作是类似人类画家和摄影师学习大师作品的行为,还是看作“使用”了这些图片?

哪个ai绘画软件免费 【个人翻译】AI绘画工具DALLE2、MidJourney与Stable Dif

关于DALLE的更多信息,可以参考:

的论文:/abs/2204.06125

建立在这一研究上的开源项目:

另外,(的开发者)所关注的更多是通用的人工智能而不是具体的产品,我觉得这很好。

David Holz(的开发者)是一个很有远见的技术研究者,他所关注的是人机互动的模式。不是一家进行后端开发的企业,而是一个研究人如何与新技术互动、又如何被新技术所影响的实验室,关于这一点,更详细的内容可以去看他最新接受的采访。

特别注重风格,它生成的图像风格十分独特。译者注:个人最近在高强度使用,对这一点深有体会。它的默认风格就不同于另两个产品的写实风,而更具备插画感。因此,尽管图像生成能力逊于 ,它在我看来也是不可替代的。

目前,和大部分市面上的AI绘画应用采用的是同一个模型(但这只是现在的情况,他们很快就会使用新的模型)。译者注:这里说的应该是谷歌开源的Disco 。国内的一些AI绘画应用,例如滴墨社区的Domo大画家,用的应该也是这一套,但缺乏像那样大量的调试。不过,他们在生成图片的一致性和连贯性上做了很多努力,尽管他们输出的图像是随机的,但也不是完全不受控制。

不是开源的,不过开发者本人在过去的职业生涯中已经开源了很多代码,这没什么不好——不是所有代码都需要开源。而且,总体来说这是一个很好的应用,日后可能起到令人惊讶的作用。

这是一个建立在合作开发之上的模型,并且我们很快就会将它开源发布。译者注:目前已经开源,可以在本地部署(免费,需要自己有性能较好的显卡)、使用官方的(花钱购买高性能GPU的使用时长)或是使用第三方部署的版本(免费但速度慢),链接见文末。

哪个ai绘画软件免费 【个人翻译】AI绘画工具DALLE2、MidJourney与Stable Dif

将会是未来“图像基础设施”的一部分,无论是艺术创作、产品设计还是任何与图像相关的应用都可以用到它。它是一个在各种领域通用的模型。

由于它是开源的,很快就会有许多围绕这一模型建立起来的应用。例如,不久以后我们就将发布,为消费者服务。

不过我们目前的工作重心是开发API,这将降低人们使用和未来更多AI模型的成本,让数以十亿计的人们能更好地互相交流。

这些已经和将要出现的AI模型,需要能够反映出人类的每一种文化,也需要能够与创作者合作、融入他们的工作流。为此,我们与本领域最顶尖的专家合作,不断努力达成上述目标。

由于我们的模型是通用性质的,它的输出内容比较宽泛。目前,大家能看到的是原始输出,没有经过特别的处理——如果对模型进行处理,它的表现会好得多。译者注:这里说的应该是,通过对通用模型进行修改,能让其在某一个特定领域中有非常突出的表现。不过,作为一个开源模型,每个人都可以使用我们的代码和数据集,在原始模型或其中某些元素的基础上进行改造,从而得到更好的生成结果。这真是太棒了。

我们将会有更多的工具、更多的选择,但最终我们所做的是为所有人提供了一种新的交流方式。我们将会有更多的市场、更多的细分市场,不是互相竞争而是互相合作。

►CLIP:

Dream :

(免费):

►DALL·E2:

►:

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...