作者 | 香草
编辑 | 李水青
智东西9月21日消息,今天凌晨,宣布其文生图工具DALL·E即将升级至DALL·E 3,并将原生集成至中。
相比去年发布的DALL·E 2,在提示词相同的情况下,DALL·E 3对文字的理解程度及生成的图像质量显著提升。时常被诟病的“无法在图像上生成文字”的问题,也在这次升级中得到了解决。
DALL·E 3和DALL·E 2生成图像效果对比图,提示词为:在暴风雨的大海中,一个半透明玻璃制成的人类心脏矗立在一个基座上。阳光穿透云层,照亮了心脏,揭示了一个微小的宇宙。“寻找你内心的宇宙”这句话在地平线上用粗体字蚀刻着。
而DALL·E 3与的结合,更是产生了奇妙的化学反应。用户不再需要学习如何使用合适的提示词来描述自己想要的图像,因为可以直接理解自然语言,帮你完成这一切。
在中使用DALL·E 3直接生成图像
升级版的DALL·E 3将于10月首先向 Plus和企业版客户开放,之后在秋季稍晚些将提供API接口并面向公众开放。
此外,特别强调DALL·E 3已采取多方面安全措施,包括暴力内容限制、拒绝生成含公众人物图像、拒绝模仿在世艺术家风格等,且允许创作者提交删除自己图像的申请。
那么DALL·E此次升级究竟实现了怎样的效果?和的集成又将擦出什么样的火花?通过一段视频演示以及多张图像示例,向我们生动地展示了DALL·E 3的强大之处。
一、原生集成于,DALL·E 3可以直接“讲故事”了
DALL·E此次升级,最大的亮点无疑是与的原生集成。称,现在的文生图系统大多将重点放在生成图像的质量和水准上,而忽略了文字和描述的重要性,这使得用户不得不学习复杂的提示词工程。
而DALL·E 3通过集成,使文字生成图像这一过程中的“文字”部分实现了质的飞跃。
过去,当用户使用DALL·E 2、等文生图AI工具时,通常的做法是:首先通过等聊天机器人,用简单的提示词生成丰富的图像描述文本;然后再进入文生图软件,用图像描述文本生成图片。如果生成效果不佳,就需要反复操作多次,步骤十分繁琐。+DALL·E 3的组合则直接省去了中间步骤,一步到位。
提供了一个视频来展示DALL·E 3的使用效果。这是一个家长为5岁孩子将想象带到现实中的故事。
当家长询问:“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’——它会长什么样子?”
生成了四段描述该刺猬的文字,随后根据文字生成了相应的图像。
家长选择了其中一张图像,追问道:“我的女儿说这只刺猬名字叫Larry,可以提供更多它的图像吗?”
此时根据用户选择的刺猬形象,生成了更多不同画风的图像。
随后,家长说想看看Larry的房子,便生成了一张Larry在房门口检查信箱的画面。
值得注意的是,他的信箱上甚至写着自己的名字“LARRY”。这意味着DALL·E 3实现了在图像上写字的功能。
结合的文字生成功能,这只小刺猬还可以拥有自己的“人设”。
当家长追问:“是什么让他如此‘了不起’?”回答,是因为他有着向日葵花瓣作为“刺”,并且很善良。
家长继续追问,他的善良是如何体现的?便生成了一幅漂亮的插画,画面上,Larry和蝴蝶、小鹿以及其他的小刺猬伙伴们一起在草丛上玩耍。
此外,在画风迁移方面也完成得很好。可以生成不同风格的Larry,比如贴纸风:
最后,当家长提出是否可以基于这些内容讲一个睡前故事,便生成了一个名为“了不起的向日葵刺猬Larry”的故事。
当然,也可以继续为自己讲的这个故事创作插图。
不得不说,和DALL·E的结合可以实现1+1>2的效果。比起之前提供多个独立、专业提示词的生成方式,现在的DALL·E 3更像是以讲故事、聊天的方式,完成了图像的生成和二次创作。
二、相同提示下,DALL·E 3生成图像质量显著改进
DALL·E 3和的集成之所以能够产生优秀的“连招”效果,离不开DALL·E 3模型本身的性能提升。
DALL·E 3在图像生成方面比DALL·E 2改进了很多。提供了一个例子,对于同样的提示词“一幅表现篮球运动员扣篮的油画,描绘成星云的爆炸”,同时使用DALL·E 2和DALL·E 3生成图像并进行对比。
可以看出,DALL·E 3对“扣篮”这一动作的描绘更加准确,对“星云爆炸”这一风格的迁移也更加相似。相比之下,DALL·E 2描绘的图像手绘质感更强烈,对提示词的表现没有那么贴近。
DALL·E 2与DALL·E 3生成图像对比
在旗下社交媒体上分享了多张由DALL·E 3生成的图像,并分享了用于生成这些图像所使用的文字和描述。
比如下图,所使用的提示词为:一个牛油果坐在治疗师的椅子上,说“我只是觉得内心很空虚”,它的身上有一个坑大小的洞。治疗师是一个勺子,正在潦草地记着笔记。
DALL·E 3生成的插画
一位AI爱好者 Gupta在其社交媒体X上分享了他利用提供的提示词在DALL·E 2中生成的图像。可以明显看出,DALL·E 2对于这种自然语言提示词的理解差了很多,也无法生成准确的文字,看起来更像是乱码。
Gupta使用DALL·E 2生成的图像
Gupta尝试了公开分享的9张图像的提示词。可以看出,无论是从准确性上,还是画面的精致程度上,DALL·E 3比起DALL·E 2都有较大的提升。
Gupta使用DALL·E 2生成的图像与DALL·E 3生成图像对比
DALL·E 2于去年4月发布,并于同年7月面向公众开放。时隔一年多,宣布新版DALL·E将于10月首先向 Plus用户和企业版用户发布,随后在秋季提供API接口并面向公众开放。
三、注重安全、版权保护,创作者可提请删除作品
9月20日,宣布面向全球公开招募“红队网络”,邀请有兴趣提高模型安全性的领域专家组成一个社区,帮助评估和抵御风险提供信息。
此前,曾多次被起诉侵权,指出其大模型训练未经允许使用他人的作品。也许是为了规避类似的情况,此次更新时,特别强调了安全性和版权问题。
声称,团队已采取相应的措施来限制DALL·E 3生成含有暴力、成人、仇恨等违规内容的能力。此外,他们与红队网络合作,提高了风险领域的安全性,拒绝生成包含公众人物的内容。