本周对外披露了新一代的文本转图像模型DALL·E 3,指出该模型不但更能精确地以图像呈现用户所输入的文本描述,也允许用户利用来产生不同的文本描述与相对应的图像。现阶段DALL·E 3尚处于研究预览阶段,预计于10月供应给 Plus及 客户。
指出,现代的文本转图像系统倾向于忽视文本或描述,迫使用户学习如何输入提示,但DALL·E 3在如何精确依照用户所输入的文本,来生成图像的能力上,却有着跳跃式的增长。
例如得以文本描绘“一个有着明月照耀的熙攘街道,一名身穿天鹅绒斗篷的年轻红发女子与穿着笔挺西装的老商人正在讨价还价,老商人一方面还在讲着蒸汽朋克电话”DALL·E 3即可生成惊人的画面。
图片来源
就算在DALL·E 3中输入与DALL·E 2同样的文本描述,要求“以油画呈现具备爆炸效果与张力的灌篮动作”,DALL·E 3的表现明显更加突出。
此外,用户还可借由的协助来生成文本叙述,只要在中输入简单的句子,告诉它你想看到的画面,便会自动生成详细的叙述以用来输入DALL·E 3,而且还能生成不同的描述,一直到DALL·E 3所产生的画面符合用户的需求。
对于通过DALL·E 2或DALL·E 3所生成的画面,用户都可自由使用,不需的许可便可重印或出售。
至于对DALL·E 3的限制则与DALL·E 2差不多,限制了DALL·E 3生成暴力、成人或有害内容的能力,也会拒绝用户要求生成仍在世的艺术家风格图像的请求。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...