信息·文化研究究
AI绘画软件的创作特征研究
——以绘画软件Novel AI生成的动漫人物形象为例
余青龙
(韩国东西大学,釜山 广域市 47011)
摘 要:近年来,随着扩散模型、Lora模型、等技术应用于绘画领域,现今的AI绘画软件已经能够生成完整的动漫人物,具备了较高的可控性和精确性。文章通过分析AI绘画软件“Novel AI”生成的动漫人物形象,总结了这一AI软件表现出的绘画创作特征,并在此基础上评估了现今人工智能技术对于动漫创作产生的影响。
关键词:AI绘画;Novel AI;动漫人物
近年来,随着科学技术的发展,人工智能技术已经可以通过大数据进行学习、训练和模拟,并生成各种具有创意性的图像作品[1]2。AI绘画属于人工智能艺术( art),即通过人工智能程序(文本到图像模型和音乐生成器)所生成的艺术作品[2]。2022年10月,由美国特拉华州的公司开发的智能创作平台“Novel AI”推出了图像生成服务。这一软件能够凭借文字和原始图像准确地生成符合使用者预想的动漫人物形象,成为当今非常热门的AI绘画软件。“Novel AI”的图像生成技术大大地提升了AI绘画的可控性和精确性,不可避免地会对当今动漫人物的创作方式、设计理念和审美观念产生显著的影响。因此,研究这一AI绘画软件的创作特征,并在此基础上评估现今人工智能技术对于动漫创作所产生的影响是艺术创作实践中需要进行探索的问题。
一、Novel AI的运行原理与工作模式(一)运行原理
Novel AI是一款具有从文本到图像生成功能的AI绘画软件,其图像生成模型是通过8个 A100 GPU对约530万张图片的数据集上对源代码可用的 模型微调而得到的,属于扩散模型( model)[3]。
扩散模型是一类潜变量模型( )。扩散模型的目标是通过对数据点(data )在潜在空间中扩散的方式进行建模来学习数据集()的潜在结构。扩散模型在AI绘画软件中的应用,表现为在一副图像中逐步加入噪点,直到图像被白噪声全部覆盖。将这一过程逆转,AI即可学习用逐步去噪的方式进行作画[4]。如图1所示。
图1 扩散模型在AI绘画软件中的应用
Novel AI能够从已有的人物图像中提取“tag”,即描述人物形象的提示词。AI能够根据“tag”学习图像的关键特征和绘画风格。当模拟的原始图像达到一定数量时,Novel AI即可创建出绘画模型,之后仅靠输入少量文字信息即可生成汇集多种绘画风格的图像作品。例如,将一张在上课中的少年的动漫形象导入“tag”提取界面,即可提取出如图2所示的英文“tag”。
(二)工作模式
Novel AI拥有文字生成、图像生成(图生图、绘图、局部重绘)、模型合并、模型训练等4个主要的工作模式。
图2 Novel AI从人物图像中提取出的“tag”
在Novel AI的“文生图”操作页面中,如图3所示。使用者可以在“”栏目添加描述人物形象的英语词汇。如同魔法师释放魔法时吟唱的“魔咒”,Novel AI可以通过这些提示词来生成具备相应特征的人物形象。提示词需要包括描述关于图像质量、绘画风格、人物相貌、人物表情、人物身体特征、人物姿势、人物所处空间、画面镜头等方面的文字内容。一般来说,描绘人物形象的提示词越详细,AI软件生成符合使用者意愿的人物形象的可能性就越高。
需要注意的是,为了尽可能让AI软件排除可能出现的劣质的、不良的内容,在下方的“”栏目,使用者需要输入必须避免的反向提示词。这些反向提示词可以使生成的人物形象避免出现面部/ 肢体畸形、人体结构不良、低分辨率等负面效果。
在Novel AI的“图生图”操作页面中,使用者可通过导入原始图像(包括真实照片、手绘草图等)和输入提示词来生成新图像,并在导入图片的栏目下方调整生成图像的各项参数。通过调整其中的“CFG Scale”和“”的参数能够决定新图像相对于原始图像的重绘幅度。如果使用者对生成结果不满意,亦可在“局部重绘”界面对于人物形象进行粗略涂改,之后AI即可在原图基础上完善部分细节。如图4所示。
图3 “文生图”模式的操作界面
图4 “图生图”模式的操作界面
二、Novel AI的人物形象创作特点(一)人物形象快捷生成
“文生图”和“图生图”是Novel AI的基本创作功能,这两项功能使得这一软件具有能够凭借少数提示信息即可快速生成预想图像的创作特点。
例如,在使用“文生图”功能时,使用者只需要在“”栏目输入“1 girl, eyes,messy hair,long hair, hair,Hair glows,pov,blush,White hair,Red eyes, ears, at ,, angle”等英文关键词,即可生成一个有着白色头发、红色眼瞳,而且面容红润的猫耳少女的正面形象。如果添加“,best ,, ,CG,”等关键词,则可使生成的人物图像保持较高的画面质量。如图5所示。
图5 使用“文生图”功能生成的少女形象
而在使用“图生图”功能时,Novel AI可以根据导入的真实图片更加快捷地生成动漫人物,所生成的人物一般会形成和原始图像中的人物相似的姿态。如果导入草图,AI软件则可在少数简单线条的基础上生成完整而复杂的人物形象。而且在使用“图生图”功能时,使用者仍然能够通过输入关键词来尽可能地控制AI生成符合预想的人物形象。如图6所示。
图6 使用真实图片和草图生成的人物形象
如果AI生成的人物形象的某些部位出现问题,使用者亦可在“局部重绘”界面对图像进行快速修改。例如,如果生成人物的手部出现多指、扭曲等畸形现象,则可将图片的所有的原始“tag”,也就是提示词复制到“”栏目,然后使用笔刷涂抹需要修改的部位,即可通过再次重绘来矫正畸形部位。如图7所示。
图7 对于人物手部的局部重绘
(二)多种绘画风格模拟
因为Novel AI技术成像基于提取并糅合绘画模型,即综合已有的图像素材库中的绘画特征,所以使用者可以通过编排绘画模型,使得这一软件生成的人物形象具有多种绘画风格。
例如,Novel AI一般会生成2D风格的动画人物,如果使用者需要生成3D风格的人物形象,则可在“训练”操作页面中训练3D风格的绘画模型。在“创建”界面,使用者输入将要训练的模型名称,这一名称可以直接作为提示词运用于“文生图”操作页面中。下方的“词元(token)向量数”一般需要在“6”以上才能确保所要创建的绘画模型的精确度。之后,使用者需要在控制台界面中上传一定数量的3D人物图像作为“原料”,再将这些原始图像预处理之后,即可在“训练”界面中训练并生成新的绘画模型。如果选择这一新模型作为AI作画的参照对象,即可生成3D绘画风格的人物形象。如图8所示。
图8 使用不同绘画模型生成的人物形象对比
如果想要混合不同画作的绘画要素,使用者可以在Novel AI的“模型合并”操作页面中将“模型A”和“模型B”两种绘画模型合并为一个新的绘画模型。并且通过调整两个模型之间的输出比率,可以决定二者绘画风格的混合比例。例如,将电视剧《权力的游戏》的角色丹妮莉丝·坦格利安的真人图像与Novel AI原有的2D动漫风格的绘画模型进行合并,之后按照不同输出比率(参数)生成的人物形象如图 9所示。可以看出原有2D绘画模型的输出参数越高,AI生成人物的绘画风格就越接近2D动漫。
图9 使用不同参数比例合并得到的绘画模型
如果使用者想要生成特定动漫人物的图像,则可借助“Lora模型”实现这一目的。Lora的英文全称为“Low-Rank of Large ”,主要用于处理大模型微调的问题。AI绘画软件中的Lora模型插件提供了更加便捷与自由的微调模型,能够帮助使用者更加精准地生成指定的绘画风格和人物角色。例如,如果想要生成动画《赛博朋克:边缘行者》中的角色Lucy的图片,那么创建这一人物造型相关的Lora模型所需的图片数量远少于一般的绘画模型,而且生成的人物也能稳定且准确地复制原有的人物白色短发、纤细身材、混搭服饰等形象特点。如图10所示。
图10 使用“Lora模型”生成的特定动漫人物
(三)多人物,多姿态设定
如何准确生成预想的人物姿态设定一直是AI绘画软件所面临的难题,而技术则使得这一方面的AI绘画功能获得了革命性的进步。
是近年来推出的面向控制层的实时性现场总线络,在同一物理层介质链路上提供时间关键性I/O数据和报文数据,包括程序的上载/下载,组态数据和端到端的报文传递等通讯支持,具有高度确定性、可重复性和高速控制等优点[5]。在引入了技术之后,Novel AI能够捕捉并生成参考图中物体的基础线条、动作骨骼、景深、色块分布等关键特征,以此为基础引导AI生成最终效果。如图11所示。
图11 对于参考图像中各构成要素的处理效果
例如,如果选择一张4个女孩在海边的真人照片作为参考图,使用工具菜单中的工具就能够捕捉并生成图中每个人物的动作骨骼,以此为基础引导AI生成表现出相应姿态的动漫人物形象。由此可见,通过技术,Novel AI仅仅根据相应的动作参考图片,就能够准确呈现出使用者预想的动漫人物姿态。如果搭配相应的提示词,还可以生成多个人物互动的场景。如图12所示。
图12 多人物,多姿态动漫人物图像的生成流程
三、结语
综合以上内容可以看出,时至今日,以Novel AI为代表的AI绘画软件生成动漫人物形象的技术具有操作简单、快捷的特点。而且在扩散模型、Lora模型、等技术的加持下,其生成的动漫人物具有形象特征准确表现使用者的设计预想,模仿/ 混合多种绘画风格,锁定并生成特定人物形象以及精确生成多人物/多姿态图像等创作特征。
结合这些创作特征可以看出,在AI绘画软件的帮助下,创作者即使没有掌握专业绘画技巧,也可以快速地创作出具有复杂姿态和多种风格的动漫人物形象,从而极大地降低了动漫创作门槛。同时,Novel AI也能够帮助专业画师更加便利地修改图像和设定人物姿态,其模仿绘画风格以及生成特定人物的功能也使得高效率的漫画创作具备了可能性。因此,仅从技术角度来看,AI绘画软件能够对现有的ACG产业产生变革性的影响,会极大地推进动漫创作的大众化和高效化。
但在另一方面,这一绘画软件技术成像的人物生成需要从大量已有画作中提取并收纳各种关键绘画特征。从本质上来看,其创作很大程度上是对已有画作的复制与拼贴,这将导致使用AI软件进行创作将会面临侵犯他人版权的风险。因此,界定AI绘画作品的原创性,厘清抄袭和借鉴之间法律/伦理方面的界限是推广AI绘画亟待解决的问题。
参考文献:
[1] 冯强. 人工智能绘画的艺术价值及未来发展研究[D]. 北京:鲁迅美术学院, 2021.