2022年是AIGC元年,其中AI绘画领域在开源的 模型的加持下更是火爆全球,而动漫风格图像生成是AI绘画中最热门的领域之一。动漫风格图像生成,或者称为二次元图像生成器,催生了一批热门的应用产品,其中最为知名的产品包括:国外的 平台, 平台的动漫专版 ;国内的应用包括来自腾讯的“异次元的我”,盗梦师平台,意间绘画平台等。大量的网民借助这些平台创作二次元动漫图像,包括动漫风格的人物照、风景照、头像等,并分享到社交媒体和短视频平台上,形成一股网络AI绘画热潮。出了以上列出的商业平台,不少开发者也在 模型开源平台开源了英文的动漫风格转换模型,比如知名的 Waifu- 模型, -v3 模型等,众多的用户、开发者和商业平台也得益于这些开源模型,可以自由地进行动漫图像创作。可以说,诸如此类的二次元图像生成器有着广泛的用户需求和市场。
但是,目前市场上还鲜有开源的中文动漫模型,大部分用户只能翻译API + 英文动漫 模型进行开发、创作,一方面语言上的gap给用户带来了不便,另一方面英文模型在面对文化差异和中文中独特的表达时也往往无能为力。基于此,IDEA研究院认知计算与自然语言研究中心(IDEA CCNL)在2022年年尾开源的第一个中文 模型“太乙 ”的基础上,继续在动漫图像基础上训练得到了第一个中文动漫模型“太乙-动漫风格 ”。模型目前已经开源到 模型平台,通过开源带动国内动漫图像生成和创作领域的发展。
第一次使用需要load模型,会花点时间模型介绍
太乙-动漫风格模型是首个开源的中文动漫图像生成模型,该模型采是基于IDEA-CCNL/Taiyi—1B–v0.1 模型进行继续训练得到的。我们搜集了海量的开源动漫图像数据集,这些图像绝大部分是通过一组标签来进行描述的,我们针对图像和文本进行细致的清洗和人工标注,筛选掉违规数据。经过筛选,我们得到了总量在100万左右的两份动漫图文对数据集(包含100万较低质量数据和1万高质量数据),在太乙模型基础上进行了两阶段的微调训练,训练框架使用的是封神榜团队自研并且也已经开源的-LM。训练过程中我们也尝试了不同的训练策略和训练参数,比如对文本编码器和生成模型的冻结与替换等方式,对学习率、等模型参数的调优),最终得到了开源的太乙-动漫风格模型IDEA-CCNL/Taiyi—1B-Anime–v0.1。得益于强大的太乙 模型,太乙-动漫风格模型不仅能够生成精美的动漫图像,还保留了太乙模型对于中文概念强大的理解能力。
生成效果展示文生图
以下例子是模型在webui上运行获得,用户通过书写一组标签,输入模型进行推理就能得到自己想要的图片。支持完整句子输入的太乙-动漫风格模型也已经在开源路上,希望大家多多关注。下面的例子展示了太乙-动漫风格模型在生成人物、风景、城市、动物方面的能力。
男生、女生
户外、室内
乡村、城市
动物动漫风格迁移
太乙-动漫风格模型除了能够生成精美的动漫风格图像,还可以用于真实照片到动漫图像的风格转换,通过对描绘文本的指定本模型还展现出了一定的图片细粒度编辑能力(注:原图来自网络,仅作为学术研究和非商业用途):
人物动漫风格转换
让我们再看两个例子:
and huge
大模型的偏见、歧视问题由来已久,比如人脸识别模型不容易识别黑人,HERB这篇论文发现语言模型也存在对亚非国家存在地域歧视。比如这真实照片风格转换中,某文生图平台将把黑人小女孩识别为黑猩猩引发了社交媒体上的争议。太乙-动漫风格模型主通过对训练数据的纠偏、对纠偏、调整原图的加噪强度等超参数等方式,努力解决动漫风格转换中的偏见问题。下面展示了太乙-动漫风格模型生成的三个例图(注:原图来自网络,仅作为学术研究和非商业用途):
照片动漫风格转换中文理解和生成能力
得益于太乙模型本身强大的中文理解能力,太乙-动漫风格模型针对中文概念和文本的理解上,对比开源的英文动漫模型有了明显的提升,更适合国人使用和创作。
下面的例子,我们在三个文本描述上对比了太乙模型和两个知名的英文动漫模型的图像生成效果。两个英文模型在使用的时候,我们是把中文文本描述翻译成英文再提供给模型进行推理。以下四张图生成使用的模型从左到右依次是太乙,太乙-动漫风格,Waifu–v1.3 和 -v3 。
太乙系列模型强大的中文理解和生成能力使用指南webui使用方式
非常推荐使用webui的方式使用本模型,webui提供了可视化的界面加上一些高级修图功能。关于webui的搭建可以参考封神榜团队的文档太乙 webui配置
善用超分模型给图片质量upup
比如这个例子:
1个女孩,绿眼,棒球帽,金色头发,闭嘴,帽子,看向阅图者,短发,简单背景,单人,上半身,T恤
Negative prompt: 水彩,漫画,扫描件,简朴的画作,动画截图,3D,像素风,原画,草图,手绘,铅笔
Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 3900970600, Size: 512x512, Model hash: 7ab6852a
生成图片的图片是512*512(大小为318kb):
超分前
在webui里面选择extra里的R- 4x+ 模型对图片质量进行超分:
超分操作示例
就可以超分得到2048*2048(大小为2.6Mb)的超高清大图,放大两张图片就可以看到清晰的区别,512*512的图片一放大就会变糊,2048*2048的高清大图就可以一直放大还不模糊:
超分后代码使用方式
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained(model_path, torch_dtype=torch.float16).to("cuda")
prompt = '1个女孩,绿色头发,毛衣,看向阅图者,上半身,帽子,户外,下雪,高领毛衣'
image = pipe(prompt, guidance_scale=7.5).images[0]
image.save("1个女孩.png")
更多使用方式和生成例子可以参考封神榜团队的文档太乙动漫绘画使用手册v1.0
太乙 – 中文AIGC模型的未来
目前在庞大的中国市场中,有将近 10 亿的文化产业正在被 AIGC 冲击并快速创新发展,动漫风格图像生成和迁移就是其中充满前景的一个重要领域,同时也有更多的新机遇在裂变中产生。由于此前的 AIGC 模型还无法和特殊的中国文化背景相结合,致力于成为中文认知智能的基础设施的 IDEA 研究院认知计算与自然语言中心,希望通过推出太乙系列模型,助力加快在 AIGC 全球市场化中中国的文化产业数字化转型的创新发展,促进各个相关行业的升级。而太乙所在的封神榜预训练模型开源体系,已经开源 80 个模型,覆盖 AIGC、自然语言理解、受控文本生成等多个领域,成为中文最大的预训练模型开源体系。基于封神榜模型的 GTS 模型生产平台,自动生产的 1 亿参数模型,击败众多百亿千亿参数模型,进入 榜单前三名,机器自动化生成模型的能力达到了算法专家水平,AI 生产 AI 的时代正在到来。
IDEA CCNL认为,在 AIGC 中,人的作用是更为重要的,生成式 AI 应悄无声息地融入大众生活中并更好地帮助拓展人类的想象力边界。所以,与 AI 互动生产的内容,是帮助AIGC走向下一个生产力阶段的关键。因此,IDEA CCNL除了基础模型和基础算法的研究之外,还在研究更精准的文本生成和基中文于文本的交互式图片编辑。以太乙为核心的 AIGC 模型和动漫风格迁移模型会持续更新和升级,敬请期待。
欢迎对太乙和太乙-动漫风格模型感兴趣的小伙伴们联系IDEA CCNL,一起共建中文 AIGC 和图文编辑的新世界。
封神榜相关链接:
本文使用 Zhihu On 创作并发布