今天,我们来用一个典型的真实工作流来同台测试,看一看国产大模型和之间的差距会导致工作效率上差多少。
今天的工作流很简单,我们给定一个女性角色。后面要做的是:
1 从这个女性角色衍生出场景。
2 然后让AI帮助我们把场景写成。
3 让 基于生成批量图片。
4 让AI组织文字。
5 人工评审-图文成稿(未来是要自动成稿)。
今天给出的角色是秦淮花魁。
首先,我们用讯飞星火登场:
历史背景-文学,没问题。
我让它基于明清时代文人的描述,对秦淮河畔青楼花魁进行生活化的画面描述;输出4张不同场景的画面描述。
中文场景描述,不出彩,过得去。
然后,转换成。
改写成 的,不理解。fail 第一次。
然而,看起来它不理解,那么先转换为英文。
翻译为英文,OK。但是,实际上并没有有效改写为, 并不PASS。
我以为是它不懂规则,于是来调教一波。。它说,它懂了。
然后!!@#¥#¥%¥……%&(&@!!!!它说它懂了,其实并没有!
于是,测试失败。我放弃使用讯飞星火了。
总结一下,上面的工作是一个真实的工作流,它考验的其实是大模型的综合能力,最开始是知识面层次的;但后面就是应用能力层面;到了学习这个环节,其实是考验模型对上下文的理解和应用。
简单来说,就是AI要胜任工作,它得是真智能,而不是靠早早背熟答案来糊弄过关。
当然,讯飞星火可能经过未来一两个月的迭代,学会上面的技能,但目前就测试来说,是不行的。
而百度文心呢?它在第二个环节就理解错误了。自以为是的想发挥自己的多模态能力,画了一副中式装修的画。。
好吧,我就不麻烦它了。
基于本地部署的模型,它倒是可以把关键词剪出来。
但由于并不成型,输出格式也不对,我也不能用它(得一个个词改,麻烦)。
最后,完成工作的是:
最后,我们基于上面的工作反馈,在SD实现了一些具有故事情节的草图,但很显然,距离完成品还有相当一段距离(本质上就是让大模型完成创意流程的细节完善):
更多秦淮花魁的AI绘画作品,请参见我们兄弟号,稍后更新~:
最后,来做个总结吧:
之前,我们在大模型测评中,测的很多都是单项题。单项题,很多时候是可以取巧的。
然而,实际上,真实工作往往遵循的是木桶原理,考验的是复合能力。最短的一块决定了工作表现。这一点,大家工作过的,想必会有共鸣。
本质上,我们引用SD、、各种大模型,都是为了提升效率,工作流要顺畅,最好能自动化;如果卡壳,其实人的耐心会很快消失~
上面突出暴露的问题是,讯飞星火并没有能够实时从上下文中学习规则(很多模型训练的时候数据库在2021年左右,那时候还没有SD 这玩意);以致卡住。
而文心一言则是它一直以来都存在的理解力有问题,又恰好拥有多模态(很弱的画图能力)。这在实际上工作中是致命的,相当于我请了个听不懂我指令的员工,偏要去干他不擅长的活。
比较顺利的完成的任务,但它也并不是一帆风顺的,中间也有调整,好在是调整和学习都比较快。最后生成的词,改一改结构语法就能用上。如果配合脚本,至少人工量产是可以实现的。
值得一提的是本地化的 13B,虽然它的中文能力弱,但它展示了可能进一步微调优化定制化的可能性。
大模型测评
开源+本地运行!效果最好的中文类大模型平台闻达测评
干货满满!非官方正经实测:GPT4出题,文心一言陪测,讯飞星火认知大模型到底行不行?
详测科大讯飞星火大模型(2):进步很明显,短板逐渐浮现
昆仑天工模型实测体验:优点不够突出,限制比较明显