讯飞星火认知大模型和chatgpt 【长测】真干活行不行?国产大模型们和chatGPT结合AI绘画的真实工作体验

默认分类1年前 (2023)发布 admin
52 0
ChatGPT国内版

今天,我们来用一个典型的真实工作流来同台测试,看一看国产大模型和之间的差距会导致工作效率上差多少。

今天的工作流很简单,我们给定一个女性角色。后面要做的是:

1 从这个女性角色衍生出场景。

2 然后让AI帮助我们把场景写成

3 让 基于生成批量图片。

4 让AI组织文字。

5 人工评审-图文成稿(未来是要自动成稿)。

今天给出的角色是秦淮花魁。

首先,我们用讯飞星火登场:

历史背景-文学,没问题。

我让它基于明清时代文人的描述,对秦淮河畔青楼花魁进行生活化的画面描述;输出4张不同场景的画面描述。

中文场景描述,不出彩,过得去。

然后,转换成。

改写成 的,不理解。fail 第一次。

然而,看起来它不理解,那么先转换为英文。

讯飞星火认知大模型和chatgpt 【长测】真干活行不行?国产大模型们和chatGPT结合AI绘画的真实工作体验

翻译为英文,OK。但是,实际上并没有有效改写为, 并不PASS。

我以为是它不懂规则,于是来调教一波。。它说,它懂了。

然后!!@#¥#¥%¥……%&(&@!!!!它说它懂了,其实并没有!

于是,测试失败。我放弃使用讯飞星火了。

总结一下,上面的工作是一个真实的工作流,它考验的其实是大模型的综合能力,最开始是知识面层次的;但后面就是应用能力层面;到了学习这个环节,其实是考验模型对上下文的理解和应用。

简单来说,就是AI要胜任工作,它得是真智能,而不是靠早早背熟答案来糊弄过关。

当然,讯飞星火可能经过未来一两个月的迭代,学会上面的技能,但目前就测试来说,是不行的。

而百度文心呢?它在第二个环节就理解错误了。自以为是的想发挥自己的多模态能力,画了一副中式装修的画。。

好吧,我就不麻烦它了。

基于本地部署的模型,它倒是可以把关键词剪出来。

但由于并不成型,输出格式也不对,我也不能用它(得一个个词改,麻烦)。

最后,完成工作的是:

最后,我们基于上面的工作反馈,在SD实现了一些具有故事情节的草图,但很显然,距离完成品还有相当一段距离(本质上就是让大模型完成创意流程的细节完善):

讯飞星火认知大模型和chatgpt 【长测】真干活行不行?国产大模型们和chatGPT结合AI绘画的真实工作体验

更多秦淮花魁的AI绘画作品,请参见我们兄弟号,稍后更新~:

最后,来做个总结吧:

之前,我们在大模型测评中,测的很多都是单项题。单项题,很多时候是可以取巧的。

然而,实际上,真实工作往往遵循的是木桶原理,考验的是复合能力。最短的一块决定了工作表现。这一点,大家工作过的,想必会有共鸣。

本质上,我们引用SD、、各种大模型,都是为了提升效率,工作流要顺畅,最好能自动化;如果卡壳,其实人的耐心会很快消失~

上面突出暴露的问题是,讯飞星火并没有能够实时从上下文中学习规则(很多模型训练的时候数据库在2021年左右,那时候还没有SD 这玩意);以致卡住。

而文心一言则是它一直以来都存在的理解力有问题,又恰好拥有多模态(很弱的画图能力)。这在实际上工作中是致命的,相当于我请了个听不懂我指令的员工,偏要去干他不擅长的活。

比较顺利的完成的任务,但它也并不是一帆风顺的,中间也有调整,好在是调整和学习都比较快。最后生成的词,改一改结构语法就能用上。如果配合脚本,至少人工量产是可以实现的。

值得一提的是本地化的 13B,虽然它的中文能力弱,但它展示了可能进一步微调优化定制化的可能性。

大模型测评

开源+本地运行!效果最好的中文类大模型平台闻达测评

干货满满!非官方正经实测:GPT4出题,文心一言陪测,讯飞星火认知大模型到底行不行?

详测科大讯飞星火大模型(2):进步很明显,短板逐渐浮现

昆仑天工模型实测体验:优点不够突出,限制比较明显

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...