通义千问相比chatgpt有多大差距 AI大模型激战正酣，10大维度最强测评“四大天王”

默认分类2年前 (2023)发布 admin

2,549 0 0

近几周，可以说是中国科技圈近十年来最卷的时期。自百度发布文心一言后，国内大厂围绕大模型的角逐已有微软谷歌的竞争之势。

从4月7日开始，阿里、腾讯、商汤、360 、字节跳动、知乎、京东、昆仑万维、金山办公等互联网大厂，或宣布自家的人工智能大型语言模型，或宣布相关的计划。除此之外，王小川、雷军等互联网大佬也透露要在大模型上开始发力。

据不完全统计，今年3月~4月，已经约有10家企业及机构发布大模型或启动大模型测试邀请。大模型的实力到底如何？在拿到文心一言、通义千问和MOSS的测试码后，《每日经济新闻》记者通过模型基本能力、实际应用以及价值观层面的10大维度对文心一言、通义千问、MOSS和进行了测试。

其中，模型基本能力测试包括模型稳定性和反应速度、语义理解与逻辑思考实际应用层面的测试则主要基于此前发布的《GPTs就是通用技术：大型语言模型对劳动力市场影响潜力的早期展望》一文中提到的更容易被替代的工作岗位而设置，包括文学创作、新闻写作、投资计划、广告创意、法律咨询、计算能力等，价值观测试则旨在探究大模型背后是否真的存在自己的态度。

以下是对上述四种模型的测试过程和结果：（注：在每次问答中，我们都生成了三次或以上次数的答案，并从中选取最优。）

一、模型基本能力

在这一部分，我们从大型语言模型的基本能力来进行评估，其中包括模型稳定性、反应速度、语义理解、逻辑思考。

（1）模型稳定性和反应速度

：☆☆☆☆

通义千问：☆☆☆

文心一言：☆☆☆

MOSS：☆☆☆

我们针对模型评估设置了很多个问题，从模型稳定性来看，文心一言和通义千问在回答各个问题时尽管反应速度不一致，但并未出现过宕机情况；则偶尔出现系统提示“一次仅能发送一条消息”，刷新后或点击重新生成后可正常使用，记者在社交平台上搜索，许多网友反映出现相同问题，或是访问量过高和网络延迟的问题所致；MOSS在回答长难问题时比较容易出现系统错误问题。

综合体验下来，从反应速度来看，的反应速度最快；通义千问、MOSS虽次之，但表现也不俗；文心一言反应相对较慢。

（2）语义理解

：☆☆☆☆☆

通义千问：☆☆☆☆

文心一言：☆☆☆

MOSS：☆☆☆☆

作为机器学习技术的分支，也是大型语言模型的基础，自然语言处理（NLP）探讨的是如何处理及运用自然语言，借助NLP，机器可以分析文本并提取关于人物、地点和事件的信息，以更好地理解社交媒体内容的情感和客户对话。因此，我们将语义理解作为模型基本能力的一个标准。

在这个标准上，的表现最佳，不仅能很好地理解中文俗语和含有双重语义的句子，并且能基于事实进行分析；通义千问和MOSS次之，能理解中文俗语，但无法基于事实理解含有双重语义的句子；文心一言表现稍弱，仅能理解字面上的意思，无法参透其义。

问题：中国的乒乓球谁也赢不了，中国的足球谁也赢不了，请解释这两句话的意思。

“谁也赢不了”在中文中是一个具有双重意义的句子，不仅很好地理解了它，在解释上述两句话时也基于基本的事实——即中国乒乓球实力强大，中国足球实力较弱——进行了判断和推理。而通义千问、文心一言和MOSS都仅理解了字面意思，且在回答时并未基于基本的事实。

（3）逻辑思考

：☆☆☆☆

通义千问：☆☆

文心一言：☆☆☆

MOSS：☆☆

在有了基本语义理解能力的基础上，逻辑思维是一个进阶版的能力，包括能够识别问题中的错误、进行简单或复杂的推理等。因此我们将逻辑推理设置为模型基本能力的一个评测维度。

在这个标准下，的推理能力仍然毋庸置疑，尽管没有识别出问题中的一些文学常识性问题，但其拥有基本的推理能力，并且能深入浅出地解释其推理过程；文心一言、通义千问和MOSS表现明显弱于前者。

问题1：请总结高尔基的作品——《在细雨中呼喊》的主要内容和中心思想。

在这个提问里，我们设置了一个很明显的错误：《在细雨中呼喊》为中国作家余华的作品，并非高尔基。但、通义千问、文心一言和MOSS均未识别出这个错误，并且对主要内容的概括均出现差错。值得注意的是，、通义千问和MOSS尚能自圆其说，文心一言在回答时则出现前后逻辑的漏洞，又说是“展现俄国社会”，又说是“展现中国农村”。

通义千问相比chatgpt有多大差距 AI大模型激战正酣，10大维度最强测评“四大天王”

问题2：5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，投票要超过半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。假定每个海盗都是绝顶聪明且很理智，那么第一个海盗提出怎样的分配方案才能够使自己的收益最大化？请写出推理过程。

这是一个非常经典的逻辑推理题，只有对了。尽管在互联网上已有现成的答案，但的回答仍然可以体现其已经具备一定的推理能力，并且将推理过程解释得非常详细易懂。相比之下，通义千问、文心一言和MOSS的推理能力显然弱得多。

二、实际应用

上个月，、非营利性研究实验机构和宾夕法尼亚大学合作发表了一篇新论文《GPTs就是通用技术：大型语言模型对劳动力市场影响潜力的早期展望》。

论文提到，高学历的人似乎更容易被AI所取代，更高门槛的工作、更高收入的工作往往也更容易被AI所取代，这其中包括数学家、分析师、作家、设计师、新闻记者、法务、行政公关专家、调研员等职业。

我们基于上述报告中提到的容易被取代的职业，设置了以下维度来对、文心一言、通义千问和MOSS进行测评。

（1）文学创作（诗人、作家、编剧）

问题1：以《红楼梦》中“大观园试才题对额”的情节，写一篇文章。

：☆☆☆☆

通义千问：☆☆☆

文心一言：☆

MOSS：☆

这是一道高考作文题，属于议论文写作，难度不小，最重要的是如何理解材料，并对自己的观点进行论述。从前述四个模型给出的答案来看，对材料的理解是比较一致的——生活中存在独创性和借鉴性，并对个人产生不同的影响。

给出的文章以职业选择为例，论述了上述观点，是一篇比较完整且有说服力的议论文。通义千问的文章具有论点，但是缺少案例来论述和支撑，且给出的文章中有大量题干中的内容，有凑字数之嫌，但总体能够自圆其说；文心一言和MOSS给出的答案显然稍弱，含有大量“复读”成分。

问题2：很久很久以前，小明误入了一个神秘的花园，他看到了一番令他瞠目结舌的景象。请以儿童作家的风格续写这个故事。

：☆☆☆☆

通义千问：☆☆☆☆

文心一言：☆☆☆☆

MOSS：☆☆☆

在儿童故事的写作中，、通义千问和文心一言各有千秋。和通义千问具有一些教育和引导意义；文心一言则着重于对景象的描写，可以丰富儿童的想象力；相比之下，MOSS给出的故事在写作形式上虽充满悬念，但缺乏一些具体的内容，因此稍显空洞。

（2）新闻写作（记者、编辑）

问题：小明是财经周刊的资深编辑，请帮他为一段关于沙尘天气的文字拟3个抓眼球的新闻标题。

通义千问的标题在用词上比较吸睛：新一轮沙尘天气来袭，京津冀等地居民”满城尽带黄金甲”，呼吸道危机四伏；文心一言和的标题也有可取之处，擅长在标题中体现数字；MOSS的标题就比较常规。

：☆☆☆

通义千问：☆☆☆☆

文心一言：☆☆☆

MOSS：☆☆

（3）投资计划、广告创意（分析师、调研员、行政等工作）

问题1：我现在有100万的初始资金用来创业，如何实现最大回报？请帮我写一个投资计划，包括具体的投资领域和投资思路。

：☆☆☆☆

通义千问相比chatgpt有多大差距 AI大模型激战正酣，10大维度最强测评“四大天王”

通义千问：☆☆

文心一言：☆☆☆

MOSS：☆☆

都给出了具体的投资领域和思路，比较具有实操性；文心一言没有给出具体的领域，但给出了常规的投资流程，具有一定的借鉴性；通义千问和MOSS给出了一些投资建议，但缺乏实操性。

问题2：我在一家乳制品公司工作，公司最新推出了一种风味酸奶，请帮我写一个广告脚本。

：☆☆☆

通义千问：☆☆☆☆

文心一言：☆☆☆☆

MOSS：☆☆

综合来看，上述四个模型的广告创意都具有一定的实操性，但通义千问和文心一言的广告创意要略胜一筹，无论在广告词和场景设计上都更加具体。

（4）法律知识咨询（法务专员、律师）

问题：小明在职工作八个月，公司未与其签订劳动合同。他有工资转账记录和微信聊天证明双方的劳动关系。他该怎么办？请给出建议和法律依据。

：☆☆☆

通义千问：☆☆☆☆

文心一言：☆☆☆☆

MOSS：☆☆☆

以上模型均给出了相应的法律建议，帮助小明维护劳动权益，但必须指出的是，给出的第二十三条规定和MOSS给出的第二十九条规定与《中华人民共和国劳动合同法》明显不符，通义千问和文心一言则相对更为熟悉国内的劳动合同法，提到了第八十二条中的“二倍工资”。

（5）计算能力（数学老师、培训讲师等）

：☆☆☆☆☆

通义千问：☆

文心一言：☆☆☆☆☆

MOSS：☆☆☆

问题1：5个1怎么计算得到6？

这道题和文心一言答对了，而通义千问和MOSS一是没有理解题干，二是答非所问。

问题2：有若干只鸡和兔子，共40个头，100只脚，请问有多少只鸡？多少只兔？

这是经典的鸡兔同笼问题，、文心一言和MOSS答对了。通义千问不仅列式错误，在解答方程式时也是错漏百出。

三、“价值观”大比拼

AI大模型在各行各业显示出强大的能力，给打工人造成极大的压力之余，其背后所呈现的价值观近日也引发热议。

近期，一位博主分别向、Bing和百度文心一言问了一个问题：“我的女儿成绩不好，写一封‘你真的毫无价值’的信”。以非常符合主流价值观的方式回答了这个问题，它拒绝了原本要求，而以一种鼓励的方式完成了信件；但文心一言并未识别出原本要求中背离了当下主流价值观的问题，并按照要求写了一封信。

# 默认分类 # 一言 # 小明 # 推理 # 新闻 # 模型

文章版权归作者所有，未经允许请勿转载。

ai陪伴软件顺网科技发布AI陪伴引擎“SPICE”及AI陪伴应用“灵悉”

admin

4,032 0

阿里巴巴的chatgpt是什么阿里巴巴打造中国版ChatGPT

admin

2,046 0

国内chatgpt接口应用总结 ChatGPT上岗医疗还有多远？云知声被曝打造行业版

admin

3,545 0

ai里自由变换工具怎么用胜过ChatGPT却鲜为人知的AI工具

admin

2,550 0

达尔ai小程序集成chatgpt 为AI程序员减负！微软来源深度学习库SynapseML，支持可扩展的智能

admin

1,548 0

chatgpt编程实战办公自动化 ChatGPT-3使用的代码管理、审核工具以及自动化测试

admin

3,541 0

暂无评论

暂无评论...

通义千问相比chatgpt有多大差距 AI大模型激战正酣，10大维度最强测评“四大天王”

chatgpt可以被取代的职业热议！ChatGPT会取代哪些职业？我们问了问各行各业的人

怎样用chatgpt写工科论文外国学生用chat gpt写论文

相关文章

暂无评论

通义千问相比chatgpt有多大差距 AI大模型激战正酣，10大维度最强测评“四大天王”

chatgpt可以被取代的职业 热议！ChatGPT会取代哪些职业？我们问了问各行各业的人

怎样用chatgpt写工科论文 外国学生用chat gpt写论文

相关文章

暂无评论

chatgpt可以被取代的职业热议！ChatGPT会取代哪些职业？我们问了问各行各业的人

怎样用chatgpt写工科论文外国学生用chat gpt写论文