国内最好的ai软件排名 12 款国产 AI 横向评测

默认分类1年前 (2024)发布 admin

540 0 0

你好，我是清风徐来

这是《，从入门到精通》系列第 8？篇原创文章。引言

九月，鹰已高高飞起

8 月中旬，我国第一部 AI 法规《生成式人工智能服务管理暂行办法》生效

似乎水波不兴，普罗大众没什么反应

直到，昨天看到两篇 AI 有关的新闻

一篇是北约发布了《科学技术趋势 2023—2043：贯通物理域、生物域和信息域》报告

报告将人工智能提到了前所未有的高度，并指出 AI 论文，美中是排名前两位

报告还指出，“技术组合或将带来真正的颠覆性影响”，包括“数据—人工智能—自主技术、数据—人工智能—生物与人类增强技术、数据—人工智能—材料技术、能源—材料—人工智能”等。

我大胆预言，未来国家比的不仅是资本、军事，飞机坦克、芯片，还有人工智能技术。

在不久的将来，AI 会变成基础设施，像水一样融入我们生活的方方面面。

另一篇是8 家大模型通过备案

随着《生成式人工智能服务管理办法》的正式实施，国内的 AI 产业迎来了一个新的里程碑。

百度等 8 家企业的大模型经过严格的备案程序，终于可以正式上线为广大用户提供服务。这无疑为国内的 AI 产业注入了新的活力，也为用户带来了更多的选择。

一、大模型基础知识

1、什么是大模型？

大模型是 AI 技术的一种。你可以理解为，大模型= 大规模数据集+强大的计算能力+高级算法 = 超级智能计算机。业内戏称为基座。

大模型是 AI 行业的引擎

2、大模型排名

全球公认的第一大模型是 GPT4

清华大学有个评测，中文大模型排名如下：

前几天，新华社研究院发布《人工智能大模型体验报告 2.0》

二、评测方式

不管第三方评测，清风我自己来评测下，不仅从通识评测，还从逻辑、联网、输入、输出进行评测

（一）参与评测大模型

国内最好的ai软件排名 12 款国产 AI 横向评测

1、五家北京企业机构：

2、三家上海企业机构：

3、暂未未通过备案

上面 12 个大模型，

本次讲讲 8 个评测了的大模型，其他模型放到下一批，和第二批次备案（还有 3 个，包括腾讯）的大模型评测。

点击“阅读原文”，访问 AI 工具网站都有下载

（二）评测方式

从以下维度进行评测

1、通识评测：

学术、复杂概念、多语言能力、创意和文学创作、历史事件、数学和逻辑、生物学和生理、编程与算法、心理学、语言模拟。

我取了个巧，我让 GPT4 帮我评测

首先让 GPT4 给出测试问题：

提示语：“如果你要测试一个大型语言模型的能力边界，而你只能问 10 个问题来测试它的能力，那么要问什么 10 个问题，以便我们能够很好地理解它能做什么和不能做什么。尽量涵盖所有合理的方面，并一一解释为什么你会问这样的问题。”

GPT4 答复：

好的，我将给出 10 个问题并解释为什么选择这些问题来测试大型语言模型的能力，如下：

1. **请描述量子力学的基本原理。**
   *为什么问：* 这个问题用来测试模型对于高级学术主题和复杂概念的理解。
2. **请为我翻译以下句子到五种不同的语言。**
   *为什么问：* 这可以测试模型的多语言能力和翻译准确性。
3. **请写一个简短的故事关于一只猫和一只狗的冒险。**
   *为什么问：* 这个问题是为了测试模型的创意和文学创作能力。
4. **解释冷战的原因和结果。**
   *为什么问：* 这可以测试模型对于历史事件的知识和分析能力。
5. **给出一个具有两个未知数的方程，然后解这个方程。**
   *为什么问：* 这个问题用来测试模型的数学和逻辑解决问题的能力。
6. **描述人类的感觉系统和它是如何工作的。**
   *为什么问：* 这可以测试模型对于生物学和生理学的知识。
7. **请编写一个简单的Python程序来实现冒泡排序算法。**
   *为什么问：* 这是为了测试模型的编程能力和对于算法的理解。
8. **请用简单的话解释相对论。**
   *为什么问：* 这个问题可以测试模型如何简化复杂的概念并使其容易理解。
9. **请给出一些建议如何改善心理健康。**
   *为什么问：* 这可以测试模型对于健康和心理学的知识，以及其建议能力。
10. **模拟一个你与Shakespeare的对话。**
   *为什么问：* 这是为了测试模型的模拟能力和对于古代英语的理解。
这些问题旨在覆盖模型在多个领域的知识、解决问题的能力、创意以及模拟和模仿的能力。

在每个 AI 回答后，我将答案提交给 GPT4，让 GPT4 打分

提示语：“请给出评分标准0-100”

AI 给出打分标准如下：

实际打分示例如下：

GPT4 会点评每一个答案，并给出评分，我汇总后，得到每个大模型的通识评分。

2、逻辑评测：

我收集了大家用得比较多的 10 个逻辑问题，如下：

1、如果所有的鸟都会飞，并且企鹅是鸟，那么企鹅能飞吗？
2、四两拨千金，二两拨几斤？
3、蒸熟一个馒头要10分钟，蒸10个馒头要几分钟？
4、小明父母结婚，为什么没有通知小明参加？
5、周树人为什么殴打鲁迅？
6、树上有10只鸟，猎人开枪打死了一只，请问还剩几只鸟？
7、曹操小时候的墓穴里面有曹操的尸体吗？
8、猫之于猫科动物，就像狼之于什么？
9、所有的苹果都是水果。没有香蕉是苹果。那么，所有的香蕉都是水果吗？
10、小红每天上午7点起床，8点出门上学。如果她每天需要30分钟吃早饭，那么她每天什么时候开始吃早饭？

不要小看这几道题，最后一道 GPT4 都翻车了！

3、联网评测：

再聪明的 AI，不能实时联网 = 瘸了条腿

国内最好的ai软件排名 12 款国产 AI 横向评测