我们已经知道基于预训练的方式具备了一定程度上的基础知识和逻辑推理能力,它最擅长的能力还是创作,比如生成文本(包括文本摘要、文章改写等)、图像、视频、声音等,但是对于严格的逻辑推导比如复杂数学计算以及对事实数据要求较高场景则几乎无能为力。
GPT作为通用的人工智能基础,想满足全人类的服务需求,这个能力显然远远不够,因此 4 Plus引入了功能,让具备了联网能力,这对来说就是如虎添翼,一下子打开了无限的想象空间。比如接入插件,补齐了复杂数学计算的能力;接入插件具备了实时网页阅读的能力;接入Speak插件,具备了翻译的能力。
实际上,首批收纳了70余款插件,约八成插件集中于购物、餐饮、旅行、住房和求职场景,其余分布在教育、财经咨讯、内容社区和编程技术场景。
有两个比喻可以形象说明从计算机时代到GPT时代,人工智能带给人类的影响:乔布斯说有了计算机,人类的梦想前进步伐像是登上了自行车,而微软CEO 纳德拉 则认为有了GPT,人类思想前进的步伐像是登上了蒸汽机。蒸汽机代表我们进入了入门级的AI自动化时代。
在刚刚过去的微软开发者大会上,微软宣布全面All in AI: 11 将在6月份全面基于AI改造操作系统,Bing与深度绑定,且与的插件共享与标准互认。为了让人们易于接受这些AI工具,微软将这些AI工具统称,中文直译就是副驾驶员。你可以把它理解为类似于的AI产品,只不过它的主要功能不是随意地Chat聊天,而是通过聊天的交互方式帮你更深度地工作——写出一段有用的程序、管理商品库存、或者根据你的需求调用你电脑中的不同应用。相较于聊天机器人,微软所定义的更像一个个在不同工作场景中配合用户完成各项工作的助手。
比如如果你是 11系统,它的就会时刻待在电脑屏幕的右方等你召唤:
-你可以向它提出这台电脑系统层面的问题,比如当你提问“能否让我的电脑变得更适合工作”, 就会提议你开启专注功能和深色模式,如果你点选Yes,它就可以自动开启这些功能。
– 你还可以让它调用你电脑上已安装软件的功能,比如你可以问 “有什么音乐适合工作时候听”,它就会主动打开并且搜索相关歌单。
– 你甚至可以让它帮你工作,比如当你面对一篇论文pdf或者一段Word文档里的文字时,你都可以直接让 帮你总结提炼。
-当你在Bing中询问“周围可售的3套100万以内的房子有哪些”时,就可以调用(美国线上房地产公司)开发的来回复。
– 当你在Word 中起草合同时,你可以直接调用 Law(法务解决方案产品)开发的来帮你撰写,并且用(法务数据库产品)的来帮你核查最新法律条文,最后再用 (合同纠错产品,以上三款产品全部来自汤森路透公司)来帮你最终梳理整个合同需要修改的地方。
到这里,也唤起了你的好奇心,那到底是什么?我这里从技术角度来看,如何开发插件。
这里需要填写后端提供服务的地址(ip:port形式),比如在本地开发测试就填写,在中开发一个,需要提供以下两个文件:
1.well-known/ai-.json:该文件记录的一些。这些信息将用来在插件商店展示该插件的信息,比如logo,描述等。
2..yaml:.yaml是一个标准化文档,向解释插件所提供的接口和接口的响应格式等。并说明了如何调用这些接口 。这个文档名称可以自定义,在ai-.json指定。
关于ai-.json的内容,我们以科学计算插件为例,在浏览器中打开:
最重要的是红框的字段l描述的内容:
就这个东西?!
没错,就是这段话指导了如何使用这些API,继续看它定义了哪些API?打开json文件中api/url指向的API定义地址:
可以看到这个yaml内容分两部分:
1. 版本、接口名称和版本,服务器地址和描述
2. 接口地址、请求方法、入参和出参
在这个例子中,yaml中paths描述了提供了三个接口:
有了如何使用呢?看看官方介绍吧,秒懂,不再赘述。
的重点就是API的定义和开发。开发人员对API再熟悉不过了,平时后端开发人员就是提供这些标准化的接口定义与实现。前端开发同学基于这些API定义,将页面请求打到这些API并获取响应结果。前后端联调时候,双方经常为API的入参和出参如何定义,如何使用等问题吵得不可开交。
这下好了,对GPT来讲,你只管用自然语言简单描述下怎么调用即可,再没有人来跟你吵这个方法名字或者参数名字命名得多不规范了。但是作为后端开发人员,基本的武德还是要讲的,也不能随意定义API和出入参,不然GPT也会罢工的,最后苦的还是自己。
说到这里,也许令人冒冷汗的应该是前端了,因为GPT直接给传统的基于网页开发模式来个釜底抽薪,有了,就不再需要这些交互界面,只需要一个聊天窗口即可,如果想扩展对话能力,只需要增加新的插件即可,而插件本质是后端的API接口。插件对后端开发同学还是挺友好的,后端开发同学的饭碗不仅保住了,还给后端开发提了新的需求,开发新插件或者把现有系统的API提供给。
如果我们只关注一个系统的前后端API联调,这有点儿小看了。上面罗列的几十款插件已经告诉我们的潜力了:插件对接的API可以是当前社会中现存的任意服务系统,比如电商、旅游、教育、外卖、导航、娱乐等,以及未来新增的服务。
未来程序员真的要面向API开发了,然后由GPT或者其他形式的AI系统来驱动,比如有一个场景:你要去某地旅游,AI系统自动帮你查询天气,推荐旅游景点和路线、买车票、订酒店、购物等等。而你只需要告诉AI你的需求即可,具体的事项都由AI代劳,虽然当前GPT很难帮你一次性准确地完成所有事情,但是借助插件的能力,AI却可以准确地完成所有你能想到的事。到那时候,全社会的人力、物力都在AI通过API的指挥下运转。
现有的电商平台、外卖平台、打车平台什么的,长期来看,都没有存在单独交互页面的必要,至少只需要提供基本的交互界面即可。它们只需要做好后端API等着GPT来调用,届时,它们将成为GPT的渠道商,也体会下当前电信运营商的感受。
如此一来,本身也成为新的流量分发平台,相比APP store有更大的影响社会的能量。这里有一个问题,的是否决定后端服务的生死命脉,会不会出现垄断?如何选择哪些插件,是否会出现像某度那种靠竞价排名机制?这都是有可能的,破解之道就是国内必须、至少存在2-3家对标的大模型公司,这不仅是为了竞争,更重要的是防守。
理论上,如果我们有了一个类似的AI助手,并且能够自由安装和使用这些插件,那每个人的能力都将得以无限放大。就连比尔盖茨也在近日的有关人工智能的活动中分享了对大热的 AI 助理发展的看法。他表示,未来的人工智能个人助理将影响深远,第一家开发它的公司将在竞争对手中脱颖而出。
这项技术可以从根本上改变用户的行为,使人们再也不需要访问搜索网站、使用某些生产力工具或在亚马逊上购物。未来人工智能领域的顶级公司很可能会创造出可以为人们执行某些任务的个人数字代理。盖茨还把文本的生成式人工智能技术的兴起比作将影响白领工人的游戏规则改变者。他相信未来公司使用的人形机器人比人类员工更便宜,也会极大地影响蓝领工人。
为此,微软也推出了自家的王炸产品:全新的Azure AI ,开发人员将可以在AI的辅助下基于Azure个性化地去构建、训练、评估和部署最新的下一代模型。过去开发者用AI进行开发的难点在于,大部分的AI工具都不支持公司使用专有数据来执行任务,因此无法访问或利用不同组织或领域的专有数据或服务。
但在 Azure AI 中,开发人员可以轻松地将 Azure 服务模型给予自己的数据集上构建,建立包括 、 GPT-4等强大的对话式人工智能模型,并且安全地执行操作。在 Azure AI 中,的构建过程从选择 GPT-4 等生成式 AI 模型开始。下一步是给一个“meta-”,或者对副驾驶的角色及其应该如何发挥作用进行基本描述。
用户可以将基于云的存储添加到使用 Azure AI 创建的 AI ,以跟踪与用户的对话并以适当的上下文进行响应。同时Azure AI 也仍然支持插件生态,开发者们能够访问第三方数据和其他服务。看起来,如果这些能力如期交付给开发者,相比我们通过开源LLM技术组装个人AI助理要方便的多,拭目以待吧。
参考: