今天,的总裁和联合创始人Greg 发布了多模态预训练大模型 GPT-4并展示了其真正实力。
在文中,写到:
译文: 我们已经创建了GPT-4,这是在扩大深度学习方面的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,输出文本输出),虽然在许多现实场景中不如人类,但在各种专业和学术基准上表现出与人类相当的性能。
对比GPT-3.5,
GPT-4 实现了
哪几个方面的飞跃式提升?
不仅包括强大的识图能力,图片解析能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;
能够生成歌词、创意文本、实现风格变化、总结文章、写代码、报税、写诗等等。
总之,GPT-3.5做不到的,GPT-4都能轻松拿下!
处理、解析图像
相信使用过的人都知道,它只能处理文本,但GPT-4开始接受图像作为输入介质。
在提供的一个示例中,GPT-4准确地回答了几个网络梗图问题。
例如, 问GPT-4 一个长相奇怪的充电器的图片有什么这么搞笑?
例如, 问GPT-4 这张照片里有什么不寻常的地方?
例如, 问GPT-4能根据一张图里的物品帮你制定什么用餐建议:
在官方演示中,GPT-4只花了十几秒的时间,识别了手绘网站图片,并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站!!
除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等,例如根据专业论文直接给出论文摘要和要点。
论文解读
强大的应试能力
根据的评估,GPT-4已经能轻松通过美国的律师考试,且考进了前10%的排名。
GPT-4还能在美国大学入学测试SAT中考到710分,已经够上美国大学录取水平。
问一道法语的题目,GPT-4 看懂了法语并完整解答:
再做道题看看
写代码
处理税务问题
Greg 要求它基于税务法则,来计算出一对夫妻要缴纳多少税,而且还要把计算理由一步步写出来,让人们可以检阅。
对于GPT-4展示出的专业能力,他大为赞赏,并表示那段税务文件,他自己读了半个小时也没有搞懂,然而GPT-4却可以很快给出答案。
Demo video:
相信很多用户迫不及待要去测试体验GPT-4了!
不过,正如强调的那样,
GPT-4目前仍是并不完美的模型,
其能力远不如人类。
最后,想问一下阅读完的你有何感想,欢迎在评论区交流。