微软视觉版chatgpt如何使用视觉版ChatGPT来了！吸收AI画画全技能，MSRA全华人团队打造

默认分类2年前 (2023)发布 admin

3,043 0 0

ChatGPT国内版

明敏发自凹非寺

量子位 | 公众号

会画画了！

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版（）。

通过给结合多种视觉模型，并利用一个提示管理器（），他们成功让可以处理各种视觉任务。

这项工作一发出来就火了，揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

，其实就是让可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（）的概念。

它的作用主要有3方面：

第一、明确告诉，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，的工作流大概长这样：

假如用户输入了一张图，模型会先将内容发送给提示管理器，然后转换成语言给判断，当它发现这个问题不需要调用视觉模型，就会直接给出输出（第一个回答）。

第二个问题时，分析问题内容需要使用视觉模型，就会让视觉模型开始执行，然后一直迭代，直到判断不再需要调用视觉模型时，才会输出结果。

论文介绍，中包含了22个不同的视觉模型。包括、BLIP、等。

为了验证的能力，他们还进行了大量零次试验（zero-shot ）。

结果如开头所示，具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

以及使用大量的提示工具，会一定程度上影响生成结果的速度。而且还可能同时调用多个模型，也会影响实时性。

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2012年加入MSRA，任职已超10年。

第一作者为吴晨飞。

他于2020年加入微软，目前担任高级研究员。

论文地址：

/abs/2303.04671

参考链接：

# 默认分类 # 微软 # 模型 # 生成 # 画画 # 视觉

© 版权声明

文章版权归作者所有，未经允许请勿转载。

广告也精彩

相关文章

ai图像处理软件 12款AI作图工具，让你轻松超越同行设计师

admin

4,039 0

chatgpt 最新是什么版本 CHATGPT最新版本中国可以使用吗

admin

2,543 0

ai写作工具 WordPress的AI写作工具；Salesforce的AI战略；FinGPT潜

admin

57 0

微软向pc端推出chatgpt功能虽然微软强烈要求 TPM 2.0

admin

48 0

ai辅助写作工具干货收藏！ 18个AI辅助编程工具

admin

2,554 0

盘古大模型与chatgpt对比国产版ChatGPT来了！华为盘古大模型即将亮相，理论性能接近GPT-3.5

admin

3,538 0

暂无评论

暂无评论...

323AI导航网（323ai.com）—— 精选全球实用AIGC工具箱。 AI人工智能爱好者使用学习必备导航网站，收录了国内外5000+优质AI实用工具网址，一个专业、全面、实用的AIGC工具与AI资讯导航网站，我们聚焦于最新的AI文本、AI绘画、AI视频、ChatGPT、Stable-Diffusion、Midjourney等AI项目，帮助用户发现最前沿的AIGC项目，探索人工智能的无限可能。

友链申请免责声明广告合作关于我们

Copyright © 2025 323AI导航网陕ICP备2023007327号-3