稿件:
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
关于神器1.2.3.,4.,5.,6.7.,8.9.
推出了 ,它结合了不同的视觉基础模型,使用户能够与 进行交互。
以后想要生成工作流程图、技术路线图、影响机制图什么的,直接通过 对话生成。
这个聊条绘图功能很可能会在这周的GPT-4出现。
示例如下:
近年来,在开发大型语言模型 (LLM) 方面取得了显著进步,包括 T5、BLOOM 和 GPT-3。基于 的 是一项重大进步,因为它被指导要坚持上下文对话,适当地响应后续查询,并生成准确的回答。虽然 令人印象深刻,但它只接受单一语言模式的训练,限制了它处理视觉信息的能力。
视觉基础模型 (VFM) 因其理解和构建复杂视觉效果的能力而在计算机视觉领域显示出巨大潜力。然而,由于任务定义性质和预定义输入输出格式的限制,VFM 在人机交互中的适应性不如会话语言模型。
训练多模式对话模型是一种自然的解决方案,可以创建类似于 的系统,但具有理解和创建视觉内容的能力。然而,构建这样一个系统需要大量的信息和处理能力。
微软的一项新研究提出了一个解决这个问题的方法,即通过文本和提示链与视觉模型交互的 。研究人员在 的基础上开发了 ,并添加了几个VFM 作为从一开始就训练全新的多模式 的替代方法。他们引入了一个 ,它通过以下功能弥合了 和这些 VFM 之间的差距:
指定输入和输出格式,并通知 每个 VFM 的功能
处理各种视觉基础模型的历史、优先级和冲突
将各种视觉信息,如png图片、深度图、mask矩阵等,转化为语言格式,帮助理解。
通过集成提示管理器, 可以迭代地使用这些VFM,并从它们的响应中学习,直到它满足用户的需求或达到最终状态。
例如,假设用户上传了一张黄色花朵的图像,并添加了一条困难的语言指令,例如“请根据该图像的预测深度生成一朵红色花朵,然后逐步将其构建为卡通片”。 使用提示管理器启动链接的视觉基础模型的执行。具体来说,它首先使用深度估计模型来识别深度信息,然后使用深度到图像模型信息创建红色花朵的图形,最后使用基于稳定扩散模型的样式转换 VFM,把这个形象的美学变成了卡通。在上述处理链中,提示管理器通过提供视觉表示和跟踪信息转换充当 的调度程序。从 收集到“卡通”提示后, 将停止管道的执行并显示最终输出。
当通过 运行源代码时,可以通过使用“上帝模型”在各种小模型中进行选择,以文本作为通用界面来实现多模态。
研究人员在他们的论文中提到,VFM的失败和提示的不一致是令人担忧的原因,因为它们会导致不太令人满意的生成结果。出于这个原因,需要一个单一的自我纠正模块来验证执行结果是否符合人类意图并进行必要的编辑。模型的推理时间可能会变长,因为它倾向于不断自我修正。该团队计划在未来的研究中解决这个问题。
为这样的学术工具点赞!
下面短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
4年,计量经济圈近1500篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
数据系列:|||||||| 内部数据
计量系列:|||||||||||||
数据处理:|||||
干货系列:||||||||||
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。