大家最近可能被多模态-4V的多模态功能惊艳到了!能听、能说、能读图!感觉未来已来!
开源领域也不甘示弱,今天给大家带来一个开源视觉指令微调模型LLaVA-1.5!
LLaVA-1.5是一个由, Logic, and (LLaVA)团队开发的多模态预训练模型,它可以同时处理文本、图像和其他类型的数据,实现跨模态的理解和生成。
LLaVA-1.5是目前最大的多模态预训练模型之一,它拥有15亿个参数,比之前的LLaVA-1.0模型增加了50%。
团队主要开发者是来都是自浙大毕业的,下面是开发者介绍。
它采用了一个统一的架构,将不同类型的数据编码为相同维度的向量,然后通过自注意力机制进行交互和融合。
它使用了一个大规模的多模态数据集进行预训练,包括文本、图像、视频、音频、表格、公式等多种数据类型,涵盖了科学、艺术、文化、娱乐等多个领域。(数据集见文末)
LLaVA-1.5的能做什么?
它可以理解用户的视觉和语言查询,并根据用户的指示以适当的方式回答。例如,它可以根据图片内容生成描述、回答问题、编辑图片等。
它可以在多个任务中切换模式,而不需要针对每个任务单独训练一个模型。例如,它可以在视觉问答、图像描述、图像编辑等任务中自由切换。
它使用了多模态指令数据进行训练,这些数据是由GPT-4自动生成的图像-文本对话数据,而不是使用现有的数据集。这使得LLaVA-1.5可以更好地适应用户的指令格式和需求。
它使用了一个简单而有效的视觉-语言连接器,即一个线性层,将图像特征投影到语言嵌入空间中。这使得LLaVA-1.5具有轻量级、成本低等优势。
LLaVA-1.5能力如何?
虽然介绍的能力很强,但是我在实际体验中,发现它引以为傲的图片识别还是没有GPT4准确,当然,我得测评只是参考,具体还是大家自行体会。
我上传了一个菜单,让LLaVA-1.5和GPT4一起给我分析,并告诉我里面的价格。
GPT4给出了正确的答案;
LLaVA也是可以的,正确识别了。
那我换一个继续提问,让他们告诉我”原味芝士牛肉”的价格(正确的应该为32)
GPT4回答正确!再看看LLaVA
很可惜,它回答错误了!
个人的一点点看法!
LLaVA-1.5很不错!作为一款开源视觉指令微调模型,LLaVA在视觉推理能力方面的表现出色!在目前的开源领域属于能力很强的那部分;
而且据官方介绍,在单个 8-A100 节点上约 1 天完成训练,超越 Qwen-VL-Chat 等使用十亿级数据的。这说明在小投入的情况下也能获得获得很好的性能体验,所以对于一些没有那么豪横的个人和公司来说是个不错的方案;
但是!
在和-4V对比之后,我看来两个差距还是不小的;
虽然很多开源的AI大模型都说自己超于了-4V , 但是难免让人想起了雷总对比法。
这些AI模型都是测评没输过,实际依旧打不过。依旧是孤独求败~
目前来看,AI大模型还是只有两种; 和 其他!
LLaVA-1.5项目地址:
代码开源地址:
体验网址(可以来试试,亲身体验下):