自从 、 发布以来,各种相关开源项目百花齐放,着实让人应接不暇。
今天,我将着重挑选几个优质的开源项目,对我们的日常工作、学习生活,都会有很大的帮助。
今天整理分享给大家,希望对你有所帮助。
一、
这个是微软开源的项目,一周多的时间,就斩获了 23.6k+ star。
简单概括它,那就是一个多模态的问答系统。
支持AI绘画、语言问答、看图问答,将 AI 届近期的 3 大热点集于一身。
效果展示:
系统实现框架如下:
的系统实现框架
这是一个“大力出奇迹”的开源项目,集多方研究成果于一身:BLIP、CLIP、、、、vqa 等。
说白了,就是教你怎样使用这些项目,搭建一个多模态的问答系统,这个系统架构很有参考价值。
项目地址:
二、
这是一篇 2023 年的 CVPR 论文对应的开源项目。
刚刚开源,新鲜热乎~
功能就是:根据一张图片、一段音频,合成面部说这段语音的视频。
结合 、AIGC、音频文字转换,虚拟二次元 or 三次元形象,就能“活”过来了。
此外,还项目还做成了 webui 的插件,也就是直接能在 里使用。
生成的图片,直接配合一段音频,就能生成合成的视频。
项目地址:
三、
文本能编辑生成图片?那视频能编辑吗?
:我可以!
左图是原图,右图是生成效果,输入的文本是:
增加 Pokémon 动漫风格
增加水墨画风格:
除了视频的风格迁移,也支持修改里面的内容。
比如:松鼠是胡萝卜,变成,兔子吃茄子。
这个项目也是基于sd做的,离一键生成视频,又进了一步。
项目地址:
四、
arXiv 想必大家都知道,当下最流行的论文托管网站,上面有来自世界各地的科学家、研究学者。
为了提高 arXiv 用户阅读论文的效率,有人开源了一款利用 总结 arXiv 论文的开源工具 。
开发者的动机,他是这样讲述的:
简而言之,该项目可根据用户关键词下载 arXiv 上的最新论文,利用 .5 API 强大的归纳能力,将其浓缩成固定格式,文字少且易读。
同时,项目支持个人自己部署,或者直接去 Hugge Face 体验。
项目地址:
最后
最近有太多公司 all in 了,各种相关的开源项目也是层出不穷。
希望这些项目,对你能有所帮助。