深度生成模型在文本到图像合成方面取得了令人瞩目的成果。然而,当前的文本到图像模型通常会生成与文本提示不充分匹配的图像。据此,这项研究提出了一种使用人类反馈来调整此类模型的方法。
具体而言,包括三个阶段:首先,从一组不同的文本提示中收集评估模型输出对齐的人类反馈;然后,使用人工标记的图像-文本数据集来训练预测人类反馈的奖励函数;最后,文本到图像模型通过最大化奖励加权似然来微调改进图像-文本的一致性。
这项研究的方法比预训练模型更准确地生成具有指定颜色、计数和背景的对象。此外,通过分析了几种设计选择(例如使用辅助损失和收集不同的训练数据),发现对此类设计选择进行仔细调查对于平衡一致保真度权衡非常重要。研究结果表明,从人类的反馈中学习有可能大大改善基于文本生成图像的模型。
论文链接:
02 企业动态
发布通用人工智能路线图
始终坚守着使命——确保通用人工智能,通常比人类更聪明的人工智能系统,造福全人类。近日, CEO Sam 提出,“我们的短期计划是使用 AI 来帮助人类评估更复杂模型的输出并监控复杂系统,而从长远来看,使用 AI 来帮助我们提出新的想法以实现更好的对齐技术。”
具体而言从三方面为 AGI 作准备:首先,随着更强大的系统被创建, 希望部署它们并获得在现实世界中操作它们的经验。其次,他们正在努力创建更加一致和可控的模型。从 GPT 3 的第一个版本等模型到 和 的转变就是一个早期的例子。最后, 提出希望就三个关键问题展开全球对话:如何治理这些系统,如何公平分配它们产生的收益,以及如何公平共享访问权限。
人类的未来应该由人类决定,与公众分享有关进步的信息很重要。应该对所有试图建立 AGI 的努力进行严格审查,并对重大决策进行公众咨询。Sam 表示,“可以想象一个人类繁荣到我们任何人都无法完全想象的程度的世界。我们希望为世界贡献一个与这种繁荣相一致的通用人工智能。”
参考链接:
微软:在Skype中引入AI必应
为了帮助用户与朋友和家人更好地协作,微软推出了用于 Skype 的 AI 必应。每天有超过 3600 万人使用 Skype 进行跨国界和世界各地的电话和聊天联系,新的必应将启用一些有用且有趣的新场景和功能。
例如,如果一家人正在谈论下一次家庭团聚,通过简单地向 AI 必应询问有关旅行目的地的建议、天气预报和旅行期间的有趣事件,聊天中的每个人都可以访问这些结果。同时,用户在聊天时可以让必应简单地从网络上获取信息,例如,最新消息或昨晚的颁奖典礼,并添加到对话中。
除此之外,用户可以选择显示答案的方式——要点、文本或简化的回复。必应精通 100 多种语言,并且能够在这些语言之间进行翻译,可以为这一全球通信工具提供独特的价值。
参考链接:
高通: 生成式AI可以在智能手机上运行
由初创公司 AI 开发,是当今最流行的图像创建生成 AI 模型之一,经常与 的 DALL·E 竞争。在过去, 由于所需技术庞大等问题只在云端运行。但是,近日高通透露,通过结合使用软件技术和硬件优化,它能够缩小 ,使其可以在普通的安卓智能手机设备上运行模型。
“为了隐私和安全,当通过用于稳定扩散的云 API 输入查询时,你的所有信息或想法都会发送到某家公司的云服务器,” 工程副总裁 Jilei Hou 告诉 。“有了设备上的人工智能,这个问题就消失了,因为你所有的想法都只存在于设备上。”
参考链接:
03 政策法规
人工智能创建的图像在技术测试中失去美国版权
美国版权局在一封信中表示,使用人工智能系统 创建的图画小说中的图像不应获得版权保护。《黎明之曙光》的作者克里斯·卡什塔诺娃有权对书中文本和元素编排享有版权,但不适用于 制作的图像。
该决定是美国法院或机构对 AI 创作的作品的版权保护范围做出的首批决定之一,并且是在 、Dall·E 和 等生成式 AI 软件迅速崛起的情况下做出的。信中表示,“用户无法预测 的具体输出这一事实使得 出于版权目的与艺术家使用的其他工具不同。”
参考链接:
宣布:提交目前已关闭,不难猜出原因
2月21日,流行的科幻杂志 宣布,由于收到大量人工智能生成的作品,杂志将暂时停止投稿。 表示,仅在二月份就收到了 700 份由人类撰写的投稿和 500 份机器生成的故事。
构建了杂志使用的提交系统,他将 AI 故事垃圾邮件发送者的行为描述为“不雅”——通过与其他编辑比较笔记, 能够看到同一作品正从同一 IP 地址提交给多个出版物相隔几分钟,通常是按照杂志在列表中出现的顺序。垃圾邮件来自那些希望快速赚钱的人,他们通过“副业”网站找到了 和其他出版物。
参考链接:
04 专家观点
CEO Sam :AGI 有潜力赋予每个人难以置信的新能力
Sam:“我们可以想象这样一个世界,在这个世界中,我们所有人都可以获得几乎所有认知任务的帮助,为人类的聪明才智和创造力提供巨大的力量倍增器。另一方面,AGI 也会带来严重的滥用、严重事故和社会混乱的风险。由于 AGI 的优势如此之大,我们不认为社会永远停止其发展是可能的或可取的;相反,社会和 AGI 的开发者必须想办法把它做好”。
参考链接:
360集团创始人周鸿祎:的“胡说八道”正是智能的体现
周鸿祎表示:“ 并不完美,经常一本正经地‘胡说八道’,给出的答案可能张冠李戴。但通过增加训练和用户反馈都可以解决。 不是搜索,也不是简单的输出,它是基于学习到的知识,利用推理的能力来组织问题的答案。从这个角度来讲, 的‘胡言乱语’恰恰体现了它的智能。拥有想象力、可以无中生有地‘编故事’,正是智人区别于猿人和其他动物的重要标志。”
同时,周鸿祎认为在全球竞争日益激烈的今天, 相关技术的发展水平将成为不同国家提升生产力水平的分水岭。
参考链接:
旷视科技联合创始人、CTO唐文斌:AI行业发展路漫漫
唐文斌认为,过去两年其实是 AI 行业在面对复杂场景下,在软件技术外的基础能力的积累期。针对不同行业做 AI 解决方案,不仅是软件算法的问题,还涉及到硬件、工程。例如,在与某一家企业合作需要学习了建筑常识、镜面成像等问题,这些复杂体系和对应的能力,AI 创业者逃不过去,必须投入时间和精力。他表示,“很多行业内人士看到 做出来了,觉得只要按照他的方式做也能做出来,但其实真的不是这样”,后续工程管理、经费支持,包括GPU的支持,我们还有一定差距。
参考链接: