在某些情况下,基于合成数据训练的模型可能比其他模型更准确,这可以消除使用真实数据时的一些隐私、版权和道德问题。
教机器识别人类行为有许多潜在的应用,例如自动检测在建筑工地跌倒的工人或使智能家居机器人能够解释用户的手势。
为此,研究人员使用显示人类执行动作的大量视频片段数据集来训练机器学习模型。然而,收集和标记数百万或数十亿的视频不仅成本高昂且费力,而且这些剪辑通常包含敏感信息,例如人脸或车牌号。使用这些视频还可能违反版权或数据保护法。这首先假设视频数据是公开的——许多数据集归公司所有,不能免费使用。
因此,研究人员正在转向合成数据集。这些视频是由计算机制作的,该计算机使用场景、物体和人类的 3D 模型来快速生成许多不同的特定动作剪辑,而不会出现真实数据带来的潜在版权问题或道德问题。
但合成数据和真实数据一样“好”吗?当要求对真实的人类行为进行分类时,使用这些数据训练的模型表现如何?麻省理工学院、麻省理工学院-IBM 沃森人工智能实验室和波士顿大学的一组研究人员试图回答这个问题。他们构建了一个包含 150,000 个视频剪辑的合成数据集,捕捉了广泛的人类行为,并用它来训练机器学习模型。然后,他们向这些模型展示了六个真实视频数据集,看看它们能够如何很好地学习识别这些剪辑中的动作。
研究人员发现,对于背景物体较少的视频,经过综合训练的模型的表现甚至比根据真实数据训练的模型还要好。
这项工作可以帮助研究人员使用合成数据集,使模型在现实世界任务中实现更高的准确性。它还可以帮助科学家确定哪些机器学习应用程序最适合使用合成数据进行训练,以减轻使用真实数据集的一些道德、隐私和版权问题。
“我们研究的最终目标是用合成数据预训练代替真实数据预训练。在合成数据中创建动作是有成本的,但一旦完成,您就可以通过改变姿势、光照等来生成无限数量的图像或视频。这就是合成数据的美妙之处。”Rogerio 说Feris 是 MIT-IBM Watson AI 实验室的首席科学家和经理,也是详细介绍这项研究的论文的合著者。
该论文由主要作者 Yo-whan “John” Kim ’22 撰写;Aude Oliva,麻省理工学院施瓦茨曼计算学院战略行业参与主任、麻省理工学院-IBM沃森人工智能实验室主任、计算机科学与人工智能实验室(CSAIL)高级研究科学家;和其他七个。该研究将在神经信息处理系统会议上发表。
构建综合数据集
研究人员首先使用三个公开的捕捉人类行为的合成视频剪辑数据集来编译一个新的数据集。他们的数据集称为合成动作预训练和迁移 (SynAPT),包含 150 个动作类别,每个类别有 1,000 个视频剪辑。
他们根据包含干净视频数据的剪辑的可用性,选择了尽可能多的动作类别,例如人们挥手或倒在地板上。
数据集准备好后,他们用它来预训练三个机器学习模型来识别动作。预训练涉及针对一项任务训练模型,使其在学习其他任务时抢占先机。受人们学习方式的启发(当我们学习新东西时,我们会重用旧知识),预训练模型可以使用它已经学到的参数来帮助它更快、更有效地使用新数据集学习新任务。
他们使用六个真实视频剪辑数据集测试了预训练模型,每个数据集捕获与训练数据中不同的动作类别。
研究人员惊讶地发现,所有三个合成模型都优于在六个数据集中的四个上使用真实视频剪辑训练的模型。对于包含具有“低场景对象偏差”的视频剪辑的数据集,它们的准确性最高。
低场景-对象偏差意味着模型无法通过查看场景中的背景或其他对象来识别动作 – 它必须关注动作本身。例如,如果模型的任务是对人们跳入游泳池的视频片段中的潜水姿势进行分类,则它无法通过查看水或墙上的瓷砖来识别姿势。它必须关注人的动作和位置来对动作进行分类。
“在场景与对象偏差较低的视频中,动作的时间动态比对象或背景的外观更重要,而且合成数据似乎可以很好地捕捉到这一点,”费里斯说。
“高度的场景-物体偏差实际上会成为障碍。模型可能会通过查看对象而不是操作本身来对操作进行错误分类。它可能会混淆模型,”Kim 解释道。
提升绩效
麻省理工学院研究人员、合著者 Rameswar Panda 表示,在这些结果的基础上,研究人员希望在未来的工作中纳入更多的动作类和额外的合成视频平台,最终创建一个使用合成数据进行预训练的模型目录。 -IBM 沃森人工智能实验室。
“我们希望构建的模型与文献中的现有模型具有非常相似的性能甚至更好的性能,但不受任何这些偏见或安全问题的约束,”他补充道。
CSAIL 的合著者兼博士后 SouYoung Jin 表示,他们还希望将自己的工作与研究结合起来,以生成更准确、更真实的合成视频,从而提高模型的性能。她还对探索模型在使用合成数据进行训练时如何以不同的方式学习感兴趣。
“我们使用合成数据集来防止隐私问题或上下文或社会偏见,但该模型实际上学到了什么?它学到的东西是公正的吗?” 她说。
既然他们已经展示了合成视频的这种使用潜力,他们希望其他研究人员能够以他们的工作为基础。
“尽管获取注释良好的合成数据的成本较低,但目前我们还没有一个数据集的规模可以与最大的注释数据集和真实视频相媲美。通过讨论真实视频的不同成本和问题,并展示合成数据的功效,我们希望激励朝这个方向努力。”合著者、波士顿大学 (BU) 研究生萨玛斯·米什拉 (Samarth Mishra) 补充道。
其他共同作者包括德国歌德大学计算机科学教授、MIT-IBM Watson AI 实验室副教授 Hilde Kuehne;Leonid Karlinsky,MIT-IBM Watson AI 实验室研究人员;Venkatesh Saligrama,波士顿大学电气与计算机工程系教授;Kate Saenko,波士顿大学计算机科学系副教授,MIT-IBM Watson AI 实验室顾问教授。
这项研究得到了国防高级研究计划局 LwLL、MIT-IBM Watson AI 实验室及其成员公司 Nexplore 和 Woodside 的支持。
323AI导航网发布