6月29日最新消息:新的研究揭示了一种可扩展的技术,该技术使用合成数据来提高识别图像的人工智能模型的准确性。

在机器学习模型完成任务(例如识别医学图像中的癌症)之前,必须对模型进行训练。训练图像分类模型通常涉及向模型显示收集到海量数据集中的数百万个示例图像。
然而,使用真实图像数据可能会引起实际和道德方面的担忧:这些图像可能会违反版权法、侵犯人们的隐私,或者对某些种族或族裔群体产生偏见。为了避免这些陷阱,研究人员可以使用图像生成程序来创建用于模型训练的合成数据。但这些技术是有限的,因为通常需要专业知识来手动设计可以创建有效训练数据的图像生成程序。
来自 MIT、MIT-IBM Watson AI 实验室和其他地方的研究人员采取了不同的方法。他们没有为特定的训练任务设计定制的图像生成程序,而是从互联网上收集了包含 21,000 个公开可用程序的数据集。然后,他们使用大量基本图像生成程序来训练计算机视觉模型。
这些程序生成显示简单颜色和纹理的各种图像。研究人员没有策划或更改这些程序,每个程序只包含几行代码。
他们使用这个大型程序数据集训练的模型比其他综合训练的模型更准确地分类图像。而且,虽然他们的模型表现不如那些用真实数据训练的模型,但研究人员表明,增加数据集中图像程序的数量也提高了模型性能,揭示了获得更高准确度的途径。
“事实证明,使用大量未经策划的程序实际上比使用人们需要操纵的一小组程序更好。数据很重要,但我们已经证明,没有真实数据,你也可以走得很远。”在计算机科学和人工智能实验室 (CSAIL) 工作的电气工程和计算机科学 (EECS) 研究生、《描述该技术的论文。
合著者包括 CSAIL EECS 研究生 Tongzhou Wang;Rogerio Feris,MIT-IBM Watson AI 实验室首席科学家兼经理;Antonio Torralba,Delta Electronics 电气工程和计算机科学教授,CSAIL 成员;资深作者 Phillip Isola,EECS 和 CSAIL 副教授;该研究将在神经信息处理系统会议上公布。
重新思考预训练
机器学习模型通常是经过预训练的,这意味着它们首先在一个数据集上进行训练,以帮助它们构建可用于处理不同任务的参数。用于分类 X 射线的模型可以使用合成生成的图像的巨大数据集进行预训练,然后使用较小的真实 X 射线数据集对其实际任务进行训练。
这些研究人员之前表明,他们可以使用一些图像生成程序来创建用于模型预训练的合成数据,但需要仔细设计这些程序,以便合成图像与真实图像的某些属性相匹配。这使得该技术难以扩大规模。
在新的工作中,他们使用了一个巨大的未经策划的图像生成程序数据集。
他们首先从互联网上收集了 21,000 个图像生成程序。所有程序都是用简单的编程语言编写的,仅包含几个代码片段,因此它们可以快速生成图像。
“这些程序是由世界各地的开发人员设计的,用于生成具有我们感兴趣的一些属性的图像。它们生成的图像看起来有点像抽象艺术,”巴拉达解释道。
这些简单的程序运行速度非常快,研究人员不需要提前生成图像来训练模型。研究人员发现他们可以同时生成图像和训练模型,从而简化了过程。
他们使用大量的图像生成程序数据集来预训练用于监督和非监督图像分类任务的计算机视觉模型。在监督学习中,图像数据被标记,而在无监督学习中,模型学习在没有标签的情况下对图像进行分类。
提高准确性
当他们将预训练的模型与使用合成数据预训练的最先进的计算机视觉模型进行比较时,他们的模型更加准确,这意味着他们更频繁地将图像放入正确的类别。虽然准确度水平仍然低于基于真实数据训练的模型,但他们的技术将基于真实数据训练的模型与基于合成数据训练的模型之间的性能差距缩小了 38%。
“重要的是,我们表明,对于您收集的程序数量,性能呈对数缩放。我们不会使性能饱和,因此如果我们收集更多程序,模型的性能会更好。因此,有一种方法可以扩展我们的方法。”Manel 说。
研究人员还使用每个单独的图像生成程序进行预训练,以努力发现有助于模型准确性的因素。他们发现,当程序生成更多样化的图像集时,模型的性能会更好。他们还发现,场景充满整个画布的彩色图像往往最能提高模型性能。
既然他们已经证明了这种预训练方法的成功,研究人员希望将他们的技术扩展到其他类型的数据,例如包含文本和图像的多模态数据。他们还希望继续探索提高图像分类性能的方法。
“与基于真实数据训练的模型相比,仍有差距需要弥补。这为我们的研究指明了方向,我们希望其他人也能效仿。”他说。
323ai导航网发布