ai类似软件开源机器学习软件对AI的发展意味着什么？

默认分类1年前 (2023)发布 admin

3,035 0 0

作者｜Max

编译

翻译｜徐佳渝、杨婷

为什么要关注机器学习开源软件（MLOSS）？在我们看来，MLOSS对AI发展来说举足轻重，但未获重视。

机器学习开源软件是开源许可下发布的专为机器学习而设计的计算机软件。机器学习开源软件包括框架（如和Pyro）、“一体化”软件包（如-learn）以及模型开发工具（如），但不包括这类交互式计算工具。虽然并非专为机器学习而设计，但是相关从业者经常会用到这款工具。

机器学习开源软件举足轻重，但未获重视

MLOSS举足轻重

过去十年，只要构建过ML模型的人都知道MLOSS至关重要，无论是的研发工程师，还是印度的高中生都无一例外会使用开源软件来构建模型。我们采访了24名ML从业者，他们都给出了相同的答案：MLOSS工具在模型构建中的地位举足轻重。

从业者都在免费使用MLOSS工具，也就意味着这类工具会对人工智能发展产生巨大影响。然而，探索MLOSS对AI发展影响的研究人员却寥寥无几。

MLOSS未获重视

迄今为止，研究者就影响人工智能发展的因素展开了多次讨论，其焦点都集中于算力，部分研究者将算法和数据也列为了影响因素之一。例如，艾伦·达福（Allan Dafoe）认为影响人工智能发展的关键因素是计算能力（算力）、人才、数据、洞察力及资金。[1] 黄（Hwang）（2018）探究了硬件供应链对机器学习发展的影响。罗森菲尔德（）（2019）和海斯特内斯（）（2017）研究了数据集大小与人工智能模型精度的关系。

越来越多的文献都提到了数据集大小和人工智能模型精度，旨在明确如何建立人工智能中输入和预测误差之间的关系模型。然而，据我们所知，目前还未有关于MLOSS如何影响人工智能发展的深入研究。

目前，我们的关注点是数据、算力等因素如何改变人工智能的发展方向，不过，同时也应聚焦于MLOSS在人工智能发展中的角色。

MLOSS及AI生产函数

我们在早期研究中存在这样的疑惑：数据、算力及MLOSS这些AI生产的影响因素相互之间有何联系，而阐明这些因素之间的联系正是理解AI系统开发默认轨迹（）的关键。

柯布-道格拉斯生产函数（Cobb- ）是经济学中常用的界定方式。该函数用于资本和原材料等变量的建模，通过函数参数化以表示投入与产出的关系。

CD生产函数的表示形式

AI生产函数的隐含形式

艾伦·达福将“AI生产函数”应用于人工智能治理，并提出构成该生产函数的关键在于算力、人才、数据、投资、时间以及先前进展和成果等指标[1]。达福就“人工智能进展”研究进行了探讨，此外，在类似研究中也有相关探讨，以解除人工智能特定范式的思维限制。

实际上，这就相当于“深度学习”和“人工智能”。而我们可以选择不同范式，不过认识到这些范式功能的多样性也十分重要。例如，概率程序更容易吸收现存的显性知识，同时能减少对大数据集可用性的依赖。

虽然生产函数可以明确区分出影响深度学习发展的因子，但也存在局限性。特别是当生产函数被认为是自变量的乘积时，不会考虑生产因子之间的共同依赖关系，而且可能还会隐藏每个因子的上下文信息。

还有另一种方法可以阐明影响AI生产的因子，即使用有序的功能依赖图，亦称沃德利地图（ map），来解释因子之间的共享依赖关系。例如：中间模型表示依赖于算力基础设施和MLOSS框架。

沃德利地图为AI生产函数提供了最佳替代方案

沃德利地图应用广泛。譬如，可在无手机的情况下用于求生，也可用于电车的路况预测。此外，还有本关于沃德利地图理论的书籍。为探寻MLOSS在AI生态系统中发挥的作用，我们在下文提供了简单示例。

构建沃德利地图的三大主要步骤：描述用例、为处理用例所需的技术功能下定义以及对该地图相应功能进行排序。

以下是“构建深度学习模型”的用例，也是重中之重。我们将重点关注框架、预训练模型、数据及硬件的主要功能，且各功能之间相互具有依赖性。如，框架编译软件（Glow编译器）受到ML框架（）的影响，而框架编译软件依赖于中间表示（ONNX），此外，中间表示又会受到硬件（ GPU）的影响。