如何生成用于机器学习的合成数据

人工智能2年前 (2023)更新 wangzhan

525 0 11

当世界各地的工程师听到“数据是新石油”这句话时，他们会立即感到头痛并感到严重不适。好吧，如果是这样，那么我们为什么不去最近的数据泵并加满油，在机器学习山谷中进行一次愉快的长途旅行呢？

只是没那么容易。数据很乱。数据需要清理、转换、匿名，最重要的是，数据需要可用。总而言之，要从数据油井中获得良好的合规且随时可用的数据流是相当棘手的。

合成油，或者更确切地说，合成数据来救援！但今天的合成数据是什么？人工智能生成的合成数据将成为构建人工智能和机器学习模型的标准数据替代方案。合成数据最初是一种在不损失情报的情况下进行数据匿名化的隐私增强技术，预计将取代或补充人工智能和机器学习项目中的原始数据。合成数据生成器可以很好地打开众所周知的数据的水龙头，并允许工程师将新的领域知识注入到他们的模型中。

如何生成用于机器学习的合成数据

提供最先进的数据生成人工智能。选择正确的平台或选择开源合成数据必须是一个需要进行大量实验的实践过程。为了充分利用这项新技术，最好记住合成数据生成所需的一些原则：

您需要足够大的数据样本。
用于训练合成数据生成算法的数据样本或种子数据应包含至少 1000 个数据主体，具体取决于您的特定数据集。即使您的数据较少，也可以尝试一下 – MOSTLY AI 的合成数据生成器具有自动隐私检查功能，因此您最终不会得到质量较差的数据或隐私泄露。
将静态数据（描述主题）和动态数据（描述事件）分成单独的表。如果您的数据集中没有任何时间序列数据，则仅使用一张表进行综合。
如果您想综合时间序列数据并运行两个表设置，请确保您的表通过主键和外键相互引用。
选择正确的合成数据生成器。MOSTLY AI 的免费合成数据生成器具有内置的质量检查功能，可让您密切评估合成数据的准确性和隐私性。