chatgpt能编写数据分析软件吗能够简化数据科学的6种工具

默认分类1年前 (2023)发布 admin

4,530 0 0

新的工具捆绑了数据清理，拖放式编程以及云计算，可以帮助任何熟悉电子表格的人充分利用数据科学的力量。

数据科学可能从来都不是那么容易的，但它正变得越来越容易深入。像“机器学习”、“回归”和“降维”这样的术语虽然依然和以往一样难以理解，但是人们正普遍希望能够从这些技术中获得好处，这导致产生了一些很好的工具，它们可以方便的为数据创建生产线，为我们想要寻找的答案提供支持。

这个秘密就类似于制造业的革命。正如标准化的部件帮助启动了工业革命一样，各种工具供应商的数据科学家已经开发了一系列非常强大、拥有广泛适应性的分析例程。他们标准化了接口，使得使用这些可互换的数据科学工具来构建自定义管道变得更加简单了。

数据科学家过去常常需要绞尽脑汁，因为80%的工作都是通过用，Java或他们喜欢的语言来制作自定义例程并准备分析数据的，所以R或SASS中那些复杂的统计工具都可以完成它们的工作。而现在市场上充斥着各种复杂的工具，它们将数百个经过良好设计的例程捆绑到了一个包中，以便为你完成大量重复且令人不快的数据清理和标准化工作。

这些新工具也为熟悉电子表格的人提供了机会。它们不会让所有的准备工作都消失，但它们会让事情变得更加容易。无需对数据格式大惊小怪，因为这些工具足够聪明，可以做正确的事情。通常你只要打开文件就可以开始学习了。

这些工具还为云计算节省了大量成本。过去，数据科学家往往需要更强大的计算机来处理大数据集。而现在我们可以在云中租用更大、更快的机器，在提高处理速度的同时在每月报表完成时将硬件返回到池中，从而节省成本。

对于只需要训练算法来预测明年趋势的核心数据科学家和数据分析师来说，这些工具都是一个福音。所有用户都可以享受使用复杂工具来正确处理数据的乐趣。不过，标准化也为全新的研究团队深入研究数据科学提供了可能。现在，你不需要掌握R语言或编程就可以开始了。

当然，我们仍然需要深入思考统计学和机器学习。这些工具虽然还不能回答关于什么情况下使用神经网络或聚类算法能够获得更好结果的策略性问题，但是它们可以使获取所有数据变得简单，并快速尝试这两种方法。当每个人能够更容易的参与工业革命时，正如标准化消除了长期学徒和熟练工匠的需求一样，这些数据工具也释放出了越来越多的企业人员转向复杂的数据分析以寻求进一步指导的潜力。

以下是有助于使数据科学实现民主化的六种工具。

平台的核心是它的设计工具，一个可视化编程IDE，允许用户拖放图标，而不是输入文本程序。平台的目标用户既包括数据科学家，也包括了普通的“公民用户”，很好的迎合了那些不想在清理数据和修改数据以进行分析的细节方面遇到麻烦的人。该平台试图通过使用其可视化的编程模型来简化准备工作以“颠覆数据准备中的80/20法则”。你只要将图标拖放到数据管道中的正确位置，它就可以应用许多标准化的任务，比如按客户编号来实现分组或连接两个文件。

还提供了许多用于分析数据和绘图推断的预定义预测模型。这些看起来像是用于数据处理的图标，实际上都是相应的R或程序，为你省去了处理它们的复杂性和基于文本编码的麻烦。在设计工具中，数据会自己沿着图标之间的直线流动，你不需要担心逗号、方括号或其他的编码问题。

现在，平台正朝着一个更多的以服务器驱动的模式发展，在这个模型中，你构建的代码将驻留在一个可以扩展到更大数据集的服务器上。如果你的数据需要增强，也已经从Dun & 或等公司获得了商业数据集授权，可以帮你自动填写表格。

当你在个人PC上完成模型的设计时，也提供了将模型发布到中央服务器的基础设施，然后将图形化摘要分发给业务中的每一个人。工具会负责将日常生产数据分发给企业中合适的人员，以便他们能够使用预测建模的结果。

chatgpt能编写数据分析软件吗能够简化数据科学的6种工具

这款设计工具的标价是每位用户每年5195美元，但是如果想要使用附加的功能，比如包含人口统计数据或空间数据的数据集，则可能会增加33，800美元。中央服务器的起价为58，500美元，此外，还提供了用于协作和连接的额外功能。

也是围绕实验室开始的一个可视化集成开发环境(IDE)，能够通过将图标和管道连接在一起来构建模型。不同之处在于也对其他工具开放。所有主要的和不太重要的基于Web的IDE都受到了支持，因为系统设计为所有这些IDE都进行了开放。大多数人可能会使用或R-，但其他工具，如或SAS的工具也都得到了很好的支持。

大部分的功能都致力于将数据转换为模型所需的所有基础设施。的后端会仔细跟踪各种版本的数据以及在此过程中的所有修订和实验。所有这些变更都会被无情地保存并链接到结果当中，以确保你可以随时重新运行和复制结果。它非常强调存储查询的准确再现，以便其他人可以在稍后发现并重用该工作。

与单一平台相比，更像是一个基于Web的云网络操作系统。该平台的开放性依赖于一种相对标准的机制，用于将数据存储在文件中并保持修订的一致性。幸运的是，磁盘存储比以往任何时候都要更加便宜。

的主要卖点之一是它的云集成。你的实验将运行在与他人共享的强大机器池中。如果你碰巧希望将自己的代码部署到堆栈中，那么底层体系结构将完全围绕来进行封装和构建。你可以为你的作业配置最佳大小，并从池中借用硬件，这对于数据科学工作来说是一个很好的解决方案，这些工作通常是断断续续的，并且在代码准备好时以块的形式进行分派。这是一个很好的解决方案，特别适用于那些在每周、每月或每季度数据准备就绪时才会进行批量处理大部分计算的情况。

的定价是“根据所运行的位置(我们的托管基础设施、你的私有云或内部环境)而定的年度订阅”。云选项将根据所消耗的资源对你进行收费。

是一个将数据转换为可操作模型的自动化程度更高的工具。它的IDE允许用户将数据转换构建为由线来连接的图标集合的可视化描述。最有用的部分可能是其功能，它可以根据你的数据和目标为你组装许多这样的图标。完成之后，你就可以打开模型并调整各个部分了。

有大量的扩展可以用来帮助你处理许多更奇特的挑战，比如理解从网站上下载下来的非结构化文本。还有许多用于处理时间序列数据的工具，例如用于重建丢失的数据元素以及形成(和测试)对未来的预测的工具。

如果你的数据集较大，也可以满足你的需求。那些拥有并行解决方案的人可以使用的拥有和Hive集成的版本“”。还有一个基于服务器的解决方案，可以从AWS，Azure或您自己的本地服务器配置云计算机。基于服务器的生态系统促进了与集中的数据和分析存储库的协作，这些数据和分析可以安排在生产中交付报告和见解。

每种产品的定价模型都是独立的。桌面版有一个免费的社区版，但它缺少两个最吸引人的特性:用于清理数据的和用于生成结果的。一个初级版本的价格为每位用户每年2，500美元起，该版本的数据行数限制为100，000行。更大的数据集和部署更多处理器的能力则需要更高的成本。在办公场所安装自己版本的服务器工具起价为15，000美元，但你也可以在的云版本上购买使用时间，起价为每小时6.75美元。

Knime

Knime是一个开源的数据分析平台，具有一个可视化的IDE，可以将各种数据处理和分析例程链接在一起。其核心软件是免费发布的，但是一些插件和扩展也有相应的商业版本，并且费用主要用于支持开发。你还可以使用在云中或你自己的计算机上运行的服务器版本。

该软件的基础是用Java编写的，所以Knime的许多集成都依赖于Java生态系统。用户也许会注意到Knime IDE是构建在之上的，这使得Java开发人员可能会更加熟悉它。该平台可以处理所有主要的数据库(MySQL，)和云服务( ，)中的数据以及任何其他具有JDBC兼容连接器的数据。Knime提供了一个与“数据库内处理”特别紧密的集成，这可以加速你的工作。它还集成了下一代的分布式数据工具，如 Spark。

chatgpt能编写数据分析软件吗能够简化数据科学的6种工具