卓越方达logo200*800

数据科学的可视化工作流很有意义

通过自动化分析的每个步骤(包括数据准备、混合、报告和数据科学),降低成本并提高效率。

低代码/无代码的数据科学方法

无需代码即可成为数据科学专家

如今,许多数据分析师和数据科学家使用编程语言来处理数据。他们也在使用软件工程师的工具来实现数据工作的方式。从历史上看,这主要是因为数据科学家过去常常来自数据工程(精通 SQL)、计算机科学(精通 Python)或统计学(精通 R)。

在很长一段时间里,这都很好。编写代码可以并且仍然成功地用于访问、清理、转换和分析数据,甚至用于分发数据科学解决方案。但它不再是让人们能够处理数据的最佳或最快的方式。

软件工程通常非常关注一个称为 “控制流” 的原则。这由使 软件执行其职责的程序或指令集表示。例如,如果您有一个智能家居程序,当您打开门时,灯可能会亮起。或者当温度低于特定温度时,暖气会打开,除非窗户是打开的。程序的价值在于指令和嵌入式逻辑。编程团队工作的结果就是他们制定的计划。

但是,使用数据科学,您对通过创建数据摘要或模型从数据中生成见解更感兴趣。您更关心数据在流程的不同阶段会发生什么变化,从而产生这些见解和模型。这种简单的兴趣转移 – 从指令 (如在控制流中) 到数据以及数据如何由流程塑造 – 已经影响了基于代码的方法的效用。

当您如此关心数据在每个阶段发生的情况时,希望看到数据流更有意义,而且额外的好处是可以看到流程的每个离散步骤之后的输出。这正是 KNIME 可视化工作流程所提供的。

可视化工作流

我们关心方法,而不是代码

数据科学家需要了解方法或算法的作用,但不需要了解它实际上是如何实现的(即它是如何真正实现的)。

想象一下,一位数据科学家的任务是为一家电信公司构建一个模型来预测客户流失。他们关心的问题之一是选择合适的模型,例如 Logistic 回归、决策树或使用随机森林,并为该模型设置优化目标以实现最佳预测性能。但他们并不关心给定模型训练方法的基础代码。数据科学家很少查看 XGBoost 中的代码或他们经常依赖的任何其他 ML 算法或库。

通常,数据科学家关心以下方面:

  • 数据理解:他们正在处理的数据的特征、质量和结构。
  • 特征工程:从数据中选择和创建相关特征以提高模型性能。
  • 模型选择:为给定的问题和数据选择最合适的算法和技术。
  • 模型评估:使用适当的指标和验证技术评估模型的性能。
  • 可解释性:了解模型的工作原理并能够向利益相关者解释其预测。
 

他们不太关心如何在代码中实现特定技术的复杂细节。他们也不是特别喜欢弄清楚如何与不同的工具和编程语言进行交互以及在不同之间进行交互。

换句话说,他们关心的是用于生成见解或准确预测未来的工具、旋钮和刻度盘,而不是底层代码的细节。

数据科学需要协作

使用可视化工作流可以在数据专家之间以及数据专家和领域专家之间建立一种通用语言。

在团队内协作时,数据工程师无需向使用 Python 的 AI 工程师或喜欢 JavaScript 的可视化专家详细说明其 SQL 代码。在数据流中的适当时间添加他们的专业知识,使可视化工作流成为技术专家之间的出色协作工具。如果该工具允许他们添加代码(仅在他们愿意的情况下),那就更好了。

可视化工作流范例在数据和领域专家团队之间工作时也非常有用。我们听到的关于数据团队的最常见抱怨之一是,他们离数据太远,无法理解领域专家的“常识”特性和异常。必须整合领域专业知识并尽早获得有关解决方案的反馈,以确保数据科学项目不会偏离轨道太远,并最终提供有缺陷的解决方案。在这里,可视化工作流可用于对齐、解释甚至将数据科学解决方案从一个团队移交给另一个团队。

同样,可视化工作流对于从事治理和合规性工作的任何人来说都是一个方便的参考,它可以创建对潜在敏感数据执行的操作的可视化记录。或者,向他们展示您的团队可能已经创建的任何保护措施,以更好地控制 AI 模型访问数据的方式和内容。

学习数据科学不需要编码学位

可视化工作流程的最大好处之一是学习曲线。在一个数据和 AI 日益饱和的世界中,数据专家有责任培训未来的劳动力,使其能够流畅地处理大型数据集。

可视化工作流程允许初学者从更简单的数据操作和自动化开始,但立即熟悉也可用于高级数据科学的工具。在几个小时内,他们就可以构建第一个真正的工作流程,用于汇总电子表格、从仓库中提取数据,甚至构建 ML 模型。到那时,他们已经理解了可视化工作流范式,下一步是开始了解更多节点和底层方法的作用。

这样,他们就可以在增量步骤中添加新的专业知识,并更深入地研究数据科学领域,而无需离开可视化工作流环境。KNIME 用户群中充满了技能娴熟的营销人员、供应链分析师、化学家、生产工程师、人力资源分析师,甚至机器学习专家,他们定期构建复杂的分析工作流程,而无需学习编码。

低代码上下文中的 IMODEL

如果您确信可视化工作流对数据科学有意义,下一步就是评估哪个低代码提供商最有意义。

IMODEL 在三个方面与其他提供商不同:

  1. 工作流程就是程序。 低代码是一个广义的术语,许多看起来像 IMODEL 的工具不一定在后台做同样的事情。许多低代码提供商只是在 Python 等编码语言的基础上添加 UX。您可以直观地拖放节点,然后在界面下操作创建代码。在某些情况下,您需要稍微调整或调整代码以使其正常工作。

    有了 IMODEL,可视化的工作流程就是程序。而对应的编程语言是网络连接节点。这样做的好处是,一切都可以在没有代码的情况下完成,并且 IMODEL 不依赖任何一种单一的语言或库来保持相关性。

  2. IMODEL完全兼容KNIME,KNIME是开源(且免费)以确保您的数据功能面向未来。 KNIME Analytics Platform 是完全免费和开源的。免费意味着任何人都可以完全免费构建任意数量的任何复杂程度的工作流程。仅当您需要使用 KNIME Hub 将工作流程自动化或部署为 REST API 或数据应用程序时,才需要付费。开放意味着市场上的任何新开发(现在有很多)都可以快速集成到平台中。集成还意味着你仍然可以根据需要添加代码。
  3. 分析复杂性。 KNIME Analytics Platform 在低代码领域提供了最广泛的功能和分析技术,这在一定程度上要归功于其开源方法。

    使用 KNIME,您永远不会被迫直接使用代码来为执行的底层库设置参数。可视化程序员可以使用所有可以修改的方面,在许多情况下,这意味着非常高级的控制。在 KNIME 中,这适用于从使用数据库到神经网络再到所有其他类别的数据科学(如文本、图像和流程挖掘)的所有内容。

视觉范例用于 KNIME 中的所有内容 – 从准备和混合,到分析和可视化,到创建用于部署的包,到调用外部应用程序,到构建交互式数据应用程序,再到捕获和存储元数据。

在 KNIME,我们相信可视化工作流对数据科学有意义。我们从头开始构建了一种真正的(可视化)编程语言,以帮助具有任何背景或专业知识的数据工作者端到端地构建数据科学解决方案。