卓越方达logo200*800

数据科学家如何有效地管理 GenAI 的使用

更新 2024年8月26日

生成式 AI 为任何关心数据隐私和模型治理的人增加了赌注。在封闭环境中治理数据和分析模型已经够难的了。但是,生成式 AI 工具的迅速出现和采用使任何人都难以跟上并有效管理其使用。公平地说,数据隐私和模型治理并不是新话题。但 GenAI 为这些问题开辟了一个新的复杂性维度。

据思科称,27% 的公司选择通过彻底禁止 GenAI 工具来管理风险。早期和高度公开的错误,例如三星员工将专有代码泄露给 ChatGPT,也无济于事。这只是数据科学社区关注的众多问题中的一个例子,这些问题涉及如何创建和维护无懈可击的数据和模型治理框架,同时仍能从 GenAI 中受益。

甚至在 GenAI 之前,我们就需要管理我们提供哪些模型的访问权限(以及为什么)、谁可以使用这些模型以及哪些数据可以安全共享。这都是在考虑将 GenAI 添加到组合中之前。现在,我们必须管理风险,以确保我们的数据不会被发送到不应该发送到的地方,并且我们的模型不会产生不道德和不正确的结果。

在本文中,我们将研究如何在数据科学的背景下平衡 GenAI 的好处和风险,而无需诉诸全面禁令。

GenAI 为数据科学家带来的风险和机遇

GenAI 的出现使许多首席数据官成为人们关注的焦点,因为其他最高管理层询问“我们如何管理 GenAI 的所有风险”,并寻求数据科学家和数据管理员的答案。

在我们管理风险之前,我们需要知道这些风险是什么。为 GenAI 创建强大的数据科学治理方法的第一步是评估收益和风险,并确保您的行动和策略反映您自己的风险承受能力。因此,让我们简要地看一下它的好处,并更详细地了解它们的风险。

数据科学家如何从 GenAI 中受益

生成式 AI 没有也不会取代数据工作者,即使这种说法是一个很好的点击诱饵。事实证明,自动化数据工作者需要处理的许多日常任务是有帮助的,随着技术的发展,我们可能会看到更多的自动化优势。

今天,GenAI 可以处理准备数据、清理数据,甚至构建基本工作流程。除了提高效率之外,它还让我们的数据专家有时间从事更复杂和创造性的工作,减少在无聊但必要的事情上花费的时间。甚至在平凡的 “辅助工作” 之外,我们现在可以轻松地将大规模 GenAI 模型整合到我们的分析工作中,以扩大我们能够实现的范围。

而这仅仅是个开始。

我们可以预期 GenAI 的功能将在未来几年以我们甚至无法预见的方式进一步改进。我们的 GenAI 治理方法能否跟上?

数据科学家如何面对 GenAI 带来的风险

数据治理风险

数据治理和数据安全是在整个企业中推广 GenAI 使用的两个最大担忧。专有数据或个人数据被意外泄露给 AI 工具,然后用于训练模型,或者使公司面临第三方可以读取和分析发送到这些工具的数据的风险,这些都是非常现实的风险。

模型路由和使用风险

GenAI 带来了成本控制、模型可靠性以及人们使用未经批准的工具的内部风险。当组织没有关于排除特定 GenAI 提供商的政策时,他们最终可能会陷入整个公司的员工使用无数不同 GenAI 工具的情况。这可能会导致数据隐私风险,因为数据被发送到多个工具,但也会导致消费风险,因为您可能会发现自己与各种提供商一起支付高额账单。

模型质量风险

使用 GenAI 工具,我们需要确保输出质量。这意味着建立制衡机制来识别输出中的幻觉、不准确和偏见。已经有备受瞩目的案例和研究确定了这些风险:

  • 2023 年,两名律师因使用 ChatGPT 起草一份未能独立评估其准确性的法庭文件而被罚款 5,000 美元。ChatGPT 在法庭文件中提供的法律先例被证明是完全不准确的。
  • 根据对 5,000 多张 Stable Diffusion 图像的分析,研究人员表明,“根据 Stable Diffusion 的世界是由白人男性 CEO 掌管的。女性很少担任医生、律师或法官。深色皮肤的男性犯罪,而深色皮肤的男性则翻转汉堡。

如果输出没有经过人工或会标记问题的系统彻底检查,GenAI 不仅会造成声誉损害,还会造成代价高昂的法律责任。

如何开始管理 GenAI 使用的风险

有效的治理不仅仅涉及设置禁止和锁定功能。这是关于寻找平衡并做出明智的选择。这是关于我们如何充分利用进入市场的强大生成式 AI 技术,同时保持我们的数据安全并防范风险。

作为数据科学家、数据管理员和数据分析师的低代码工具,KNIME 用户可以处理大量潜在的敏感数据来运行复杂的分析。KNIME 用户可以将 GenAI 功能构建到他们的可视化工作流程中,以增强他们的分析能力。这意味着用户可以使用 GenAI 进行内容摘要、领域知识提取或任何其他 LLM 功能。将 LLM 功能与 KNIME 的其他分析和可视化技术相结合,使用户能够进一步自定义和扩展其数据工作的边界。更重要的是,KNIME 的 GenAI 聊天机器人 K-AI 可以快速提升您的团队技能,并帮助您构建基本的工作流程,让您抢占先机。

这些好处伴随着我们讨论过的关于幻觉、模型治理和偏见的所有风险,但可以通过 KNIME Business Hub 中提供的企业功能进行治理。让我们更深入地了解一下如何使用这些功能来管理 GenAI 的使用。

如何管理 GenAI 的模型路由风险

除了对公司网络或机器的域限制之外,为您的公司锁定“首选”或“受信任”的 AI 提供商并不总是那么容易。在一个拥有数百或数千人的组织中,您如何确保数据科学家没有使用未经批准的 GenAI 工具?

使用 KNIME,管理员可以为数据科学家设置一个或多个代理 GenAI 提供商。这样,您可以确保分析工作流程仅与值得信赖且经过审查的 GenAI 工具连接。这将权力交到您手中,并让您高枕无忧,因为您的 GenAI 治理框架得到了遵守。
您还可以为不同团队的不同 AI 处理器设置权限。您甚至可以将代理指向内部模型,就像我们上面示例中的三星一样,您想构建或使用内部 AI 工具。

如何管理 GenAI 的数据治理风险

要限制这种数据泄露的风险,首先要拥有可靠的内部数据治理和访问层次结构。只有相关人员才能访问他们需要的相关数据,以便在适当的抽象级别上有效。仅此步骤就可以大大降低数据泄露到 GenAI 工具的风险。

即使我们认为我们已经从数据集中删除了所有个人身份信息,我们也永远无法完全消除人为错误。您组织中的某人可能会使用发送到您批准的 GenAI 提供商服务器的敏感数据运行分析,这始终存在风险。但是我们可以设置检查和平衡,以便在为时已晚之前检测到人为错误。

使用 KNIME,您可以设置护栏工作流,以处理匿名数据或阻止任何包含 PII 等工作流的工作流。这增加了一层额外的保护,可以阻止 AI 读取数据并保护您免受尴尬的错误。

如何管理模型质量风险

人工智能非常有用,但它并不能取代自然智能。在评估 GenAI 输出的准确性时,最好的方法是手动审查输出,并始终让人工在循环中审查它们。

借助 KNIME,管理员能够回顾产生不准确结果的工作流程,并访问显示触发了哪些验证工作流程的日志(例如 PII 匿名化工作流程,或阻止访问 GenAI 工具的特定工作流程)。然后,数据科学家和监管员可以使用这些见解来修改或改进他们的治理方法。

KNIME 的可视化工作流还允许您轻松查看数据科学工作流中的所有步骤。如果您的 GenAI 工具出现问题,您可以直观地检查您的 KNIME 工作流程,特别是查看所使用的提示,以便您可以全面了解发生了什么。

数据科学和 GenAI 的前进之路

我们这些从事数据合规工作的人对 GenAI 技术的风险感受得非常敏锐。困难的是找到检查和控制的适当平衡,使其感觉“足够安全”。最近的数据显示,91% 的组织认为他们需要做更多工作来让客户放心,让他们对 AI 工具使用他们的数据感到放心,92% 的组织认为 GenAI 需要一种完全不同的治理方法。

除非您在本地托管 GenAI 工具,否则它们永远不会有 100% 的安全保证。但是,通过正确的保护措施,我们可以保护自己并更好地平衡这项新技术的风险和收益。