Skip to content

轻量评估#

注册社区和付费计划可用

轻量评估对注册社区用户和所有付费计划可用。

什么是轻量评估?#

在构建工作流时,您通常希望用一些示例来测试它,以了解其性能并进行改进。在工作流开发的这个阶段,查看每个示例的工作流输出通常就足够了。设置更正式的评分或指标的好处还不足以证明所需的努力。

轻量评估允许您逐个通过工作流运行测试数据集中的示例,将输出写回到数据集中。然后,您可以将这些输出并排检查,并将它们与期望的输出进行可视化比较(如果有的话)。

工作原理#

Google Sheets 凭据

评估使用数据表或 Google Sheets 来存储测试数据集。要使用 Google Sheets 作为数据集源,请配置 Google Sheets 凭据

轻量评估在工作流的"Editor 编辑器"选项卡中进行,但您可以在"Evaluations 评估"选项卡中找到如何设置的说明。

步骤:

  1. 创建数据集
  2. 将数据集连接到工作流
  3. 将工作流输出写回数据集
  4. 运行评估

以下说明将使用一个为传入支持工单分配类别和优先级的示例工作流。

示例 AI 工作流

1. 创建数据集#

为您的工作流创建一个包含一些示例的数据表或 Google Sheet。您的数据集应该包含以下列:

  • 工作流输入
  • (可选)期望或正确的工作流输出
  • 实际输出

将实际输出列保留为空白,因为您将在评估过程中填充它们。

支持票据分类工作流的示例数据集
支持票据分类工作流的示例数据集

2. 将数据集连接到您的工作流#

插入评估触发器以拉入您的数据集#

每次评估触发器运行时,它将输出代表数据集一行的单个项目。

点击评估触发器左侧的'评估全部'按钮将按顺序多次运行您的工作流,数据集中的每一行运行一次。这是评估触发器的特殊行为。

在连接触发器时,您通常只想运行一次。您可以通过以下方式做到这一点:

  • 将触发器的'要处理的最大行数'设置为 1
  • 点击触发器上的'执行节点'按钮(而不是'评估全部'按钮)

将触发器连接到您的工作流#

您现在可以将评估触发器连接到工作流的其余部分,并引用它输出的数据。至少,您需要在工作流的后续部分使用数据集的输入列。

如果您的工作流中有多个触发器,您需要将它们的分支合并在一起

连接评估触发器
添加并连接评估触发器的支持票据分类工作流。

3. 将工作流输出写回数据集#

要在评估运行时填充数据集的输出列:

  • 插入评估节点的'设置输出'操作
  • 在工作流产生您正在评估的输出后的某个点将其连接到您的工作流
  • 在节点的参数中,将工作流输出映射到正确的数据集列
连接设置输出节点
添加并连接'设置输出'节点的支持票据分类工作流。

4. 运行评估#

点击评估触发器左侧的执行工作流按钮。工作流将执行多次,数据集的每一行执行一次:

执行工作流按钮

在数据表或 Google Sheet 中查看每次执行的输出,如需要,可使用工作流的"executions 执行"选项卡检查执行详情。

一旦您的数据集增长超过少数几个示例,考虑基于指标的评估以获得性能的数值视图。另请参阅提示和常见问题