基于指标的评估#
专业版和企业版计划可用
基于指标的评估在专业版和企业版计划上可用。注册社区和入门计划用户也可以为单个工作流使用它。
什么是基于指标的评估?#
一旦您的工作流准备好部署,您通常希望在比构建时更多的示例上测试它。
例如,当生产执行开始出现边缘情况时,您希望将它们添加到测试数据集中,以便确保它们得到覆盖。
对于从生产数据构建的大型数据集,仅通过目视检查结果很难了解性能。相反,您必须测量性能。基于指标的评估可以为每个测试运行分配一个或多个分数,您可以将其与之前的运行进行比较。个别分数会汇总以测量整个数据集的性能。
此功能允许您运行计算指标的评估,跟踪这些指标在运行之间的变化,并深入了解这些变化的原因。
指标可以是确定性函数(例如两个字符串之间的距离)或者您可以使用 AI 计算它们。指标通常涉及检查输出与参考输出(也称为基本事实)的距离。为此,数据集必须包含该参考输出。不过,有些评估不需要这个参考输出(例如,检查文本的情感或毒性)。
工作原理#
需要 Google Sheets
评估使用 Google Sheets 存储测试数据集。要使用评估,您必须配置 Google Sheets 凭据。
- 设置轻量评估
- 计算指标
- 将指标写回评估
- 运行评估并查看结果
1. 设置轻量评估#
按照设置说明创建数据集并将其连接到您的工作流,将输出写回数据集。
以下步骤使用轻量评估文档中相同的支持票据分类工作流:
2. 计算指标#
指标是用于评分工作流输出的维度。它们通常将实际工作流输出与参考输出进行比较。使用 AI 计算指标是常见的,尽管有时只使用代码也是可能的。在 n8n 中,指标总是数字。
您需要添加逻辑来计算工作流的指标,在它产生输出之后的某个点。您可以将指标使用的任何参考输出作为数据集中的列添加。这确保它们在工作流中可用,因为它们将由评估触发器输出。
示例:
- 正确性:输出的含义是否与参考输出一致。
- 分类:输出是否与预期输出完全匹配。
- 有用性:答案是否解决了问题。
- 字符串相似性:输出与参考输出的接近程度,按字符测量。
- 工具调用:代理是否调用了正确的工具。
- RAG 文档相关性:在使用向量数据库时,检索到的文档是否与问题相关。
- RAG 答案基础性:在使用向量数据库时,答案是否在检索到的文档中"有根据"。
计算指标可能会增加延迟和成本,因此您可能只想在运行评估时这样做,在进行生产执行时避免它。您可以通过将指标逻辑放在'检查是否评估'操作之后来做到这一点。
3. 将指标写回评估#
n8n 需要知道如何提取您在步骤 2 中计算的指标。通过添加带有'设置指标'操作的评估节点并将您的指标映射到其中来做到这一点。
此支持票据分类工作流显示了添加并连接的'设置输出'操作。由于此工作流中的指标只是检查实际输出是否与预期输出完全匹配,工作流在'设置指标'节点的表达式中计算它们,而不是向工作流添加任何其他节点。
4. 运行评估并查看结果#
切换到工作流的评估选项卡并点击运行评估按钮。评估将开始。评估完成后,它将显示每个指标的摘要分数。
您可以通过点击测试运行行来查看每个测试用例的结果。点击单个测试用例将打开产生它的执行(在新选项卡中)。