概述#
什么是评估?#
评估是检查您的 AI 工作流是否可靠的关键技术。它可能是不稳定的概念验证和稳固的生产工作流之间的区别。在构建阶段和部署到生产环境后都很重要。
评估的基础是通过您的工作流运行测试数据集。该数据集包含多个测试用例。每个测试用例都包含工作流的示例输入,通常还包括预期的输出。
评估允许您:
- 在一系列输入上测试您的工作流,以便了解它在边缘情况下的表现
- 有信心地进行更改,而不会在其他地方无意中使事情变得更糟
- 比较性能,跨不同模型或提示
以下视频解释了什么是评估、为什么它们有用以及它们如何工作:
为什么需要评估?#
AI 模型与代码根本不同。代码是确定性的,您可以推理它。对于 LLM 来说这很难做到,因为它们是黑盒子。相反,您必须通过运行数据并观察输出来测量 LLM 输出。
只有在运行过多个准确反映它在生产中必须处理的所有边缘情况的输入后,您才能建立对模型可靠执行的信心。
两种类型的评估#
轻量评估(部署前)#
构建一个干净、全面的数据集很困难。在初始构建阶段,通常只生成少数几个示例是有意义的。这些可能足以将工作流迭代到可发布状态(或概念验证)。您可以直观地比较结果以了解工作流的质量,而无需设置正式的指标。
基于指标的评估(部署后)#
一旦部署工作流,就更容易从生产执行中构建更大、更具代表性的数据集。当您发现错误时,可以将导致错误的输入添加到数据集中。修复错误时,重要的是再次在工作流上运行整个数据集作为回归测试,以检查修复是否无意中使其他东西变得更糟。
由于有太多测试用例无法单独检查,评估使用指标(表示特定特征的数值)来测量输出的质量。这也允许您跟踪运行之间的质量变化。
评估类型比较#
轻量评估(部署前) | 基于指标的评估(部署后) | |
---|---|---|
每次迭代的 性能改进 |
大 | 小 |
数据集大小 | 小 | 大 |
数据集来源 | 手工生成 AI 生成 其他 |
生产执行 AI 生成 其他 |
实际输出 | 必需 | 必需 |
预期输出 | 可选 | 必需(通常) |
评估指标 | 可选 | 必需 |