Guardrails node Guardrails 节点#
使用 Guardrails 节点对文本强制执行安全、安全和内容策略。你可以使用它在将用户输入发送到 AI 模型_之前_验证用户输入,或者在将 AI 模型的_输出_用于工作流之前检查它。
Chat Model Connection Required for LLM-based Guardrails 基于 LLM 的 Guardrails 需要 Chat Model 连接
在使用 Check Text for Violations 检查文本违规操作和基于 LLM 的 guardrails 时,此节点需要将 Chat Model 节点连接到其 Model 输入。许多 guardrail 检查(如 Jailbreak、NSFW 和 Topical Alignment)都是基于 LLM 的,并使用此连接来评估输入文本。
Node parameters 节点参数#
使用这些参数配置 Guardrails 节点。
Operation 操作#
此节点的操作模式,用于定义其行为。
- Check Text for Violations 检查文本违规:提供完整的 guardrails 集合。任何违规都会将项目发送到 Fail 失败分支。
- Sanitize Text 清理文本:提供可检测 URL、正则表达式、密钥或个人身份信息(PII)(如电话号码和信用卡号)的 guardrails 子集。节点会用占位符替换检测到的违规内容。
Text To Check 要检查的文本#
guardrails 评估的文本。通常,你使用来自上一个节点的表达式映射此文本,例如来自用户查询的文本或来自 AI 模型的响应。
Guardrails Guardrails#
选择一个或多个 guardrails 应用于 Text To Check 要检查的文本。当你从列表中添加 guardrail 时,其特定配置选项会显示在下方。
- Keywords 关键词:检查指定关键词是否出现在输入文本中。
- Keywords 关键词:要阻止的单词的逗号分隔列表。
- Jailbreak 越狱:检测绕过 AI 安全措施或利用模型的尝试。
- Customize Prompt 自定义提示:(布尔值)如果你打开此选项,会出现一个文本输入,其中包含 jailbreak 检测模型的默认提示。你可以更改此提示以微调 guardrail。
- Threshold 阈值:0.0 到 1.0 之间的值。这表示 AI 模型将输入标记为 jailbreak 尝试所需的置信度。阈值越高越严格。
- NSFW:检测生成不适合工作场所(NSFW)内容的尝试。
- Customize Prompt 自定义提示:(布尔值)如果你打开此选项,会出现一个文本输入,其中包含 NSFW 检测模型的默认提示。你可以更改此提示以微调 guardrail。
- Threshold 阈值:0.0 到 1.0 之间的值,表示将内容标记为 NSFW 所需的置信度。
- PII:检测文本中的个人身份信息(PII)。
- Type 类型:选择要扫描的 PII 实体:
- All 全部:扫描所有可用的实体类型。
- Selected 已选择:允许你从列表中选择特定实体。
- Entities 实体:(如果 Type 类型为 Selected 已选择时出现)要检测的 PII 类型的多选列表(例如,
CREDIT_CARD、EMAIL_ADDRESS、PHONE_NUMBER和US_SSN)。
- Type 类型:选择要扫描的 PII 实体:
- Secret Keys 密钥:检测文本中是否存在密钥或 API 凭据。
- Permissiveness 宽松度:标记密钥时检测应严格还是宽松:
- Strict 严格
- Permissive 宽松
- Balanced 平衡
- Permissiveness 宽松度:标记密钥时检测应严格还是宽松:
- Topical Alignment 主题对齐:确保对话保持在预定义的范围或主题内(也称为"业务范围")。
- Prompt 提示:定义_允许_主题的预设提示。guardrail 检查 Text To Check 要检查的文本是否与此提示对齐。
- Threshold 阈值:0.0 到 1.0 之间的值,表示将输入标记为_偏离主题_所需的置信度。
- URLs:管理节点在输入文本中找到的 URL。它会将所有 URL 检测为违规,除非你在 Block All URLs Except 阻止除以下外的所有 URL中指定它们。
- Block All URLs Except 阻止除以下外的所有 URL:(可选)你允许的 URL 的逗号分隔列表。
- Allowed Schemes 允许的方案:选择要允许的 URL 方案(例如,
https、http、ftp和mailto)。 - Block userinfo 阻止用户信息:(布尔值)如果你打开此选项,节点会阻止包含用户凭据的 URL(例如,
user:[email protected])以防止凭据注入。 - Allow subdomain 允许子域:(布尔值)如果你打开此选项,节点会自动允许 Block All URLs Except 阻止除以下外的所有 URL列表中任何 URL 的子域(例如,如果
example.com在列表中,则sub.example.com将被允许)。
- Custom 自定义:定义你自己的自定义、基于 LLM 的 guardrail。
- Name 名称:你的自定义 guardrail 的描述性名称(例如,"检查粗鲁语言")。
- Prompt 提示:指示 AI 模型要检查内容的提示。
- Threshold 阈值:0.0 到 1.0 之间的值,表示将输入标记为违规所需的置信度。
- Custom Regex 自定义正则表达式:定义你自己的自定义正则表达式模式。
- Name 名称:你的自定义模式的名称。节点在 Sanitize Text 清理文本模式下使用此名称作为占位符。
- Regex 正则表达式:你的正则表达式模式。
Customize System Message 自定义系统消息#
如果你打开此选项,会出现一个文本输入,其中包含 guardrail 用于根据 schema 强制执行阈值和 JSON 输出的消息。更改它以修改全局 guardrails 行为。