Skip to content

信任与安全设计

概述

AI 产品的信任与安全(Trust & Safety)是产品设计中不可忽视的维度,直接关系到用户信任、品牌声誉和合规要求。

内容安全

AI 输出的安全风险

风险类型说明缓解措施
有害内容生成暴力、歧视等不当内容输出过滤 + 内容审核
隐私泄露输出中包含个人隐私信息PII 检测 + 脱敏
虚假信息生成看似真实的假信息事实核查 + 来源标注
版权风险生成与版权内容高度相似的内容相似度检测 + 引用标注

安全设计策略

  1. 输入过滤:拦截恶意 Prompt(Prompt 注入攻击)
  2. 输出审核:对 AI 输出进行安全检查
  3. 用户举报:提供便捷的举报不当内容入口
  4. 人工审核:高风险场景保留人工把关环节

Prompt 注入防御

Prompt 注入是用户通过特殊输入来操纵 AI 行为的攻击方式。

常见攻击类型

  • 直接注入:用户在输入中包含指令覆盖 System Prompt
  • 间接注入:通过外部数据源(如网页、文档)植入恶意指令
  • 越狱(Jailbreak):诱导模型绕过安全限制

防御策略

  • 使用强力的 System Prompt 明确安全边界
  • 输入预处理和敏感词过滤
  • 输出验证和安全检查
  • 权限最小化原则(AI 不应有过大的操作权限)

高风险场景设计

在医疗、金融、法律等高风险场景中,AI 产品需要额外谨慎:

设计原则

  1. 免责声明:明确告知 AI 输出仅供参考
  2. 人工兜底:关键决策必须有人工确认
  3. 审计日志:记录 AI 的所有决策过程
  4. 降级方案:AI 不确定时主动交给人工

信心校准

AI 产品不应过度自信也不应过度谦虚:

AI 置信度高 + 实际正确 → 理想状态 ✅
AI 置信度高 + 实际错误 → 最危险   ❌ 需要重点防范
AI 置信度低 + 实际正确 → 保守     ⚠️ 可以改进
AI 置信度低 + 实际错误 → 安全降级 ✅ 设计得当

用户隐私

数据使用透明度

  • 清晰说明哪些数据会被 AI 使用
  • 提供数据使用的选择权(opt-in/opt-out)
  • 说明数据是否会用于模型训练

设计清单

  • [ ] AI 功能的数据使用说明是否清晰?
  • [ ] 用户是否能控制自己的数据使用范围?
  • [ ] 是否有数据删除的途径?
  • [ ] 敏感数据是否有额外的保护措施?

用 AI 思维做产品