信任与安全设计
概述
AI 产品的信任与安全(Trust & Safety)是产品设计中不可忽视的维度,直接关系到用户信任、品牌声誉和合规要求。
内容安全
AI 输出的安全风险
| 风险类型 | 说明 | 缓解措施 |
|---|---|---|
| 有害内容 | 生成暴力、歧视等不当内容 | 输出过滤 + 内容审核 |
| 隐私泄露 | 输出中包含个人隐私信息 | PII 检测 + 脱敏 |
| 虚假信息 | 生成看似真实的假信息 | 事实核查 + 来源标注 |
| 版权风险 | 生成与版权内容高度相似的内容 | 相似度检测 + 引用标注 |
安全设计策略
- 输入过滤:拦截恶意 Prompt(Prompt 注入攻击)
- 输出审核:对 AI 输出进行安全检查
- 用户举报:提供便捷的举报不当内容入口
- 人工审核:高风险场景保留人工把关环节
Prompt 注入防御
Prompt 注入是用户通过特殊输入来操纵 AI 行为的攻击方式。
常见攻击类型
- 直接注入:用户在输入中包含指令覆盖 System Prompt
- 间接注入:通过外部数据源(如网页、文档)植入恶意指令
- 越狱(Jailbreak):诱导模型绕过安全限制
防御策略
- 使用强力的 System Prompt 明确安全边界
- 输入预处理和敏感词过滤
- 输出验证和安全检查
- 权限最小化原则(AI 不应有过大的操作权限)
高风险场景设计
在医疗、金融、法律等高风险场景中,AI 产品需要额外谨慎:
设计原则
- 免责声明:明确告知 AI 输出仅供参考
- 人工兜底:关键决策必须有人工确认
- 审计日志:记录 AI 的所有决策过程
- 降级方案:AI 不确定时主动交给人工
信心校准
AI 产品不应过度自信也不应过度谦虚:
AI 置信度高 + 实际正确 → 理想状态 ✅
AI 置信度高 + 实际错误 → 最危险 ❌ 需要重点防范
AI 置信度低 + 实际正确 → 保守 ⚠️ 可以改进
AI 置信度低 + 实际错误 → 安全降级 ✅ 设计得当用户隐私
数据使用透明度
- 清晰说明哪些数据会被 AI 使用
- 提供数据使用的选择权(opt-in/opt-out)
- 说明数据是否会用于模型训练
设计清单
- [ ] AI 功能的数据使用说明是否清晰?
- [ ] 用户是否能控制自己的数据使用范围?
- [ ] 是否有数据删除的途径?
- [ ] 敏感数据是否有额外的保护措施?