信任与安全设计

概述

AI 产品的信任与安全（Trust & Safety）是产品设计中不可忽视的维度，直接关系到用户信任、品牌声誉和合规要求。

内容安全

AI 输出的安全风险

风险类型	说明	缓解措施
有害内容	生成暴力、歧视等不当内容	输出过滤 + 内容审核
隐私泄露	输出中包含个人隐私信息	PII 检测 + 脱敏
虚假信息	生成看似真实的假信息	事实核查 + 来源标注
版权风险	生成与版权内容高度相似的内容	相似度检测 + 引用标注

安全设计策略

输入过滤：拦截恶意 Prompt（Prompt 注入攻击）
输出审核：对 AI 输出进行安全检查
用户举报：提供便捷的举报不当内容入口
人工审核：高风险场景保留人工把关环节

Prompt 注入防御

Prompt 注入是用户通过特殊输入来操纵 AI 行为的攻击方式。

常见攻击类型

直接注入：用户在输入中包含指令覆盖 System Prompt
间接注入：通过外部数据源（如网页、文档）植入恶意指令
越狱（Jailbreak）：诱导模型绕过安全限制

防御策略

使用强力的 System Prompt 明确安全边界
输入预处理和敏感词过滤
输出验证和安全检查
权限最小化原则（AI 不应有过大的操作权限）

高风险场景设计

在医疗、金融、法律等高风险场景中，AI 产品需要额外谨慎：

设计原则

免责声明：明确告知 AI 输出仅供参考
人工兜底：关键决策必须有人工确认
审计日志：记录 AI 的所有决策过程
降级方案：AI 不确定时主动交给人工

信心校准

AI 产品不应过度自信也不应过度谦虚：

AI 置信度高 + 实际正确 → 理想状态 ✅
AI 置信度高 + 实际错误 → 最危险   ❌ 需要重点防范
AI 置信度低 + 实际正确 → 保守     ⚠️ 可以改进
AI 置信度低 + 实际错误 → 安全降级 ✅ 设计得当

用户隐私

数据使用透明度

清晰说明哪些数据会被 AI 使用
提供数据使用的选择权（opt-in/opt-out）
说明数据是否会用于模型训练

设计清单

[ ] AI 功能的数据使用说明是否清晰？
[ ] 用户是否能控制自己的数据使用范围？
[ ] 是否有数据删除的途径？
[ ] 敏感数据是否有额外的保护措施？

信任与安全设计 ​

概述 ​

内容安全 ​

AI 输出的安全风险 ​

安全设计策略 ​

Prompt 注入防御 ​

常见攻击类型 ​

防御策略 ​

高风险场景设计 ​

设计原则 ​

信心校准 ​

用户隐私 ​

数据使用透明度 ​

设计清单 ​

信任与安全设计

概述

内容安全

AI 输出的安全风险

安全设计策略

Prompt 注入防御

常见攻击类型

防御策略

高风险场景设计

设计原则

信心校准

用户隐私

数据使用透明度

设计清单