高级 Prompt Engineering

基础技巧让模型"能用"，高级技巧让模型"好用"——这是产品经理从及格到优秀的分水岭。

前置阅读

本文是 Prompt Engineering 基础的进阶篇。如果你还不熟悉角色设定、结构化输出、Few-Shot 等基础技巧，建议先阅读基础篇。

提示词的高级推理框架

基础的 Prompt 技巧（角色设定、格式要求）解决的是"让模型听懂你"的问题。高级框架解决的是"让模型像专家一样思考"的问题。

提示词技术演进路线：

基础技巧                    高级框架                     自动化
─────────────────────────────────────────────────────────────
Zero-Shot    ──→   Chain-of-Thought   ──→   Auto-CoT
Few-Shot     ──→   ReAct              ──→   APE
角色设定      ──→   Reflexion          ──→   ART
格式要求      ──→   逆向提示词          ──→   Context Engineering

"告诉模型做什么"      "教模型怎么想"        "让模型自己优化"

Chain-of-Thought（思维链）深度解析

为什么 CoT 有效？

普通提示：
  问题 → 答案
  模型直接跳到结论，容易出错

CoT 提示：
  问题 → 思考步骤 1 → 思考步骤 2 → ... → 答案
  模型被迫展示推理过程，准确率显著提升

在复杂推理任务中，CoT 可以将准确率从 ~60% 提升到 ~90%+。

CoT 的三种实现方式

1. 手动 CoT（Manual CoT）

手动编写思维链示例，适合你对任务非常了解的场景：

你是一个 AI 产品需求评估专家。请按步骤分析：

示例：
用户需求："我们想用 AI 自动审核用户上传的图片"

步骤 1 - 场景分析：
这是一个图像内容审核场景，属于计算机视觉 + 内容安全领域。

步骤 2 - 技术可行性：
多模态模型（如 GPT-4o、Claude）已具备图像理解能力，
但审核准确率需要 > 99% 才能满足合规要求。

步骤 3 - 成本评估：
假设日均 10 万张图片，每张约 1000 tokens，
使用 GPT-4o-mini 约 $15/天，可接受。

步骤 4 - 风险评估：
误判风险高（误删用户内容 / 漏放违规内容），
需要人工复审兜底机制。

结论：技术可行，建议采用"AI 初筛 + 人工复审"的方案，
先从低风险类别开始上线。

现在请分析以下需求：
[用户的实际需求]

2. Zero-Shot CoT

最简单的 CoT——只需在提示末尾加一句话：

[你的问题]

请一步一步思考。（Let's think step by step.）

效果出奇地好，在数学推理任务上可以将 GPT 系列模型的准确率提升 2-3 倍。

3. Auto-CoT（自动思维链）

让模型自动生成思维链示例，省去人工编写的成本：

流程：

原始问题集
    │
    ▼
聚类分析 → 将问题分成若干类别
    │
    ▼
每类选一个代表性问题
    │
    ▼
用 Zero-Shot CoT 生成思维链
    │
    ▼
组合成 Few-Shot CoT 示例集
    │
    ▼
应用于新问题

产品经理应用场景

当你需要为产品构建大量 Prompt 模板时，Auto-CoT 可以大幅降低人工编写成本。让 AI 先为不同场景生成推理示例，你只需要审核和调整。

自我一致性（Self-Consistency）

核心思想

让模型对同一个问题生成多个答案，然后取多数投票的结果：

          ┌── 推理路径 A → 答案：方案 1
          │
同一问题 ──┼── 推理路径 B → 答案：方案 1
          │
          ├── 推理路径 C → 答案：方案 2
          │
          ├── 推理路径 D → 答案：方案 1
          │
          └── 推理路径 E → 答案：方案 2

多数投票结果：方案 1（3/5 = 60%）
置信度：中等（不是压倒性多数）

产品化应用

适用场景：
  ✓ 高风险决策（金融分析、医疗建议）
  ✓ 答案有明确对错的任务
  ✓ 需要置信度评估的场景

不适用场景：
  ✗ 创意生成（每次结果本就不同）
  ✗ 成本敏感场景（需要多次调用）
  ✗ 低延迟要求的场景

成本提醒

Self-Consistency 需要多次调用模型（通常 5-10 次），成本和延迟线性增加。在产品中使用时要权衡准确性提升和成本增加。

ReAct 框架：推理 + 行动

什么是 ReAct？

ReAct（Reasoning + Acting）让模型在思考和行动之间交替进行：

传统模式：
  问题 → 思考 → 回答

ReAct 模式：
  问题 → 思考 → 行动 → 观察 → 思考 → 行动 → 观察 → 回答

┌─────────────────────────────────────────────────────┐
│                                                     │
│  用户问题："我们产品的月活用户趋势如何？"               │
│                                                     │
│  Thought 1: 需要查询最近几个月的 MAU 数据              │
│  Action 1:  [查询数据库] SELECT month, mau FROM ...   │
│  Observation 1: 1月=120K, 2月=135K, 3月=142K         │
│                                                     │
│  Thought 2: MAU 在增长，需要计算增长率                  │
│  Action 2:  [计算] (142K-120K)/120K = 18.3%          │
│  Observation 2: 季度增长率 18.3%                      │
│                                                     │
│  Thought 3: 增长健康，但需要看是否有加速/减速趋势        │
│  Action 3:  [计算] 月环比：12.5%, 5.2%                │
│  Observation 3: 增长在放缓                            │
│                                                     │
│  Final Answer: MAU 呈增长趋势，季度增长 18.3%，         │
│  但月环比增速从 12.5% 降至 5.2%，增长正在放缓。          │
│                                                     │
└─────────────────────────────────────────────────────┘

ReAct 在 AI 产品中的角色

ReAct 是 AI Agent 的核心推理框架。当你设计一个能调用工具的 AI 产品时，底层就是 ReAct 模式：

产品形态	ReAct 的体现
AI 数据分析助手	思考 → 查询数据库 → 分析结果 → 生成报告
AI 客服	理解问题 → 查询知识库 → 判断是否需要转人工
AI 编程助手	分析需求 → 生成代码 → 运行测试 → 修复问题
AI 旅行规划	理解偏好 → 搜索航班 → 搜索酒店 → 组合方案

Reflexion：自我反思框架

核心思想

让模型评估自己的输出，发现问题后自我修正：

第一次生成
    │
    ▼
┌─────────────────────────┐
│  自我评估                │
│  "我的回答准确吗？"       │
│  "有没有遗漏关键信息？"   │
│  "逻辑有没有漏洞？"       │
└───────────┬─────────────┘
            │
     ┌──────┴──────┐
     │             │
   没问题        有问题
     │             │
     ▼             ▼
  输出答案      修正后重新生成
                   │
                   ▼
              再次自我评估
                   │
                  ...

产品化的 Reflexion 模式

System Prompt 示例：

你是一个产品文档审查专家。请按以下流程工作：

1. 首先生成你的分析结果
2. 然后用以下清单自检：
   □ 是否遗漏了关键用户场景？
   □ 技术可行性分析是否充分？
   □ 成本估算是否合理？
   □ 风险评估是否完整？
   □ 指标定义是否可量化？
3. 如果发现不足，修正后输出最终版本
4. 标注修正了哪些内容

为什么 Reflexion 对产品很重要？

在 AI 产品中，用户看到的第一次回答就是最终回答。Reflexion 通过内置自我审查机制，让模型在"交卷"前先检查一遍，显著提升输出质量——这比让用户反复修改体验好得多。

自动推理并使用工具（ART）

ART（Automatic Reasoning and Tool-use）让模型自动决定何时使用哪个工具：

┌─────────────────────────────────────────┐
│              ART 框架                    │
│                                         │
│  1. 任务库：存储各类任务的推理模板         │
│  2. 工具库：可用工具及其描述              │
│  3. 推理引擎：根据任务自动选择模板和工具    │
│                                         │
│  用户输入                                │
│      ↓                                   │
│  匹配最相似的任务模板                     │
│      ↓                                   │
│  生成推理步骤（含工具调用占位符）           │
│      ↓                                   │
│  执行工具调用，填入结果                    │
│      ↓                                   │
│  输出最终答案                             │
└─────────────────────────────────────────┘

与 ReAct 的区别：ART 更侧重"自动化"，通过任务模板库减少人工编写 Prompt 的工作量。

自动提示工程师（APE）

让 AI 帮你写 Prompt

APE（Automatic Prompt Engineer）的核心思想是用模型来优化模型的 Prompt：

APE 流程：

1. 定义任务和评估标准
       │
       ▼
2. 让 LLM 生成多个候选 Prompt
       │
       ▼
3. 在评估数据集上测试每个 Prompt
       │
       ▼
4. 选择表现最好的 Prompt
       │
       ▼
5. 对最佳 Prompt 进行变异和优化
       │
       ▼
6. 重复 3-5 直到满意

产品经理的 APE 实践

场景：你需要为客服机器人优化 System Prompt

Step 1: 准备 20 个真实用户问题和期望回答
Step 2: 让 Claude 生成 10 个不同的 System Prompt 变体
Step 3: 用 20 个问题测试每个变体，人工打分
Step 4: 选出 Top 3，让 Claude 分析它们的共同特征
Step 5: 基于分析结果生成优化版本
Step 6: 再次测试，选出最终版本

这个流程可以在 1-2 天内完成，
比靠直觉调试 Prompt 效率高 5-10 倍。

方向性刺激提示（Directional Stimulus Prompting）

核心概念

给模型一个"方向性提示"，引导它关注特定方面：

普通提示：
  "请分析这个产品功能的优劣势"
  → 模型可能泛泛而谈

方向性刺激提示：
  "请分析这个产品功能的优劣势。
   特别关注：数据隐私风险、边际成本曲线、
   用户学习成本这三个维度。"
  → 模型会深入分析指定维度

常用方向性刺激模式

刺激类型	示例	效果
关键词提示	"重点关注：安全性、成本、可扩展性"	聚焦特定维度
反面思考	"请特别指出可能失败的原因"	发现风险和盲点
角色对比	"从 CTO 和 CFO 两个角度分别分析"	多维度视角
约束提示	"假设预算只有 5 万元"	在限制条件下思考

逆向提示词（Reverse Prompting）

从输出反推 Prompt

当你看到一个好的 AI 输出但不知道 Prompt 怎么写时，可以让模型逆向推导：

逆向提示：
"以下是一段高质量的产品需求文档：
[粘贴优秀的 PRD 示例]

请分析这段文档的写作特点，并生成一个 System Prompt，
使得 AI 能够生成类似质量和风格的产品需求文档。"

逆向提示词的产品应用

场景：标准化团队的 AI 使用质量

1. 收集团队中最好的 AI 使用案例
2. 用逆向提示提取其 Prompt 特征
3. 生成标准化的 Prompt 模板
4. 在团队中推广使用

这比让每个人自己摸索 Prompt 写法高效得多。

Prompt 质量评估四步法

产品经理如何判断一个 Prompt 的好坏？

评估框架

┌─────────────────────────────────────────────┐
│          Prompt 质量评估四步法                 │
├─────────────────────────────────────────────┤
│                                             │
│  Step 1: 明确性评估                          │
│  ├── 任务描述是否清晰？                       │
│  ├── 输出格式是否明确？                       │
│  └── 边界条件是否定义？                       │
│                                             │
│  Step 2: 鲁棒性测试                          │
│  ├── 模糊输入能否正确处理？                    │
│  ├── 极端情况会不会崩溃？                     │
│  └── 多语言混合能否应对？                     │
│                                             │
│  Step 3: 一致性验证                          │
│  ├── 相同输入多次运行结果是否稳定？             │
│  ├── 相似输入的输出是否逻辑一致？              │
│  └── 格式是否始终符合要求？                   │
│                                             │
│  Step 4: 效率评估                            │
│  ├── Token 消耗是否合理？                     │
│  ├── 能否在更少 Token 内达到同等效果？          │
│  └── 有无冗余指令？                          │
│                                             │
└─────────────────────────────────────────────┘

评估打分模板

维度	评分（1-5）	权重	加权分
明确性	？	30%	？
鲁棒性	？	25%	？
一致性	？	25%	？
效率性	？	20%	？
总分			？/5

评分标准：

5 分：生产级质量，可直接上线
4 分：良好，少量调优即可
3 分：可用，但有明显改进空间
2 分：问题较多，需要重写
1 分：不可用

上下文工程（Context Engineering）

从 Prompt Engineering 到 Context Engineering

2025 年以来，业界开始提出"上下文工程"概念——Prompt 只是上下文的一部分，真正影响模型输出的是整个上下文窗口的内容组织：

上下文工程的四个组成部分：

┌─────────────────────────────────────────────┐
│              上下文窗口                       │
│                                             │
│  ┌──────────────────────┐                   │
│  │  System Prompt        │  ← 角色和规则     │
│  │  （系统提示）          │                   │
│  └──────────────────────┘                   │
│                                             │
│  ┌──────────────────────┐                   │
│  │  Retrieved Context    │  ← RAG 检索结果   │
│  │  （检索上下文）        │                   │
│  └──────────────────────┘                   │
│                                             │
│  ┌──────────────────────┐                   │
│  │  Conversation History │  ← 对话历史       │
│  │  （对话上下文）        │                   │
│  └──────────────────────┘                   │
│                                             │
│  ┌──────────────────────┐                   │
│  │  User Message         │  ← 当前用户输入   │
│  │  （用户消息）          │                   │
│  └──────────────────────┘                   │
│                                             │
└─────────────────────────────────────────────┘

上下文工程的核心原则

原则	说明	实践
相关性优先	只放与当前任务相关的信息	动态裁剪对话历史
距离效应	模型更关注上下文开头和结尾	关键信息放头尾
信息密度	高密度信息比冗长描述更有效	用结构化格式
一致性	上下文内的信息不能自相矛盾	定期检查冲突

上下文管理策略

对话轮次增多时的上下文管理：

轮次 1-3:  完整保留所有对话
轮次 4-8:  压缩早期对话为摘要
轮次 9+:   只保留关键信息 + 最近 3 轮

┌────────────────────────────────────┐
│  System Prompt（固定）              │
│  ─────────────────────────────── │
│  对话摘要（压缩的历史）              │
│  ─────────────────────────────── │
│  最近 3 轮完整对话                  │
│  ─────────────────────────────── │
│  RAG 检索结果（动态）               │
│  ─────────────────────────────── │
│  当前用户消息                      │
└────────────────────────────────────┘

产品设计建议

上下文管理直接影响产品体验。如果对话超过 10 轮后模型"忘记"了之前的设定，通常是上下文管理策略的问题，而不是模型本身的问题。

高质量 Prompt 模板库

模板 1：需求分析 Prompt

你是一位资深 AI 产品经理。请对以下需求进行深度分析：

## 需求描述
{user_requirement}

## 请按以下框架分析：

### 1. 场景拆解
- 核心用户画像
- 使用场景和频率
- 现有解决方案的痛点

### 2. AI 可行性评估
- 适合用 AI 解决的部分
- 不适合用 AI 的部分
- 当前技术成熟度（1-5）

### 3. 方案建议
- 推荐的技术方案（Prompt/RAG/微调）
- 预估成本区间
- MVP 范围建议

### 4. 风险清单
- 技术风险
- 体验风险
- 合规风险

请用表格和列表组织输出，确保可操作性。

模板 2：竞品分析 Prompt

你是一位 AI 行业分析师。请对以下 AI 产品进行深度竞品分析：

产品列表：{product_list}
分析维度：{dimensions}

请从以下角度分析：

1. **产品定位**：目标用户、核心价值主张
2. **AI 能力**：使用的模型、核心 AI 功能
3. **商业模式**：定价策略、变现方式
4. **差异化**：独特优势、护城河
5. **不足之处**：用户吐槽、体验短板

输出格式：先用对比表格总览，再逐个深入分析。

模板 3：PRD 生成 Prompt

你是一位专业的产品文档撰写者。
请根据以下信息生成一份 AI 功能的产品需求文档：

功能名称：{feature_name}
功能描述：{description}
目标用户：{target_user}

PRD 结构要求：
1. 功能概述（50 字以内）
2. 用户故事（3-5 个 As a... I want... So that...）
3. 功能详细设计
   - 输入/输出规格
   - AI 模型要求
   - 边界情况处理
4. 非功能需求
   - 延迟要求
   - 准确率要求
   - 成本预算
5. 评估指标
6. 上线计划

对大模型"叮嘱"：修复无灵魂回答

当模型回答太泛、太套路时，用以下技巧改善：

常见问题与修复策略

问题	原因	修复提示
回答太泛	缺少具体约束	"请给出具体数据和案例，不要泛泛而谈"
套话太多	RLHF 过度对齐	"直接给结论，跳过'这是一个好问题'等客套"
不敢下判断	安全对齐	"请给出你的明确建议，不要说'取决于具体情况'"
格式混乱	指令不明确	提供输出示例模板
遗漏关键点	上下文不足	补充背景信息和约束条件
回答过长	缺少长度约束	"请控制在 200 字以内"

万能修复模板

在回答时请遵循以下原则：
1. 直接给结论，不要铺垫
2. 用具体数据/案例支撑，不要空谈
3. 如果不确定，说明置信度而不是回避问题
4. 控制在 {word_count} 字以内
5. 用 {format} 格式输出

高级 Prompt Engineering ​

提示词的高级推理框架 ​

Chain-of-Thought（思维链）深度解析 ​

为什么 CoT 有效？ ​

CoT 的三种实现方式 ​

1. 手动 CoT（Manual CoT） ​

2. Zero-Shot CoT ​

3. Auto-CoT（自动思维链） ​

自我一致性（Self-Consistency） ​

核心思想 ​

产品化应用 ​

ReAct 框架：推理 + 行动 ​

什么是 ReAct？ ​

ReAct 在 AI 产品中的角色 ​

Reflexion：自我反思框架 ​

核心思想 ​

产品化的 Reflexion 模式 ​

自动推理并使用工具（ART） ​

自动提示工程师（APE） ​

让 AI 帮你写 Prompt ​

产品经理的 APE 实践 ​

方向性刺激提示（Directional Stimulus Prompting） ​

核心概念 ​

常用方向性刺激模式 ​

逆向提示词（Reverse Prompting） ​

从输出反推 Prompt ​

逆向提示词的产品应用 ​

Prompt 质量评估四步法 ​

评估框架 ​

评估打分模板 ​

上下文工程（Context Engineering） ​

从 Prompt Engineering 到 Context Engineering ​

上下文工程的核心原则 ​

上下文管理策略 ​

高质量 Prompt 模板库 ​

模板 1：需求分析 Prompt ​

模板 2：竞品分析 Prompt ​

模板 3：PRD 生成 Prompt ​

对大模型"叮嘱"：修复无灵魂回答 ​

常见问题与修复策略 ​

万能修复模板 ​

延伸阅读 ​

高级 Prompt Engineering

提示词的高级推理框架

Chain-of-Thought（思维链）深度解析

为什么 CoT 有效？

CoT 的三种实现方式

1. 手动 CoT（Manual CoT）

2. Zero-Shot CoT

3. Auto-CoT（自动思维链）

自我一致性（Self-Consistency）

核心思想

产品化应用

ReAct 框架：推理 + 行动

什么是 ReAct？

ReAct 在 AI 产品中的角色

Reflexion：自我反思框架

核心思想

产品化的 Reflexion 模式

自动推理并使用工具（ART）

自动提示工程师（APE）

让 AI 帮你写 Prompt

产品经理的 APE 实践

方向性刺激提示（Directional Stimulus Prompting）

核心概念

常用方向性刺激模式

逆向提示词（Reverse Prompting）

从输出反推 Prompt

逆向提示词的产品应用

Prompt 质量评估四步法

评估框架

评估打分模板

上下文工程（Context Engineering）

从 Prompt Engineering 到 Context Engineering

上下文工程的核心原则

上下文管理策略

高质量 Prompt 模板库

模板 1：需求分析 Prompt

模板 2：竞品分析 Prompt

模板 3：PRD 生成 Prompt

对大模型"叮嘱"：修复无灵魂回答

常见问题与修复策略

万能修复模板

延伸阅读