AI 产品的四层架构

理解 AI 产品的技术栈全貌，是产品经理做出正确决策的第一步。

为什么产品经理需要理解四层架构？

很多产品经理在接触 AI 时，只关注"模型能做什么"，却忽视了支撑模型运行的完整技术栈。这就像只关注引擎马力，却不了解底盘、传动和燃油系统——你无法做出真正有效的产品决策。

四层架构为产品经理提供了一个系统化的技术认知框架：

┌─────────────────────────────────────────────┐
│              应用层 Application              │
│     AI 问答机器人 / 智能客服 / AI 写作工具     │
├─────────────────────────────────────────────┤
│              模型层 Model                    │
│   大语言模型 / 多模态模型 / 专用小模型          │
├─────────────────────────────────────────────┤
│              算力层 Computing                │
│     GPU/TPU 集群 / 云端推理 / 端侧计算        │
├─────────────────────────────────────────────┤
│              数据层 Data                     │
│   训练数据 / 用户数据 / 知识库 / 向量数据库     │
└─────────────────────────────────────────────┘

每一层的决策都会直接影响产品的成本、性能、体验和可行性。

第一层：数据层 — AI 产品的地基

数据的三个维度

维度	说明	产品经理关注点
训练数据	模型学习的"教材"	数据质量决定模型上限
业务数据	用户交互产生的数据	构建数据飞轮的核心燃料
知识数据	企业文档、FAQ、产品手册	RAG 系统的知识来源

数据质量的五个评估标准

         准确性
          ★
         / \
        /   \
  多样性 ★     ★ 完整性
        \   /
         \ /
    时效性 ★───★ 一致性

准确性（Accuracy）：数据标注错误率 < 2% 是业界基准
完整性（Completeness）：关键字段缺失将导致模型偏差
一致性（Consistency）：同一概念在不同数据源的表达要统一
时效性（Timeliness）：金融、新闻类场景对数据时效要求极高
多样性（Diversity）：数据分布要覆盖目标用户的真实场景

数据层的产品决策

关键决策点

自建数据 vs 购买数据：早期可用公开数据集验证，中后期必须积累私有数据
数据标注策略：人工标注 vs AI 辅助标注 vs 合成数据，成本可相差 10-50 倍
数据合规：GDPR、中国《个人信息保护法》对数据使用有严格限制

第二层：算力层 — AI 产品的引擎

算力的三种形态

┌──────────────────────────────────────────────────┐
│                   算力选择矩阵                     │
├────────────┬──────────┬──────────┬───────────────┤
│    形态     │   成本    │   延迟   │   适用场景     │
├────────────┼──────────┼──────────┼───────────────┤
│ 云端 API   │  按量付费  │ 中等     │ 早期验证/中小  │
│            │          │ 100-500ms │ 规模产品      │
├────────────┼──────────┼──────────┼───────────────┤
│ 私有化部署  │ 高固定    │ 可控     │ 数据安全要求高  │
│            │ 成本      │ 50-200ms │ 大规模调用     │
├────────────┼──────────┼──────────┼───────────────┤
│ 端侧推理   │ 一次性    │ 极低     │ 离线场景/隐私  │
│            │ 硬件成本   │ 10-100ms │ 敏感型产品     │
└────────────┴──────────┴──────────┴───────────────┘

GPU 生态与成本感知

产品经理不需要精通 GPU 架构，但需要理解以下核心概念：

概念	通俗解释	对产品的影响
GPU 显存（VRAM）	模型运行的"工作台大小"	决定能加载多大的模型
推理吞吐量	每秒处理多少请求	直接影响并发用户数
Token 计费	按输入输出的文本量收费	影响产品成本结构
批处理（Batching）	多个请求打包一起处理	降低单次推理成本

算力成本估算公式

月度推理成本 ≈ 日活用户数 × 平均每日调用次数 × 单次平均 Token 数 × Token 单价 × 30

示例：
10,000 DAU × 5次/天 × 2,000 tokens × $0.003/1K tokens × 30
= $9,000/月

成本陷阱

很多 AI 产品在 MVP 阶段看起来成本可控，但用户量增长后推理成本会线性甚至超线性增长。在产品规划阶段就要做成本建模。

第三层：模型层 — AI 产品的大脑

模型选型决策树

你的任务是什么？
    │
    ├── 通用文本理解/生成
    │     ├── 需要顶级推理能力？ → Claude Opus / GPT-4o / Gemini Ultra
    │     ├── 需要性价比？ → Claude Sonnet / GPT-4o-mini / Gemini Flash
    │     └── 需要私有化部署？ → Llama / Qwen / DeepSeek
    │
    ├── 多模态（图文/视频/语音）
    │     ├── 图文理解 → GPT-4o / Claude Sonnet / Gemini
    │     ├── 图像生成 → DALL-E 3 / Midjourney / Stable Diffusion
    │     └── 语音交互 → Whisper + TTS / 豆包大模型
    │
    ├── 专业领域（代码/医疗/法律）
    │     ├── 代码 → Claude Sonnet / Codex / DeepSeek Coder
    │     └── 垂直领域 → 基座模型 + 领域微调
    │
    └── 端侧/低延迟场景
          └── 小模型 → Phi-3 / Gemma / Qwen-1.8B

Transformer vs MoE：两种主流架构

特性	Dense Transformer	MoE（混合专家模型）
代表模型	Claude、GPT-4（早期）	GPT-4（后期）、Mixtral
工作原理	每个 Token 经过所有参数	每个 Token 只激活部分专家
参数量	所有参数全部参与计算	总参数大但实际计算量小
优势	训练稳定，效果好	性价比高，推理更快
劣势	推理成本随参数线性增长	训练复杂，专家可能坍缩
PM 视角	效果优先的场景	成本敏感的大规模场景

产品经理要点

MoE 架构使"更大的模型不一定更贵"成为可能。Mixtral 8x7B 的总参数 46.7B，但每次推理只激活约 12.9B 参数，推理成本接近 13B 小模型，但效果接近 70B 级别。这对产品成本规划有重大影响。

第四层：应用层 — 用户看到的产品

应用层架构模式

┌─────────────────────────────────────────────────────┐
│                    用户界面层                         │
│          Chat UI / 插件 / API / 嵌入式组件            │
├──────────┬──────────┬──────────┬────────────────────┤
│  路由调度  │  上下文   │  安全    │    结果处理         │
│  Intent   │  管理    │  防护    │    Response        │
│  Router   │ Context  │ Safety  │    Processing      │
├──────────┴──────────┴──────────┴────────────────────┤
│              编排层 Orchestration                     │
│      Prompt 模板 / RAG 检索 / Agent 调度              │
├─────────────────────────────────────────────────────┤
│              模型服务层 Model Service                  │
│        模型网关 / 负载均衡 / 缓存 / 降级               │
└─────────────────────────────────────────────────────┘

以 AI 问答机器人为例看四层架构

一个看似简单的"智能客服"产品，背后涉及完整的四层技术栈：

用户提问："我的订单什么时候发货？"
    │
    ▼
┌─ 应用层 ─────────────────────────────────────┐
│ 1. 意图识别：判断为"物流查询"类问题             │
│ 2. 上下文管理：关联用户历史订单信息              │
│ 3. 安全检查：确认无注入攻击或敏感内容            │
└──────────────────────┬───────────────────────┘
                       ▼
┌─ 模型层 ─────────────────────────────────────┐
│ 4. Prompt 构建：系统提示 + 用户问题 + 订单数据   │
│ 5. 模型推理：调用 Claude Sonnet 生成回答         │
│ 6. 输出解析：提取关键信息（发货时间、快递单号）    │
└──────────────────────┬───────────────────────┘
                       ▼
┌─ 算力层 ─────────────────────────────────────┐
│ 7. 请求路由：根据负载选择推理节点               │
│ 8. Token 计量：记录本次消耗用于成本核算          │
│ 9. 缓存检查：相似问题直接返回缓存结果            │
└──────────────────────┬───────────────────────┘
                       ▼
┌─ 数据层 ─────────────────────────────────────┐
│ 10. 知识检索：从向量数据库检索相关 FAQ           │
│ 11. 业务查询：从订单系统获取发货状态             │
│ 12. 日志记录：存储对话用于后续优化               │
└──────────────────────────────────────────────┘

四层架构中产品经理的决策清单

层级	关键决策	决策影响
数据层	数据来源与合规	模型效果的天花板
数据层	知识库更新频率	回答的准确性和时效性
算力层	云端 vs 私有化	成本结构和数据安全
算力层	延迟要求	用户体验和技术选型
模型层	基座模型选择	效果、成本、合规三角平衡
模型层	是否微调	开发周期和维护成本
应用层	交互模式	用户体验和使用门槛
应用层	安全防护等级	品牌风险和合规要求

四层架构的成本分布

典型 AI SaaS 产品成本分布：

数据层    ████████░░░░░░░░░░░░  15-25%
          数据采集 + 标注 + 存储

算力层    ██████████████░░░░░░  40-55%
          模型训练 + 推理计算

模型层    ████░░░░░░░░░░░░░░░░  10-20%
          模型开发 + 调优 + 评估

应用层    ██████░░░░░░░░░░░░░░  15-25%
          前后端开发 + 运维 + 监控

核心洞察

算力层占据了 AI 产品 40-55% 的成本，这与传统软件产品（服务器成本通常 < 15%）形成鲜明对比。这意味着 AI 产品经理必须将成本优化作为核心产品策略之一。

实战建议

产品经理的四层架构思维清单

[ ] 需求评审时：这个功能在四层架构中各层的实现方案和成本是什么？
[ ] 技术选型时：云端 API 还是私有化部署？延迟、成本、安全如何平衡？
[ ] 项目排期时：数据准备需要多长时间？是否有数据合规风险？
[ ] 上线决策时：算力资源是否充足？高峰期有没有降级方案？
[ ] 迭代优化时：数据飞轮是否转起来了？模型效果有没有持续提升？

与技术团队沟通的高效提问

场景	好的提问
评估可行性	"这个场景用 API 调用的单次成本和延迟大概是多少？"
讨论数据	"目前的训练数据覆盖了哪些场景？有没有明显的数据缺口？"
理解瓶颈	"当前系统的吞吐量上限是多少 QPS？扩容的成本曲线是怎样的？"
规划优化	"如果要把延迟从 3s 降到 1s，有哪些技术路径？各自的代价是什么？"

AI 产品的四层架构 ​

为什么产品经理需要理解四层架构？ ​

第一层：数据层 — AI 产品的地基 ​

数据的三个维度 ​

数据质量的五个评估标准 ​

数据层的产品决策 ​

第二层：算力层 — AI 产品的引擎 ​

算力的三种形态 ​

GPU 生态与成本感知 ​

算力成本估算公式 ​

第三层：模型层 — AI 产品的大脑 ​

模型选型决策树 ​

Transformer vs MoE：两种主流架构 ​

第四层：应用层 — 用户看到的产品 ​

应用层架构模式 ​

以 AI 问答机器人为例看四层架构 ​

四层架构中产品经理的决策清单 ​

四层架构的成本分布 ​

实战建议 ​

产品经理的四层架构思维清单 ​

与技术团队沟通的高效提问 ​

延伸阅读 ​