AI 产品的四层架构
理解 AI 产品的技术栈全貌,是产品经理做出正确决策的第一步。
为什么产品经理需要理解四层架构?
很多产品经理在接触 AI 时,只关注"模型能做什么",却忽视了支撑模型运行的完整技术栈。这就像只关注引擎马力,却不了解底盘、传动和燃油系统——你无法做出真正有效的产品决策。
四层架构为产品经理提供了一个系统化的技术认知框架:
┌─────────────────────────────────────────────┐
│ 应用层 Application │
│ AI 问答机器人 / 智能客服 / AI 写作工具 │
├─────────────────────────────────────────────┤
│ 模型层 Model │
│ 大语言模型 / 多模态模型 / 专用小模型 │
├─────────────────────────────────────────────┤
│ 算力层 Computing │
│ GPU/TPU 集群 / 云端推理 / 端侧计算 │
├─────────────────────────────────────────────┤
│ 数据层 Data │
│ 训练数据 / 用户数据 / 知识库 / 向量数据库 │
└─────────────────────────────────────────────┘每一层的决策都会直接影响产品的成本、性能、体验和可行性。
第一层:数据层 — AI 产品的地基
数据的三个维度
| 维度 | 说明 | 产品经理关注点 |
|---|---|---|
| 训练数据 | 模型学习的"教材" | 数据质量决定模型上限 |
| 业务数据 | 用户交互产生的数据 | 构建数据飞轮的核心燃料 |
| 知识数据 | 企业文档、FAQ、产品手册 | RAG 系统的知识来源 |
数据质量的五个评估标准
准确性
★
/ \
/ \
多样性 ★ ★ 完整性
\ /
\ /
时效性 ★───★ 一致性- 准确性(Accuracy):数据标注错误率 < 2% 是业界基准
- 完整性(Completeness):关键字段缺失将导致模型偏差
- 一致性(Consistency):同一概念在不同数据源的表达要统一
- 时效性(Timeliness):金融、新闻类场景对数据时效要求极高
- 多样性(Diversity):数据分布要覆盖目标用户的真实场景
数据层的产品决策
关键决策点
- 自建数据 vs 购买数据:早期可用公开数据集验证,中后期必须积累私有数据
- 数据标注策略:人工标注 vs AI 辅助标注 vs 合成数据,成本可相差 10-50 倍
- 数据合规:GDPR、中国《个人信息保护法》对数据使用有严格限制
第二层:算力层 — AI 产品的引擎
算力的三种形态
┌──────────────────────────────────────────────────┐
│ 算力选择矩阵 │
├────────────┬──────────┬──────────┬───────────────┤
│ 形态 │ 成本 │ 延迟 │ 适用场景 │
├────────────┼──────────┼──────────┼───────────────┤
│ 云端 API │ 按量付费 │ 中等 │ 早期验证/中小 │
│ │ │ 100-500ms │ 规模产品 │
├────────────┼──────────┼──────────┼───────────────┤
│ 私有化部署 │ 高固定 │ 可控 │ 数据安全要求高 │
│ │ 成本 │ 50-200ms │ 大规模调用 │
├────────────┼──────────┼──────────┼───────────────┤
│ 端侧推理 │ 一次性 │ 极低 │ 离线场景/隐私 │
│ │ 硬件成本 │ 10-100ms │ 敏感型产品 │
└────────────┴──────────┴──────────┴───────────────┘GPU 生态与成本感知
产品经理不需要精通 GPU 架构,但需要理解以下核心概念:
| 概念 | 通俗解释 | 对产品的影响 |
|---|---|---|
| GPU 显存(VRAM) | 模型运行的"工作台大小" | 决定能加载多大的模型 |
| 推理吞吐量 | 每秒处理多少请求 | 直接影响并发用户数 |
| Token 计费 | 按输入输出的文本量收费 | 影响产品成本结构 |
| 批处理(Batching) | 多个请求打包一起处理 | 降低单次推理成本 |
算力成本估算公式
月度推理成本 ≈ 日活用户数 × 平均每日调用次数 × 单次平均 Token 数 × Token 单价 × 30
示例:
10,000 DAU × 5次/天 × 2,000 tokens × $0.003/1K tokens × 30
= $9,000/月成本陷阱
很多 AI 产品在 MVP 阶段看起来成本可控,但用户量增长后推理成本会线性甚至超线性增长。在产品规划阶段就要做成本建模。
第三层:模型层 — AI 产品的大脑
模型选型决策树
你的任务是什么?
│
├── 通用文本理解/生成
│ ├── 需要顶级推理能力? → Claude Opus / GPT-4o / Gemini Ultra
│ ├── 需要性价比? → Claude Sonnet / GPT-4o-mini / Gemini Flash
│ └── 需要私有化部署? → Llama / Qwen / DeepSeek
│
├── 多模态(图文/视频/语音)
│ ├── 图文理解 → GPT-4o / Claude Sonnet / Gemini
│ ├── 图像生成 → DALL-E 3 / Midjourney / Stable Diffusion
│ └── 语音交互 → Whisper + TTS / 豆包大模型
│
├── 专业领域(代码/医疗/法律)
│ ├── 代码 → Claude Sonnet / Codex / DeepSeek Coder
│ └── 垂直领域 → 基座模型 + 领域微调
│
└── 端侧/低延迟场景
└── 小模型 → Phi-3 / Gemma / Qwen-1.8BTransformer vs MoE:两种主流架构
| 特性 | Dense Transformer | MoE(混合专家模型) |
|---|---|---|
| 代表模型 | Claude、GPT-4(早期) | GPT-4(后期)、Mixtral |
| 工作原理 | 每个 Token 经过所有参数 | 每个 Token 只激活部分专家 |
| 参数量 | 所有参数全部参与计算 | 总参数大但实际计算量小 |
| 优势 | 训练稳定,效果好 | 性价比高,推理更快 |
| 劣势 | 推理成本随参数线性增长 | 训练复杂,专家可能坍缩 |
| PM 视角 | 效果优先的场景 | 成本敏感的大规模场景 |
产品经理要点
MoE 架构使"更大的模型不一定更贵"成为可能。Mixtral 8x7B 的总参数 46.7B,但每次推理只激活约 12.9B 参数,推理成本接近 13B 小模型,但效果接近 70B 级别。这对产品成本规划有重大影响。
第四层:应用层 — 用户看到的产品
应用层架构模式
┌─────────────────────────────────────────────────────┐
│ 用户界面层 │
│ Chat UI / 插件 / API / 嵌入式组件 │
├──────────┬──────────┬──────────┬────────────────────┤
│ 路由调度 │ 上下文 │ 安全 │ 结果处理 │
│ Intent │ 管理 │ 防护 │ Response │
│ Router │ Context │ Safety │ Processing │
├──────────┴──────────┴──────────┴────────────────────┤
│ 编排层 Orchestration │
│ Prompt 模板 / RAG 检索 / Agent 调度 │
├─────────────────────────────────────────────────────┤
│ 模型服务层 Model Service │
│ 模型网关 / 负载均衡 / 缓存 / 降级 │
└─────────────────────────────────────────────────────┘以 AI 问答机器人为例看四层架构
一个看似简单的"智能客服"产品,背后涉及完整的四层技术栈:
用户提问:"我的订单什么时候发货?"
│
▼
┌─ 应用层 ─────────────────────────────────────┐
│ 1. 意图识别:判断为"物流查询"类问题 │
│ 2. 上下文管理:关联用户历史订单信息 │
│ 3. 安全检查:确认无注入攻击或敏感内容 │
└──────────────────────┬───────────────────────┘
▼
┌─ 模型层 ─────────────────────────────────────┐
│ 4. Prompt 构建:系统提示 + 用户问题 + 订单数据 │
│ 5. 模型推理:调用 Claude Sonnet 生成回答 │
│ 6. 输出解析:提取关键信息(发货时间、快递单号) │
└──────────────────────┬───────────────────────┘
▼
┌─ 算力层 ─────────────────────────────────────┐
│ 7. 请求路由:根据负载选择推理节点 │
│ 8. Token 计量:记录本次消耗用于成本核算 │
│ 9. 缓存检查:相似问题直接返回缓存结果 │
└──────────────────────┬───────────────────────┘
▼
┌─ 数据层 ─────────────────────────────────────┐
│ 10. 知识检索:从向量数据库检索相关 FAQ │
│ 11. 业务查询:从订单系统获取发货状态 │
│ 12. 日志记录:存储对话用于后续优化 │
└──────────────────────────────────────────────┘四层架构中产品经理的决策清单
| 层级 | 关键决策 | 决策影响 |
|---|---|---|
| 数据层 | 数据来源与合规 | 模型效果的天花板 |
| 数据层 | 知识库更新频率 | 回答的准确性和时效性 |
| 算力层 | 云端 vs 私有化 | 成本结构和数据安全 |
| 算力层 | 延迟要求 | 用户体验和技术选型 |
| 模型层 | 基座模型选择 | 效果、成本、合规三角平衡 |
| 模型层 | 是否微调 | 开发周期和维护成本 |
| 应用层 | 交互模式 | 用户体验和使用门槛 |
| 应用层 | 安全防护等级 | 品牌风险和合规要求 |
四层架构的成本分布
典型 AI SaaS 产品成本分布:
数据层 ████████░░░░░░░░░░░░ 15-25%
数据采集 + 标注 + 存储
算力层 ██████████████░░░░░░ 40-55%
模型训练 + 推理计算
模型层 ████░░░░░░░░░░░░░░░░ 10-20%
模型开发 + 调优 + 评估
应用层 ██████░░░░░░░░░░░░░░ 15-25%
前后端开发 + 运维 + 监控核心洞察
算力层占据了 AI 产品 40-55% 的成本,这与传统软件产品(服务器成本通常 < 15%)形成鲜明对比。这意味着 AI 产品经理必须将成本优化作为核心产品策略之一。
实战建议
产品经理的四层架构思维清单
- [ ] 需求评审时:这个功能在四层架构中各层的实现方案和成本是什么?
- [ ] 技术选型时:云端 API 还是私有化部署?延迟、成本、安全如何平衡?
- [ ] 项目排期时:数据准备需要多长时间?是否有数据合规风险?
- [ ] 上线决策时:算力资源是否充足?高峰期有没有降级方案?
- [ ] 迭代优化时:数据飞轮是否转起来了?模型效果有没有持续提升?
与技术团队沟通的高效提问
| 场景 | 好的提问 |
|---|---|
| 评估可行性 | "这个场景用 API 调用的单次成本和延迟大概是多少?" |
| 讨论数据 | "目前的训练数据覆盖了哪些场景?有没有明显的数据缺口?" |
| 理解瓶颈 | "当前系统的吞吐量上限是多少 QPS?扩容的成本曲线是怎样的?" |
| 规划优化 | "如果要把延迟从 3s 降到 1s,有哪些技术路径?各自的代价是什么?" |
延伸阅读
- AI 技术基础概览 — 产品经理需要了解的技术全景
- 大语言模型深度解析 — Transformer、Token、幻觉等核心概念
- AI 产品成本与定价 — 如何管理 AI 产品的成本结构
- 架构模式与技术选型 — Prompt Engineering、RAG、Agent 的选择