Skip to content

AI 产品的四层架构

理解 AI 产品的技术栈全貌,是产品经理做出正确决策的第一步。

为什么产品经理需要理解四层架构?

很多产品经理在接触 AI 时,只关注"模型能做什么",却忽视了支撑模型运行的完整技术栈。这就像只关注引擎马力,却不了解底盘、传动和燃油系统——你无法做出真正有效的产品决策。

四层架构为产品经理提供了一个系统化的技术认知框架:

┌─────────────────────────────────────────────┐
│              应用层 Application              │
│     AI 问答机器人 / 智能客服 / AI 写作工具     │
├─────────────────────────────────────────────┤
│              模型层 Model                    │
│   大语言模型 / 多模态模型 / 专用小模型          │
├─────────────────────────────────────────────┤
│              算力层 Computing                │
│     GPU/TPU 集群 / 云端推理 / 端侧计算        │
├─────────────────────────────────────────────┤
│              数据层 Data                     │
│   训练数据 / 用户数据 / 知识库 / 向量数据库     │
└─────────────────────────────────────────────┘

每一层的决策都会直接影响产品的成本、性能、体验和可行性


第一层:数据层 — AI 产品的地基

数据的三个维度

维度说明产品经理关注点
训练数据模型学习的"教材"数据质量决定模型上限
业务数据用户交互产生的数据构建数据飞轮的核心燃料
知识数据企业文档、FAQ、产品手册RAG 系统的知识来源

数据质量的五个评估标准

         准确性

         / \
        /   \
  多样性 ★     ★ 完整性
        \   /
         \ /
    时效性 ★───★ 一致性
  • 准确性(Accuracy):数据标注错误率 < 2% 是业界基准
  • 完整性(Completeness):关键字段缺失将导致模型偏差
  • 一致性(Consistency):同一概念在不同数据源的表达要统一
  • 时效性(Timeliness):金融、新闻类场景对数据时效要求极高
  • 多样性(Diversity):数据分布要覆盖目标用户的真实场景

数据层的产品决策

关键决策点

  1. 自建数据 vs 购买数据:早期可用公开数据集验证,中后期必须积累私有数据
  2. 数据标注策略:人工标注 vs AI 辅助标注 vs 合成数据,成本可相差 10-50 倍
  3. 数据合规:GDPR、中国《个人信息保护法》对数据使用有严格限制

第二层:算力层 — AI 产品的引擎

算力的三种形态

┌──────────────────────────────────────────────────┐
│                   算力选择矩阵                     │
├────────────┬──────────┬──────────┬───────────────┤
│    形态     │   成本    │   延迟   │   适用场景     │
├────────────┼──────────┼──────────┼───────────────┤
│ 云端 API   │  按量付费  │ 中等     │ 早期验证/中小  │
│            │          │ 100-500ms │ 规模产品      │
├────────────┼──────────┼──────────┼───────────────┤
│ 私有化部署  │ 高固定    │ 可控     │ 数据安全要求高  │
│            │ 成本      │ 50-200ms │ 大规模调用     │
├────────────┼──────────┼──────────┼───────────────┤
│ 端侧推理   │ 一次性    │ 极低     │ 离线场景/隐私  │
│            │ 硬件成本   │ 10-100ms │ 敏感型产品     │
└────────────┴──────────┴──────────┴───────────────┘

GPU 生态与成本感知

产品经理不需要精通 GPU 架构,但需要理解以下核心概念:

概念通俗解释对产品的影响
GPU 显存(VRAM)模型运行的"工作台大小"决定能加载多大的模型
推理吞吐量每秒处理多少请求直接影响并发用户数
Token 计费按输入输出的文本量收费影响产品成本结构
批处理(Batching)多个请求打包一起处理降低单次推理成本

算力成本估算公式

月度推理成本 ≈ 日活用户数 × 平均每日调用次数 × 单次平均 Token 数 × Token 单价 × 30

示例:
10,000 DAU × 5次/天 × 2,000 tokens × $0.003/1K tokens × 30
= $9,000/月

成本陷阱

很多 AI 产品在 MVP 阶段看起来成本可控,但用户量增长后推理成本会线性甚至超线性增长。在产品规划阶段就要做成本建模。


第三层:模型层 — AI 产品的大脑

模型选型决策树

你的任务是什么?

    ├── 通用文本理解/生成
    │     ├── 需要顶级推理能力? → Claude Opus / GPT-4o / Gemini Ultra
    │     ├── 需要性价比? → Claude Sonnet / GPT-4o-mini / Gemini Flash
    │     └── 需要私有化部署? → Llama / Qwen / DeepSeek

    ├── 多模态(图文/视频/语音)
    │     ├── 图文理解 → GPT-4o / Claude Sonnet / Gemini
    │     ├── 图像生成 → DALL-E 3 / Midjourney / Stable Diffusion
    │     └── 语音交互 → Whisper + TTS / 豆包大模型

    ├── 专业领域(代码/医疗/法律)
    │     ├── 代码 → Claude Sonnet / Codex / DeepSeek Coder
    │     └── 垂直领域 → 基座模型 + 领域微调

    └── 端侧/低延迟场景
          └── 小模型 → Phi-3 / Gemma / Qwen-1.8B

Transformer vs MoE:两种主流架构

特性Dense TransformerMoE(混合专家模型)
代表模型Claude、GPT-4(早期)GPT-4(后期)、Mixtral
工作原理每个 Token 经过所有参数每个 Token 只激活部分专家
参数量所有参数全部参与计算总参数大但实际计算量小
优势训练稳定,效果好性价比高,推理更快
劣势推理成本随参数线性增长训练复杂,专家可能坍缩
PM 视角效果优先的场景成本敏感的大规模场景

产品经理要点

MoE 架构使"更大的模型不一定更贵"成为可能。Mixtral 8x7B 的总参数 46.7B,但每次推理只激活约 12.9B 参数,推理成本接近 13B 小模型,但效果接近 70B 级别。这对产品成本规划有重大影响。


第四层:应用层 — 用户看到的产品

应用层架构模式

┌─────────────────────────────────────────────────────┐
│                    用户界面层                         │
│          Chat UI / 插件 / API / 嵌入式组件            │
├──────────┬──────────┬──────────┬────────────────────┤
│  路由调度  │  上下文   │  安全    │    结果处理         │
│  Intent   │  管理    │  防护    │    Response        │
│  Router   │ Context  │ Safety  │    Processing      │
├──────────┴──────────┴──────────┴────────────────────┤
│              编排层 Orchestration                     │
│      Prompt 模板 / RAG 检索 / Agent 调度              │
├─────────────────────────────────────────────────────┤
│              模型服务层 Model Service                  │
│        模型网关 / 负载均衡 / 缓存 / 降级               │
└─────────────────────────────────────────────────────┘

以 AI 问答机器人为例看四层架构

一个看似简单的"智能客服"产品,背后涉及完整的四层技术栈:

用户提问:"我的订单什么时候发货?"


┌─ 应用层 ─────────────────────────────────────┐
│ 1. 意图识别:判断为"物流查询"类问题             │
│ 2. 上下文管理:关联用户历史订单信息              │
│ 3. 安全检查:确认无注入攻击或敏感内容            │
└──────────────────────┬───────────────────────┘

┌─ 模型层 ─────────────────────────────────────┐
│ 4. Prompt 构建:系统提示 + 用户问题 + 订单数据   │
│ 5. 模型推理:调用 Claude Sonnet 生成回答         │
│ 6. 输出解析:提取关键信息(发货时间、快递单号)    │
└──────────────────────┬───────────────────────┘

┌─ 算力层 ─────────────────────────────────────┐
│ 7. 请求路由:根据负载选择推理节点               │
│ 8. Token 计量:记录本次消耗用于成本核算          │
│ 9. 缓存检查:相似问题直接返回缓存结果            │
└──────────────────────┬───────────────────────┘

┌─ 数据层 ─────────────────────────────────────┐
│ 10. 知识检索:从向量数据库检索相关 FAQ           │
│ 11. 业务查询:从订单系统获取发货状态             │
│ 12. 日志记录:存储对话用于后续优化               │
└──────────────────────────────────────────────┘

四层架构中产品经理的决策清单

层级关键决策决策影响
数据层数据来源与合规模型效果的天花板
数据层知识库更新频率回答的准确性和时效性
算力层云端 vs 私有化成本结构和数据安全
算力层延迟要求用户体验和技术选型
模型层基座模型选择效果、成本、合规三角平衡
模型层是否微调开发周期和维护成本
应用层交互模式用户体验和使用门槛
应用层安全防护等级品牌风险和合规要求

四层架构的成本分布

典型 AI SaaS 产品成本分布:

数据层    ████████░░░░░░░░░░░░  15-25%
          数据采集 + 标注 + 存储

算力层    ██████████████░░░░░░  40-55%
          模型训练 + 推理计算

模型层    ████░░░░░░░░░░░░░░░░  10-20%
          模型开发 + 调优 + 评估

应用层    ██████░░░░░░░░░░░░░░  15-25%
          前后端开发 + 运维 + 监控

核心洞察

算力层占据了 AI 产品 40-55% 的成本,这与传统软件产品(服务器成本通常 < 15%)形成鲜明对比。这意味着 AI 产品经理必须将成本优化作为核心产品策略之一。


实战建议

产品经理的四层架构思维清单

  • [ ] 需求评审时:这个功能在四层架构中各层的实现方案和成本是什么?
  • [ ] 技术选型时:云端 API 还是私有化部署?延迟、成本、安全如何平衡?
  • [ ] 项目排期时:数据准备需要多长时间?是否有数据合规风险?
  • [ ] 上线决策时:算力资源是否充足?高峰期有没有降级方案?
  • [ ] 迭代优化时:数据飞轮是否转起来了?模型效果有没有持续提升?

与技术团队沟通的高效提问

场景好的提问
评估可行性"这个场景用 API 调用的单次成本和延迟大概是多少?"
讨论数据"目前的训练数据覆盖了哪些场景?有没有明显的数据缺口?"
理解瓶颈"当前系统的吞吐量上限是多少 QPS?扩容的成本曲线是怎样的?"
规划优化"如果要把延迟从 3s 降到 1s,有哪些技术路径?各自的代价是什么?"

延伸阅读

用 AI 思维做产品