模型选型实战指南
选模型不是选"最强的",而是选"最合适的"。
模型选型的核心框架:"三看一测"
很多产品经理在选择 AI 模型时容易陷入"唯榜单论"——哪个模型排行榜分高就用哪个。但实际产品场景远比评测基准复杂。"三看一测" 是一个实用的模型选型方法论:
┌─────────────────────────────────────────────┐
│ 模型选型:三看一测 │
├────────────┬────────────┬──────────────────┤
│ 一看 │ 二看 │ 三看 │
│ 能力边界 │ 成本结构 │ 工程约束 │
├────────────┴────────────┴──────────────────┤
│ 一测:场景实测 │
│ 用真实业务数据验证,不信纸面参数 │
└─────────────────────────────────────────────┘一看:能力边界
核心能力评估矩阵
不同模型在不同能力维度上差异显著,产品经理需要根据自身场景的核心需求来评估:
| 能力维度 | 说明 | 典型场景 |
|---|---|---|
| 推理能力 | 逻辑推导、数学计算、复杂分析 | 数据分析助手、决策支持 |
| 知识广度 | 通识知识、多领域覆盖 | 通用问答、教育产品 |
| 指令遵循 | 严格按要求格式输出 | 结构化数据提取、API 调用 |
| 多语言能力 | 非英语语言的表现 | 中文产品、多语言客服 |
| 长文本处理 | 超长上下文的理解和生成 | 文档分析、会议纪要 |
| 代码能力 | 代码理解、生成、调试 | 开发者工具、代码审查 |
| 多模态能力 | 图像/音频/视频理解 | 内容审核、图像分析 |
| 安全对齐 | 拒绝有害请求、遵循边界 | 面向公众的产品 |
2026 主流模型能力速览
推理 指令 中文 长文本 代码 多模态 成本
Claude Opus ★★★★★ ★★★★★ ★★★★☆ ★★★★★ ★★★★★ ★★★★☆ $$$$$
Claude Sonnet ★★★★☆ ★★★★★ ★★★★☆ ★★★★★ ★★★★★ ★★★★☆ $$$
GPT-4o ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★★ $$$$
GPT-4o-mini ★★★☆☆ ★★★★☆ ★★★☆☆ ★★★☆☆ ★★★☆☆ ★★★☆☆ $$
Gemini Ultra ★★★★☆ ★★★★☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★★ $$$$
Gemini Flash ★★★☆☆ ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★☆☆ ★★★★☆ $
DeepSeek-V3 ★★★★☆ ★★★★☆ ★★★★★ ★★★★☆ ★★★★★ ★★★☆☆ $$
Qwen-Max ★★★★☆ ★★★★☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ $$
Llama 3.1 405B★★★★☆ ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★★☆ ★★★☆☆ 自部署注意
评测分数仅供参考。模型能力在快速迭代中,以实际场景测试为准。
二看:成本结构
Token 定价对比
主流模型 Token 定价(每百万 Token,2026 Q1 参考价)
输入价格 输出价格
────────── ──────────
Claude Opus 4 $15 $75
Claude Sonnet 4 $3 $15
GPT-4o $2.5 $10
GPT-4o-mini $0.15 $0.6
Gemini Flash $0.075 $0.3
DeepSeek-V3 $0.27 $1.1
Qwen-Max ¥2 ¥6成本估算实战
场景:智能客服产品
假设条件:
- DAU = 50,000
- 每用户每天平均 3 轮对话
- 每轮对话:输入 ~800 tokens,输出 ~400 tokens
- 含 RAG 检索的 System Prompt:~1,500 tokens
每日 Token 消耗:
输入:50,000 × 3 × (800 + 1,500) = 345M tokens/天
输出:50,000 × 3 × 400 = 60M tokens/天
月度成本对比:
┌──────────────┬──────────────┬──────────────┐
│ 模型 │ 月度成本 │ 单用户月成本 │
├──────────────┼──────────────┼──────────────┤
│ Claude Opus │ ~$290,250 │ ~$5.81 │
│ Claude Sonnet│ ~$58,050 │ ~$1.16 │
│ GPT-4o │ ~$44,100 │ ~$0.88 │
│ GPT-4o-mini │ ~$2,633 │ ~$0.05 │
│ Gemini Flash │ ~$1,316 │ ~$0.03 │
│ DeepSeek-V3 │ ~$4,785 │ ~$0.10 │
└──────────────┴──────────────┴──────────────┘成本优化策略
- 模型路由(Model Routing):简单问题用小模型,复杂问题用大模型,可节省 60-80% 成本
- Prompt 缓存:重复的 System Prompt 开启缓存,Claude 可减 90% 输入成本
- 结果缓存:相似问题直接返回缓存答案
- Token 精简:优化 Prompt 长度,减少不必要的上下文
三看:工程约束
工程约束评估清单
| 约束类型 | 关键问题 | 影响选型 |
|---|---|---|
| 数据安全 | 数据能否出境?能否传给第三方 API? | 是否需要私有化部署 |
| 延迟要求 | 用户能接受多长的等待时间? | 模型大小和部署方式 |
| 并发量 | 峰值 QPS 是多少? | 服务商限流策略 |
| 可用性 | 能否接受服务中断? | 是否需要多模型降级 |
| 合规要求 | 是否需要通过等保/ISO认证? | 服务商资质 |
| 团队能力 | 是否有 ML 工程师来维护? | 自部署 vs API |
部署模式决策树
数据能否传给第三方 API?
│
├── 可以 → 延迟要求 < 500ms?
│ ├── 是 → 选择部署在近端的 API(如国内用 DeepSeek/Qwen)
│ └── 否 → 直接用最优性价比的 API
│
└── 不可以 → 有 GPU 资源和 ML 工程师?
├── 有 → 私有化部署开源模型(Llama/Qwen/DeepSeek)
└── 没有 → 选择提供私有云部署的厂商一测:场景实测
为什么"一测"最重要
- 评测基准(Benchmark)和真实业务场景之间存在显著 gap
- 不同模型在特定领域/语言/任务类型上的表现可能与整体排名不一致
- 你的 Prompt 设计和数据特征会显著影响模型表现
实测方法论
Step 1:构建评测数据集
评测数据集结构:
├── 基础能力测试(20 条)
│ ├── 简单任务:格式遵循、信息提取
│ └── 预期通过率:> 95%
│
├── 核心场景测试(50 条)
│ ├── 覆盖产品最重要的 3-5 个场景
│ └── 来源:真实用户数据(脱敏)
│
├── 边界场景测试(20 条)
│ ├── 模糊输入、超长文本、多语言混合
│ └── 测试模型的鲁棒性
│
└── 安全测试(10 条)
├── 注入攻击、有害内容诱导
└── 测试模型的安全边界Step 2:设计评估指标
| 指标类型 | 具体指标 | 评估方式 |
|---|---|---|
| 质量 | 准确率、相关性、完整性 | 人工评审 + LLM-as-Judge |
| 格式 | 格式遵循率、结构正确率 | 自动化规则检查 |
| 安全 | 有害内容率、信息泄露率 | 规则检查 + 人工审查 |
| 性能 | 首 Token 延迟、总延迟 | 自动化测量 |
| 成本 | 平均 Token 消耗、月度预估 | 自动化统计 |
Step 3:多模型横评
评测结果记录模板:
场景:[具体场景名称]
测试时间:[日期]
测试条数:[数量]
┌──────────┬───────┬───────┬───────┬───────┬───────┐
│ 模型 │ 准确率 │ 格式率 │ 安全率 │ 延迟 │ 成本 │
├──────────┼───────┼───────┼───────┼───────┼───────┤
│ 模型 A │ 92% │ 98% │ 100% │ 1.2s │ $$ │
│ 模型 B │ 88% │ 95% │ 100% │ 0.8s │ $ │
│ 模型 C │ 95% │ 99% │ 98% │ 2.1s │ $$$$ │
└──────────┴───────┴───────┴───────┴───────┴───────┘
结论:[选型建议及理由]模型对比工具与评估平台
常用工具推荐
| 工具 | 用途 | 特点 |
|---|---|---|
| Chatbot Arena(LMSYS) | 盲测对比 | 真人投票排名,最公正的模型对比 |
| OpenRouter | 多模型统一 API | 一个 API 调用几十个模型,方便横评 |
| Braintrust | 评测平台 | 支持自定义评测集和自动评估 |
| LangSmith | 全链路追踪 | 观测模型调用链路,定位问题 |
| PromptFoo | Prompt 评测 | 开源,支持多模型多 Prompt 批量测试 |
| Artificial Analysis | 性能基准 | 延迟、吞吐量、成本的客观对比 |
评估平台使用建议
产品经理的评测策略
- 先用 Chatbot Arena 获取直觉:快速感受不同模型的回答质量差异
- 再用 OpenRouter 做初筛:统一 API 快速对比 3-5 个候选模型
- 最后用 Braintrust/PromptFoo 做正式评测:用真实业务数据系统化评估
- 持续用 LangSmith 做线上监控:上线后持续追踪模型表现
判断是否真的需要大模型
不是所有 AI 功能都需要 LLM。在选型之前,先问一个更根本的问题:
你的任务真的需要大模型吗?
├── 需要理解自然语言?
│ ├── 是 → 可能需要 LLM
│ └── 否 → 考虑传统 ML 或规则引擎
│
├── 需要生成自然语言?
│ ├── 是 → 需要 LLM
│ └── 否 → 分类/检测用小模型可能更好
│
├── 任务有明确的输入输出映射?
│ ├── 是 → 微调小模型可能效果更好且更省
│ └── 否 → LLM 的灵活性更有价值
│
└── 数据量充足且格式标准?
├── 是 → 传统 ML 可能是更好选择
└── 否 → LLM 的 few-shot 能力更有优势任务复杂度与方案选择
| 复杂度 | 任务示例 | 推荐方案 | 月成本量级 |
|---|---|---|---|
| 低 | 关键词过滤、格式校验 | 规则引擎 | $0 |
| 中低 | 文本分类、情感分析 | 传统 ML / 微调小模型 | $100-500 |
| 中 | 实体提取、意图识别 | 微调 BERT / 小 LLM | $500-2,000 |
| 中高 | 多轮对话、内容生成 | LLM API | $2,000-20,000 |
| 高 | 复杂推理、创意写作 | 顶级 LLM | $20,000+ |
避免"大炮打蚊子"
用 GPT-4o 做关键词过滤,就像用法拉利送外卖——能做,但极度浪费。选择匹配任务复杂度的最简方案,是产品经理的核心成本素养。
模型选定后的落地与调优
落地路径
模型选定
│
▼
Prompt Engineering(1-2 周)
│ 90% 的场景在这一步就能达到可用水平
▼
RAG 增强(2-4 周)
│ 结合业务知识库,提升领域准确性
▼
微调 Fine-tuning(4-8 周)
│ 仅当前两步无法满足要求时考虑
▼
持续优化
│ 数据飞轮 + A/B 测试 + 用户反馈
▼
模型更新评估
│ 新模型发布时重新评测,决定是否切换优化的优先级
| 优化手段 | 投入 | 收益 | 优先级 |
|---|---|---|---|
| Prompt 优化 | 低 | 高 | P0 |
| 上下文管理 | 低 | 中 | P0 |
| 结果缓存 | 低 | 中(成本) | P1 |
| RAG 接入 | 中 | 高(准确性) | P1 |
| 模型路由 | 中 | 高(成本) | P1 |
| 微调 | 高 | 视场景 | P2 |
| 蒸馏 | 高 | 高(成本) | P3 |
延伸阅读
- AI 产品的四层架构 — 理解模型在整体架构中的位置
- 大语言模型深度解析 — Transformer 核心原理
- 架构模式与技术选型 — Prompt、RAG、微调的选择
- AI 产品成本与定价 — 从成本角度理解模型选型的影响