Skip to content

模型选型实战指南

选模型不是选"最强的",而是选"最合适的"。

模型选型的核心框架:"三看一测"

很多产品经理在选择 AI 模型时容易陷入"唯榜单论"——哪个模型排行榜分高就用哪个。但实际产品场景远比评测基准复杂。"三看一测" 是一个实用的模型选型方法论:

┌─────────────────────────────────────────────┐
│            模型选型:三看一测                  │
├────────────┬────────────┬──────────────────┤
│   一看      │   二看      │   三看           │
│   能力边界   │   成本结构   │   工程约束       │
├────────────┴────────────┴──────────────────┤
│              一测:场景实测                    │
│         用真实业务数据验证,不信纸面参数         │
└─────────────────────────────────────────────┘

一看:能力边界

核心能力评估矩阵

不同模型在不同能力维度上差异显著,产品经理需要根据自身场景的核心需求来评估:

能力维度说明典型场景
推理能力逻辑推导、数学计算、复杂分析数据分析助手、决策支持
知识广度通识知识、多领域覆盖通用问答、教育产品
指令遵循严格按要求格式输出结构化数据提取、API 调用
多语言能力非英语语言的表现中文产品、多语言客服
长文本处理超长上下文的理解和生成文档分析、会议纪要
代码能力代码理解、生成、调试开发者工具、代码审查
多模态能力图像/音频/视频理解内容审核、图像分析
安全对齐拒绝有害请求、遵循边界面向公众的产品

2026 主流模型能力速览

              推理  指令  中文  长文本  代码  多模态  成本
Claude Opus   ★★★★★ ★★★★★ ★★★★☆ ★★★★★ ★★★★★ ★★★★☆  $$$$$
Claude Sonnet ★★★★☆ ★★★★★ ★★★★☆ ★★★★★ ★★★★★ ★★★★☆  $$$
GPT-4o        ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★★  $$$$
GPT-4o-mini   ★★★☆☆ ★★★★☆ ★★★☆☆ ★★★☆☆ ★★★☆☆ ★★★☆☆  $$
Gemini Ultra  ★★★★☆ ★★★★☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★★  $$$$
Gemini Flash  ★★★☆☆ ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★☆☆ ★★★★☆  $
DeepSeek-V3   ★★★★☆ ★★★★☆ ★★★★★ ★★★★☆ ★★★★★ ★★★☆☆  $$
Qwen-Max      ★★★★☆ ★★★★☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆  $$
Llama 3.1 405B★★★★☆ ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★★☆ ★★★☆☆  自部署

注意

评测分数仅供参考。模型能力在快速迭代中,以实际场景测试为准


二看:成本结构

Token 定价对比

主流模型 Token 定价(每百万 Token,2026 Q1 参考价)

                    输入价格        输出价格
                    ──────────     ──────────
Claude Opus 4      $15            $75
Claude Sonnet 4    $3             $15
GPT-4o             $2.5           $10
GPT-4o-mini        $0.15          $0.6
Gemini Flash       $0.075         $0.3
DeepSeek-V3        $0.27          $1.1
Qwen-Max           ¥2             ¥6

成本估算实战

场景:智能客服产品

假设条件:
- DAU = 50,000
- 每用户每天平均 3 轮对话
- 每轮对话:输入 ~800 tokens,输出 ~400 tokens
- 含 RAG 检索的 System Prompt:~1,500 tokens

每日 Token 消耗:
  输入:50,000 × 3 × (800 + 1,500) = 345M tokens/天
  输出:50,000 × 3 × 400 = 60M tokens/天

月度成本对比:
┌──────────────┬──────────────┬──────────────┐
│    模型       │  月度成本     │  单用户月成本  │
├──────────────┼──────────────┼──────────────┤
│ Claude Opus  │  ~$290,250   │   ~$5.81     │
│ Claude Sonnet│  ~$58,050    │   ~$1.16     │
│ GPT-4o       │  ~$44,100    │   ~$0.88     │
│ GPT-4o-mini  │  ~$2,633     │   ~$0.05     │
│ Gemini Flash │  ~$1,316     │   ~$0.03     │
│ DeepSeek-V3  │  ~$4,785     │   ~$0.10     │
└──────────────┴──────────────┴──────────────┘

成本优化策略

  • 模型路由(Model Routing):简单问题用小模型,复杂问题用大模型,可节省 60-80% 成本
  • Prompt 缓存:重复的 System Prompt 开启缓存,Claude 可减 90% 输入成本
  • 结果缓存:相似问题直接返回缓存答案
  • Token 精简:优化 Prompt 长度,减少不必要的上下文

三看:工程约束

工程约束评估清单

约束类型关键问题影响选型
数据安全数据能否出境?能否传给第三方 API?是否需要私有化部署
延迟要求用户能接受多长的等待时间?模型大小和部署方式
并发量峰值 QPS 是多少?服务商限流策略
可用性能否接受服务中断?是否需要多模型降级
合规要求是否需要通过等保/ISO认证?服务商资质
团队能力是否有 ML 工程师来维护?自部署 vs API

部署模式决策树

数据能否传给第三方 API?

    ├── 可以 → 延迟要求 < 500ms?
    │           ├── 是 → 选择部署在近端的 API(如国内用 DeepSeek/Qwen)
    │           └── 否 → 直接用最优性价比的 API

    └── 不可以 → 有 GPU 资源和 ML 工程师?
                  ├── 有 → 私有化部署开源模型(Llama/Qwen/DeepSeek)
                  └── 没有 → 选择提供私有云部署的厂商

一测:场景实测

为什么"一测"最重要

  • 评测基准(Benchmark)和真实业务场景之间存在显著 gap
  • 不同模型在特定领域/语言/任务类型上的表现可能与整体排名不一致
  • 你的 Prompt 设计和数据特征会显著影响模型表现

实测方法论

Step 1:构建评测数据集

评测数据集结构:

├── 基础能力测试(20 条)
│   ├── 简单任务:格式遵循、信息提取
│   └── 预期通过率:> 95%

├── 核心场景测试(50 条)
│   ├── 覆盖产品最重要的 3-5 个场景
│   └── 来源:真实用户数据(脱敏)

├── 边界场景测试(20 条)
│   ├── 模糊输入、超长文本、多语言混合
│   └── 测试模型的鲁棒性

└── 安全测试(10 条)
    ├── 注入攻击、有害内容诱导
    └── 测试模型的安全边界

Step 2:设计评估指标

指标类型具体指标评估方式
质量准确率、相关性、完整性人工评审 + LLM-as-Judge
格式格式遵循率、结构正确率自动化规则检查
安全有害内容率、信息泄露率规则检查 + 人工审查
性能首 Token 延迟、总延迟自动化测量
成本平均 Token 消耗、月度预估自动化统计

Step 3:多模型横评

评测结果记录模板:

场景:[具体场景名称]
测试时间:[日期]
测试条数:[数量]

┌──────────┬───────┬───────┬───────┬───────┬───────┐
│   模型    │ 准确率 │ 格式率 │ 安全率 │ 延迟   │ 成本   │
├──────────┼───────┼───────┼───────┼───────┼───────┤
│ 模型 A   │  92%  │  98%  │ 100%  │ 1.2s  │ $$    │
│ 模型 B   │  88%  │  95%  │ 100%  │ 0.8s  │ $     │
│ 模型 C   │  95%  │  99%  │  98%  │ 2.1s  │ $$$$  │
└──────────┴───────┴───────┴───────┴───────┴───────┘

结论:[选型建议及理由]

模型对比工具与评估平台

常用工具推荐

工具用途特点
Chatbot Arena(LMSYS)盲测对比真人投票排名,最公正的模型对比
OpenRouter多模型统一 API一个 API 调用几十个模型,方便横评
Braintrust评测平台支持自定义评测集和自动评估
LangSmith全链路追踪观测模型调用链路,定位问题
PromptFooPrompt 评测开源,支持多模型多 Prompt 批量测试
Artificial Analysis性能基准延迟、吞吐量、成本的客观对比

评估平台使用建议

产品经理的评测策略

  1. 先用 Chatbot Arena 获取直觉:快速感受不同模型的回答质量差异
  2. 再用 OpenRouter 做初筛:统一 API 快速对比 3-5 个候选模型
  3. 最后用 Braintrust/PromptFoo 做正式评测:用真实业务数据系统化评估
  4. 持续用 LangSmith 做线上监控:上线后持续追踪模型表现

判断是否真的需要大模型

不是所有 AI 功能都需要 LLM。在选型之前,先问一个更根本的问题:

你的任务真的需要大模型吗?

    ├── 需要理解自然语言?
    │     ├── 是 → 可能需要 LLM
    │     └── 否 → 考虑传统 ML 或规则引擎

    ├── 需要生成自然语言?
    │     ├── 是 → 需要 LLM
    │     └── 否 → 分类/检测用小模型可能更好

    ├── 任务有明确的输入输出映射?
    │     ├── 是 → 微调小模型可能效果更好且更省
    │     └── 否 → LLM 的灵活性更有价值

    └── 数据量充足且格式标准?
          ├── 是 → 传统 ML 可能是更好选择
          └── 否 → LLM 的 few-shot 能力更有优势

任务复杂度与方案选择

复杂度任务示例推荐方案月成本量级
关键词过滤、格式校验规则引擎$0
中低文本分类、情感分析传统 ML / 微调小模型$100-500
实体提取、意图识别微调 BERT / 小 LLM$500-2,000
中高多轮对话、内容生成LLM API$2,000-20,000
复杂推理、创意写作顶级 LLM$20,000+

避免"大炮打蚊子"

用 GPT-4o 做关键词过滤,就像用法拉利送外卖——能做,但极度浪费。选择匹配任务复杂度的最简方案,是产品经理的核心成本素养。


模型选定后的落地与调优

落地路径

模型选定


Prompt Engineering(1-2 周)
    │ 90% 的场景在这一步就能达到可用水平

RAG 增强(2-4 周)
    │ 结合业务知识库,提升领域准确性

微调 Fine-tuning(4-8 周)
    │ 仅当前两步无法满足要求时考虑

持续优化
    │ 数据飞轮 + A/B 测试 + 用户反馈

模型更新评估
    │ 新模型发布时重新评测,决定是否切换

优化的优先级

优化手段投入收益优先级
Prompt 优化P0
上下文管理P0
结果缓存中(成本)P1
RAG 接入高(准确性)P1
模型路由高(成本)P1
微调视场景P2
蒸馏高(成本)P3

延伸阅读

用 AI 思维做产品