Skip to content

LLM 深度理解

Transformer 架构

Transformer 是所有现代 LLM 的基础架构,其核心创新是注意力机制(Attention)——让模型能关注输入中最相关的部分。

关键特性

  • 自注意力(Self-Attention):每个 Token 可以关注序列中的所有其他 Token
  • 并行处理:相比 RNN 的顺序处理,Transformer 可以并行计算
  • 位置编码:通过位置信息保留词序关系

对产品的影响

Transformer 的并行特性决定了:

  • 生成是逐 Token 的:所以你看到 AI 是"一个字一个字打出来的"
  • 上下文窗口有限:注意力计算的复杂度限制了可处理的文本长度
  • 长文本性能衰减:太长的上下文中,模型可能"遗忘"中间内容

核心概念深入

Token 经济学

Token 是 LLM 的计费和处理单位。

语言大约比例
英文1 个单词 ≈ 1-1.5 个 Token
中文1 个汉字 ≈ 1-2 个 Token

成本结构

  • 输入 Token(Prompt)和输出 Token(Completion)通常分别计价
  • 输出 Token 通常比输入 Token 贵 3-5 倍
  • 产品设计中要考虑:更长的 System Prompt = 更高的每次调用成本

上下文窗口(Context Window)

模型上下文窗口
Claude200K tokens
GPT-4o128K tokens
Gemini 1.5 Pro1M+ tokens

产品设计要点

  • 上下文窗口不是"越大越好用"——太长的上下文会影响质量和成本
  • 需要设计上下文管理策略:什么信息放进去、什么信息裁剪掉
  • 多轮对话需要权衡历史保留量

Temperature 与采样策略

参数作用适用场景
Temperature控制输出随机性(0-1)低→事实问答,高→创意写作
Top-P控制候选 Token 的累积概率与 Temperature 配合使用
Top-K只从前 K 个最可能的 Token 中选择限制输出多样性

幻觉(Hallucination)

模型生成看似合理但实际不正确的内容。

常见幻觉类型

  • 事实性幻觉:编造不存在的事实、引用、数据
  • 逻辑幻觉:推理过程看似合理但结论错误
  • 指令幻觉:没有按要求执行,却声称已完成

缓解策略

  1. RAG — 用检索的真实数据约束输出
  2. 多步验证 — 让模型自我检查
  3. 人工审核 — 关键场景保留人工把关
  4. 引用溯源 — 要求模型标注信息来源

主流模型对比(2026)

模型优势适用场景定价特点
Claude (Anthropic)长文本、代码、安全性、遵循指令文档分析、编程辅助、企业应用按 Token 计价
GPT-4o (OpenAI)多模态、生态丰富、推理能力通用场景、插件生态按 Token 计价
Gemini (Google)Google 生态、超长上下文、多模态搜索增强、视频理解按 Token 计价
Llama (Meta)开源、可私有部署数据敏感、定制化、成本控制自托管成本
Mistral开源、小模型高性能边缘部署、低延迟场景自托管/API

技术趋势

1. 多模态融合

文本、图片、音频、视频的统一理解与生成,产品交互将不再局限于文字。

2. AI Agent

从单轮问答到自主规划、工具调用、完成复杂任务的 Agent 系统。

3. 推理模型

专门优化推理能力的模型(如 o1、o3),适合数学、逻辑、编程等需要深度思考的场景。

4. 小模型崛起

针对特定任务微调的小模型,在成本和延迟上有巨大优势。

用 AI 思维做产品