LLM 深度理解
Transformer 架构
Transformer 是所有现代 LLM 的基础架构,其核心创新是注意力机制(Attention)——让模型能关注输入中最相关的部分。
关键特性
- 自注意力(Self-Attention):每个 Token 可以关注序列中的所有其他 Token
- 并行处理:相比 RNN 的顺序处理,Transformer 可以并行计算
- 位置编码:通过位置信息保留词序关系
对产品的影响
Transformer 的并行特性决定了:
- 生成是逐 Token 的:所以你看到 AI 是"一个字一个字打出来的"
- 上下文窗口有限:注意力计算的复杂度限制了可处理的文本长度
- 长文本性能衰减:太长的上下文中,模型可能"遗忘"中间内容
核心概念深入
Token 经济学
Token 是 LLM 的计费和处理单位。
| 语言 | 大约比例 |
|---|---|
| 英文 | 1 个单词 ≈ 1-1.5 个 Token |
| 中文 | 1 个汉字 ≈ 1-2 个 Token |
成本结构:
- 输入 Token(Prompt)和输出 Token(Completion)通常分别计价
- 输出 Token 通常比输入 Token 贵 3-5 倍
- 产品设计中要考虑:更长的 System Prompt = 更高的每次调用成本
上下文窗口(Context Window)
| 模型 | 上下文窗口 |
|---|---|
| Claude | 200K tokens |
| GPT-4o | 128K tokens |
| Gemini 1.5 Pro | 1M+ tokens |
产品设计要点:
- 上下文窗口不是"越大越好用"——太长的上下文会影响质量和成本
- 需要设计上下文管理策略:什么信息放进去、什么信息裁剪掉
- 多轮对话需要权衡历史保留量
Temperature 与采样策略
| 参数 | 作用 | 适用场景 |
|---|---|---|
| Temperature | 控制输出随机性(0-1) | 低→事实问答,高→创意写作 |
| Top-P | 控制候选 Token 的累积概率 | 与 Temperature 配合使用 |
| Top-K | 只从前 K 个最可能的 Token 中选择 | 限制输出多样性 |
幻觉(Hallucination)
模型生成看似合理但实际不正确的内容。
常见幻觉类型:
- 事实性幻觉:编造不存在的事实、引用、数据
- 逻辑幻觉:推理过程看似合理但结论错误
- 指令幻觉:没有按要求执行,却声称已完成
缓解策略:
- RAG — 用检索的真实数据约束输出
- 多步验证 — 让模型自我检查
- 人工审核 — 关键场景保留人工把关
- 引用溯源 — 要求模型标注信息来源
主流模型对比(2026)
| 模型 | 优势 | 适用场景 | 定价特点 |
|---|---|---|---|
| Claude (Anthropic) | 长文本、代码、安全性、遵循指令 | 文档分析、编程辅助、企业应用 | 按 Token 计价 |
| GPT-4o (OpenAI) | 多模态、生态丰富、推理能力 | 通用场景、插件生态 | 按 Token 计价 |
| Gemini (Google) | Google 生态、超长上下文、多模态 | 搜索增强、视频理解 | 按 Token 计价 |
| Llama (Meta) | 开源、可私有部署 | 数据敏感、定制化、成本控制 | 自托管成本 |
| Mistral | 开源、小模型高性能 | 边缘部署、低延迟场景 | 自托管/API |
技术趋势
1. 多模态融合
文本、图片、音频、视频的统一理解与生成,产品交互将不再局限于文字。
2. AI Agent
从单轮问答到自主规划、工具调用、完成复杂任务的 Agent 系统。
3. 推理模型
专门优化推理能力的模型(如 o1、o3),适合数学、逻辑、编程等需要深度思考的场景。
4. 小模型崛起
针对特定任务微调的小模型,在成本和延迟上有巨大优势。