数据策略
数据是 AI 产品的护城河
在 AI 产品中,模型人人都能用,但独有的高质量数据才是真正的竞争壁垒。
数据飞轮
AI 产品最强大的增长引擎是数据飞轮:
更多用户使用 → 收集更多数据 → 改进模型效果
↑ ↓
← ← ← 更好的产品体验 ← ← ← ←构建数据飞轮的关键
- 设计反馈入口:点赞/踩、编辑修正、重新生成
- 隐式信号收集:用户是否采纳了 AI 建议?用了多少?改了什么?
- 数据质量筛选:不是所有反馈都有用,需要清洗和筛选
- 快速迭代闭环:数据 → 改进 → 上线 → 验证,周期越短越好
数据质量管理
数据质量维度
| 维度 | 说明 | 影响 |
|---|---|---|
| 准确性 | 数据是否正确 | 直接影响模型输出质量 |
| 完整性 | 是否有缺失 | 导致模型知识盲区 |
| 一致性 | 格式和标准统一 | 影响检索和处理效率 |
| 时效性 | 数据是否过时 | 导致回答不准确 |
| 多样性 | 是否覆盖各种场景 | 影响模型泛化能力 |
数据标注
- 人工标注:质量高但成本大,适合构建评估基准集
- 模型辅助标注:用 LLM 预标注 + 人工审核,效率更高
- 众包标注:适合大规模、标准化的标注任务
- 主动学习:优先标注模型最不确定的样本,提升标注 ROI
数据基础设施
向量数据库
用于存储和检索向量化的文本、图片等数据,是 RAG 架构的核心组件。
| 向量数据库 | 特点 |
|---|---|
| Pinecone | 全托管、易上手、适合中小规模 |
| Weaviate | 开源、支持混合搜索 |
| Chroma | 轻量级、适合原型开发 |
| Qdrant | 高性能、Rust 编写 |
| pgvector | PostgreSQL 扩展,适合已有 PG 的团队 |
知识库构建
为 RAG 系统构建知识库时需要考虑:
- 数据源梳理:有哪些数据可用?格式是什么?
- 处理管道:文档解析 → 分块 → 嵌入 → 存储
- 更新机制:增量更新还是全量重建?
- 权限控制:不同用户能访问不同范围的知识
合成数据
当真实数据不足时,可以用 AI 生成合成数据:
- 训练数据扩充:生成更多样的训练样本
- 评估数据集:构建覆盖各种边界情况的测试集
- 隐私保护:用合成数据替代敏感的真实数据
注意
合成数据质量取决于生成模型的能力,需要人工审核验证,不能直接替代真实数据。