Skip to content

数据策略

数据是 AI 产品的护城河

在 AI 产品中,模型人人都能用,但独有的高质量数据才是真正的竞争壁垒。

数据飞轮

AI 产品最强大的增长引擎是数据飞轮:

更多用户使用 → 收集更多数据 → 改进模型效果
      ↑                              ↓
      ← ← ← 更好的产品体验 ← ← ← ←

构建数据飞轮的关键

  1. 设计反馈入口:点赞/踩、编辑修正、重新生成
  2. 隐式信号收集:用户是否采纳了 AI 建议?用了多少?改了什么?
  3. 数据质量筛选:不是所有反馈都有用,需要清洗和筛选
  4. 快速迭代闭环:数据 → 改进 → 上线 → 验证,周期越短越好

数据质量管理

数据质量维度

维度说明影响
准确性数据是否正确直接影响模型输出质量
完整性是否有缺失导致模型知识盲区
一致性格式和标准统一影响检索和处理效率
时效性数据是否过时导致回答不准确
多样性是否覆盖各种场景影响模型泛化能力

数据标注

  • 人工标注:质量高但成本大,适合构建评估基准集
  • 模型辅助标注:用 LLM 预标注 + 人工审核,效率更高
  • 众包标注:适合大规模、标准化的标注任务
  • 主动学习:优先标注模型最不确定的样本,提升标注 ROI

数据基础设施

向量数据库

用于存储和检索向量化的文本、图片等数据,是 RAG 架构的核心组件。

向量数据库特点
Pinecone全托管、易上手、适合中小规模
Weaviate开源、支持混合搜索
Chroma轻量级、适合原型开发
Qdrant高性能、Rust 编写
pgvectorPostgreSQL 扩展,适合已有 PG 的团队

知识库构建

为 RAG 系统构建知识库时需要考虑:

  1. 数据源梳理:有哪些数据可用?格式是什么?
  2. 处理管道:文档解析 → 分块 → 嵌入 → 存储
  3. 更新机制:增量更新还是全量重建?
  4. 权限控制:不同用户能访问不同范围的知识

合成数据

当真实数据不足时,可以用 AI 生成合成数据:

  • 训练数据扩充:生成更多样的训练样本
  • 评估数据集:构建覆盖各种边界情况的测试集
  • 隐私保护:用合成数据替代敏感的真实数据

注意

合成数据质量取决于生成模型的能力,需要人工审核验证,不能直接替代真实数据。

用 AI 思维做产品