数据策略

数据是 AI 产品的护城河

在 AI 产品中，模型人人都能用，但独有的高质量数据才是真正的竞争壁垒。

数据飞轮

AI 产品最强大的增长引擎是数据飞轮：

更多用户使用 → 收集更多数据 → 改进模型效果
      ↑                              ↓
      ← ← ← 更好的产品体验 ← ← ← ←

构建数据飞轮的关键

设计反馈入口：点赞/踩、编辑修正、重新生成
隐式信号收集：用户是否采纳了 AI 建议？用了多少？改了什么？
数据质量筛选：不是所有反馈都有用，需要清洗和筛选
快速迭代闭环：数据 → 改进 → 上线 → 验证，周期越短越好

数据质量管理

数据质量维度

维度	说明	影响
准确性	数据是否正确	直接影响模型输出质量
完整性	是否有缺失	导致模型知识盲区
一致性	格式和标准统一	影响检索和处理效率
时效性	数据是否过时	导致回答不准确
多样性	是否覆盖各种场景	影响模型泛化能力

数据标注

人工标注：质量高但成本大，适合构建评估基准集
模型辅助标注：用 LLM 预标注 + 人工审核，效率更高
众包标注：适合大规模、标准化的标注任务
主动学习：优先标注模型最不确定的样本，提升标注 ROI

数据基础设施

向量数据库

用于存储和检索向量化的文本、图片等数据，是 RAG 架构的核心组件。

向量数据库	特点
Pinecone	全托管、易上手、适合中小规模
Weaviate	开源、支持混合搜索
Chroma	轻量级、适合原型开发
Qdrant	高性能、Rust 编写
pgvector	PostgreSQL 扩展，适合已有 PG 的团队

知识库构建

为 RAG 系统构建知识库时需要考虑：

数据源梳理：有哪些数据可用？格式是什么？
处理管道：文档解析 → 分块 → 嵌入 → 存储
更新机制：增量更新还是全量重建？
权限控制：不同用户能访问不同范围的知识

合成数据

当真实数据不足时，可以用 AI 生成合成数据：

训练数据扩充：生成更多样的训练样本
评估数据集：构建覆盖各种边界情况的测试集
隐私保护：用合成数据替代敏感的真实数据

注意

合成数据质量取决于生成模型的能力，需要人工审核验证，不能直接替代真实数据。