type
Post
status
Published
date
May 21, 2025
slug
llm-data-generation-learning-notes
summary
我从学习者角度梳理大模型数据生成方法:Self-Instruct、CAMEL、ShareGPT、Baize 和 Data-Copilot 的共同问题是如何让数据可控、可验证、可复用。
tags
LLM
DATA
训练
category
LLM
icon
password
🧬
这篇是我重新整理“大模型数据生成”时的学习笔记。以前我只把它理解成让模型批量生成问答,现在看下来,真正关键的是如何让数据生成可控、可验证、可持续迭代。
星空中的海量样本,像数据生成流程里的多样任务
星空中的海量样本,像数据生成流程里的多样任务

📝 主旨内容

💡 一、我先把数据生成看成一条流水线

大模型训练缺的不是“更多文本”,而是更贴近任务、更干净、更可控的数据。
我最开始接触 Self-Instruct、ShareGPT、Baize、CAMEL 这些方法时,关注点都在“怎么让模型自动生成数据”。后来我意识到,自动生成只是第一步。真正难的是怎么定义任务、怎么筛选质量、怎么避免重复、怎么让数据覆盖足够多的场景。
如果没有这些控制,生成再多数据也可能只是噪声放大器。

🔍 二、我理解的几类方法

我现在会把主流数据生成方法粗略分成几类:
  • Self-Instruct:从少量种子任务出发,让模型扩展指令和答案
  • ShareGPT 类数据:从真实用户对话中整理高质量指令数据
  • CAMEL / 多 Agent 对话:让不同角色围绕任务自动生成多轮对话
  • Baize 类方法:强调多轮对话和反馈式蒸馏
  • Data-Copilot 类工具:把数据生成、清洗、验证和导出做成流程化工具
这些方法的共同点,是试图降低人工构造训练数据的成本;不同点在于它们对真实性、多样性和质量控制的取舍不同。

🛠️ 三、我最关心质量验证

数据生成的核心不是“能生成”,而是“生成后我敢不敢用”。
我现在会特别关注几件事:格式是否统一,答案是否可靠,任务是否重复,样本是否真的覆盖目标场景。如果是垂直领域数据,还要额外检查事实正确性和安全边界。
我会给数据生成流程加这些检查
  1. 去重和相似度过滤。
  1. 格式校验和字段完整性检查。
  1. 模型自评 + 人工抽检。
  1. 按任务类型统计覆盖度。
  1. 保存 prompt、模型和生成参数,方便复现。

🤗 总结归纳

学习这些方法后,我更愿意把“大模型数据生成”看成数据工程,而不是 prompt 技巧。一个好的数据生成系统,应该能持续产生、验证、筛选和导出高质量样本。
作为学习者,我后面会重点补两块:一是不同生成策略的适用边界,二是数据质量评估体系。没有评估,生成数据很难真正进入训练闭环。

📎 参考文章

 
💡
我现在的判断是:数据生成工具最有价值的地方,不是替我省掉所有人工,而是把人工检查放在更关键的位置。
医学大模型数据汇总:我的学习笔记Deep Auction 学习笔记:当深度学习遇到拍卖机制
Loading...