type
Post
status
Published
date
Nov 6, 2025
slug
multitask-training-zero-shot-generalization-learning-notes
summary
我从多任务提示训练理解 zero-shot 泛化:任务多样性和提示多样性会影响模型迁移到未见任务的能力。
tags
LLM
训练
DATA
category
LLM
icon
password
这篇是我学习多任务训练和 zero-shot 泛化时的笔记。它让我重新理解了提示训练的价值:模型不是只记住某个任务,而是通过多任务学习获得迁移到新任务的能力。

📝 主旨内容
💡 一、我先理解什么是 zero-shot 泛化
zero-shot 的关键,是模型在没有见过目标任务训练样本时,仍然能根据指令完成任务。
我以前理解 zero-shot,更多是把它当成模型规模带来的涌现能力。但这篇方向提醒我:训练任务的多样性同样重要。模型如果在训练时见过足够多类型的任务和提示形式,就更可能学会“如何理解任务”,而不是只记住某个数据集。
这对我很有启发。泛化不是凭空来的,它可能来自规模、数据多样性、任务设计和提示形式共同作用。
🔍 二、多任务训练到底训练了什么
多任务训练不是简单把很多数据集混在一起。它真正训练的是模型在不同任务描述之间迁移的能力。
比如自然语言推理、共指消解、句子补全、词义消歧这些任务看似不同,但它们都要求模型理解输入、遵循指令、输出符合格式的答案。任务越多样,模型越容易学会抽象的任务执行能力。
🛠️ 三、我学到的训练启发
数据集数量重要,提示形式的多样性也重要。
如果一个任务只有一种提示写法,模型可能过度依赖这个表达方式。一旦换一种问法,效果就下降。所以多提示训练可以提高鲁棒性,让模型不那么依赖固定模板。
我会把这个思路用在自己的训练里
- 同一任务准备多种指令表达。
- 不同任务混合训练时控制比例。
- 保留一批未见任务做评测。
- 同时看平均效果和方差,判断稳定性。
🤗 总结归纳
学习多任务训练后,我更清楚 zero-shot 泛化不是一个神秘结果,而是可以通过任务设计和提示多样性去影响的能力。
作为学习者,我后面会更重视训练数据的任务覆盖和提示多样性。模型能不能泛化,很多时候取决于它训练时见过怎样的“问题结构”。
📎 参考文章
- Multitask Prompted Training Enables Zero-Shot Task Generalization:https://arxiv.org/abs/2110.08207
- BIG-bench:https://github.com/google/BIG-bench
- T0 模型相关资料:https://huggingface.co/bigscience/T0pp
我现在会把多任务训练看成一种“学习如何学习任务”的方法,而不是简单的数据拼盘。
- 作者:老王TechTalk
- 链接:https://www.illusionjourney.com/article/multitask-training-zero-shot-generalization-learning-notes
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章








