type
Post
status
Published
date
Nov 6, 2025
slug
multitask-training-zero-shot-generalization-learning-notes
summary
我从多任务提示训练理解 zero-shot 泛化:任务多样性和提示多样性会影响模型迁移到未见任务的能力。
tags
LLM
训练
DATA
category
LLM
icon
password
🎯
这篇是我学习多任务训练和 zero-shot 泛化时的笔记。它让我重新理解了提示训练的价值:模型不是只记住某个任务,而是通过多任务学习获得迁移到新任务的能力。
多任务训练像星系里的多条轨道,最终服务于泛化能力
多任务训练像星系里的多条轨道,最终服务于泛化能力

📝 主旨内容

💡 一、我先理解什么是 zero-shot 泛化

zero-shot 的关键,是模型在没有见过目标任务训练样本时,仍然能根据指令完成任务。
我以前理解 zero-shot,更多是把它当成模型规模带来的涌现能力。但这篇方向提醒我:训练任务的多样性同样重要。模型如果在训练时见过足够多类型的任务和提示形式,就更可能学会“如何理解任务”,而不是只记住某个数据集。
这对我很有启发。泛化不是凭空来的,它可能来自规模、数据多样性、任务设计和提示形式共同作用。

🔍 二、多任务训练到底训练了什么

多任务训练不是简单把很多数据集混在一起。它真正训练的是模型在不同任务描述之间迁移的能力。
比如自然语言推理、共指消解、句子补全、词义消歧这些任务看似不同,但它们都要求模型理解输入、遵循指令、输出符合格式的答案。任务越多样,模型越容易学会抽象的任务执行能力。

🛠️ 三、我学到的训练启发

数据集数量重要,提示形式的多样性也重要。
如果一个任务只有一种提示写法,模型可能过度依赖这个表达方式。一旦换一种问法,效果就下降。所以多提示训练可以提高鲁棒性,让模型不那么依赖固定模板。
我会把这个思路用在自己的训练里
  1. 同一任务准备多种指令表达。
  1. 不同任务混合训练时控制比例。
  1. 保留一批未见任务做评测。
  1. 同时看平均效果和方差,判断稳定性。

🤗 总结归纳

学习多任务训练后,我更清楚 zero-shot 泛化不是一个神秘结果,而是可以通过任务设计和提示多样性去影响的能力。
作为学习者,我后面会更重视训练数据的任务覆盖和提示多样性。模型能不能泛化,很多时候取决于它训练时见过怎样的“问题结构”。

📎 参考文章

 
💡
我现在会把多任务训练看成一种“学习如何学习任务”的方法,而不是简单的数据拼盘。
DataSet Collection:我的大模型数据集整理方法LLM-白泽🐲
Loading...