多任务训练如何加强 zero-shot 泛化：我的学习笔记

type

Post

status

Published

date

Nov 6, 2025

slug

multitask-training-zero-shot-generalization-learning-notes

summary

我从多任务提示训练理解 zero-shot 泛化：任务多样性和提示多样性会影响模型迁移到未见任务的能力。

📝 主旨内容

zero-shot 的关键，是模型在没有见过目标任务训练样本时，仍然能根据指令完成任务。

我以前理解 zero-shot，更多是把它当成模型规模带来的涌现能力。但这篇方向提醒我：训练任务的多样性同样重要。模型如果在训练时见过足够多类型的任务和提示形式，就更可能学会“如何理解任务”，而不是只记住某个数据集。

这对我很有启发。泛化不是凭空来的，它可能来自规模、数据多样性、任务设计和提示形式共同作用。

多任务训练不是简单把很多数据集混在一起。它真正训练的是模型在不同任务描述之间迁移的能力。

比如自然语言推理、共指消解、句子补全、词义消歧这些任务看似不同，但它们都要求模型理解输入、遵循指令、输出符合格式的答案。任务越多样，模型越容易学会抽象的任务执行能力。

数据集数量重要，提示形式的多样性也重要。

如果一个任务只有一种提示写法，模型可能过度依赖这个表达方式。一旦换一种问法，效果就下降。所以多提示训练可以提高鲁棒性，让模型不那么依赖固定模板。

我会把这个思路用在自己的训练里

学习多任务训练后，我更清楚 zero-shot 泛化不是一个神秘结果，而是可以通过任务设计和提示多样性去影响的能力。

作为学习者，我后面会更重视训练数据的任务覆盖和提示多样性。模型能不能泛化，很多时候取决于它训练时见过怎样的“问题结构”。

Multitask Prompted Training Enables Zero-Shot Task Generalization：https://arxiv.org/abs/2110.08207

💡

我现在会把多任务训练看成一种“学习如何学习任务”的方法，而不是简单的数据拼盘。