0 到 1 训练一个多模态大模型：我的学习路线

type

Post

status

Published

date

Jan 29, 2025

slug

multimodal-llm-training-from-zero-learning-notes

summary

我用学习者视角拆解多模态大模型训练：从视觉编码器、投影层、语言模型对齐，到数据质量和评测闭环。

📝 主旨内容

如果一上来就说训练一个完整多模态大模型，这个目标太大，也太容易失真。

作为学习者，我更愿意先问：我到底想复现哪一部分能力？是图片问答、图文检索、OCR、视觉推理，还是把图片作为上下文交给语言模型？不同目标对应的数据、模型结构和评测方式都不一样。

所以我会先从最小链路开始：一个视觉编码器，一个语言模型，一个对齐层，再加上一批图文指令数据。先跑通“看图回答问题”，再逐步讨论更复杂的训练策略。

多模态模型的关键，是把视觉信息变成语言模型能理解的表示。这里通常会有几个模块：

这让我意识到，很多多模态能力不是凭空出现的，而是靠大量图文对齐数据和指令微调逐步建立起来的。模型需要学会的不只是“图里有什么”，还包括“用户为什么问这个问题”。

我不会一开始就做大规模预训练。更现实的路线是：

这个过程的重点不是参数规模，而是每一步都能解释。如果效果变好，我要知道是数据带来的、结构带来的，还是训练配置带来的。

多模态数据很容易脏。图片描述可能不准确，OCR 可能缺字，问答数据可能只靠语言先验就能回答。如果数据质量不好，模型表面上会回答，实际上没有真正理解图片。

我会优先检查这些问题

从 0 到 1 训练多模态大模型，我现在会把它理解为一条逐步对齐的工程路线：先让视觉特征进入语言模型，再用数据让模型学会围绕图片完成任务。

作为学习者，我不会急着追求“大而全”。先做一个小而清楚的多模态实验，把视觉编码、投影、指令微调和评测跑通，才是更可靠的开始。

💡

我后面如果做实验，会先从 LLaVA 风格的小模型开始，把数据、训练脚本和评测链路做清楚，再考虑更大的模型规模。