type
Post
status
Published
date
Jan 29, 2025
slug
multimodal-llm-training-from-zero-learning-notes
summary
我用学习者视角拆解多模态大模型训练:从视觉编码器、投影层、语言模型对齐,到数据质量和评测闭环。
tags
LLM
训练
DATA
category
LLM
icon
password
这篇是我学习“从 0 到 1 训练多模态大模型”时写下的路线笔记。越看越觉得,多模态不是给语言模型接一个图片输入这么简单,而是要让视觉、文本和任务目标在同一个表示空间里对齐。
📝 主旨内容
💡 一、我先把目标拆小
如果一上来就说训练一个完整多模态大模型,这个目标太大,也太容易失真。
作为学习者,我更愿意先问:我到底想复现哪一部分能力?是图片问答、图文检索、OCR、视觉推理,还是把图片作为上下文交给语言模型?不同目标对应的数据、模型结构和评测方式都不一样。
所以我会先从最小链路开始:一个视觉编码器,一个语言模型,一个对齐层,再加上一批图文指令数据。先跑通“看图回答问题”,再逐步讨论更复杂的训练策略。
🔍 二、我理解的核心是对齐
多模态模型的关键,是把视觉信息变成语言模型能理解的表示。这里通常会有几个模块:
- 视觉编码器负责把图片变成特征
- 投影层负责把视觉特征映射到语言模型空间
- 语言模型负责结合视觉 token 和文本指令生成答案
这让我意识到,很多多模态能力不是凭空出现的,而是靠大量图文对齐数据和指令微调逐步建立起来的。模型需要学会的不只是“图里有什么”,还包括“用户为什么问这个问题”。
🛠️ 三、训练路线我会从轻量实验开始
我不会一开始就做大规模预训练。更现实的路线是:
- 选择一个开源视觉编码器和一个小型语言模型
- 加一个投影层,先冻结大部分参数
- 用图文描述数据做初步对齐
- 用视觉问答和多模态指令数据做 SFT
- 最后用固定评测集检查效果
这个过程的重点不是参数规模,而是每一步都能解释。如果效果变好,我要知道是数据带来的、结构带来的,还是训练配置带来的。
🧩 四、我会特别注意数据质量
多模态数据很容易脏。图片描述可能不准确,OCR 可能缺字,问答数据可能只靠语言先验就能回答。如果数据质量不好,模型表面上会回答,实际上没有真正理解图片。
我会优先检查这些问题
- 问题是否真的依赖图片。
- 图片和文本是否匹配。
- 是否存在重复样本或泄漏。
- 评测任务是否覆盖 OCR、定位、推理和常识。
🤗 总结归纳
从 0 到 1 训练多模态大模型,我现在会把它理解为一条逐步对齐的工程路线:先让视觉特征进入语言模型,再用数据让模型学会围绕图片完成任务。
作为学习者,我不会急着追求“大而全”。先做一个小而清楚的多模态实验,把视觉编码、投影、指令微调和评测跑通,才是更可靠的开始。
📎 参考文章
- LLaVA 项目:https://llava-vl.github.io/
- CLIP 论文:https://arxiv.org/abs/2103.00020
- Hugging Face 多模态文档:https://huggingface.co/docs/transformers/tasks/image_text_to_text
我后面如果做实验,会先从 LLaVA 风格的小模型开始,把数据、训练脚本和评测链路做清楚,再考虑更大的模型规模。
- 作者:老王TechTalk
- 链接:https://www.illusionjourney.com/article/multimodal-llm-training-from-zero-learning-notes
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章








