type
Post
status
Published
date
Jan 29, 2025
slug
multimodal-llm-training-from-zero-learning-notes
summary
我用学习者视角拆解多模态大模型训练:从视觉编码器、投影层、语言模型对齐,到数据质量和评测闭环。
tags
LLM
训练
DATA
category
LLM
icon
password
🧠
这篇是我学习“从 0 到 1 训练多模态大模型”时写下的路线笔记。越看越觉得,多模态不是给语言模型接一个图片输入这么简单,而是要让视觉、文本和任务目标在同一个表示空间里对齐。
 

📝 主旨内容

💡 一、我先把目标拆小

如果一上来就说训练一个完整多模态大模型,这个目标太大,也太容易失真。
作为学习者,我更愿意先问:我到底想复现哪一部分能力?是图片问答、图文检索、OCR、视觉推理,还是把图片作为上下文交给语言模型?不同目标对应的数据、模型结构和评测方式都不一样。
所以我会先从最小链路开始:一个视觉编码器,一个语言模型,一个对齐层,再加上一批图文指令数据。先跑通“看图回答问题”,再逐步讨论更复杂的训练策略。

🔍 二、我理解的核心是对齐

多模态模型的关键,是把视觉信息变成语言模型能理解的表示。这里通常会有几个模块:
  • 视觉编码器负责把图片变成特征
  • 投影层负责把视觉特征映射到语言模型空间
  • 语言模型负责结合视觉 token 和文本指令生成答案
这让我意识到,很多多模态能力不是凭空出现的,而是靠大量图文对齐数据和指令微调逐步建立起来的。模型需要学会的不只是“图里有什么”,还包括“用户为什么问这个问题”。

🛠️ 三、训练路线我会从轻量实验开始

我不会一开始就做大规模预训练。更现实的路线是:
  1. 选择一个开源视觉编码器和一个小型语言模型
  1. 加一个投影层,先冻结大部分参数
  1. 用图文描述数据做初步对齐
  1. 用视觉问答和多模态指令数据做 SFT
  1. 最后用固定评测集检查效果
这个过程的重点不是参数规模,而是每一步都能解释。如果效果变好,我要知道是数据带来的、结构带来的,还是训练配置带来的。

🧩 四、我会特别注意数据质量

多模态数据很容易脏。图片描述可能不准确,OCR 可能缺字,问答数据可能只靠语言先验就能回答。如果数据质量不好,模型表面上会回答,实际上没有真正理解图片。
我会优先检查这些问题
  • 问题是否真的依赖图片。
  • 图片和文本是否匹配。
  • 是否存在重复样本或泄漏。
  • 评测任务是否覆盖 OCR、定位、推理和常识。

🤗 总结归纳

从 0 到 1 训练多模态大模型,我现在会把它理解为一条逐步对齐的工程路线:先让视觉特征进入语言模型,再用数据让模型学会围绕图片完成任务。
作为学习者,我不会急着追求“大而全”。先做一个小而清楚的多模态实验,把视觉编码、投影、指令微调和评测跑通,才是更可靠的开始。

📎 参考文章

 
💡
我后面如果做实验,会先从 LLaVA 风格的小模型开始,把数据、训练脚本和评测链路做清楚,再考虑更大的模型规模。
DeepSeek API 主流厂商比较:我的选择思路GraphRAG 学习笔记:我如何理解图增强检索
Loading...