DeepSeek 背后的技术：我的学习笔记

type

Post

status

Published

date

Feb 22, 2025

slug

deepseek-technology-learning-notes

summary

我从学习者角度梳理 DeepSeek 背后的几个关键技术线索：MoE、低成本训练、强化学习推理能力，以及它对开源大模型生态的影响。

📝 主旨内容

大模型不一定每次都要激活全部参数，关键是让合适的专家在合适的 token 上工作。

学习 DeepSeek 时，我最先注意到的是 MoE，也就是 Mixture of Experts。它的直觉并不复杂：模型里有很多“专家”模块，但每个 token 只路由到其中一部分专家。这样总参数规模可以很大，而单次计算成本不必同等放大。

对我来说，MoE 的启发在于：模型能力和计算成本不是简单线性关系。工程上真正重要的是如何做路由、如何让专家负载均衡、如何避免某些专家过载或闲置。它不是一个单纯扩大模型的技巧，而是一套关于效率分配的系统设计。

DeepSeek 讨论度很高的一点是训练成本。作为学习者，我不会只把它理解成“便宜”，而是会追问：它到底把成本省在了哪里？

我的理解主要有三层：

这让我意识到，大模型训练不是单个算法问题，而是算法、数据、系统工程共同作用的结果。论文里看到的一个小公式，落到真实训练里可能对应大量工程细节。

DeepSeek-R1 让我重新理解了强化学习在推理模型里的作用。以前我更关注监督微调，觉得只要给足高质量样本，模型就能学会解题过程。后来我发现，推理能力还需要模型在反馈中不断尝试、修正和强化。

这里最打动我的是“过程感”。模型不是只输出答案，而是学会在复杂任务里分解问题、检查中间步骤、发现错误并继续推进。虽然这并不代表模型真的像人一样思考，但从工程效果看，它确实让模型更擅长处理需要多步推理的问题。

我目前会重点关注这几个方向

DeepSeek 对我的意义不是“某个模型很强”，而是提醒我：大模型竞争已经进入体系化阶段。模型结构、训练方法、推理策略、部署成本，任何一个环节都可能成为突破口。

我现在看 DeepSeek，不会只看榜单分数，而会把它当成一个工程样本来学习。它展示了如何用结构设计和训练策略去追求更高性价比，也让开源社区看到了另一条可行路径。

作为学习者，我下一步更想补的是 MoE 和强化学习细节。只有把这些底层机制理解清楚，才不会被“低成本”“强推理”这些标签带着走。

💡

我后面如果继续写 DeepSeek，会尽量从一个具体问题切入，比如 MoE 路由、GRPO、蒸馏，或者 API 使用成本，而不是只做宏观介绍。