type
Post
status
Published
date
Feb 22, 2025
slug
deepseek-technology-learning-notes
summary
我从学习者角度梳理 DeepSeek 背后的几个关键技术线索:MoE、低成本训练、强化学习推理能力,以及它对开源大模型生态的影响。
tags
LLM
训练
开发
category
LLM
icon
password
这篇文章是我学习 DeepSeek 相关技术时的阶段性整理。DeepSeek 让我最感兴趣的地方,不只是模型效果,而是它把成本、结构和推理能力这几个问题放到了一起回答。
📝 主旨内容
💡 一、我先从 MoE 理解它的效率
大模型不一定每次都要激活全部参数,关键是让合适的专家在合适的 token 上工作。
学习 DeepSeek 时,我最先注意到的是 MoE,也就是 Mixture of Experts。它的直觉并不复杂:模型里有很多“专家”模块,但每个 token 只路由到其中一部分专家。这样总参数规模可以很大,而单次计算成本不必同等放大。
对我来说,MoE 的启发在于:模型能力和计算成本不是简单线性关系。工程上真正重要的是如何做路由、如何让专家负载均衡、如何避免某些专家过载或闲置。它不是一个单纯扩大模型的技巧,而是一套关于效率分配的系统设计。
🔍 二、我关注低成本训练背后的工程取舍
DeepSeek 讨论度很高的一点是训练成本。作为学习者,我不会只把它理解成“便宜”,而是会追问:它到底把成本省在了哪里?
我的理解主要有三层:
- 架构层面,通过 MoE 等方式提高计算利用率
- 训练层面,尽量减少无效计算和低质量数据
- 工程层面,通过并行、通信和显存优化降低系统开销
这让我意识到,大模型训练不是单个算法问题,而是算法、数据、系统工程共同作用的结果。论文里看到的一个小公式,落到真实训练里可能对应大量工程细节。
🧩 三、推理能力不是凭空出现的
DeepSeek-R1 让我重新理解了强化学习在推理模型里的作用。以前我更关注监督微调,觉得只要给足高质量样本,模型就能学会解题过程。后来我发现,推理能力还需要模型在反馈中不断尝试、修正和强化。
这里最打动我的是“过程感”。模型不是只输出答案,而是学会在复杂任务里分解问题、检查中间步骤、发现错误并继续推进。虽然这并不代表模型真的像人一样思考,但从工程效果看,它确实让模型更擅长处理需要多步推理的问题。
🛠️ 四、我从 DeepSeek 学到的东西
我目前会重点关注这几个方向
- MoE 路由和负载均衡如何影响训练稳定性。
- 推理模型的数据和奖励信号如何设计。
- 长上下文、代码能力和数学能力之间是否存在共通训练方法。
- 开源模型如何改变应用层的成本结构。
DeepSeek 对我的意义不是“某个模型很强”,而是提醒我:大模型竞争已经进入体系化阶段。模型结构、训练方法、推理策略、部署成本,任何一个环节都可能成为突破口。
🤗 总结归纳
我现在看 DeepSeek,不会只看榜单分数,而会把它当成一个工程样本来学习。它展示了如何用结构设计和训练策略去追求更高性价比,也让开源社区看到了另一条可行路径。
作为学习者,我下一步更想补的是 MoE 和强化学习细节。只有把这些底层机制理解清楚,才不会被“低成本”“强推理”这些标签带着走。
📎 参考文章
- DeepSeek-V3 Technical Report:https://arxiv.org/abs/2412.19437
- DeepSeek-R1:https://arxiv.org/abs/2501.12948
- DeepSeek 官方文档:https://api-docs.deepseek.com
我后面如果继续写 DeepSeek,会尽量从一个具体问题切入,比如 MoE 路由、GRPO、蒸馏,或者 API 使用成本,而不是只做宏观介绍。
- 作者:老王TechTalk
- 链接:https://www.illusionjourney.com/article/deepseek-technology-learning-notes
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章





