🗒️DeepSeek 模型复现:我会从哪里开始LLM我用学习者视角拆解 DeepSeek 模型复现的路线:先明确目标,再从数据、训练方法、评估和成本边界逐步缩小范围。2025-3-6 LLM 训练 PEFT DATA
🗒️TRL学习LLM我从学习者角度整理 Hugging Face TRL:把它理解成大模型后训练工具箱,并梳理 SFT、DPO、GRPO、Reward Modeling 和 PPO 的学习路线。2025-6-12 LLM 训练 PEFT
🗒️LLM-白泽🐲LLM用chatgpt生成多轮完整对话数据,而不是QA对,从而有更好的效果。同时使用chatgpt做了一个对齐方式代替人类的对齐方式(SDF,Self-Distillation with Feedback)2023-6-30 chatgpt 训练 PEFT