大模型相关算法及项目复现 🚀

面向模型训练、RAG、Agent 实战项目。

模型训练系列 🧭

覆盖 RLHF 与 VLM 全流程实践，dpo/ppo/grpo/dapo/gspo 等热门算法；手搓实现 + 框架化训练双轨并行，从原理到落地快速闭环。

grpo_reproduce
- 复现 grpo 与 gspo 并对比
- 完全手搓，无训练框架依赖，便于深入理解算法细节
- 涵盖 off-policy 采样、训练分离，Deepspeed 分布式、思维链训练、LoRA 微调、显存估算等实践经验
dapo_reproduce
- 复现 dapo 全流程
- 延续手搓思路，聚焦熵坍缩、组内相对优势为 0、长序列 token loss 稀释等工程痛点的优化
- 可与 grpo/gspo 对比，体会 grpo 的问题及后续改进思路
ppo_reproduce
- 复现 ppo，包含 reward model 与 policy 训练
- 基于 trl 框架，学习如何快速搭建 RM + PPO 流程
- 作为 RLHF “鼻祖”，实战感受 reward + actor + critic 带来的流程复杂度与资源成本
dpo_reproduce
- 复现 dpo 全流程
- 使用 transformers 训练框架：基础设施（反向传播、Deepspeed/Accelerate）封装+自定义 loss，介于手搓与全封装之间
- 与 PPO 对比，理解为何 DPO 训练路径更轻量
vlm_reproduce
- 基于 SigLIP + Qwen2.5-0.5B 的 VLM 训练全流程（pretrain + SFT）
- 重点在结构对齐与特征融合，将视觉特征注入语言模型
- 该项目存在巨大拓展空间：
  - 🔍 更换新视觉/语言模型（如 smolVLM2 + Qwen3-0.6B）验证性能
  - 🀄 扩充中文问答预训练数据，提升图文问答效果
  - 🎯 在 pretrain+SFT 后加入 RLHF，观察质量提升
  - 📏 构建测评体系，系统评估 VLM 能力
dsa_reproduce
- 基于 Qwen2.5-0.5B 复现 Deepseek Sparse Attention (DSA)
- 修改 Qwen2.5-0.5B 模型结构引入 DSA 机制，进行二阶段训练，学习 attention，kv cache 实际在模型中如何实现
- 构建评估指标，从吞吐量角度对比训练前后效果
- 该项目存在优化空间：
  - 推理的逻辑可优化，保证推理仅依赖 top-k sparse attention
  - 评估的体系可优化，保证训练前后的模型计算算子相同，仅对比 dsa 带来的变化

RAG 系列 📚

待建设，敬请期待。

Agent 系列 🤖

待建设，敬请期待。

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
dapo_reproduce @ f43d078		dapo_reproduce @ f43d078
dpo_reproduce @ 3ecc429		dpo_reproduce @ 3ecc429
dsa_reproduce		dsa_reproduce
grpo_reproduce @ 9d70ae6		grpo_reproduce @ 9d70ae6
ppo_reproduce @ f37c367		ppo_reproduce @ f37c367
thesis_share		thesis_share
vlm_reproduce @ 42f5438		vlm_reproduce @ 42f5438
.gitignore		.gitignore
.gitmodules		.gitmodules
.python-version		.python-version
README.md		README.md
config.yaml		config.yaml
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

大模型相关算法及项目复现 🚀

模型训练系列 🧭

RAG 系列 📚

Agent 系列 🤖

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

大模型相关算法及项目复现 🚀

模型训练系列 🧭

RAG 系列 📚

Agent 系列 🤖

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages