面向模型训练、RAG、Agent 实战项目。
覆盖 RLHF 与 VLM 全流程实践,dpo/ppo/grpo/dapo/gspo 等热门算法;手搓实现 + 框架化训练双轨并行,从原理到落地快速闭环。
-
- 复现 dapo 全流程
- 延续手搓思路,聚焦熵坍缩、组内相对优势为 0、长序列 token loss 稀释等工程痛点的优化
- 可与 grpo/gspo 对比,体会 grpo 的问题及后续改进思路
-
- 复现 dpo 全流程
- 使用
transformers训练框架:基础设施(反向传播、Deepspeed/Accelerate)封装+自定义 loss,介于手搓与全封装之间 - 与 PPO 对比,理解为何 DPO 训练路径更轻量
-
- 基于 SigLIP + Qwen2.5-0.5B 的 VLM 训练全流程(pretrain + SFT)
- 重点在结构对齐与特征融合,将视觉特征注入语言模型
- 该项目存在巨大拓展空间:
- 🔍 更换新视觉/语言模型(如 smolVLM2 + Qwen3-0.6B)验证性能
- 🀄 扩充中文问答预训练数据,提升图文问答效果
- 🎯 在 pretrain+SFT 后加入 RLHF,观察质量提升
- 📏 构建测评体系,系统评估 VLM 能力
-
dsa_reproduce
- 基于 Qwen2.5-0.5B 复现 Deepseek Sparse Attention (DSA)
- 修改 Qwen2.5-0.5B 模型结构引入 DSA 机制,进行二阶段训练,学习 attention,kv cache 实际在模型中如何实现
- 构建评估指标,从吞吐量角度对比训练前后效果
- 该项目存在优化空间:
- 推理的逻辑可优化,保证推理仅依赖 top-k sparse attention
- 评估的体系可优化,保证训练前后的模型计算算子相同,仅对比 dsa 带来的变化
待建设,敬请期待。
待建设,敬请期待。