大语言模型(LLM)学习笔记与实践项目
本仓库记录 LLM 相关技术的学习过程,包含源码阅读、原理分析和动手实践。
| 模块 | 主题 | 说明 |
|---|---|---|
| nano-vllm | LLM 推理引擎 | 通过 ~1200 行代码的轻量级 vLLM 实现,深入理解 LLM 推理引擎的每一个核心概念 |
基于 nano-vllm 项目,编写了 12 章深度学习教程,面向了解 Transformer 基础的工程师,从浅到深完整覆盖 LLM 推理的所有核心知识点。
基础篇
- 第1章:LLM 推理全景概览 — 推理引擎架构、三大挑战
- 第2章:自回归生成原理 — 条件概率、Sequence 状态机
- 第3章:Tokenizer 与采样策略 — BPE 分词、Temperature、Gumbel-Max
- 第4章:KV Cache 核心优化 — KV 缓存原理、显存计算、GQA
进阶篇
- 第5章:Prefill 与 Decode 两阶段 — 计算密集 vs 内存密集
- 第6章:PagedAttention 显存管理 — 分页内存、Block 管理、Prefix Caching
- 第7章:请求调度与 Continuous Batching — 动态批处理、抢占机制
- 第8章:FlashAttention 与 Triton Kernel — GPU 内存层次、Tiling 优化
高级篇
- 第9章:CUDA Graph 加速 — Kernel Launch 开销、Graph 捕获与重放
- 第10章:张量并行多 GPU 推理 — Column/Row 并行、AllReduce
- 第11章:模型架构与权重加载 — Qwen3 结构、safetensors 加载
- 第12章:性能调优与 Benchmark — 吞吐量测量、参数调优实战
# 安装 nano-vllm
pip install git+https://github.com/GeeeekExplorer/nano-vllm.git
# 下载模型(约 1.2GB)
huggingface-cli download Qwen/Qwen3-0.6B --local-dir ~/huggingface/Qwen3-0.6B/
# 运行示例
python nano-vllm/example.py第1章(全景)→ 第2章(自回归)→ 第3章(采样)→ 第4章(KV Cache)
↓
第5章(两阶段)→ 第6章(PagedAttention)→ 第7章(调度)
↓
第8章(FlashAttention)→ 第9章(CUDA Graph)→ 第10章(张量并行)
↓
第11章(模型架构)→ 第12章(Benchmark)
本仓库中的教程内容采用 CC BY-SA 4.0 协议。nano-vllm 源码遵循其原始 MIT License。