LLM Study 📚

大语言模型（LLM）学习笔记与实践项目

本仓库记录 LLM 相关技术的学习过程，包含源码阅读、原理分析和动手实践。

📂 学习模块

模块	主题	说明
nano-vllm	LLM 推理引擎	通过 ~1200 行代码的轻量级 vLLM 实现，深入理解 LLM 推理引擎的每一个核心概念

🚀 Nano-vLLM 学习教程

基于 nano-vllm 项目，编写了 12 章深度学习教程，面向了解 Transformer 基础的工程师，从浅到深完整覆盖 LLM 推理的所有核心知识点。

教程目录

基础篇

第1章：LLM 推理全景概览 — 推理引擎架构、三大挑战
第2章：自回归生成原理 — 条件概率、Sequence 状态机
第3章：Tokenizer 与采样策略 — BPE 分词、Temperature、Gumbel-Max
第4章：KV Cache 核心优化 — KV 缓存原理、显存计算、GQA

进阶篇

第5章：Prefill 与 Decode 两阶段 — 计算密集 vs 内存密集
第6章：PagedAttention 显存管理 — 分页内存、Block 管理、Prefix Caching
第7章：请求调度与 Continuous Batching — 动态批处理、抢占机制
第8章：FlashAttention 与 Triton Kernel — GPU 内存层次、Tiling 优化

高级篇

第9章：CUDA Graph 加速 — Kernel Launch 开销、Graph 捕获与重放
第10章：张量并行多 GPU 推理 — Column/Row 并行、AllReduce
第11章：模型架构与权重加载 — Qwen3 结构、safetensors 加载
第12章：性能调优与 Benchmark — 吞吐量测量、参数调优实战

快速开始

# 安装 nano-vllm
pip install git+https://github.com/GeeeekExplorer/nano-vllm.git

# 下载模型（约 1.2GB）
huggingface-cli download Qwen/Qwen3-0.6B --local-dir ~/huggingface/Qwen3-0.6B/

# 运行示例
python nano-vllm/example.py

学习路线

第1章（全景）→ 第2章（自回归）→ 第3章（采样）→ 第4章（KV Cache）
    ↓
第5章（两阶段）→ 第6章（PagedAttention）→ 第7章（调度）
    ↓
第8章（FlashAttention）→ 第9章（CUDA Graph）→ 第10章（张量并行）
    ↓
第11章（模型架构）→ 第12章（Benchmark）

📝 License

本仓库中的教程内容采用 CC BY-SA 4.0 协议。nano-vllm 源码遵循其原始 MIT License。

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
nano-vllm		nano-vllm
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM Study 📚

📂 学习模块

🚀 Nano-vLLM 学习教程

教程目录

快速开始

学习路线

📝 License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

LLM Study 📚

📂 学习模块

🚀 Nano-vLLM 学习教程

教程目录

快速开始

学习路线

📝 License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages