AI 基础设施学习笔记,聚焦 GPU 编程、LLM 训练与推理、通信系统、深度学习框架和性能分析。
这个仓库不是一个单一软件项目,而是一个持续演进的知识库:每个目录对应一个主题,README 负责解释核心概念、源码链路、实验代码或性能现象。
如果你刚开始看,可以按下面的路线进入:
- GPU / CUDA Infra:从 CUDA 硬件架构 开始,再看 内存层次、TensorCore、CUTLASS / CuTe。
- LLM Training Infra:先看 Attention、MoE,再进入 TP、PP、FSDP。
- LLM Inference Infra:从 KV Cache、Continuous Batching、Chunked Prefill 和 FlashDecode 入手。
- Framework / Serving:看 PyTorch 架构、torch.compile、vLLM、SGLang 权重加载。
- Training Compute / Scaling Law:看 Chinchilla Scaling Law,理解固定训练算力下参数量和训练 token 数的分配。
- 系统与调优:看 通信原语、NCCL、系统与硬件、CUDA Profiling。
AI-infra-LearningNote/
├── 01-cuda/ CUDA 编程、GPU 架构、算子、CUTLASS/CuTe
├── 02-lang/ C++、Python、Triton 与底层编程语言基础
├── 03-llm/ LLM 架构、训练、推理、量化、并行与评测
├── 03-multi/ 多模态模型 Infra,含 ViT/CLIP/VAE/DiT/LDM
├── 04-comm/ 通信后端、NCCL、集合通信与计算通信重叠
├── 05-framework/ PyTorch、vLLM、SGLang、Megatron、DeepSpeed
├── 06-agent/ Agent 框架与向量检索
├── 07-system/ CPU/GPU/NPU、内存系统、OS I/O、进程模型
├── 08-tools/ 编译器、项目管理、第三方库与工程工具
├── 09-profile/ 性能分析、调试、优化方法与评测工具
├── 010-dist/ 分布式训练专题
├── 011-train/ 训练算力、Scaling Law 与训练策略
├── concept/ pre-training / SFT / RL 等基础概念
├── cuda/ CUTLASS / CuTe 实践代码
└── dao/ 算子开发范式与任务划分
- 架构基础:硬件架构、Blackwell、Hopper TMA、Hopper Pipeline
- 执行模型:启动配置、Stream、Cooperative Groups、Warp 原语
- 内存优化:Bank Conflict、Cache、Pin Memory、VMM
- 算子实现:HGEMV、Element-wise、Transpose、Reduce
- CUTLASS / CuTe:CuTe 多维分块、Copy、CUTLASS 3.x GEMM、Device GEMM
- C++:类型系统、内存管理、模板、智能指针、STL vector
- Python:迭代器协议、yield 生成器、asyncio、类系统
- Triton:基础语法、矩阵乘法、FlashAttention、Autotune、Kernel Fusion
- 架构:模型数据流、Attention、FlashAttention V1、FlashAttention V2、MoE
- 并行训练:DP、DDP、TP、PP、EP、FSDP
- 训练与微调:数据集处理、SFT、RLHF、DPO、梯度检查点
- 训练算力:Chinchilla Scaling Law
- 推理优化:KV Cache、Prefix Cache、Batching、Chunked Prefill、Speculative Decoding
- 量化与压缩:线性量化、AWQ、QAT、SmoothQuant、k-means 量化
- 通信:Gloo、NCCL、集合通信、Overlap、NVLink
- PyTorch:Overview、Stream、Context、Custom Ops、Memory
- Serving / Training Framework:vLLM、SGLang、Megatron-LM、Slime、DeepSpeed
- 系统:系统与硬件概述、GPU、NPU、内存系统、io_uring
- Profiling:CUDA 性能分析、性能优化方法、调试基础、困惑度分析
近期新增和重点维护方向:
- CUDA VMM、Pin Memory、Hopper Pipeline、Blackwell 架构
- Triton Matmul、FlashAttention、Kernel Fusion
- Chinchilla Scaling Law、训练算力与数据/参数配比
- PyTorch compile/custom ops/memory/linear 源码链路
- vLLM 架构、并行策略、显存管理、Sleep Mode
- 多模态 DiT/LDM/ADM、DiT Cache、Text2X
- FSDP、分布式转置、通信 overlap、NCCL 专题
待补主题见 TODO.md。
- 根 README 保持为高层入口,不追求列出每个叶子目录。
- 每个主题目录优先维护自己的 README,根 README 只链接稳定入口。
- 新增目录时尽量保持路径命名一致,避免大小写混用和拼写漂移。
- 示例代码、实验日志和图表应放在对应主题目录下,README 只保留结论、关键路径和复现实验入口。
最后更新:2026-05-15