AutoTuner for Megatron + TransformerEngine

Scenarios

This is a practical auto-tuner on Megatron targeted at post-training frameworks like verl project.

Our performance tuning target is MFU in MCore training process on both forward-only models and forward-backward-update models, which leads to high performance on training side in RLHF.

Speaking of tuning dimensions, currently include:


Dense Layer	TP	CP	DP	PP	VPP
MoE Parallel Folding	ETP	EP	EDP
Pipeline layout
Seqlen	max_token_len
Recompute	recompute_granularity	recompute_method	recompute_num_layers	recompute_modules

Target shapes:

thd (mainly)
bshd

Docs

Doc in Lark

Go to docs directory

Submodules

Original Open-Source Repos

Megatron-LM
TransformerEngine
verl

Enhanced Repos

Megatron-LM-Enhanced
- @Jetteyc : NetworkEngine
- @ETOgaosion , @cyn1456492382 , @miceforrat : All basic functions and Auto-Tuner connection
TransformerEngine-Enhanced
- @Jetteyc , @Knight-of-Thunder : Context Parallel based on NVSHMEM Async Transport
verl-enhanced
- @ETOgaosion , @cyn1456492382 , @miceforrat : balanced data resharding
- @LeonardW-sl : Scalable Train-Infer Data & Weights Transport

Name		Name	Last commit message	Last commit date
Latest commit History 141 Commits
.claude		.claude
.github		.github
.secrets		.secrets
.vscode		.vscode
AutoTuner		AutoTuner
EPLB @ d52c72d		EPLB @ d52c72d
LPLB @ 0490f79		LPLB @ 0490f79
Megatron-LM @ 3bec9aa		Megatron-LM @ 3bec9aa
Megatron-LM-Enhanced @ 5e89210		Megatron-LM-Enhanced @ 5e89210
TransformerEngine @ fedd9dd		TransformerEngine @ fedd9dd
TransformerEngine-Enhanced @ 3824e7b		TransformerEngine-Enhanced @ 3824e7b
docker		docker
docs		docs
drawing		drawing
install/packages		install/packages
mbridge @ da21f04		mbridge @ da21f04
patches		patches
runtime/megatron/e2e/gpt		runtime/megatron/e2e/gpt
scripts		scripts
simulator		simulator
tests		tests
tools		tools
verl @ f9c855f		verl @ f9c855f
verl-enhanced @ f9c855f		verl-enhanced @ f9c855f
vibe-coding-workspace		vibe-coding-workspace
.gitignore		.gitignore
.gitmodules		.gitmodules
AGENTS.md		AGENTS.md
CLAUDE.md		CLAUDE.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
VERSION		VERSION
pyproject.toml		pyproject.toml
requirements_dev.txt		requirements_dev.txt
requirements_now.txt		requirements_now.txt
requirements_verl.txt		requirements_verl.txt
setup.py		setup.py
tmp.txt		tmp.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AutoTuner for Megatron + TransformerEngine

Scenarios

Docs

Submodules

Original Open-Source Repos

Enhanced Repos

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

AutoTuner for Megatron + TransformerEngine

Scenarios

Docs

Submodules

Original Open-Source Repos

Enhanced Repos

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages