GitHub - NickCheng0921/VDLM: Online inference framework for diffusion LMs

VDLM Overview

VDLM is a model inference framework for running language MDMs (masked diffusion models) w/ an OpenAI style API.

Running the server

python api_server.py
python test_request.py

Demo

Video sped up for demonstration purposes

Tests

Written in pytest, run using pytest

tests runs server w/ mock engine loop by default rather than loading a real model

Work in Progress

add more architectures, current code only uses LLaDA
implement CUDA graph capture for model serving
cancellable engine requests
dynamic request batching
faster IPC using ZMG + msgpack over multiprocessing.Queue

Acknowledgements

Model generation + load config code is from fast-dLLM.

slight modification added to the original RoPE implementation for torch compilability
- some numerical precision issues observed, see link for more info

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
demos		demos
model		model
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
Learnings.md		Learnings.md
README.md		README.md
api_server.py		api_server.py
generate.py		generate.py
llm_engine.py		llm_engine.py
pytest.ini		pytest.ini
requirements.txt		requirements.txt
test_request.py		test_request.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VDLM Overview

Running the server

Demo

Tests

Work in Progress

Acknowledgements

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

VDLM Overview

Running the server

Demo

Tests

Work in Progress

Acknowledgements

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages