Token2Metrics

Translating tokens to latency, energy metrics for edge inference

Overview

Token2Metrics is a module part of the edgereasoning project. This module handles data postprocessing and plotting figures for latency, power and energy. The evaluations supported are:

prefill decode scaling

Phase-Specific Modeling

Prefill latency: Model predicts prefill time from input tokens only.
Decode latency: Model predicts decode time from output tokens only.
Each phase is trained and calibrated separately for each model size.

Quick Start

look into the prefilltokens, prefillenergy and decodetokens on how run those for datasets available.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
config		config
decodenergy		decodenergy
decodetokens		decodetokens
planner		planner
prefillenergy		prefillenergy
prefilltokens		prefilltokens
scalingenergy		scalingenergy
tools		tools
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
__init__.py		__init__.py
pyproject.toml		pyproject.toml
pytest.ini		pytest.ini
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Token2Metrics

Overview

Phase-Specific Modeling

Quick Start

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Token2Metrics

Overview

Phase-Specific Modeling

Quick Start

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages