Investigate observed fp8 vs fp16 input projections performance difference #35

Open

opened

on Jan 30, 2025

40b, 1b models have significantly lower performance when use_fp8_input_projections is set to false

Metadata

Assignees

No one assigned

Labels

No labels

No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests