Skip to content

【请勿合入】Update triton-ascend-coder.md#175

Open
wwwbby wants to merge 7 commits into
Just-it:br_430from
wwwbby:gpu2ascend
Open

【请勿合入】Update triton-ascend-coder.md#175
wwwbby wants to merge 7 commits into
Just-it:br_430from
wwwbby:gpu2ascend

Conversation

@wwwbby
Copy link
Copy Markdown
Contributor

@wwwbby wwwbby commented May 6, 2026

变更说明

变更类型

  • 新增算子 / Skill
  • 性能优化
  • Bug 修复
  • Benchmark(新增 case / 修改评测逻辑)
  • Agent / 框架改动
  • 文档 / 基础设施

影响范围

  • Triton 侧
  • AscendC 侧
  • 共享(router / benchmark-scheduler)

性能数据(涉及算子生成/优化时必填)

Benchmark 评测(与 BASELINE.md 对比)

指标 BASELINE 本次评测
编译通过数
精度通过数
平均 Speedup

测试环境

  • 设备型号:
  • CANN 版本:
  • PyTorch 版本:

冒烟测试(涉及算子生成/框架改动时必填)

  • Triton 通路:✅ / ❌(失败原因:)
  • AscendC 通路:✅ / ❌(失败原因:)

验证清单

  • 双通路冒烟测试通过
  • 通过率不退化(编译、精度均 >= BASELINE)
  • 平均 Speedup 不退化(>= BASELINE × 0.95)
  • 性能优化类:已跑全量评测、逐任务无退化、至少 1 个提升 >= 5%

退化说明(如有通过率下跌)

Just-it and others added 5 commits April 25, 2026 17:43
修复脚本支持绝对路径
将 Model.forward 从 torch_npu.npu_dequant_swiglu_quant 替换为基于 CANN 9.0 V2 文档
的 fp32 CPU 实现 (经验 reconcile 后 49/50 与 CANN 自身一致, case 32 上 CANN 自身偏离
其 documented formula)。原因详见 PR 描述。
…u-quant

benchmark/11_DequantSwigluQuant: 改用 doc-grounded fp32 CPU 实现作为 ref
[triton & ascendc] 合并 br_430 分支到主分支
@wwwbby wwwbby force-pushed the gpu2ascend branch 2 times, most recently from ad4b1b8 to b59b84a Compare May 6, 2026 09:07
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants