tested environment - 模型:VibeThinker-1.5B(HuggingFace 版本,bf16 精度) - 硬件:RTX 4090 24 GB / Driver 535 / CUDA 12.1 - 推理框架:transformers 4.46 + vLLM 0.6.1(temperature 0.3 – 0.6) 任务尝试 1. 生成一份「微积分教学动画网页」单文件 HTML(≤400 行,纯 CSS/JS,无外部库)。 2. 要求包含链式思考叙述 + 3 组可交互动画(导数、积分、瞬时速度)。 观察到的问题 1. 长链式思维 `<think>` 极易陷入无限重复(token >200 仍无法跳出),导致 0 行代码输出。 2. 即使显式指令“Stop thinking, output only final HTML”,仍多次卡在 `but but we we …` 类复读,需人工强制中断。 3. Pass@1 实用度 ≈ 0;连续 10 次采样全部失败,无法得到可运行文件。 4. 同样提示词换 Claude-3.5-Sonnet / DeepSeek-Coder-V2 可一次生成可用代码,侧面排除提示词设计问题。 建议 - 建议在 repo 文档里明确适用边界:VibeThinker 当前擅长短链数学/代码解题(AIME、LiveCodeBench),不擅长长格式、单文件多媒体网页等长链式生成任务。 - 可考虑放出「截断思维链」或「思维链最大长度」超参,方便用户强制提前结束推理进入生成。 - 若后续版本仍保持 1.5 B,可在 RL 阶段增加「长格式生成不掉线」数据混合,或提供 7 B/14 B 版本供多媒体/文档场景使用。 正面评价 - 小模型在数学、算法场景确实惊艳,性价比无敌;只是希望社区提前知道「能力边界」,减少试错成本。 --- 以上反馈供作者们参考,感谢开源!
tested environment
任务尝试
观察到的问题
<think>极易陷入无限重复(token >200 仍无法跳出),导致 0 行代码输出。but but we we …类复读,需人工强制中断。建议
正面评价
以上反馈供作者们参考,感谢开源!