起猛了探花 视频,Qwen 发布最新 32B 推理模子,跑分不输 671B 的满血版 DeepSeek R1。
齐是杭州团队,要不要这样卷。
QwQ-32B,基于 Qwen2.5-32B+ 强化学习真金不怕火成。
之后还将与 Agent 有关的功能集成到推理模子中:
不错在调用用具的同期进行进行批判性念念考,并字据环境反映调度其念念考经过。
QwQ-32B 的权重以 Apache 2.0 许可证开源,况兼不错通过 Qwen Chat 在线体验。
手快的网友径直即是一个土产货部署在 m4max 芯片苹果条记本上。
探花 视频
也有网友连夜 at 各大第三方 API 托管方,飞速起来干活了。
现在 QwQ-32B 还未放出好意思满工夫论说,官方发布页濒临强化学习阵势作念了苟简阐述:
从一个冷启动查验点动身点,实施了由 Outcome Based Reward 驱动的强化学习(RL)扩张阵势。
在启动阶段挑升针对数学和编码任务扩张强化学习,莫得依赖传统的奖励模子,而是使用一个数常识题准确性考证器来确保最终措置决议的正确性,并使用一个代码引申工作器来评估生成的代码是否见效通过预界说的测试用例。
跟着考试轮次的鼓动,两个领域的性能齐呈现合手续提高。
在第一阶段之后,为通用才调加多了另一阶段的强化学习,它使用来自通用奖励模子的奖励和一些基于门径的考证器进行考试。
团队发现,这一阶段少许法子的强化学习考试不错提高其他通用才调的性能,如驯服提示、合乎东说念主类偏好以及智能体性能,同期在数学和编码方面不会出现显耀的性能下落。
此外皮 ModelScope 页面,还不错看出 QwQ 32B 是一个密集模子,没灵验到 MoE,高下文长度有 131k。
对此,有亚马逊工程师评价无须 MoE 架构的 32B 模子,意味着不错在单台机器上高效运行。
DeepSeek 莫得问题,很宏大,但要托管他且盈利需要一个大型集群,还需要使用 DeepSeek 最近开源的一系列通讯库。
哥也操……另一方面 QwQ 32B 不错减少由活水线并行、内行并行带来的复杂性。
若是将 QwQ 32B 添加到代码才调与输出 token 老本的图表中,不错看到它以约 1/10 的老本达到了 DeepSeek-R1 与 o3-mini-high 之间的性能。
在线体验:
https://chat.qwen.ai
https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
参考流通:
[ 1 ] https://qwenlm.github.io/blog/qwq-32b/
[ 2 ] https://x.com/Alibaba_Qwen/status/1897366093376991515探花 视频