VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型
VibeThinker-1.5B是微博AI开源的15亿参数的大型语言模型。基于阿里巴巴的Qwen2.5-Math-1.5B进行精细调整,专为数学和代码任务优化,表现出色,推理性能在行业内处于领先水平。模型采用“谱-信号原则”(SSP)训练框架,分为监督微调和强化学习两个阶段,通过优化路径放大信号,使小模型也能高效探索推理空间。
VibeThinker-1.5B是微博AI开源的15亿参数的大型语言模型。基于阿里巴巴的Qwen2.5-Math-1.5B进行精细调整,专为数学和代码任务优化,表现出色,推理性能在行业内处于领先水平。模型采用“谱-信号原则”(SSP)训练框架,分为监督微调和强化学习两个阶段,通过优化路径放大信号,使小模型也能高效探索推理空间。