Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro是字节跳动Seed团队开发的新型循环语言模型(Looped Language Models),核心创新在于通过参数共享的循环计算结构,在预训练阶段直接构建推理能力。模型采用24层作为基础块,通过4次循环实现等效96层的计算深度,但保持1.4B参数规模,显著提升小模型的推理效率。实验显示,Ouro 1.4B在BBH推理基准上得分71.02,接近4B参数模型性能;2.6B版本在Math500数学题上达到90.85分,超越8B模型。其独特设计包括动态计算机制(简单任务少循环,复杂任务多循环)和熵正则化训练策略,使模型能自适应调整思考深度。Ouro - 字节跳动Seed团队开源的新型循环语言模型

>>展开阅读