LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模(激活参数270亿),在保持庞大参数量的同时,实现了毫秒级的实时音视频交互能力。模型基于 LongCat-Flash 系列的高效架构设计,创新性地集成了多模态感知模块与语音重建模块,支持文本、图像、视频理解及语音感知与生成等多种模态任务。LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平(SOTA),在文本、图像、音频、视频等关键单模态任务中均展现出极强的竞争力。采用渐进式早期多模融合训练策略,逐步融入不同模态数据,确保全模态性能强劲且无单模态性能退化。模型支持128K tokens上下文窗口及超8分钟音视频交互,具备多模态长时记忆和多轮对话能力。LongCat-Flash-Omni - 美团开源的全模态大语言模型

>>展开阅读