FastVLM - 苹果公司推出的视觉语言模型

作者:Jam 发布时间: September 1, 2025 分类:技术 No Comments

FastVLM（Fast Vision Language Model）是苹果公司推出的高效视觉语言模型。以FastViTHD混合视觉编码器为核心，融合了卷积和Transformer架构，可显著减少视觉token数量，降低编码时间和延迟。在处理高分辨率图像时，编码速度比同类模型快85倍，首次token生成时间（TTFT）提升了3.2倍，且视觉编码器尺寸更小，便于在移动设备上部署。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

FastVLM - 苹果公司推出的视觉语言模型