据报道,苹果正在开发一款智能眼镜产品,作为对Meta Quest Pro等竞品的直接竞争。虽然还不清楚这款产品的具体外观,但苹果最新公布的FastVLM视觉语言模型或将成为其核心AI技术。

FastVLM是一种高效的视觉语言模型,能够实现近乎实时的高分辨率图像处理,同时计算资源需求较小。该模型的核心是FastViTHD编码器,与同类模型相比,它的速度快3.2倍、体积小3.6倍。此外,FastVLM输出的token数量更少,推理时间比同类产品快85倍。

苹果表示,FastVLM在图像分辨率、视觉延迟、token数量和大型语言模型大小之间做出了平衡权衡。该模型能够在设备本地高效运行,无需依赖云端进行处理,有望为即将推出的智能眼镜提供强大的AI支持。
FastVLM模型已在GitHub上开源,详细报告也已发布在arXiv上。如果对Apple AI项目的技术方面感兴趣,绝对值得一看。