10月13日消息,苹果公司现已为旗下多模态大模型MM推出1.5版本,该版本模型基于前代MM1的架构,继续延续数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响。

目前相关模型文档已发布于Hugging Face上,该版本模型提供10亿-300亿多种参数规模,拥有图像识别和自然语言推理能力。苹果公司研发人员在新版本中改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理方面的能力。