苹果发布多模态AI模型Manzano，实现“看图”与“绘图”高效融合

7003383

7005136

7005137

<article><section data-type="rtext"><p>【环球网科技综合报道】1月15日消息，据AIBase报道，苹果公司近日发表重磅研究论文，正式推出名为“Manzano”的多模态人工智能模型。该模型创新性地实现了“视觉理解”与“文本生成图像”两大核心功能的接近无损融合，为多模态AI技术发展注入新动力。</p><p>在AI领域，兼顾图像理解与图像生成两大任务长期面临技术瓶颈。图像理解需依赖连续数据流，而图像生成则更需要离散数据块，传统模型因采用单一处理架构，往往难以平衡两项任务的性能，存在“看得懂画不出”或“画得好理解偏”的问题。</p><p><i class="pic-con"><img data-alt="" src="//img.huanqiucdn.cn/dp/api/files/imageDir/0ae58df2cb687b6ef8f8db78d567ba61u1.png?imageView2/2/w/1260" /></i></p><p>Manzano模型通过创新的三段式架构成功破解这一难题。首先由“混合视觉分词器”同步生成连续与离散两种视觉表示，既满足图像理解的需求，又为图像生成奠定基础；随后借助大语言模型（LLM）精准预测图像语义内容，确保对指令的准确把握；最后由“扩散解码器”完成像素级渲染，保障生成图像的高质量。这一架构设计让模型在保留强大视觉理解能力的同时，具备了精细的图像生成能力，还能胜任深度估计、风格迁移、图像修复等复杂任务。</p>
              <adv-loader __attr__inner="7004636" __attr__style="width: auto;position: relative;float: left;border: 1px solid #ebebeb; padding: 20px;overflow: hidden;margin: 10px 30px 40px 0;"></adv-loader>
            <p>测试数据显示，在处理“一只鸟在大象下方飞翔”这类反直觉、违背物理常识的复杂指令时，Manzano的逻辑准确性与OpenAI的GPT-4o、谷歌的Nano Banana等主流模型不相上下。研究团队还对3亿至300亿参数的不同版本模型进行了测试，证实该架构在模型规模扩大过程中，能够持续保持高效的性能提升。</p><p>目前，Manzano模型仍处于研究阶段，尚未直接应用于iPhone、Mac等终端设备。业内推测，该技术未来有望整合进苹果“图乐园Image Playground”功能，为用户带来更智能的修图体验和更具想象力的图像生成服务，进一步巩固苹果在端侧AI领域的竞争优势，推动多模态AI技术在消费级场景的深度应用。（纯钧）</p></section></article>

7003385

7003386

7003387

7003388

7004638

7004639

7004637

7003389