4Py1T8lZwGK tech.huanqiu.comarticle苹果发布多模态AI模型Manzano,实现“看图”与“绘图”高效融合/e3pmh164r/e3pmtmdvg【环球网科技综合报道】1月15日消息,据AIBase报道,苹果公司近日发表重磅研究论文,正式推出名为“Manzano”的多模态人工智能模型。该模型创新性地实现了“视觉理解”与“文本生成图像”两大核心功能的接近无损融合,为多模态AI技术发展注入新动力。在AI领域,兼顾图像理解与图像生成两大任务长期面临技术瓶颈。图像理解需依赖连续数据流,而图像生成则更需要离散数据块,传统模型因采用单一处理架构,往往难以平衡两项任务的性能,存在“看得懂画不出”或“画得好理解偏”的问题。Manzano模型通过创新的三段式架构成功破解这一难题。首先由“混合视觉分词器”同步生成连续与离散两种视觉表示,既满足图像理解的需求,又为图像生成奠定基础;随后借助大语言模型(LLM)精准预测图像语义内容,确保对指令的准确把握;最后由“扩散解码器”完成像素级渲染,保障生成图像的高质量。这一架构设计让模型在保留强大视觉理解能力的同时,具备了精细的图像生成能力,还能胜任深度估计、风格迁移、图像修复等复杂任务。 测试数据显示,在处理“一只鸟在大象下方飞翔”这类反直觉、违背物理常识的复杂指令时,Manzano的逻辑准确性与OpenAI的GPT-4o、谷歌的Nano Banana等主流模型不相上下。研究团队还对3亿至300亿参数的不同版本模型进行了测试,证实该架构在模型规模扩大过程中,能够持续保持高效的性能提升。目前,Manzano模型仍处于研究阶段,尚未直接应用于iPhone、Mac等终端设备。业内推测,该技术未来有望整合进苹果“图乐园Image Playground”功能,为用户带来更智能的修图体验和更具想象力的图像生成服务,进一步巩固苹果在端侧AI领域的竞争优势,推动多模态AI技术在消费级场景的深度应用。(纯钧)1768460374142环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:林梦雪环球网176846037414211[]//img.huanqiucdn.cn/dp/api/files/imageDir/0ae58df2cb687b6ef8f8db78d567ba61u1.png{"email":"linmengxue@huanqiu.com","name":"林梦雪"}
【环球网科技综合报道】1月15日消息,据AIBase报道,苹果公司近日发表重磅研究论文,正式推出名为“Manzano”的多模态人工智能模型。该模型创新性地实现了“视觉理解”与“文本生成图像”两大核心功能的接近无损融合,为多模态AI技术发展注入新动力。在AI领域,兼顾图像理解与图像生成两大任务长期面临技术瓶颈。图像理解需依赖连续数据流,而图像生成则更需要离散数据块,传统模型因采用单一处理架构,往往难以平衡两项任务的性能,存在“看得懂画不出”或“画得好理解偏”的问题。Manzano模型通过创新的三段式架构成功破解这一难题。首先由“混合视觉分词器”同步生成连续与离散两种视觉表示,既满足图像理解的需求,又为图像生成奠定基础;随后借助大语言模型(LLM)精准预测图像语义内容,确保对指令的准确把握;最后由“扩散解码器”完成像素级渲染,保障生成图像的高质量。这一架构设计让模型在保留强大视觉理解能力的同时,具备了精细的图像生成能力,还能胜任深度估计、风格迁移、图像修复等复杂任务。 测试数据显示,在处理“一只鸟在大象下方飞翔”这类反直觉、违背物理常识的复杂指令时,Manzano的逻辑准确性与OpenAI的GPT-4o、谷歌的Nano Banana等主流模型不相上下。研究团队还对3亿至300亿参数的不同版本模型进行了测试,证实该架构在模型规模扩大过程中,能够持续保持高效的性能提升。目前,Manzano模型仍处于研究阶段,尚未直接应用于iPhone、Mac等终端设备。业内推测,该技术未来有望整合进苹果“图乐园Image Playground”功能,为用户带来更智能的修图体验和更具想象力的图像生成服务,进一步巩固苹果在端侧AI领域的竞争优势,推动多模态AI技术在消费级场景的深度应用。(纯钧)