4LuR8DAS3lr tech.huanqiu.comarticle向多模态探索,小米大模型团队音频推理登顶MMAU榜/e3pmh164r/e3pmh18ap【环球网科技报道 记者 秦耳】小米大模型团队近日在音频推理领域取得重大突破,凭借强化学习技术的创新应用,成功登顶了备受瞩目的MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集榜单。这一成就得益于团队将强化学习算法应用于多模态音频理解任务,仅用一周时间便实现了64.5%的SOTA(State Of The Art)准确率。MMAU评测集是衡量音频理解和推断能力的重要标尺,涵盖了语音、环境声和音乐等多种音频样本,并结合人类专家标注的问答对,全面测试模型在跨场景推理、专业知识应用等27种技能上的表现。该评测集旨在推动音频理解和推断技术向接近人类专家逻辑分析水平的方向发展,但由于其极高的难度,此前榜单上的表现一直难以突破。 小米大模型团队针对这一挑战,深入探索了强化学习技术的潜力。他们借鉴了DeepSeek-R1的Group Relative Policy Optimization(GRPO)方法,通过“试错-奖励”机制,使模型能够在不断尝试中自主进化,涌现出类似人类的反思和多步验证等高级推理能力。这一创新策略不仅克服了传统监督学习方法在复杂推理任务上的局限性,还大大提高了模型的适应性和泛化能力。在研发和测试中,小米大模型团队使用较小的数据集(清华大学发布的AVQA数据集,仅包含3.8万条训练样本)对模型进行强化学习微调,使其在MMAU评测集上的准确率达到了64.5%,比此前表现最好的商业闭源模型GPT-4o高出近10个百分点。值得注意的是,小米大模型团队在实验过程中还发现了一些有趣的现象。他们发现,当强制要求模型输出显式的思维链结果时,准确率反而有所下降。这一发现揭示了隐式推理在模型训练中的重要性,也为后续研究提供了新的思路。小米大模型团队的这一突破性成果不仅为音频理解和推断技术的发展开辟了新的道路,也为人工智能领域的创新研究提供了有益的借鉴。小米团队表示,将把训练代码、模型参数开源,并提供技术报告,供学术界和产业界参考交流。1742267073295环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:连丽敏环球网174226707329511[]{"email":"lianlimin@huanqiu.com","name":"连丽敏"}
【环球网科技报道 记者 秦耳】小米大模型团队近日在音频推理领域取得重大突破,凭借强化学习技术的创新应用,成功登顶了备受瞩目的MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集榜单。这一成就得益于团队将强化学习算法应用于多模态音频理解任务,仅用一周时间便实现了64.5%的SOTA(State Of The Art)准确率。MMAU评测集是衡量音频理解和推断能力的重要标尺,涵盖了语音、环境声和音乐等多种音频样本,并结合人类专家标注的问答对,全面测试模型在跨场景推理、专业知识应用等27种技能上的表现。该评测集旨在推动音频理解和推断技术向接近人类专家逻辑分析水平的方向发展,但由于其极高的难度,此前榜单上的表现一直难以突破。 小米大模型团队针对这一挑战,深入探索了强化学习技术的潜力。他们借鉴了DeepSeek-R1的Group Relative Policy Optimization(GRPO)方法,通过“试错-奖励”机制,使模型能够在不断尝试中自主进化,涌现出类似人类的反思和多步验证等高级推理能力。这一创新策略不仅克服了传统监督学习方法在复杂推理任务上的局限性,还大大提高了模型的适应性和泛化能力。在研发和测试中,小米大模型团队使用较小的数据集(清华大学发布的AVQA数据集,仅包含3.8万条训练样本)对模型进行强化学习微调,使其在MMAU评测集上的准确率达到了64.5%,比此前表现最好的商业闭源模型GPT-4o高出近10个百分点。值得注意的是,小米大模型团队在实验过程中还发现了一些有趣的现象。他们发现,当强制要求模型输出显式的思维链结果时,准确率反而有所下降。这一发现揭示了隐式推理在模型训练中的重要性,也为后续研究提供了新的思路。小米大模型团队的这一突破性成果不仅为音频理解和推断技术的发展开辟了新的道路,也为人工智能领域的创新研究提供了有益的借鉴。小米团队表示,将把训练代码、模型参数开源,并提供技术报告,供学术界和产业界参考交流。