4QAL55JkZVE tech.huanqiu.comarticle宇树宣布开源VLA大模型UnifoLM-VLA-0/e3pmh164r/e3pmtmdvg【环球网科技综合报道】1月30日消息,宇树科技官方宣布,开源UnifoLM-VLA-0。据介绍,UnifoLM-VLA-0是UnifoLM系列下面向通用人形机器人操作的视觉-语言-动作(VLA)大模型。该模型旨在突破传统VLM在物理交互中的局限,通过在机器人操作数据上的继续预训练,实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化。 该模型在多类任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能。针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与2D/3D空间细节,增强了模型的空间感知能力。此外,还构建了全链路动力学预测数据,模型具备更好的任务泛化性。在真机验证中,仅需单一策略即可高质量完成12类复杂的操作任务。(青山)1769742659437环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:秦耳环球网176974265943711[]//img.huanqiucdn.cn/dp/api/files/imageDir/bc9f5444f41cc0394bd59e83e3ea2af0u1.png{"email":"qiner@huanqiu.com","name":"秦耳"}
【环球网科技综合报道】1月30日消息,宇树科技官方宣布,开源UnifoLM-VLA-0。据介绍,UnifoLM-VLA-0是UnifoLM系列下面向通用人形机器人操作的视觉-语言-动作(VLA)大模型。该模型旨在突破传统VLM在物理交互中的局限,通过在机器人操作数据上的继续预训练,实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化。 该模型在多类任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能。针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与2D/3D空间细节,增强了模型的空间感知能力。此外,还构建了全链路动力学预测数据,模型具备更好的任务泛化性。在真机验证中,仅需单一策略即可高质量完成12类复杂的操作任务。(青山)