4O520DR08f1 tech.huanqiu.comarticle魏亮:高质量数据集是大模型性能提升关键/e3pmh164r/e3pmtmdvg【环球网科技综合报道】“在大模型为代表的人工智能技术发展过程中,数据是大模型智慧的来源,任何一个高性能大模型,都离不开高质量的数据集。多模态数据、具身智能数据、推理思维链数据和长视频数据是下一步高质量数据集建设的重点。”中国信息通信研究院副院长魏亮日前在2025人民数据大会上表示。随着人工智能技术的加速迭代,大模型如雨后春笋般不断涌现。然而,大模型对数据集的需求增速远远超过了高质量数据集的生产和生成速度。在此背景下,高质量、高价值密度的数据集对于企业而言,不仅是撑起差异化竞争的有力武器,更是企业人工智能业务发展的坚固护城河。魏亮进一步阐释了高质量数据在垂类模型训练中的重要作用。他表示,谁掌握了高质量数据,谁就能训练出好用的垂类模型。当垂类大模型在生产中得到规模应用时,会生成更多高质量数据并反馈到模型中,进而形成“数据飞轮”效应,推动模型性能不断提升。 那么,如何保障高质量数据的供给呢?魏亮提出了三个方面的关键措施:数据技术、数据工程以及数据治理。数据技术涵盖新一代标注技术与合成技术。当前,在一些高技术含量、高知识密度、高价值的应用场景中,行业顶尖专家的高水平数据标注成本可能高达几十美元甚至上百美元,这也成为了新一代标注技术的发展方向。而合成技术最初主要用于解决数据流通中的隐私问题,如今在应对训练集不足方面也发挥着越来越重要的作用,在物理仿真、统计模型、机器学习等领域展现出巨大潜力。数据工程则聚焦于提升模型数据集的管理和效率。其目标是能够规模化、高效地生成好用的数据集,围绕管理体系、开发维护、质量控制、资源运行和合规可用五大要素搭建完善的数据工程体系。数据治理强调在数据控制过程中实现高质量、可靠、安全与合规。伦理要求也必须充分体现在数据治理中,从而更好地服务于数据集建设。魏亮强调,高质量数据集的建设是提高人工智能性能的关键所在,也是推动“人工智能 +”行动落地的重要保障。随着“人工智能 +”行动的发布,人工智能正式进入数据驱动的新阶段。通过AI的数据技术、数据工程和数据治理的协同作用,能够共同推动高质量数据要素的高效能供给,为人工智能的未来发展注入强大动力。据悉,大会期间还同步发起了《构建数据要素生态倡议》,围绕“共建基础设施,夯实安全底座”“共筑可信数据空间,推动合规流通”“共探数据权益,明晰权属激励创新”“共育AI+数据要素场景,激活产业价值”“共建数据互联标准,打通产业经脉”“共筑数据安全长城,夯实信任根基”提出六点主张,旨在推进数据要素市场化配置,释放数据价值,保障数据安全。(旺旺)1756280086982环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:秦耳环球网175628008698211[]{"email":"qiner@huanqiu.com","name":"秦耳"}
【环球网科技综合报道】“在大模型为代表的人工智能技术发展过程中,数据是大模型智慧的来源,任何一个高性能大模型,都离不开高质量的数据集。多模态数据、具身智能数据、推理思维链数据和长视频数据是下一步高质量数据集建设的重点。”中国信息通信研究院副院长魏亮日前在2025人民数据大会上表示。随着人工智能技术的加速迭代,大模型如雨后春笋般不断涌现。然而,大模型对数据集的需求增速远远超过了高质量数据集的生产和生成速度。在此背景下,高质量、高价值密度的数据集对于企业而言,不仅是撑起差异化竞争的有力武器,更是企业人工智能业务发展的坚固护城河。魏亮进一步阐释了高质量数据在垂类模型训练中的重要作用。他表示,谁掌握了高质量数据,谁就能训练出好用的垂类模型。当垂类大模型在生产中得到规模应用时,会生成更多高质量数据并反馈到模型中,进而形成“数据飞轮”效应,推动模型性能不断提升。 那么,如何保障高质量数据的供给呢?魏亮提出了三个方面的关键措施:数据技术、数据工程以及数据治理。数据技术涵盖新一代标注技术与合成技术。当前,在一些高技术含量、高知识密度、高价值的应用场景中,行业顶尖专家的高水平数据标注成本可能高达几十美元甚至上百美元,这也成为了新一代标注技术的发展方向。而合成技术最初主要用于解决数据流通中的隐私问题,如今在应对训练集不足方面也发挥着越来越重要的作用,在物理仿真、统计模型、机器学习等领域展现出巨大潜力。数据工程则聚焦于提升模型数据集的管理和效率。其目标是能够规模化、高效地生成好用的数据集,围绕管理体系、开发维护、质量控制、资源运行和合规可用五大要素搭建完善的数据工程体系。数据治理强调在数据控制过程中实现高质量、可靠、安全与合规。伦理要求也必须充分体现在数据治理中,从而更好地服务于数据集建设。魏亮强调,高质量数据集的建设是提高人工智能性能的关键所在,也是推动“人工智能 +”行动落地的重要保障。随着“人工智能 +”行动的发布,人工智能正式进入数据驱动的新阶段。通过AI的数据技术、数据工程和数据治理的协同作用,能够共同推动高质量数据要素的高效能供给,为人工智能的未来发展注入强大动力。据悉,大会期间还同步发起了《构建数据要素生态倡议》,围绕“共建基础设施,夯实安全底座”“共筑可信数据空间,推动合规流通”“共探数据权益,明晰权属激励创新”“共育AI+数据要素场景,激活产业价值”“共建数据互联标准,打通产业经脉”“共筑数据安全长城,夯实信任根基”提出六点主张,旨在推进数据要素市场化配置,释放数据价值,保障数据安全。(旺旺)