365体育官网

国家数据发展研究院发布高质量数据集质量评测平台
发布时间:2025-11-20 14:37??????来源:国家数研院微信公众号?????浏览量:次
字体:
人工智能时代,数据已成为驱动各行业创新发展的核心要素。数据集的质量评测认定不仅是检验建设成效的标准,更是验证其是否具有流通利用价值的重要一环。国家数据发展研究院在国家数据局的统一部署下,承担“数据集质量测评模型及方法体系研究”课题,系统开展高质量数据集质量检测工作,以《高质量数据集 质量评测规范》为基准,构建综合“数据质量检测+基准模型验证”的评测方法和工具,打造权威、科学、实用的高质量数据集质量评测体系,为人工智能产业高质量发展提供坚实支撑。

破解行业难题—数据集质量评测三大挑战
数据集质量评测标准正随着技术演进和应用场景的扩展发生深刻变革,数据集的角色也已从“记录工具”升级为“知识载体”,人们关注的不再是数据本身,而是其蕴含的可被模型学习的规律与知识。这一转变对数据集质量的评测带来三方面全新挑战:首先,结构化向非结构化数据的迁移使质量评估更加复杂,例如文本、图像等非结构化数据需依赖专业知识进行主观判断;其次,多模态数据的融合要求实现跨模态对齐,如具身智能需同步处理视觉、语音、传感器数据,对数据集的时空一致性和语义关联性提出更高标准;同时,正如“‘人工智能+’到哪里,高质量数据集就建设到哪里”要求,价值导向的质量评判成为关键,数据质量不再局限于传统维度,更需以最终应用场景的效果为衡量标尺。
综合评测体系—“数据质量静态检测+基准模型动态验证”
面对这些挑战,国家数据发展研究院提出了“数据质量静态检测+基准模型动态验证”的数据集质量评测理论和实践方法。静态检测关注数据集的内生质量属性,通过规则、算法、模型和混合策略,全面评估数据集的保真度、完备性、规整性、均衡性、可用性和可信性六大核心维度。动态验证则结合行业应用场景构建基准测试,量化数据集对AI模型训练的实际效用提升,确保数据集“不仅高质量,更要高效用”。

平台核心能力—全流程自动化评测解决方案

国家数据发展研究院基于综合评测体系研发多维度自动化的高质量数据集质量评测平台,构建了覆盖说明文档、数据质量和模型应用三大领域的完整指标体系,共包含26个二级指标和106个三级指标,支持评测方案定制、指标权重动态配置、任务全流程自动化管理。

实践验证成效—从理论到应用的全面突破

目前,该平台已开发完成并具备对外服务能力,在多个行业领域取得了显著成效。在教育行业数据集评测案例中,对约20万条数据进行了全面评测,首轮评测发现千余条质量问题,涵盖隐私合规风险、标签不一致、内容格式问题、重复内容等四大类别,经过优化建议和二次测评,数据集质量显著提升,达到优秀级别。与此同时,国家数据发展研究院与南方电网、国家管网、徐工集团等行业龙头企业达成合作,共同推进电力、交通、机械等领域的数据集质量评测实践,覆盖文本、图像、语音、视频等多种模态,数据集规模达到PB级,验证了技术方案的可行性和实用性。
评估定价机制—打通交易流通“最后一公里”
为实现高质量数据集价值最大化,国家数据发展研究院将与落地北京市海淀区的数据要素价值化促进中心联合开展研究,将数据集质量评测与价值评估、交易流通机制深度融合,通过量化数据集质量等级与AI模型性能提升的关联关系,形成基于效能提升的数据集价值评估体系,这意味着数据集不再仅凭数据自身质量定价,而是通过其真实的“赋能效果”确定市场价值,打通高质量数据集市场化配置的“最后一公里”。
未来,国家数据发展研究院将在国家数据局等部门的指导下,持续推进高质量数据集质量检测工作,聚焦“权威认证、标准引领、生态共建”三大方向,与365体育官网地方和行业伙伴开展深度合作,开放评测平台部分核心能力,共建共享评测算子库、基准数据集与行业解决方案等。


相关阅读:

扫一扫在手机打开当前页