人民日报 | 建设高质量数据集，让人工智能更聪明（新视点）

来源：人民日报、国家数据局

智嵌精引：

高质量数据集是大模型学习与行业落地的关键，其 “高价值、高密度、标准化” 特质在 AI 发展中至关重要。国家通过《“数据要素 ×” 三年行动计划》等政策，大力推动建设，彰显数据要素战略地位。联著实业作为《中文新闻语义结构化标注》国家标准牵头方，以 “语义工程” 技术突破西方语义解析局限，将中文文本结构化，提升标注质量与安全性，为高质量数据集建设提供技术支撑。同时，联著实业积极参与国家数据基建规划，推进三类数据集标准建设，从技术、标准、生态多维度加速高质量数据集发展。

什么是高质量数据集？简单来说，就是高价值、高密度、标准化的数据。

　　“数据之于大模型，就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后，才能供汽车使用。同样，海量原始数据需要经过‘炼化’形成高质量数据集，才能助力大模型精准学习数据特征与规律，有效提升其对不同场景和任务的适应能力。”中国信息通信研究院副院长魏亮告诉记者，数据集的质量影响人工智能的“智商”，近期发布的深度求索系列模型训练中，大量使用了高质量推理数据集，凸显了高质量数据的重要性，“大模型与垂直领域深度融合，同样也需高质量数据集的支撑。”

　　建设高质量数据集，有关方面在积极行动。国家数据局等17部门联合印发的《“数据要素×”三年行动计划（2024—2026年）》提出，“推动科研机构、龙头企业等开展行业共性数据资源库建设，打造高质量人工智能大模型训练数据集”。第八届数字中国建设峰会上，国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集，涵盖了电网调度AI负荷预测数据集、核电SPV设备健康诊断、运行异常及故障预测数据集、金融大模型数据集等。

　　“随着基础模型开源态势的形成，各方在算力和模型算法层面的差距正在不断收窄，数据要素价值更加凸显，已成为人工智能竞争的核心领域。”国务院国资委规划发展局副局长胡武婕表示，要推动行业高质量数据集加速汇聚共享，为人工智能产业提供充足“养分”，从而持续进行不同场景的训练优化，推动基础模型在千行百业落地应用。

　　目前，高质量数据集建设还存在不少挑战。魏亮说，一方面，行业大模型对数据的需求多样，不同行业部门对模型场景数据的需求各不相同，增加了数据处理和管理的复杂度。另一方面，在行业大模型的实际建设中，对于构建和采买的数据没有统一衡量标准，不同行业、不同数据源的数据完整性和准确性可能参差不齐，影响了大模型的训练效果和预测准确性，造成训练资源浪费。

　　4月30日，《高质量数据集建设指南（征求意见稿）》发布。全国数据标准化技术委员会提出，将强化标准引领，分三类建设高质量数据集：一类为“通识数据集”，包含面向社会公众、无需专业背景即可理解的通用知识，主要用于支撑通用模型落地应用；一类为“行业通识数据集”，包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识，主要用于支撑行业模型落地应用；一类为“行业专识数据集”，包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识，主要用于支撑业务场景模型落地应用。

　　国家数据局副局长夏冰表示，数据集的质效提升是人工智能赋能实体经济的“催化剂”，下一步，国家数据局将构建部际联通、央地协同的工作机制，推动高质量数据集标准体系研究，促进数据、技术、场景对接，构建多元协同的数据标注产业生态，夯实人工智能发展数据根基。