国家数据局出手 六大行动给AI装上“优质数据引擎”
6月8日,国家数据局印发《推进行业高质量数据集建设行动的实施方案》(下称《方案》),围绕行业高质量数据集供给、流通、应用全链条,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,明确到2028年底建成一批覆盖重点领域、经过应用验证的行业高质量数据集,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的产业闭环。北京社科院副研究员王鹏告诉记者,这一方案与近期上线试运行的国家数据集管理服务系统形成“政策+平台”双轮驱动,标志着我国高质量数据集建设从分散探索进入集约化、标准化、产业化发展的新阶段。
在强基扩容行动上,《方案》聚焦科学研究、工业制造等19个重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。中国工业互联网研究院院长鲁春丛指出,一个典型的中等规模智能工厂,仅人、机、料、法、环等各类要素的连接点就多达1200到1500个。我国拥有超过600万家制造业企业,这些连接点汇聚起来,每天都在产生着规模难以估量的、蕴含丰富工业机理的“数据洪流”。但目前对这些数据的开发利用尚处于初级阶段,潜力远未得到释放。
《方案》明确,强化链主单位牵引带动作用,支持链主单位以联合体等形式推动产业链上下游协同共建和资源整合,持续扩大行业高质量数据集供给规模。“这项部署正是破解各行业数据潜力价值释放不足的关键举措。”王鹏表示。
数据标注是将知识和经验注入到训练数据的过程,是行业高质量数据集建设不可或缺的关键环节。在标注攻坚行动上,《方案》引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。这一部署直击工业数据标注痛点,鲁春丛调研发现,许多智能化改造项目中,数据汇聚、清洗、标注、治理等基础性工作占据了绝大部分项目投入。
为建设满足人工智能就绪(AI-Ready)的高质量数据集,降低训练推理成本,《方案》提出,实施提质增效行动,发挥数据合成在数据集建设中的积极作用,利用模型、仿真系统等生成的数据,解决稀缺场景数据集构造难、真实场景数据采集成本高等问题。鼓励各行业、各地方与国家标准联动,推动重点行业领域高质量数据集标准研制。持续完善“数据质量验证+模型应用反馈”的测评方法,加快建设覆盖多行业、多场景、多模态的测评数据集,有效评估高质量数据集应用效果。
在应用赋能行动方面,《方案》要求,坚持“以模引数、用数赋模”,打造集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工场,加速人工智能应用落地。推动形成“场景—数据—模型”协同发展的良性循环。发挥“人工智能+”场景牵引作用,推动数据供给和场景的精准匹配,以用促建,以实际需求吸引更多数据资源汇聚,推动行业高质量数据集有效供给和持续优化。
管理服务行动与价值释放行动则为数据要素流通提供制度保障。《方案》明确落实数据持有权、使用权、经营权三权分置制度,建设“物理分散、逻辑集中”的国家数据集管理服务系统。清华大学法学院教授申卫星表示,数据产权结构性分置遵循“谁投入、谁贡献、谁受益”的原则,持有权侧重自主管控,使用权对应内部处理,经营权指向对外流通。将数据经营权与其他权利分离,有助于在保护各方权益的同时,为数据价值释放预留空间。在价值释放方面,《方案》提出探索以词元(Token)为基础的价值体系。创新商业模式,推动从基础数据包销售向API调用、全栈服务梯次跃升,探索词元交易等新型交易模式,构建以词元为基础的可量化、可定价数据价值体系。同时鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化创新模式,拓宽数据价值转化渠道。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com