400-028-4501

公司动态

Company Dynamics

了解我们的最新资讯动态

牵头国标制定,迈向中文语义结构自动标注新阶段

        


1月13日,国家发展改革委、国家数据局等四部门联合发布关于促进数据标注产业高质量发展的实施意见》(以下简称“《意见》”)提出,培育壮大数据标注产业对于提升数据供给质量,对于推动人工智能创新发展具有重要支撑作用。


图片
国家发展改革委网站截图

数据标注,简单理解就是给文本、语音、图片、视频等各种各样的数据“打标签”。数据标注产业,是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。

这一产业的兴起与人工智能的快速发展密切相关,高质量的数据是人工智能模型训练的基础,而数据标注正是将原始数据转化为机器可识别、可学习的数据的关键步骤,能产生高质量的数据集,让机器读得懂、学得快、训得好。

数据标注产业作为一种新兴产业,主要“新”在三个方面。

1.“自动化”。当前,很多数据标注工作已经实现机器操作,平均自动化超过60%。数据标注产业正从传统的劳动密集型产业转向知识密集型产业。

2.“专业化”。数据标注员已成为国家认可的新工种。据测算,未来五年,我国专业数据标注人才的需求将达到100万人以上。

3.“高端化”。数据标注的传统领域主要包括如语音转写、图片文字识别以及购物网站上的个性化推荐等。现今,数据标注的应用范围进一步拓展,更多服务于AI助手和文生视频等领域。同时,标注内容也变得更加丰富多样,不仅包括基础的信息标注,还涉及对视频的情感色彩、人物行为意图等更为复杂和深入的标注。

本次《意见》从13个具体方面对培育壮大数据标注产业进行全面谋划,特别突出需求牵引和创新驱动,在深化需求牵引方面,《意见》首次提出释放公共数据标注需求,同时挖掘企业数据标注需求;在增强创新驱动方面,《意见》提出,开展关键技术攻关,健全数据标注标准,制定数据标注技术、质量、能力等国家标准

去年,由联著实业全资子公司——文灵科技(北京)有限公司和新华通讯社通信技术局联合牵头起草的国家标准《中文新闻语义结构化标注》(以下简称“《标准》”)立项通过,即将进入专家审核阶段。2023年8月,相关团体标准已正式实施。

《中文新闻语义结构化标注》作为数据标注领域的重要国家标准,其制定和实施将为数据标注产业的发展提供技术支撑和规范引领。《标准》的权威性和公信力将增强市场对数据标注产品的认可度和信任度,促进数据标注产业的规范化和规模化发展。

《标准》规定了新闻写作常用表达方式所包含语义的术语和标注方法,包括新闻稿件标注说明、标注预处理、语义模板标注、新闻事件语义元标注、新闻事件关键词标注,以此形成语义标识体系,这为实现计算机自动识别新闻语义、生成知识库或神经网络训练集提供标准化的操作方法,减少人工标注的复杂性和不确定性,有助于提高数据标注的自动化程度

该标准由文灵科技(北京)有限公司、新华通讯社通信技术局、北京语言大学、东南大学、中国互联网新闻中心、浙江日报报业集团、中国人民大学、中国传媒大学、新华网股份有限公司等单位联合起草,涵盖了新闻、技术、学术等多个领域的权威专家;标准中规定的术语和标注方法经过专业领域的严格定义和规范,确保了数据标注的专业化水平。随着标准的实施,行业对专业数据标注人才的需求将更加明确和具体。

《标准》的制定将有助于推动数据标注技术的创新,促进计算机对新闻语义、人类自然语言的理解,让认知智能技术推动中国新闻业的数智化转型和发展;有助于促进人工智能界降低训练大模型的算力成本,增强人工智能模型的可解释性,为数据高敏感行业提供安全的数据支持,推动数据标注产业向高端化发展

数据标注产业作为人工智能发展的基础支撑,具有重要的战略意义和广阔的发展前景。在国家政策的大力支持下,数据标注产业将迎来快速发展的机遇,通过技术创新、专业化发展和产业生态建设,有望在2027年实现专业化、智能化及科技创新能力的显著提升,产业规模大幅跃升,年均复合增长率超过20%。这将为我国人工智能产业的高质量发展提供坚实的数据基础,推动经济社会的数字化转型。


来源:央视新闻客户端、国家数据局、国家发展改革委网站




在线客服
返回顶部
返回底部