17327764416

公司动态

Company Dynamics

了解我们的最新资讯动态

联著高质量数据提炼引擎,迈向高质量数据集自动化构建新征程

        

回首2024年,信息技术产业迎来了前所未有的飞跃式发展。人工智能通用大模型产品如雨后春笋般涌现,各式各样的智能化应用不断刷新人们的想象。


迈入2025年,人工智能领域焦点从技术突破转向规模化落地,智能化应用正逐步从高端应用场景向更多细分领域和日常生活渗透。与此同时,随着数据要素乘数效应不断释放,近期一系列相关政策文件的出台,标志着数据产业即将开启新一轮黄金发展周期。然而,高质量数据短缺问题愈发突出,成为亟待解决的挑战。


在此背景下,联著实业创新研发了“联著高质量数据提炼引擎”,该引擎通过优化数据的质量和结构,大幅提升数据的可用性,为大模型训练以及医疗健康、金融服务、传媒、教育和政务等广泛行业的特定需求提供强有力的数据支持。


01 “百团大战”到垂直布局,高质量数据需求激增


算力、算法、语料(数据)及场景可以被看做是人工智能产业发展的四个核心要素。


在以通用大模型的开发为重心的早期阶段,对于算力的要求是优先级,模型训练通常需要处理海量的数据和复杂的计算任务,算力直接决定了模型训练的速度和效率。


这一时期,大模型训练需要快速学习大量基础知识,以构建通用的知识体系,这类似于“让一千个小学生一起学习基础的通识知识”,重点在于快速吸收和处理大量信息,对语料的需求主要集中在数据的规模上。


在市场需求和政策导向的推动下,人工智能的发展迎来了以垂直应用作为重心的阶段,高质量语料库和高质量数据集则成为行业的优先需求,既需要优质语料库提供丰富的原始数据,又需要形成优质数据集使其更适合特定任务需求。


一方面,随着技术的发展和市场竞争的加剧,人工智能逐渐从通用模型向垂直领域精细化发展,要训练出能够满足特定场景下高精度需求的定制化模型,就需要机器学习专业领域的知识,这对数据的广度和多样性、深度和针对性提出更高要求。


另一方面,数据作为土地、劳动力、资本、技术之外的新型生产要素,已成为推动经济高质量发展的新动能。从2022年《关于构建数据基础制度更好发挥数据要素作用的意见》出台以来,数据要素建设和市场改革正稳步推进。为推动人工智能产业高质量发展,实现数据要素价值释放,政府出台了一系列政策支持。


为深入贯彻落实习近平总书记关于发挥数据要素作用的重要指示精神和党中央、国务院决策部署,发挥数据要素乘数效应,赋能经济社会发展,2023年12月,国家数据局等17部门部门联合印发《“数据要素×”三年行动计划(2024—2026年)》(简称“‘数据要素x’行动”),进一步明确要提升数据供给水平,打造高质量人工智能大模型训练数据集,为特定的机器学习任务(如分类、预测、生成等)提供可靠的数据支持。


02 高质量数据获取,难在哪?

高质量语料库和高质量数据集在数据来源、处理方式以及用途等方面相互补充,共同推动模型的训练和优化。然而,当前,高质量语料库的构建、高质量数据集的形成都面临诸多挑战。


收集难:高质量语料匮乏,尤其是中文语料。高质量语料的获取受限于数据来源的多样性和丰富性。在特定专业/垂直领域,语料资源更是匮乏。中文语料库不仅规模较小,且其电子化和网络化程度明显不足。此外,受版权、隐私等限制,许多优质中文语料库也无法公开获取。

流通难:可供训练的优质数据资源呈碎片化、分散状态。行业数据通常涉及大量敏感信息,特别是语料和科研成果等中文高质量数据集开放程度低,而企业和机构往往对数据共享持谨慎态度,高质量数据流通机制尚未形成。

高质量数据集获取难:传统数据标注产业数据处理能力不足、行业标准与规范缺失,导致高质量数据供给效率低。语料库中的数据经过数据标注等处理后,可以转化为高质量的数据集。然而,当前国内数据标注产业还比较初级,大部分标注工作以人工为主,传统手工标注或简单自动化标注方法无法满足大模型对大规模、高质量、多样化数据的需求;而具备模型训练知识、行业领域知识的专业化数据标注人才也相对匮乏;此外,不同机构和项目的数据标注标准不统一,语料库结构差异明显,这些都导致高质量语料积累薄弱。

对此,2024年12月26日,国家发展改革委、国家数据局等四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,从13个具体方面对培育壮大数据标注产业进行全面谋划,以培育壮大数据标注产业,提升数据供给质量。

03 联著创新研发"高质量数据提炼引擎"


联著实业一直专注于文本智能技术的持续创新,积极投身于构建垂直行业的高质量训练数据集,力求形成“原始数据-语义结构化数据-高质量数据集”的良性发展模式。

“联著高质量数据提炼引擎”,在国家标准《中文新闻语义结构化标注》的引领下,凭借自研的语义工程技术和中文文本语义分析器(TSP),对海量中文文本数据进行语义结构化转化,能够“自动化”输出如知识问答、分类数据、结构化数据、情感数据等各种类型高质量数据集。这些数据集具有高度的准确性、一致性、完整性和可用性,能够为人工智能服务特定领域提供价值更高、标准程度更好的数据供给。

“联著高质量数据提炼引擎”能够应用于大模型训练中高质量数据集的生成工作,从而实现降本增效提质。同时在数据智能化标注领域也可发挥重要作用,实现批量导入、自动化执行和结果批量导出,相较于业界主流方法,显著提高标注效率,极大提升数据质量和应用价值。

近日,联著实业自主研发的“图片版面分析标注数据”“单行手写文字识别标注数据”“印章文字识别标注数据”“高质量中文语料供给——中小学语文教材中华传统文化篇目讲解文稿数据集”等十几款数据集产品,相继正式登陆深圳数据交易所交易市场展示区和杭州数据交易所数据交易平台。同时,公司还顺利取得广州数据交易所会员证、贵州数据商凭证以及陕西丝路数据交易平台数据供应商登记证。目前,相关数据(集)产品正在积极筹备中。

图片

图:深圳数据交易所交易市场展示区截图


图片

图:杭州数据交易所交易平台截图

在未来,联著实业会持续投入技术创新与研发,对“高质量数据提炼引擎”及相关技术进行优化,为中国数据资源开发利用贡献自己的一份力量。




参考来源:

1.科技日报《大模型发展提速,中文语料够“吃”吗》




返回顶部
返回底部