回首2024年,信息技术产业迎来了前所未有的飞跃式发展。人工智能通用大模型产品如雨后春笋般涌现,各式各样的智能化应用不断刷新人们的想象。
迈入2025年,人工智能领域焦点从技术突破转向规模化落地,智能化应用正逐步从高端应用场景向更多细分领域和日常生活渗透。与此同时,随着数据要素乘数效应不断释放,近期一系列相关政策文件的出台,标志着数据产业即将开启新一轮黄金发展周期。然而,高质量数据短缺问题愈发突出,成为亟待解决的挑战。
在此背景下,联著实业创新研发了“联著高质量数据提炼引擎”,该引擎通过优化数据的质量和结构,大幅提升数据的可用性,为大模型训练以及医疗健康、金融服务、传媒、教育和政务等广泛行业的特定需求提供强有力的数据支持。
01 从“百团大战”到垂直布局,高质量数据需求激增
算力、算法、语料(数据)及场景可以被看做是人工智能产业发展的四个核心要素。
在以通用大模型的开发为重心的早期阶段,对于算力的要求是优先级,模型训练通常需要处理海量的数据和复杂的计算任务,算力直接决定了模型训练的速度和效率。
这一时期,大模型训练需要快速学习大量基础知识,以构建通用的知识体系,这类似于“让一千个小学生一起学习基础的通识知识”,重点在于快速吸收和处理大量信息,对语料的需求主要集中在数据的规模上。
在市场需求和政策导向的推动下,人工智能的发展迎来了以垂直应用作为重心的阶段,高质量语料库和高质量数据集则成为行业的优先需求,既需要优质语料库提供丰富的原始数据,又需要形成优质数据集使其更适合特定任务需求。
一方面,随着技术的发展和市场竞争的加剧,人工智能逐渐从通用模型向垂直领域精细化发展,要训练出能够满足特定场景下高精度需求的定制化模型,就需要机器学习专业领域的知识,这对数据的广度和多样性、深度和针对性提出更高要求。
另一方面,数据作为土地、劳动力、资本、技术之外的新型生产要素,已成为推动经济高质量发展的新动能。从2022年《关于构建数据基础制度更好发挥数据要素作用的意见》出台以来,数据要素建设和市场改革正稳步推进。为推动人工智能产业高质量发展,实现数据要素价值释放,政府出台了一系列政策支持。
为深入贯彻落实习近平总书记关于发挥数据要素作用的重要指示精神和党中央、国务院决策部署,发挥数据要素乘数效应,赋能经济社会发展,2023年12月,国家数据局等17部门部门联合印发《“数据要素×”三年行动计划(2024—2026年)》(简称“‘数据要素x’行动”),进一步明确要提升数据供给水平,打造高质量人工智能大模型训练数据集,为特定的机器学习任务(如分类、预测、生成等)提供可靠的数据支持。
02 高质量数据获取,难在哪?
高质量语料库和高质量数据集在数据来源、处理方式以及用途等方面相互补充,共同推动模型的训练和优化。然而,当前,高质量语料库的构建、高质量数据集的形成都面临诸多挑战。
03 联著创新研发"高质量数据提炼引擎"
图:深圳数据交易所交易市场展示区截图
在未来,联著实业会持续投入技术创新与研发,对“高质量数据提炼引擎”及相关技术进行优化,为中国数据资源开发利用贡献自己的一份力量。
参考来源:
1.科技日报《大模型发展提速,中文语料够“吃”吗》