18901593555

公司动态

Company Dynamics

了解我们的最新资讯动态

高质量数据集的建设与应用——基于杭州市委宣传部文化产业政策公开文件的研究

        

背景

在国家档案局”十五五”规划明确提出建设面向人工智能的高质量档案数据集已成为档案数字化转型的核心任务。高质量数据集的建设并非简单的文档数字化,而是需要通过语义工程、知识抽取、数据建模等技术手段,将分散的档案资源转化为结构化、关联化、可计算的数据资产,最终支撑智能问答、专题研究、资政决策等应用场景。

依据国家标准《中文新闻语义结构化标注》(GB/T45949—2025),利用高保真语义解析器对档案全文进行自动化、标准化的全面语义结构化。在此基础上,提取语义要素(如事物、事件)及其属性、关系、状态等,生成语义知识库,自动转换为大模型微调训练的高质量数据(如问答对),自动管控大模型微调训练,训练好的大模型与语义知识库组成RAG模式的智能问答系统,实现高质量数据生成、大模型微调和大模型应用一体化,即“数训用一体”高效率、高安全的闭环流程。


基于杭州市委宣传部文化产业政策公开文件的研究

本次研究基于杭州市委宣传部公开发布的文化产业相关政策文件,通过闻道知识智能管理平台进行数据挖掘,形成以下数据资产:

数据挖掘数据展示页

档案数据规模

- 事件描述:1187条

- 实体概念:2798个(涵盖机构、项目、资金、政策、人物等类型)


1.事件主题

系统对档案进行主题挖掘,识别出核心主题分布:

-文化发展:75条

-文化产业:23条

-营商环境:16条

-产业发展:15条

-经济发展:12条

-数字文化:12条

-工程建设:12条

- 其他:文化科技、文化创新、政府机构等


2. 人物关联图谱

通过实体识别技术,自动提取档案中的人物信息,构建人物关系网络:

-与人物有关的事件:3条(0.2%)

-与人物无关的事件:1184条(99.8%)


3. 时空分布热力图

地域分布:

-浙江省:157条(排名第1,核心区域)

-河北省:18条(排名第2)

-广东省:7条(排名第3)

-云南省:6条(排名第4)

-河南省:2条(排名第5)

-湖南省:2条(排名第6)

-青海省:2条(排名第7)


4. 机构关联网络

自动识别档案中的机构实体,构建合作网络:

-发改委(核心机构)

-人力社保局

-广电旅游局

-农业农村局

-自然资源局

-住保房管局

-国家税务总局

-余杭区政府

-杭州数据交易所

-……


5. 情感倾向分析

对档案内容进行情感计算:

-正向:15件(88.2%)

-中性:1件(5.9%)

-负向:1件(5.9%)



联著产品核心服务能力:

  • 数据挖掘模块:支持实体抽取、关系识别、主题聚类

  • 知识图谱构建:可视化展示人物、机构、事件关联

  • 时空分析:位置地图、时序轨迹展示

  • 情感分析:文本内容情感倾向自动判定

  • 专题数据库:支持政策、产业、非遗等专题化建设


基于语义分析形成的高质量数据集,可支撑问答与搜索相关业务场景:

【场景一:知识问答】

知识问答系统面向档案馆用户和公众,提供自然语言交互的咨询服务

问答示例:

(高质量解答问题,同步提供对应文件内容索引)


【场景二:智能查询】

智能查询系统面向相关研究人员和决策者,提供语义检索及精准检索服务

查询示例:

(语义检索智能匹配,精准定位文件并返回关联内容)



权威背书,夯实AI技术硬实力

国家标准支撑

牵头发布《中文新闻语义结构化标注》国家标准(GB/T 45949-2025)

《中文新闻语义结构化标注》国家标准


信通院测评认证

产品依托人工智能公共政务行业高质量数据集(经中国信息通信研究院检验,符合国家标准《高质量数据集 质量评测规范》及行业标准YD/T 6486-2025,获国家最高等级质量评估4级认证)。凭借高质量数据集的强力支撑,产品系统可深度解析档案内容,有效保障结果精准无误。

人工智能数据集质量评估证书(4级)


产品方案或预约演示

洽谈专线:林先生 18901593555



返回顶部
返回底部