背景
在国家档案局”十五五”规划明确提出建设面向人工智能的高质量档案数据集已成为档案数字化转型的核心任务。高质量数据集的建设并非简单的文档数字化,而是需要通过语义工程、知识抽取、数据建模等技术手段,将分散的档案资源转化为结构化、关联化、可计算的数据资产,最终支撑智能问答、专题研究、资政决策等应用场景。
依据国家标准《中文新闻语义结构化标注》(GB/T45949—2025),利用高保真语义解析器对档案全文进行自动化、标准化的全面语义结构化。在此基础上,提取语义要素(如事物、事件)及其属性、关系、状态等,生成语义知识库,自动转换为大模型微调训练的高质量数据(如问答对),自动管控大模型微调训练,训练好的大模型与语义知识库组成RAG模式的智能问答系统,实现高质量数据生成、大模型微调和大模型应用一体化,即“数训用一体”高效率、高安全的闭环流程。
基于深圳市工业和信息化局技术改造项目公开文件的研究
本次研究基于深圳市工业和信息化局公开发布的技术改造相关政策文件,通过闻道知识智能管理平台进行数据挖掘,形成以下数据资产:

档案数据规模
- 事件描述:1187条(时间跨度2022-2025年)
- 实体概念:2798个(包括机构、项目、资金、政策等类型)
- 主题分布:工程建设(42条)、项目资助(55条)、项目投资(31条)、技术改造(36条)、项目管理(42条)等18个核心主题
1.事件主题

系统对档案进行主题挖掘,识别出核心主题分布:
- 工程建设:42条
- 项目资助:55条
- 项目投资:31条
- 技术改造:36条
- 其他:项目管理、资金支持、环保管理等
2. 人物关联图谱

通过实体识别技术,自动提取档案中的人物信息,构建人物关系网络:
- 与人物相关事件:0条
- 和人无关的事件:1250条(100%)
3. 时空分布热力图

地域分布:
- 广东省67条(核心区域)、甘肃省8条
4. 机构关联网络

自动识别档案中的机构实体,构建合作网络:
- 深圳市工业和信息化局
- 第三十一条市工业和信息化局
- 深圳市算力
- 深银行机构
5. 情感倾向分析

对档案内容进行情感计算:
- 正向:35件(71.4%)
- 中性:6件(12.2%)
- 负向:8件(16.3%)
联著产品核心服务能力:
数据挖掘模块:支持实体抽取、关系识别、主题聚类
知识图谱构建:可视化展示人物、机构、事件关联
时空分析:位置地图、时序轨迹展示
情感分析:文本内容情感倾向自动判定
专题数据库:支持政策、产业、非遗等专题化建设
基于语义分析形成的高质量数据集,可支撑问答与搜索相关业务场景:
【场景一:知识问答】
知识问答系统面向档案馆用户和公众,提供自然语言交互的咨询服务
问答示例:

【场景二:智能查询】
智能查询系统面向相关研究人员和决策者,提供语义检索及精准检索服务
查询示例:

权威背书,夯实AI技术硬实力
国家标准支撑
牵头发布《中文新闻语义结构化标注》国家标准(GB/T 45949-2025)

信通院测评认证
产品依托人工智能公共政务行业高质量数据集(经中国信息通信研究院检验,符合国家标准《高质量数据集 质量评测规范》及行业标准YD/T 6486-2025,获国家最高等级质量评估4级认证)。凭借高质量数据集的强力支撑,产品系统可深度解析档案内容,有效保障结果精准无误。

产品方案或预约演示
洽谈专线:林先生 18901593555