在国家档案局“十五五"规划明确提出建设面向人工智能的高质量档案数据集已成为档案数字化转型的核心任务。高质量数据集的建设并非简单的文档数字化,而是需要通过语义工程、知识抽取、数据建模等技术手段,将分散的档案资源转化为结构化、关联化、可计算的数据资产,最终支撑智能问答、专题研究、资政决策等应用场景。 具体而言,高质量档案数据集建设应遵循"采集-处理-建模-应用"四步路径:首先,对多源异构档案进行统一采集与标准化处理;其次,运用自然语言处理技术提取事件、实体与关系;再次,构建专题数据库与知识图谱,实现跨文档的知识关联;最后,通过可视化分析呈现数据的时空分布、发展趋势与内在规律,形成可直接服务于业务决策的数据产品。 云锦作为人类非物质文化遗产,其档案资料分散于南京云锦研究所、博物馆、档案馆等多个机构,涵盖技艺传承、历史文献、图像资料、研究论文等多种类型。传统档案管理方式难以实现跨机构、跨类型的知识关联,更无法支撑深度的数据挖掘与专题研究。 数据挖掘数据展示页 通过闻道知识智能管理平台的数据挖掘模块,我们对云锦相关档案进行了系统性处理,取得了以下成果: 1. 档案数据规模 事件描述:95,529条 实体概念:109,709个 时间跨度:1911年—2013年(百年档案时序) 2. 主题聚类分析 系统对云锦档案进行主题挖掘,识别出核心主题分布: 纺织工艺:6,816条(核心技艺) 文化传承:4,323条(非遗保护) 艺术设计:2,355条(纹样创新) 文物保护:2,104条(修复记录) 其他:色彩设计、学术出版、历史研究等 3. 人物关联图谱 通过实体识别技术,自动提取档案中的人物信息,构建人物关系网络: 与人物相关事件:11,210条(占比11.7%) 核心人物识别:云锦(相关事件3,415件)、宋锦(236件)、曹雪芹(163件)等人物与事件关联可视化呈现 4. 时空分布热力图 地域分布:江苏省6,448条(核心区域)、北京市317条、浙江省171条 时序轨迹:1911—2013年间云锦相关事件的时间分布,清晰呈现历史发展脉络 5. 机构关联网络 自动识别档案中的机构实体,构建合作网络: 南京云锦研究所(核心机构) 故宫博物院、东南大学、南京艺术学院 江苏人民出版社、苏州大学出版社 江宁织造局(历史机构) 6. 情感倾向分析 对档案内容进行情感计算: 正向:1,849件(61.5%) 中性:670件(22.3%) 负向:486件(16.2%) 中华文化数据库-南京云锦(左滑浏览) 数据挖掘模块:支持实体抽取、关系识别、主题聚类 知识图谱构建:可视化展示人物、机构、事件关联 时空分析:热力地图、时序轨迹展示 情感分析:档案内容情感倾向自动判定 专题数据库:支持非遗、产业、政策等专题化建设![]()
![]()
![]()
![]()
![]()
![]()
国家标准支撑
本产品严格遵循档案行业相关国家标准,确保数据处理的规范性与权威性。
技术根植于中文语义结构化国家标准,能精准理解政策、报告、企业知识等复杂文本。
![]()
《中文新闻语义结构化标注》国家标准
信通院测评认证
通过中国信息通信研究院测评,获得政务类四级认证,标志着产品在数据安全、处理能力、系统稳定性等方面达到行业领先水平。
生成的数据集通过信通院四级认证,模型效果经权威验证。
如需了解更多关于高质量档案数据集建设方案或预约产品演示
洽谈专线:林先生 18901593555