近日,广东省广州市档案馆与广州大学人工智能学院联合研发的“数字档案智能筛密系统”投入使用。经系统性严格测试,该系统对各类密件的召回率达99%,密件与非密件识别准确率达97%。
智能筛密AI模型开发面临涉密数据“不可用”的安全红线和档案数字化成果识别“高复杂度”两项挑战。针对数据训练样本的收集,项目团队遵循安全至上原则,提出并实践了“高仿真度样本合成”技术路径。首先采集海量的非密档案数字化成果作为“背景库”,同时通过技术手段生成数千种不同形态的“密”字标识作为“前景信息”,将两者有效融合,生成数十万张既不含任何真实涉密信息又具备密件关键视觉特征的训练样本。针对档案数字化副本识别高复杂度的技术难点,项目团队研发出一款数字档案筛密垂类多模态大模型。该模型不仅能精准捕捉标识的局部细节特征,更能通过其独特的“自注意力机制”理解图像的上下文及空间布局信息。为使其适应小样本、高精度的专业任务需求,团队还实施了“渐进式解冻”“分层学习率”等一系列精细化训练优化策略,提升了模型的识别精度。
在实现算法模型自主创新的同时,市档案馆同步完成了全流程、全栈式国产化部署。智能筛密垂类大模型部署于局域网的一台高性能AI算力服务器中,配置了4颗高性能华为鲲鹏48核CPU、1TB内存及8张32GB显存的华为昇腾910B计算卡。该硬件平台为模型的稳定运行提供了强大的国产算力支撑,并实现了对PyTorch等主流深度学习框架的良好兼容,每小时可处理约2.5万画幅,降低了人力成本与经验误差,改变了档案筛密“慢、繁、难”的现状。经过项目团队多轮迭代与严格测试,该智能筛密系统的密件召回率达99%,识别准确率达97%。
“自主算法模型+国产硬件平台+物理隔离网络”综合解决方案是从底层芯片到网络环境再到上层应用的全链路自主可控实践,实现了信息化建设与智能化转型新突破。
Copyright © 2007 www.saac.gov.cn 版权所有:国家档案局中央档案馆
技术维护:国家档案局 经营许可证号:京ICP备05058328号 地址:北京市西城区阜成门外大街29号 邮编:100037