重庆红岩革命历史博物馆近年来随着多期文物数字化保护的项目实施,馆内馆藏三级以上革命文物大部分都已经完成了基础信息数据采集,已经留存了大量平面文物的高清图像信息数据,但没有相关文物的内容信息数据。因此,需要对现存的大量的纸质革命历史文物的内容进行活化处理。具体建设内容如下:

  1. 针对《新华日报》内容活化,完成《新华日报》OCR 模型建立及训练优化,并完成《新华日报》创刊开始出版的 3231 期报纸内容,共计 12446 页《新华日报》的高精度扫描图片进行 OCR 识别及信息提取。
  2. 建设平面文物 OCR 识别系统,能够实现对平面文物数据导入、识别、结构化处理、数据管理等相关应用。
  3. 中共中央南方局资源活化。实现中共中央南方局关键词在平面文物 OCR 识别系统中与中共中央南方局历史研究文献的自动关联检索。
  4. 实现平面文物 OCR 识别系统与藏品管理系统的数据对接。

###本系列文章来源于某单位公开发布的需求征集文稿,本站发布仅用于学习交流

本项目需要完成《新华日报》的内容活化,包括《新华日报》OCR 模型建立与训练,以及平面文物 OCR 识别系统。因为《新华日报》其字体具有特殊性,非目前的通用的文字 OCR 识别模型能够进行高精度识别。本次项目将进行《新华日报》报刊文物字体 OCR 识别模型的定制,模型训练及优化。最终实现《新华日报》文物数据 ocr 识别模型高准确率的自动化识别以及电子版可编辑文物内容转译。

《新华日报》内容活化,具体工作内容如下:

  1. 《新华日报》OCR 识别模型定制:通过馆方提供的《新华日报》高精度扫描图片,针对《新华日报》版内竖排繁体字进行数据标注及模型训练。
  2. 模型优化,通过大量的标注数据集对模型的识别准确率进行优化,最终实现针对《新华日报》内容文字单字识别准确率达到 95%以上。
  3. 建立一套平面文物 OCR 识别系统,能够对所有平面文物的印刷字体进行自动化 OCR 识别,同时能够提供模型管理功能,为优化升级后的模型提供服务部署等相关功能。

1 《新华日报》OCR 识别模型训练

《新华日报》样本复杂性较高,板式不固定,提取字段变动大,且部分极端样本、不固定版式众多(超淡、叠印、人眼无法辨识等),即常规 OCR 识别模型无法解决相关需求,必须采用定制化的场景智能文字识别引擎方案,通过针对《新华日报》进行定制化模型训练,提升场景智能文字识别准确率。

通过对《新华日报》样本繁体竖版文字进行大量数据标注,建设训练数据集和测试数据集,通过模型训练平台自主优化训练模型,不断优化模型识别准确率,最终实现高准确率的识别效果。具体工作内容:

  • 对《新华日报》大量样本进行真实数据提取与数据标注,同时配合训练平台仿真生成训练数据集,进行结构化提取,建立文字训练数据集及测试数据集;
  • 针对《新华日报》识别模型进行训练,参数调优,模型测试验证,最终实现针对《新华日报》的 OCR 模型单字识别准确率 95%以上;

1.1 模型定制开发

模型定制包括四个基础步骤:图像预处理,区域检测,文本检测,文本识别以及基于知识的后处理。

1、图像预处理(包括文字角度矫正以及去噪等图像增强技术)

(1)文本角度矫正

文本角度矫正技术能预测图像中文本的方向,将文本旋转至水平方向,有助于模型对各类场景图的检测;同时当文本横看竖看都可以的时候,检测模型只需按照水平方向便能正确检测文本框。因此,先将图像文本方向预测出来,再将图像旋转至水平方向,接着送入到检测模型中,能极大地提高文本检测的准确率以及避免方向歧义。检测模型在训练阶段也只需按照单一方向训练,模型性能更优。

(2)图像去噪

图像去噪模块主要用于明显的噪音干扰等,譬如叠印,污渍干扰等。

2、多方向多粒度文本检测

文本检测采用文本检测算法。文本检测算法是一套基于深度学习的端到端的多方向多粒度文本检测算法。通过特征共享的方式高效地把像素级别的图像语义分割和锚检测回归放入一个网络之中,把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。对于如中文这样文本长度跨度很大的语言,文本检测算法有一个自适应的预测层,针对不同层级的特征所对应的感受野范围,设计不同的锚以及锚的空间位置分布,以更高的效率更好的适应变化的文本长度。

3、多字体多场景文本识别

文本识别算法对于多字体,大字符集,褶皱,模糊,光照等情况适应性强,并能充分结合上下文(图像层级)信息进行文字识别。

4、基于知识的后处理

结合先验知识的后处理能进一步提升识别准确率,本次 OCR 模型训练将通过三种方式进行知识的后处理,包括字符串操作,以及先验规则/模式。

1.2 样本采集/1.3 数据标注/1.4 模型训练/1.5 数据调优 略


2 平面文物 OCR 识别系统

2.1 系统登录

  • 系统用户支持通过管理员分配的专属账号密码进行登录。
  • 系统嵌入在藏品及数字资源管理系统中,支持单点登录,在同一时间,同一账号只能在一台机器上登录。

2.2 模型管理与服务部署

系统支持模型文件的更新,能够便捷的实现模型的更换及 OCR 识别引擎的部署。

2.3 平面文物数据导入

系统支持从藏品及数字资源管理系统中导入博物馆收录的高清报刊文物图片数据,为文物 OCR 识别提供原始数据支持。

2.4 平面文物数据管理

  • 系统支持对文物数据进行分类、查看、删除等操作。
  • 文物数据分类,系统管理员支持对文物信息进行自定义分类分组操作,如按照文物类别、文物等级类型等多种组别进行信息分类。
  • 文物数据查看,系统支持通过表单的方式将文物信息进行罗列,系统用户支持直观查看文物信息简述以及点击进入进行详细图片、报告等信息的查看。
  • 文物数据删除,系统管理员支持对文物信息进行删除,删除文件支持容错操作,当管理员对文件误删除时,可一键进行文件的恢复。
  • 文物数据标签,系统管理支持对文物数据进行标签设置,便于用户对文物的查询。
  • 文物数据分权管理,系统支持对文物数据进行分权管理,设定各类数据的查看权限。

2.5 平面文物识别及信息核验

  • 系统提供识别区域选择工具,能够针对需要进行文字识别的区域进行 ROI 选择,将框选的目标区域进行文字识别。
  • 系统提供文物识别信息核验功能,博物馆研究人员支持基于系统 OCR 识别后的信息与原始图片信息进行人工比对,查看 OCR 识别信息的准确性,如果存在问题,研究人员支持对识别后信息进行编辑修改或者重新识别操作。

2.6 平面文物识别信息存储

博物馆研究人员支持对识别后的信息进行存储。支持自定义对识别内容进行内容存储以及所有内容存储。

  • 部分内容存储:支持仅对文物图片中的部分模块识别后单独存储。
  • 所有内容存储:支持对整个文物图片中所有内容识别完成后进行存储。
  • 二次编辑:存储完成后支持再次进入文件进行内容核验修改。

2.7 平面文物识别数据管理

  • 系统支持对识别信息进行管理,支持分类、打标签、查看、编辑、删除等操作。
  • 文物数据分类:支持按照多种方式对文物数据进行分类,如数据类型、数据等级等。
  • 文物数据打标签:支持自定义对文物数据进行标签设置,按照人物、时间、地点等条件标签。
  • 文物数据查看:支持对识别数据进行查看,查看文物原件信息、识别信息等。
  • 文物数据编辑:支持对文物基础信息、文物识别信息等数据进行编辑。
  • 文物数据删除:支持对文物数据进行删除,删除后的数据如果存在误删的情况,支持一键恢复。

2.8 文物数据查询

系统支持通过多种查询条件(关键词、分类等)对文物数据进行快捷查询。系统提供以下几种数据查询方式:

  1. 文物名称检索:支持通过文物名称进行文物数据的快速定位。
  2. 文物分类检索: 支持通过文物分类对特定类型文物进行范围性检索。
  3. 文物标签检索:支持按照文物标签对文物进行快速定位。
  4. 文物等级检索:支持按照文物等级对文物进行快速定位。

2.9 平面文物识别数据导出/2.10 平面文物识别数据统计/2.11 系统管理/2.12 系统注销 略


革命历史博物馆数字化保护项目实施方案(智慧文博).docx

1.1. 项目背景 1
1.2. 建设目标 1
1.3. 建设内容 2
1.4. 项目整体预算 2
2.建设方案 3
2.1. 革命文物数字化资源采集 3
2.1.1. 文物本体信息数字化采集 4
2.1.2. 平面文物数字化采集 5
2.1.3. 文物三维数字化采集 6
2.1.4. 数据预处理 6
2.1.5. 文物本体数据管理系统 7
2.1.6. 文物数据采集及预处理支撑环境 9
2.2. 革命文物数字资源活化利用 14
2.2.1. 新华日报内容活化 14
2.2.2. 中共中央南方局资源活化 21
2.3. 革命文物数字化保护工作规范 22
2.3.1. 规范编制目标 22
2.3.2. 规范编制内容及要求 22
3.实施进度 23
目 录
  1. 1 《新华日报》OCR 识别模型训练
  2. 2 平面文物 OCR 识别系统

相关文章

  • 博物馆馆藏革命文物数字化保护项目技术方案

    博物馆馆藏革命文物数字化保护项目技术方案

    项目以重庆中国三峡博物馆(重庆博物馆)1000 件珍贵革命文物为主要信息采集对象。通过对文物高清二维信息和三维信息的采集,构建革命文物数字化保护项目库,并构建“云展览”,同时兼顾数据的存储和利用功能。最后通过基于革命文物的微视频宣传方式,打造革命文物传播展示应用典型示范案例。 本本取自公开招标的技术方案,该项目招标控制价约 286 万元。其项目指标是: 首先选取 800 件馆藏革命文物,使用全画幅高清数码相机针对不同类型和形态的文物拍摄多角度高精度照片,精度达到出版级并保存数字底片;其次,选取 …

  • 革命历史博物馆文物数字化资源采集方案(数字文博)

    革命历史博物馆文物数字化资源采集方案(数字文博)

    近年来重庆红岩革命历史博物馆已经实施了多期数字化保护项目,馆藏三级以上文物大部分都完成了文物数字化信息采集工作,已经留存了大量平面文物,如信件、报刊、书籍、档案文档的高精度电子图片资料,以及部分重点革命文物的三维扫描模型等文物数据资料。在本次馆藏革命文物数字化保护项目中,特意选取了不同年份、不同材质、不同保存状况且亟待修复的部分文物进行本体数据采集。同时,针对馆藏平面文物部分,数字化采集工作选取了部分馆藏文物进行平面高精度扫描做信息留存,文物本体信息结合高精度的数字化扫描内容的数据信息,一方面丰…

  • 博物馆数字化保护项目实施规范和进度管理

    博物馆数字化保护项目实施规范和进度管理

    重庆红岩革命历史博物馆馆藏文物以纸质文物居多,本次规范编制将以本项目为依托,结合近年来重庆红岩革命历史博物馆文物数字化保护项目的实施经验,通过本项目的建设成果,包括本项目所使用的技术框架、数据格式、功能设计、管理要求等内容,尝试建立一套纸质革命文物数字化保护工作规范,未来对红岩馆后续的数字化保护项目建设起到积极的促进作用。 1 规范编制目标 第一,革命文物数字化保护工作规范应包含技术要求、合格评定、管理运营等方面工作内容,构成一套完整的纸质革命文物数字化保护工作规范。 第二,制订的系列工作规范能…

  • 图书馆自动化管理系统功能介绍(北创图书馆)

    图书馆自动化管理系统功能介绍(北创图书馆)

    本系列文章介绍的图书管理系统采用 C/S 架构 ,后台数据库使用的是比较流行的 SQL SERVER 数据库,全面兼容主流数据库版本。图书管理系统可以配合条码扫描枪、校园一卡通的 IC 卡、ID 卡使用。软件功能强大,操作简单,是一款符合图书馆相关规定和标准的图书管理软件。软件提供试用版,用户均可联系我们获取免费下载版本……众平是北创图书馆特约合作伙伴。 1 图书馆自动化管理系统拓扑 以上网络拓扑图主要是体现的了网络一体化,用一个服务器通过内部局域网形成一个整体,让图书管理员和读者都能在同时同步…

  • 智能图书馆核心设备介绍(图书查询机/借还书机/FRID安全门/盘点车)

    智能图书馆核心设备介绍(图书查询机/借还书机/FRID 安全门/盘点车)

    从图书馆的整个发展来看,分为三个阶段:传统图书馆、现代图书馆和 RFID 智能图书馆。传统图书馆的管理方式是纯手工登记管理,目前我国现代图书馆的图书流通管理全部采用磁条和条码系统居多,磁条为安全功能,条码为馆藏标识功能。本篇文章介绍 RFID 智能图书馆中的核心设备,为了方便阅读俭省了部分硬件参数,需要了解更多方案的请查看目录或联系客服。 1 标签转换系统装置 图书条形码编号写入到 RFID 电子标签中,使得图书唯一识别编号跟 RFID 电子标签唯一识别号绑定。使得 RFID 技术与现有的图书数…

  • 革命历史博物馆数字化保护项目实施方案(智慧文博)

    革命历史博物馆数字化保护项目实施方案(智慧文博)

    党的十八大以来,习近平总书记站在坚定文化自信、传承中华文明的战略高度和中国共产党是中华优秀传统文化的忠实传承者、弘扬者的历史高度,就文化遗产保护利用作出一系列重要论述,特别是对于革命文物保护利用作出了多次重要指示,并考察多个革命旧址、革命博物馆纪念馆,提出了系列新思想新观点新要求。 习近平总书记明确强调:让博物馆里的文物,陈列在广阔大地上的遗产活起来。中国革命历史是最好的营养剂,是党和国家的宝贵精神财富;要从党的光辉历史中汲取奋进的力量,传承好红色基因;充分发挥革命文物在激发爱国热情、凝聚人民力…

- 联 系 我 们 -

+86 186-2315-0440

在线咨询:点击这里给我发消息

电子邮箱:i@zzptech.com

工作时间:7*24h,全年无休

关注微信