云上贵州大数据产业发展有限公司,贵州贵阳 550081
摘要:在信息化及大数据背景下,档案管理工作不断进步与发展,数字化技术应用程度提升和计算机技术的深入发展与应用,使得档案数字化工作面临着更高的发展要求,档案数字化管理工作已经成为信息化时代下档案资源发展的趋势之一。其中,OCR(Optical Character Recognition)识别技术的发展,为档案数字化提供了新的解决方案。
关键字:档案数字化、OCR识别
档案数字化是档案信息化建设的核心内容与基础工程,是构建档案信息资源体系的重要手段,对促进档案信息资源社会化服务、推动档案事业内涵式发展,其重要性不言自明。档案数字化工作有别于档案扫描工作,档案扫描工作只是将传统纸质档案通过扫描的方式变成电子图片形式的档案,将档案以图片的形式保存下来。但未考虑到档案资源利用和挖掘档案内容本身的价值,以便后续检索使用,使档案更能为社会制造价值。考虑到社会对档案的利用需求,若能得到文字形态的档案,使档案资源真正的数字化,智能化。让档案能更加有效,更加彻底的为社会服务,关键在于使用OCR识别技术完成档案数字化工作。
1.OCR汉字识别技术概述
OCR(光学字符识别技术)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。其原理是通过专门的OCR软件,将含有文字的图像 按字切割成 可独立识别的单元,然后运用各种算法分析每个图像单元中文字的形态特征,通过比对标准特征库中的数据,判断出该文字在计算机中的标准编码,并按通用格式输出保存在文本文件中。
OCR的工作流程为:1.输入影像、2.影像预处理,预处理方法通常包括:灰度化、二值化、降噪、倾斜校正等 、3.文本切割,文字提取、4.比对识别、5.人工校正,6.最后将识别结果输出保存。影像预处理环节往往决定了OCR软件的识别率,乃至整个 OCR工作的效率。而后期人工校正环节,则是保证 OCR工作质量的最直接环节。档案数字化处理中,OCR对策识别率,决定了档案资源的质量,也决定着档案资源后期使用中的准确程度。
2. 基于OCR识别的档案数字化加工技术的优势
档案数字化是对传统载体档案原件的最有效保护。档案是孤本性的信息资源,传统载体档案在数字化后,档案管理的收集、整理、编目、统计、查阅、编研、开发等各个环节均可直接对数字档案操作,不再频繁调阅实体档案,还可对部分实体档案进行封存管理,从而大大减少对档案原件的各种人为损害或自然侵害,大大提高档案的安全系数,从而保障档案的安全。
2.1智能识别档案文本内容
从中国发明活字印刷术起,近千年间,形成了大量印刷汉字档案记载了中国的历史文化,历史档案对中国精神文明的物质文明的建设有着不可低估的价值。充分利用信息化技术,对历史档案的深化研究,是促进社会发展的关键因数。其次,近年来,信息化办公的发展,纸质档案的数量在大幅减少,相当数量的档案没有文本文件,多为电子文件,将新老档案结合,综合发挥档案的价值,是如今技术发展中扼待解决的问题。
OCR识别技术通过对扫描后的档案资源进行信息化处理,利用各种模式识别的算法来分析档案中文字形态特征,判断文字的标准编码,并按照通用格式存储为计算机文本文件。通过文本比对,智能识别文字内容,将纸质档案上的固定信息变成可以被检索的信息,将档案数字化,数据化,从而达到档案智能化,使档案被深层次开发利用成为现实,更好地实现社会需求。
2.2智能生成档案资源目录
在传统的档案处理工作中,建立档案目录数据库是一项基础的档案数字化工作,所有的档案都需要进行这项工作,很多档案馆已建成较为完备的目录库,通常是档案管理人员手工录入,费时费力,易出错。当档案目录名字所占字符数量较多,一定程度上增加了档案管理工作人员的工作量,同时也增加了目录录入错误信息的可能性。因此,人工使用键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一 。通过使用OCR识别技术,精准识别档案信息,建立档案文字内容数据库,使用特定字符串的检索功能,可借助软件自身功能,提取出档案的目录信息,并自动建立档案目录。OCR识别技术为我们提供了一种新的著录方式 ,使档案条目通过计算机录入成为可能 。
2.3智能索引档案资源
以往的档案用户大多是基于档案的凭证价值而对其加以利用,如办公室查阅某份文件,数据、报表等 ,这些利用需求对档案的原真性要求较高,很多情况下还是需要纸质档案才能发挥作用。但档案用户的使用维度绝不应该仅限于此,如利用档案进行学术研究时,用户就更加注重档案的知识性 、信息性 ,但如果档案是纸质的,要利用其中的内容就必须亲自去档案馆,通过印刷或手工摘录所需信息,非常不便 ,以至于有些用户转而通过网站或数字图书馆查阅所需信息。 将纸质档案数字化,并采用OCR识别,能够使档案信息资源实现全文检索、网络传输,方便用户异地检索、复制引用,从而深化用户对档案内容的查询与利用,拓宽其利用面,使档案也能像图书、情报一样成为人们日常生活中获取信息、利用信息、增加学识的手段,使档案多方面地服务于公众 。
档案数字化是继OCR技术和存储技术的发展而产生的 一种新型档案信息形态。档案数字化是数字档案建设的一 项最基础性工作,是将各种形态档案以数字化形式存储、 以网络化形式互连,并利用计算机技术进行管理,从而构建起有序结构的档案信息库,实现档案信息资源共享。
3.档案数字化面临的挑战
档案数字化工作目前主要依靠OCR识别技术实现,该技术对于清晰的印刷体识别率高达96%以上。但是,传统档案中有很大一部分是手写档案,而该技术对手写体的识别率仅达78%,而且,年久的档案质量不佳,在使用OCR识别技术识别档案时,会导致识别率下降。精准识别档案内容是确保档案数字化工作高质量发展的基石。因此,如何优化OCR识别技术,同时,将OCR技术合理深入地运用到档案数字化工作中,是值得我们考虑的问题。
4.结语
档案数字化管理是档案管理工作的必然发展趋势,也是经济社会发展的必然需要。数字化档案管理提升了档案保存的有效性及完整性,能够将原始纸质档案转换为电子文件、图片、音像数字信息,直接进行资源的存储,促使档案资源更加全面细致。档案数字化管理工作,将原有的传统档案转化为数字档案,提供了档案信息共享等诸多便利性。
OCR在纸质档案数字化过程中有其独特的应用,如何将该技术合理运用于档案管理最需要的地方,是值得我们考虑的问题。只有将 OCR技术运用得恰到好处,才不至于浪费人力物力,才能使档案信息资源的利用价值达到最大化,更好地服务于民。做好档案数字化建设和利用工作,加强档案管理工作, 提升档案数字化水平,提高数字化档案的利用水平,使数字化档案成为经济社会发展的支撑平台。
[参考文献]
[1] 隋凌云.事业单位实现档案数字化管理的要点分析[J].城建档 案,2021(11):50-51
[2] 陈晓.大数据背景下档案管理与数字化建设思考[J].城建档 案,2021(11):64-65.
[3] 迟春佳 .OCR技术及 其在高校 图书馆信息 资源 数字化建 设 中的应用 [J].中国科技信 息,2007(7).
[4] 安妮鸽.档案管理数字化建设中存在的问题与解决对策探究[J]. 陕西档案,2021(5):2
[5] 郝炳海.建设档案信息化系统 实现管理升级转型[J].城建档 案,2021(12):15-16.
[6] 冯月.新时期档案数字化管理及其创新策略[J].办公室业 务,2021(24):145-146