汉王还有这功夫
作为一种使用了几百年的语言,清代满文档案包罗万象,涉及面极为广泛,是研究清代通史和各种专史的第一手资料。而且,其反映的内容多不见于汉文档案和其他文献,具有重要的利用和研究价值。另外,满文档案中有关水文、气象、地理、物产等方面的文件,对我国现代化建设具有一定的参考价值。
数年前,国家与各地档案馆、图书馆,就已经开始古籍保存的工作,早期的出发点在于“保护”,即用专门的扫描仪对古籍进行扫描成像,阅览时无需翻阅原版。然而,这种方式的缺点在于难搜索,看图像时需要逐页翻看,且不能剪切、拷贝以及做摘要记录。
因此,古籍收录成为当下重点。古籍收录有两种方法,一种是依靠手工进行打字及校对,因其工作量巨大,通常情况下只能解决标题、目录以及摘要的检索需求。而另一种方法,是数字化保护,即利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据的形式,从而形成古籍文献书目数据库和古籍全文数据库,以达到对古籍长期保护和利用的目的。
汉王作为国内最早开始研发中文识别的企业之一,在多年的研发和识别经验的积累下为古籍的数字化保护提供了良好的解决方案。汉王科技旗下子公司汉王数字,利用OCR识别技术(Optical Character Recognition,光学字符识别,该技术为人工智能研究的重要领域之一)对古籍进行识别与收录,再辅之以图像的整理与美化,可以快速且高效地完成古籍保护工作。
古籍数字化保护,说易行难。OCR技术虽然在很多领域已经相当成熟,但在2011年底汉王初次接触古籍识别时,行业中利用OCR进行古籍数字化仅仅处于起步阶段,直到今天放眼这一领域,能利用OCR进行古籍数字化的公司也是寥寥无几。且由于当时缺乏训练样本,深度学习技术尚未实用,只能利用传统机器学习方法对古籍文档进行操作,经历切分、识别等一系列处理流程后,其准确率不足50%。根据汉王数字在古籍保护领域的经验,与现代文本相比,古籍识别有几大难点。
首先,古文字数量多且难以识别。对于简体汉字来说,早期字符集GB2312收录简体汉字6763个,3000字已覆盖到99%常用书面资料。而在汉字古籍中,常用文字已超过10000个,类别多,训练所需样本数目巨大,训练时难以收敛,需要消耗许多时间。
【古籍样张】
其次,由于古文演变周期较长,存在大量的通假字、异体字,给古籍文字的编码带来了极大的挑战。此外,这些复杂的文字形式也造成了字形间的区分困难,许多相近字的写法过于相像,甚至无法用人眼分辨。因此出现大量标记错误样本,为数据的清洗及训练带来极大的挑战。
同时,古籍识别对技术人员也有着较强专业知识的要求,以满文为例,虽然字母在数量上没有汉字大,但是其字形却为数字化带来了难题。满文字母多是成串出现,从上到下排列,相似字形多,技术人员需要知道每个字母或者音节的书写规律及分隔位置。而懂满文的人凤毛麟角,泱泱中华不过数十人左右。不懂满文,技术人员就需找到满文专家学习满文,了解满文规律,才能设计出融入相关规律的识别算法,对其进行准确识别。
另外,刚开始的时候,汉王古籍识别受数据获取方面的限制,只能从少量古籍片段甚至是单词中获取相应的数据。在开始进行古籍数字化的时候,收集数据的过程非常艰难,前期需要通过算法与人工的结合来获取数据,然后不断发现错误的数据,对其进行标记修改后重新训练,进行一步步迭代,而迭代过程经历的时间会很长。而就载体而言,古籍纸质本身粗糙,且时间久远,受水渍、搬运、保存不当等影响,识别时也会受到很大程度的干扰。
【《地方志》还原结果】
得益于汉王多年的识别技术积累,借着近年来深度学习的技术潮流,汉王数字在古籍识别方面取得了突破性的发展。基于大量数据的支撑,在获取古籍数据后,汉王数字的技术人员对其进行基本的分析,并针对问题数据进行清洗和有效的预处理。然后,根据数据的情况,建立合适的深度学习模型。为了更好地提升效果,汉王训练多个模型并集成使用,目前在汉王的不断努力下中文古籍识别准确率已达到98%。
而对于满文古籍这一比价特殊的少数民族古籍,汉王也有着良好的解决方案,早在2016年汉王就以唯一合作方的身份和国家第一历史档案馆合作完成了“满文档案图像识别软件”的研发,这款软件在对满文档案扫描图像进行识别后,能自动转换成拉丁字母,也可以转换成标准的满文,极大提高了手写体满文向拉丁字母和满文标准字体的转化效率。“经专家评审,认为此次研发的满文输入法和软件达到了国内外领先水平,具有重要的推广实用价值,可用以建立满文档案全文检索数据库,为实现满文档案的数字化和信息化提供新的现代化途径。”这也意味着现在汉王是能做手写体满文识别的第一家企业。
汉王在识别领域一直是行业的引领者,这得益于汉王人不断创新的进取精神,同时作为一家民族科技创新企业汉王也有着强烈的民族责任感,做好古籍、满文识别让古籍资料更好的为人所知,更好的保存是汉王应该也必须去做的,未来汉王将努力在这些方面做得更好。