HOME

文档“大数据” 汉王攻坚AI难点-自然语言处理(上)

发布时间:2018-07-11

源起OCR技术优势
因OCR技术优势,汉王接到多个国家级单位的文档数字化项目,在具体工作中又将技术延伸到自然语言理解领域,可以说,汉王科技踏入了更为广阔的数据化智能大市场。
汉王科技是业界最早致力于OCR识别技术研发和应用的公司之一,借助在该领域和数据加工平台累积多年的技术优势,汉王将OCR技术应用拓展至国内多个行业,其中一大重要的应用就是文档电子化。
国家级项目折射汉王专业程度
2013年,北京汉王数字科技有限公司成立,作为汉王科技的子公司,汉王数字在该领域的触角已延伸至多个国家级项目。其中不乏针对各级图书馆传统近现代图书进行扫描、图像处理的数字化工程,而对某图书馆藏明清时期的家谱类文献进行数字化加工的项目作为汉王文档数字化的一个特殊案例尤其引人关注,由于古籍对识别系统以及操作方法要求极高,且古籍中含有标注、栏线、大量形态各异的异体字,情况十分复杂。而对此类复杂项目的承接折射出汉王在该领域的专业程度。


 
除了服务国家级的图书馆、档案馆,汉王科技的数据化业务也在银行、医院、法院等行业广泛铺陈,帮助相关部门将纸质单据的信息转化为电子文档。也就是在这些具体项目的实施中,汉王开始意识到“文档电子化”只是完成了知识、信息应用的一部分,形成的电子文本是非结构化数据。
文档电子化-文档大数据应用入口
将纸质文档变成电子化文档,只是汉王步入文档大数据的入口。如果把文档大数据应用比作摩天大楼,文档电子化只是其高耸入云的扎实地基,通过扫描将纸质文档变成图像,再通过OCR技术将图像变成数字化文本,但这样的电子文档知识之间缺乏关联,被电脑检索也只是对比相同字符搜集信息,对语义没有理解,还是需要阅读者进行人工甄别,根据自己的需求找寻所需信息。要将海量的电子文档“智慧化”,就必须将文字信息形成结构化数据,只有形成结构化数据,信息和知识之间形成关联,才能为大数据应用服务。


 
将文档的非结构化数据进行结构化处理,转化为技术术语,就要用到“自然语言理解”技术,俗称“人机对话”,这是未来计算机科学领域与人工智能领域中的一个重要方向。可以畅想,未来你想了解某类知识点,通过对已结构化的信息数据进行检索,查找瞬间,涉及到该类知识点的书籍便会全部呈现眼帘,相关内容也会被抽捡萃取。这种将文档“知识化”的自然语言处理技术,在阅读者眼前展现的不仅仅是一本一本的书,而是与之相关的知识浩渺的书库和智能化的知识分拣工具。