HOME

CHARACTER RECOGNITION文字识别技术(OCR)

印刷体字符识别 
 PRINTED CHARACTER RECOGNITION

A、基础功能模块
1.输入图像格式 可识别彩色(24BITS)、灰度(256阶)和黑白二值图像。支持TIFF、BMP、JPG、PDF等格式的图像文件。
2.输入版面格式 能自动分析出横排文本、竖排文本、表格和图像等区域,并对文本和表格区域的文字进行识别。
3.输入字体格式 可识别中文简体、台湾繁体、香港繁体、英文及中英混排、简繁混排等印刷文本。
4.输入字体 可识别宋、仿宋、楷、黑、魏碑、隶书、行楷、幼圆等一百多种中文字体,识别字号介于“小六号”和“初号”。
5.输出文本字符集 可输出GB、GBK、BIG5、unicode码结果文本。
6.标准印刷体汉字识别率:可达到99.7%。
7.印刷体数字识别 具有4个独立的识别引擎,识别率可达到99.9%。
8.输出识别结果 可输出TXT、XLS、RTF、PDF、HTML等格式文本文件,RTF、PDF、Html格式支持版面还原。
9.开发环境 提供VC开发的DLL动态库,支持C++、VC、VB、JAVA、.Net、Delphi等语言。
10.支持系统平台 支持Windows平台、Linux平台。
11.表格识别: 自动判断、识别各种通用型印刷体表格。电子表格还原准确精美,输出的电子表格可随意编辑。
12.可以准确识别公文的题头、正文、印章等区域,并将识别结果按原版面精确还原。
13.识别速度:印刷文稿识别速度达1000字/秒。
B、增强功能模块
1.多国文字识别:支持日、韩、法、意、德、西班牙、瑞典、葡萄牙、丹麦、荷兰、挪威等国文字的识别,标准印刷体字符识别率达到96%以上。
2.手写体数字识别: 具有3个独立的识别引擎,识别率达99%以上。
3.支持有规律的复杂表单、票据的识别。