打印 频道

【第三只眼】令人郁闷的OCR

    【IT168 评论】OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别。它的工作原理为通过扫描仪或数码相机等光学输入设备获取介质上的文字表格信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入的一种软件。

    表面上看,它是一种快捷、省力、高效的文字输入方法。厂商也反复对消费者宣传说:我们的OCR识别率高达98%以上,你买了我们的扫描仪,用我们的OCR,以后就不用再手工将印刷文字输入到电脑这么麻烦,你只需按一按按钮,点几下鼠标就可以了。可实际上是这样吗?许多扫描仪用户反映,OCR用起来很烦。

    首先,OCR对被识别的原稿要求很高,原稿最好要新的,表面要不脏的,不皱的,而且将原稿放进扫描仪时要小心翼翼,要放正,不能歪。如果原稿能达到这些要求,OCR的识别率也许会有95%,但你的原稿要是皱了,脏了,旧了或在扫描前将原稿放钭了那怕是一点点,你都要等着有50%以上的字符识别不了或识别错误的苦恼。

    其次,调整参数麻烦。要想提高OCR的识别率,你就要学会调整扫描软件里的参数,什么亮度、对比度、饱和度等,你要熟练地掌握这些参数的调整,将这些参数调整得刚刚好,否则你同样要接受识别低的痛苦。做这项工作要用去用户多少时间?笔者没算过,不过相信即使是熟练的“扫描仪操作工”,也要用上一分钟左右的时间。而且你还不能一劳永逸,因为每张原稿的状况都不一样,这就意味着你在扫描每张原稿前都要重新调整一次里面的参数。

    本来,OCR识别率低,厂商要是确实解决不了这一问题,也要提供良好的后期补救方案,比如说在OCR软件里增强文字联想功能,文字识别出来后,对识别有问题的字符加以标记,让用户一目了然,从而快速地处理识别错误的字符。并且,OCR要提供字符自动联想的功能,能联想出正确的字符来,然后让正确的字符来代替识别不肯定的字符。可现在却完全不是这样。以“尚书六号”OCR为例,在识别文字后,不少识别正确的字符被标成识别不正确的蓝色字符,而识别错误的却没标出来,用户只好逐字与原稿进行校对,然后逐一更正,这样的效率会比手工输入高吗?笔者认为未必。为此,有许多扫描仪用户在处理质量不是很高的原稿时,宁愿手工输入也不愿用OCR来识别文字。

    笔者实在闹不明白,现在科技发展的这么快,英特尔的CPU速度一年千里的提升,数码相机的像素也几百万的往上提,可OCR的识别率却看来还得保持50年不变的状态。手写的识别率都能做到这么高,为什么OCR的识别能力就这么差呢?厂商呀,厂商,别整天忙着打价格战好不好?多将精力放在技术上,我相信,如果哪个厂商能研究出先进的OCR软件,他的扫描仪价格就算比别人的贵50%,也会有一大堆的人抢购!

0
相关文章