如何区分手写体和印刷体 模式识别

如题所述

这个问题其实是OCR , 和ICR的问题...
ocr 是一门很难技术,基本上也少有公开的...

我理解的ocr 是获取到一个图片文字之后,提取出字体框架模型,然后在相应的字典库中查找匹配模型(相当于2 楼所说模式识别),找到匹配度最佳的那个,既是所识别的字符...
我所说字体模型是什么呢? 我理解的是,如汉字,大概是一个至少4*4像素点的区域(好像不能少于这个,要不汉字的几个笔画很难区分),

最后,如果匹配上了就是ocr。

难点就在这里!ocr中所用的字库一定小于ICR,复杂度也小于ICR, 比如汉字"一" , 打印体的可能只需要定义一种字模就OK(不考虑各种字体,效果字),但对于icr, 则要定义这个汉字"一" 是歪了斜了,甚至有的人会写成可以匹配到"."(圆点)字模的程度...那这就很难了。当然这个例子可能不恰当!
顺便说一下,就当下(2010年2月为止)汉字的ICR 基本上不能商用...至于拉丁字母文字和数字方面的ICR,部分国外厂商测试效果还不错...比如abbyy, iris . 还有一家美国的公司(暂时性遗忘该名称)...

就说这么多...偶然逛逛csdn,等分ing........
温馨提示:内容为网友见解,仅供参考
无其他回答