机器学习笔记（十一）OCR技术的应用

时间：2019-11-01 11:43:55 阅读：83 评论：0 收藏：0 [点我收藏+]

1、介绍OCR：

OCR（Photo optical character recognition 照片光学字符识别）

应用于读取电子照片中的文字.

2、算法思路：

① 识别文字区域；

技术分享图片

② 字符切分：

③ 识别字符：

3、Sliding windows（滑动窗）：

（1）在行人检测中的使用：

① 由于行人拥有相近的宽高比，算法中可以设置相同的比值，如 80*40.

技术分享图片

使用监督学习的方法，判定块中是否含有行人.

② 在图片中移动滑动窗，每次都进行判断是否含有行人，每次移动若干像素点.

技术分享图片

选的滑动窗尺寸限制了可识别的行人的大小. 可以适当增大滑动窗的尺寸，以识别出更多的行人，但是把图片输入分类器时需要调整回统一的尺寸.

（2）在OCR中的应用：

① 选择训练集：

技术分享图片

② 找出文字区域：采用不同的灰度表示可能性，白色的可能性最高，灰色的可能性较低.

技术分享图片

③ 使用 expansion operator（展开器）：

判断图像中每一个像素点是否在白色像素点的5~10个像素范围之内，若是，则设置为白色.

技术分享图片

④ 筛选掉过于小的可能文字区域：

技术分享图片

⑤ 字符分割：训练一个分类器，对两种图片块进行分类，可以分割的块设为 y = 1，否则设置为 y = 0. 若是y = 1，则进行分割，分割过程：把这根竖线看作一维的滑动窗，左右移动判断是否分割成功.

分类器训练集：

技术分享图片

分割过程：

⑥ 使用监督学习识别分割出的字符.

原文：https://www.cnblogs.com/orangecyh/p/11775669.html

踩

(0)

评论一句话评论（0）

分享档案

更多>