首页 > 其他 > 详细

机器学习笔记(十一)OCR技术的应用

时间:2019-11-01 11:43:55      阅读:82      评论:0      收藏:0      [点我收藏+]

1、介绍OCR:

OCR(Photo optical character recognition 照片光学字符识别)

应用于读取电子照片中的文字.

 

2、算法思路:

① 识别文字区域;

技术分享图片

② 字符切分:

技术分享图片

③ 识别字符:

技术分享图片

 

3、Sliding windows(滑动窗):

(1)在行人检测中的使用:

① 由于行人拥有相近的宽高比,算法中可以设置相同的比值,如 80*40. 

技术分享图片

使用监督学习的方法,判定块中是否含有行人.

② 在图片中移动滑动窗,每次都进行判断是否含有行人,每次移动若干像素点.

技术分享图片

选的滑动窗尺寸限制了可识别的行人的大小. 可以适当增大滑动窗的尺寸,以识别出更多的行人,但是把图片输入分类器时需要调整回统一的尺寸.

 

(2)在OCR中的应用:

① 选择训练集:

技术分享图片

② 找出文字区域:采用不同的灰度表示可能性,白色的可能性最高,灰色的可能性较低. 

技术分享图片技术分享图片

③ 使用 expansion operator(展开器):

判断图像中每一个像素点是否在白色像素点的5~10个像素范围之内,若是,则设置为白色.

技术分享图片

④ 筛选掉过于小的可能文字区域:

技术分享图片

⑤ 字符分割:训练一个分类器,对两种图片块进行分类,可以分割的块设为 y = 1,否则设置为 y = 0. 若是y = 1,则进行分割,分割过程:把这根竖线看作一维的滑动窗,左右移动判断是否分割成功.

分类器训练集:

技术分享图片

分割过程:

技术分享图片

⑥ 使用监督学习识别分割出的字符.

机器学习笔记(十一)OCR技术的应用

原文:https://www.cnblogs.com/orangecyh/p/11775669.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!