最近做的项目中,用gluoncv实现了对目标群体打电话的检测。打电话行为检测可以用动作识别,也可以用目标检测,这次我用的是目标检测的方法。大概有以下几个步骤,先大致总结下思路,后续再补充
1、获取数据。
用蜘蛛爬虫从百度图片中爬取了3000+图片
此处有坑。爬虫程序有bug,默认保存时均以jpg结尾,但实际把一些jpeg(这个不影响)、png和gif图片也保存成了jpg,给后续的标注及识图带来了麻烦
2、数据标注及清洗。
先手动删除打开不了即下载失败的图片、和关键字明显不相关的图片。再借助软件删除相同的图片。这一步其实做得不够完善,如果用余弦相似度来计算,可以筛掉更多相似的图片,即同一个人变换了一点细微的角度后的照片
3、训练
此处坑更多,数据有一点问题读取就会失败。包括但不限于以下几种情况:
(1)图为空,即下载时保存失败,或者从U盘拷取时未真正拷贝完就拔掉U盘
(2)标注的数据和图片数量、名称不匹配
(3)标注文件中坐标值超出图片本身的范围
(4)库文件中类别与训练数据中类别不匹配
……
最终训练时用了faster rcnn和ssd两种模型,最后的结果是前者准确率更高。
先占坑再补充。后续有空了将其完善。
原文:https://www.cnblogs.com/flyingtester/p/12977505.html