目标检测第3步-模型训练

 发布日期:2018-12-13 12:19:16  阅读次数:阅读数:3  来源:

致谢声明

本文在学习《Tensorflow object detection API 搭建属于自己的物体识别模型(2)——训练并使用自己的模型》的基础上优化并总结,此博客链接:https://blog.csdn.net/dy_guox/article/details/79111949感谢此博客作者。

0.前言

本文作者的环境:python3.6、Windows10、tensorflow_gpu1.10
跟随本篇文章实践之前,需要先阅读前置文章《目标检测第2步-数据准备》,链接:https://www.jianshu.com/p/3d9436b4cb66
现在桌面的目标检测文件夹中需要有object_detection工程文件夹和training数据文件夹,如下图所示:

10345471-5cebd2d01f9107bb.png
image.png

如果没有的话,也没有关系。本文作者提供下载链接:
文件training.zip链接: https://pan.baidu.com/s/1Kgp9geSkTFVa_4tfc7ZPew 提取码: 9sy3
文件object_detection.zip的链接:https://pan.baidu.com/s/1Q9SxtKlOqEty08tpFeUUHA 提取码: p2sm

1.解决第1个报错

在桌面的目标检测文件夹中打开cmd,即在路径中输入cmd后按Enter键运行。
打开cmd的方式如下图所示:

10345471-7b99bade17fe6349.png
image.png

在cmd中运行命令:python object_detection/model_main.py --pipeline_config_path=training/ssdlite_mobilenet_v2_coco.config --model_dir=training --alsologtostderr,运行结果如下图所示:
10345471-88161259a6d05d3e.png
image.png

1.1 第1种解决方式

第1种解决方式是通过Windows界面点击操作。
如下图所示,按Windows+Q键可呼唤出搜索界面,在其中搜索环境变量
点击下图中上方红色箭头标记处,进入编辑账户的环境变量

10345471-917dca5743ae09a9.png
image.png

新建一个系统变量,点击下图红色箭头标记处。
10345471-88f7dd2a2b7aa379.png
image.png

变量名为:PYTHONPATH
变量值如下图所示,读者填入1号方框中的路径与2号方框中的路径一致即可。
10345471-d71c2bac24826c5b.png
image.png

两项设置好后,点击下图红色箭头标记处所示的确定按钮
10345471-5738649628fed84f.png
image.png

点击下图红色箭头标记处所示的确定按钮,使设置生效。
10345471-b679ebafbb500a95.png
image.png

1.2 第2种解决方式

使用cmd添加永久环境变量,适用于熟悉cmd命令的读者。
cmd中运行命令:setx -m PYTHONPATH "C:\Users\Administrator\Desktop\目标检测"
命令成功运行后,如下图所示:

10345471-c485bf25b2968640.png
image.png

2.解决第2个报错

在进行完第1章,成功添加环境变量后,需要在桌面的目标检测文件夹中重新打开cmd。
在cmd中运行命令:python object_detection/model_main.py --pipeline_config_path=training/ssdlite_mobilenet_v2_coco.config --model_dir=training --alsologtostderr,运行结果如下图所示:

10345471-2a64d74ff42042f1.png
image.png

从上图可以看出,缺少pycocotools库,在linux系统中安装pycocotools库只需要运行命令:pip install pycocotools
但是在Windows上安装则复杂得多。

2.1 下载并安装Microsoft C++ build 14.0

本文作者花了2个小时研究有没有其他方法解决此报错,最终发现只有先安装C++的编译工具,才能在Windows系统上安装pycocotools库。
首先下载Microsoft C++ build 14.0,链接:https://go.microsoft.com/fwlink/?LinkId=691126
文件只有3M左右大小,下载完成如下图所示。

10345471-eece48dd851d3937.png
image.png

打开安装文件visualcppbuildtools.exe,初始化安装程序,如下图所示:
10345471-8df16be5b2a8cdb8.png
image.png

安装类型选择自定义,然后点击下一步,如下图红色箭头标记处所示。
10345471-1257647590b1c201.png
image.png

选择功能只勾选Windows 10 SDK 10.0.10240,然后点击下一步,如下图所示:
10345471-d16a19be3503baed.png
image.png

点击下图红色箭头标记处所示的安装按钮,则开始安装。
10345471-b8d43be6eaa991fa.png
image.png

安装过程中截图,如下图所示:
10345471-ad8b8defaca579d7.png
image.png

完成安装后,点击关闭即可。

2.2 下载并安装pycocotools

打开git页面,链接:https://github.com/philferriere/cocoapi
下载按钮的位置如下图所示,点击Download ZIP即可开始下载。

10345471-b5b8511ce4b1983a.png
image.png

文件大小只有1.53M,下载完成如下图所示。
10345471-eba85d1443678a88.png
image.png

对压缩文件cocoapi-master.zip选择解压到当前文件夹
进入文件夹cocoapi-master中的文件夹PythonAPI,在此文件夹下打开cmd,如下图所示。
10345471-931d62ccabeaa94f.png
image.png

在cmd中运行命令:python setup.py build_ext install,如下图所示:
10345471-0653ea2a6c6f38c2.png
image.png

如果安装成功,则如下图所示:
10345471-08edb2ed697c7dd0.png
image.png

3.解决第3个报错

进行完第2章后,需要在桌面的目标检测文件夹中重新打开cmd。
在cmd中运行命令:python object_detection/model_main.py --pipeline_config_path=training/ssdlite_mobilenet_v2_coco.config --model_dir=training --alsologtostderr,运行结果如下图所示:

10345471-ecbb471ea7e53a79.png
image.png

解决此报错,需要阅读本文作者的文章《目标检测第1步-运行tensorflow官方示例》中的第3章《proto文件转py文件》,文章链接:https://www.jianshu.com/p/c1d8f1c76de7

4.解决第4个报错

进行完第3章后,使用第3章中的cmd即可。
在cmd中运行命令:python object_detection/model_main.py --pipeline_config_path=training/ssdlite_mobilenet_v2_coco.config --model_dir=training --alsologtostderr,运行结果如下图所示:

10345471-1277260f777eeb84.png
image.png

压缩文件models-master.zip下载链接: https://pan.baidu.com/s/1TnHvqNLT0JEZlugrdyABhQ 提取码: fnp3
将models-master/research/slim文件夹中的nets文件夹移动到
桌面的目标检测文件夹中,即文件夹object_detection同级目录。
因为models-master.zip大小为439M,但我们其实只要nets文件夹。
本文作者提供nets文件夹压缩后的压缩文件nets.zip。
下载链接: https://pan.baidu.com/s/1zRkn_TNRlPGAuwQHoO66EQ 提取码: 99s4
下载完成后,将nets文件夹解压到与object_detection相同目录,如下图所示:
10345471-e774454f22abd6c8.png
image.png

5.解决第5个报错

进行完第4章后,使用第4章中的cmd即可。
在cmd中运行命令:python object_detection/model_main.py --pipeline_config_path=training/ssdlite_mobilenet_v2_coco.config --model_dir=training --alsologtostderr,运行结果如下图所示:

10345471-7e4e9edff8c56da7.png
image.png

从上图中可以看出,本文作者使用的显卡是RTX 2070,显卡的显存为8G。
本文作者推荐如果要进行目标检测, 最少也需要配备版本为GTX 1060_显存6G的显卡,否则会出现显存不足。
从上图中可以看出,模型成功调用显卡,开始训练了。
但是训练经过一段时间后会报错,如下图所示:
10345471-a776b389b61f10a7.png
image.png

解决方法:修改工程文件夹object_detection中的代码文件model_lib.py
如下图所示,找到第418行,将category_index.values()修改为list(category_index.values())
10345471-7840627ba7dff7d1.png
image.png

修改代码文件model_lib.py完成后,则可以在cmd中重新输入命令开启模型训练。
模型训练稳定地进行一段时间后,会做一次模型评估,如下图所示。
所以如果读者看到下图中的情况,则说明模型训练很顺利
10345471-348851f8f9835a5e.png
image.png

6.查看模型训练状况

模型训练稳定地进行后,在桌面的目标检测文件夹中重新打开cmd。
在cmd中运行命令:tensorboard --logdir=training,如下图所示:

10345471-4cd4bcb8658558c0.png
image.png

复制上图中红色箭头标记处的链接,粘贴到浏览器中即可访问。
注意:每台电脑的链接都不同,读者复制自己电脑cmd中显示的链接即可。
如果使用360浏览器,必须使用极速模式不能使用兼容模式。
在浏览器中的界面如下图所示。
在SCALARS标签界面中可以查看准确率Precison、召回率Recall、损失值Loss等模型评估指标。
在IMAGES标签界面中可以查看实时的测试集效果。
在GRAPHS标签界面中可以查看模型的整体架构。
10345471-43ce2991fbeacf9e.png
image.png

7.总结

1.本文详细介绍了在Windows操作系统的环境中如何训练自己的目标检测模型。
2.在本文作者的实践中,发现在Linux操作系统中训练速度会快很多。不明白为什么相同的代码,2种操作系统会导致运行效率的差异。如果读者有Linux的主机,本文作者建议为了工作效率,应该使用Linux主机做模型训练。
3.在测试集的图片中,有的图片目标检测效果较优,下面给出了2张演示图。


10345471-b8f06fe3ac81ff06.jpg
预测结果1

10345471-21cc2152f8f57283.jpg
预测结果2
如果您有好的新闻与建议,欢迎点击文章投稿

    发表评论

    电子邮件地址不会被公开。

  • 内容

  • 网名