百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

「干货」Mask R-CNN对象检测和分割实现对无人机检测

bigegpt 2024-10-12 05:42 8 浏览

Github上发布了何凯明的Mask R-CNN目标检测和对象分割Keras和TensorFlow的实现代码。

这个实现基于Python 3、Keras和TensorFlow。模型对图片中的每个对象实例生成包围框(bounding boxes)和分割掩膜(segmentation masks)。基于特征金字塔网络(FPN)和ResNet101的主干(backbone)



giuhub仓库包含以下内容:

建立在FPN和ResNet101上的Mask R-CNN源代码

MS COCO上的训练代码

MS COCO上的预训练权重

可视化每一步的训练管道(pipline)的Jupyter notebooks

用于多GPU训练的并行类

MS COCO上的指标评估

在你自己的数据集上训练的例子

源代码有注释而且设计得易于扩展。如果你在你的研究中用了这些代码,请引用本仓库。如果你从事3D视觉,你可能会觉得我们最近发布的Matterport3D数据集对你有用。



更多参考:https://github.com/matterport/Mask_RCNN

下面我们要来讲讲对无人机实现检测和分割



首先下载数据标注工具:https://github.com/abreheret/PixelAnnotationTool



该工具将分别为每个原始图像生成三个图像


IMAGENAME_color_mask.png

IMAGENAME_mask.png

IMAGENAME_watershed_mask.png


这里共有546张图片。测试数据是每秒25帧的视频文件。最后一个注释完成后,我们需要IMAGENAME_color_mask.png文件。


需要将其重命名为:


IMAGENAME.png



Dataset folder数据集文件夹

Annotations folder注释文件夹,用于存储注释后的蒙版数据

JPEGImages文件夹,其中包含原始JPG图像

Train_data_dir运行脚本以创建tf记录文件所在的目录

Label_map.pbtxt数据分类JSON描述,这里是固定翼无人机的分类


创建tf记录数据,


首先你需要下载脚本文件create_mask_rcnn_tf_record.py,下载地址是:


https://github.com/vijendra1125/Custom-Mask-RCNN-using-Tensorfow-Object-detection-API

放置在tensorflow对象检测API框架中


研究\ object_detection\ dataset_tools


在目录下,然后打开修改后的代码行的第57行,并且必须正确索引标记的每个对象掩码。


然后运行如下

您将获得生成的tf记录文件。


上述数据标注和生成过程仅适用于单个对象标记。如果有多个对象,请首先使用labelImg标记框,生成XML标签文件,然后通过PixelAnnotation生成掩码数据。


其次迁移学习


要使用迁移学习训练Mask-RCNN来实现自定义对象检测,首先需要预训练模型。这里使用的预训练模型是:


Mask_rcnn_inception_v2_coco


下载地址是:


Http://download.tensorflow.org/models/object_detection/mask_rcnn_inception_v2_coco_2018_01_28.tar.gz

修改pipeline_config文件


从object_detection \ samples \ configs文件夹中查找相应的配置文件。


mask_rcnn_inception_v2_coco.config

将所有PATH_TO_BE_CONFIGURED更改指向实际路径,然后根据需要调整以下参数。


Keep_aspect_ratio_resizer

-min_dimension

-max_dimension

改为600

-num_classes字段的值更改为1,

表示我们只有一个类别


要防止在训练期间由资源耗尽导致的内存溢出错误,请将以下属性添加到train_config块。


Batch_queue_capacity:150

Num_batch_queue_threads:8

Prefetch_queue_capacity:10

Gradient_clipping_by_norm:10.0


保存配置文件后,运行以下命令行以开始训练。



通过tensorboard查看培训

在训练结果之后,运行以下脚本以导出pb文件。

使用导出的pb文件,测试结果如下


import tensorflow as tf
import cv2 as cv
# Read the graph.
model_dir = 'D:/tensorflow/uav_train/export/frozen_inference_graph.pb'
with tf.gfile.FastGFile(model_dir, 'rb') as f:
 graph_def = tf.GraphDef()
 graph_def.ParseFromString(f.read())
cap = cv.VideoCapture("D:/images/video/uav_clip.avi")
vout = cv.VideoWriter("D:/mask_rcnn_demo.mp4", cv.VideoWriter_fourcc('D', 'I', 'V', 'X'), 25,
 (1280, 720), True)
with tf.Session() as sess:
 # Restore session
 sess.graph.as_default()
 tf.import_graph_def(graph_def, name='')
 # process video stream
 count = 0
 while True:
 ret, img = cap.read()
 if ret is not True:
 break
 rows = img.shape[0]
 cols = img.shape[1]
 inp = cv.resize(img, (600, 600))
 inp = inp[:, :, [2, 1, 0]] # BGR2RGB
 # Run the model
 out = sess.run([sess.graph.get_tensor_by_name('num_detections:0'),
 sess.graph.get_tensor_by_name('detection_scores:0'),
 sess.graph.get_tensor_by_name('detection_boxes:0'),
 sess.graph.get_tensor_by_name('detection_classes:0')],
 feed_dict={'image_tensor:0': inp.reshape(1, inp.shape[0], inp.shape[1], 3)})
 # Visualize detected bounding boxes.
 num_detections = int(out[0][0])
 for i in range(num_detections):
 classId = int(out[3][0][i])
 score = float(out[1][0][i])
 bbox = [float(v) for v in out[2][0][i]]
 if score > 0.5:
 x = bbox[1] * cols
 y = bbox[0] * rows
 right = bbox[3] * cols
 bottom = bbox[2] * rows
 cv.rectangle(img, (int(x), int(y)), (int(right), int(bottom)), (125, 255, 51), thickness=2)
 count += 1
 cv.imshow('mask_rcnn_demo', img)
 if 2500 < count < 3500:
 vout.write(img)
 c = cv.waitKey(1)
 if c == 27:
 break
# release resource
vout.release()
cap.release()

相关推荐

当Frida来“敲”门(frida是什么)

0x1渗透测试瓶颈目前,碰到越来越多的大客户都会将核心资产业务集中在统一的APP上,或者对自己比较重要的APP,如自己的主业务,办公APP进行加壳,流量加密,投入了很多精力在移动端的防护上。而现在挖...

服务端性能测试实战3-性能测试脚本开发

前言在前面的两篇文章中,我们分别介绍了性能测试的理论知识以及性能测试计划制定,本篇文章将重点介绍性能测试脚本开发。脚本开发将分为两个阶段:阶段一:了解各个接口的入参、出参,使用Python代码模拟前端...

Springboot整合Apache Ftpserver拓展功能及业务讲解(三)

今日分享每天分享技术实战干货,技术在于积累和收藏,希望可以帮助到您,同时也希望获得您的支持和关注。架构开源地址:https://gitee.com/msxyspringboot整合Ftpserver参...

Linux和Windows下:Python Crypto模块安装方式区别

一、Linux环境下:fromCrypto.SignatureimportPKCS1_v1_5如果导包报错:ImportError:Nomodulenamed'Crypt...

Python 3 加密简介(python des加密解密)

Python3的标准库中是没多少用来解决加密的,不过却有用于处理哈希的库。在这里我们会对其进行一个简单的介绍,但重点会放在两个第三方的软件包:PyCrypto和cryptography上,我...

怎样从零开始编译一个魔兽世界开源服务端Windows

第二章:编译和安装我是艾西,上期我们讲述到编译一个魔兽世界开源服务端环境准备,那么今天跟大家聊聊怎么编译和安装我们直接进入正题(上一章没有看到的小伙伴可以点我主页查看)编译服务端:在D盘新建一个文件夹...

附1-Conda部署安装及基本使用(conda安装教程)

Windows环境安装安装介质下载下载地址:https://www.anaconda.com/products/individual安装Anaconda安装时,选择自定义安装,选择自定义安装路径:配置...

如何配置全世界最小的 MySQL 服务器

配置全世界最小的MySQL服务器——如何在一块IntelEdison为控制板上安装一个MySQL服务器。介绍在我最近的一篇博文中,物联网,消息以及MySQL,我展示了如果Partic...

如何使用Github Action来自动化编译PolarDB-PG数据库

随着PolarDB在国产数据库领域荣膺桂冠并持续获得广泛认可,越来越多的学生和技术爱好者开始关注并涉足这款由阿里巴巴集团倾力打造且性能卓越的关系型云原生数据库。有很多同学想要上手尝试,却卡在了编译数据...

面向NDK开发者的Android 7.0变更(ndk android.mk)

订阅Google官方微信公众号:谷歌开发者。与谷歌一起创造未来!受Android平台其他改进的影响,为了方便加载本机代码,AndroidM和N中的动态链接器对编写整洁且跨平台兼容的本机...

信创改造--人大金仓(Kingbase)数据库安装、备份恢复的问题纪要

问题一:在安装KingbaseES时,安装用户对于安装路径需有“读”、“写”、“执行”的权限。在Linux系统中,需要以非root用户执行安装程序,且该用户要有标准的home目录,您可...

OpenSSH 安全漏洞,修补操作一手掌握

1.漏洞概述近日,国家信息安全漏洞库(CNNVD)收到关于OpenSSH安全漏洞(CNNVD-202407-017、CVE-2024-6387)情况的报送。攻击者可以利用该漏洞在无需认证的情况下,通...

Linux:lsof命令详解(linux lsof命令详解)

介绍欢迎来到这篇博客。在这篇博客中,我们将学习Unix/Linux系统上的lsof命令行工具。命令行工具是您使用CLI(命令行界面)而不是GUI(图形用户界面)运行的程序或工具。lsoflsof代表&...

幻隐说固态第一期:固态硬盘接口类别

前排声明所有信息来源于网络收集,如有错误请评论区指出更正。废话不多说,目前固态硬盘接口按速度由慢到快分有这几类:SATA、mSATA、SATAExpress、PCI-E、m.2、u.2。下面我们来...

新品轰炸 影驰SSD多款产品登Computex

分享泡泡网SSD固态硬盘频道6月6日台北电脑展作为全球第二、亚洲最大的3C/IT产业链专业展,吸引了众多IT厂商和全球各地媒体的热烈关注,全球存储新势力—影驰,也积极参与其中,为广大玩家朋友带来了...