跳至主要內容

YOLOv3

Vingkin...大约 3 分钟

整理自同济子豪兄

网络结构

image-20220518142711194
image-20220518142711194

Backbone(Darknet-53)

对于输入为256256256*256的图像,其Backbone如下图所示:

Neck

neck部分就是多尺度特征融合的过程。其中concat就是在上采样之后,将相同尺度的特征沿通道方向摞起来。就像将相同大小的作业本摞起来。

YOLOv3的head部分,受到了特征金字塔的启发,使用了多尺度特征。

对于输入是416416416*416的图像,产生1313,2626,525213*13,26*26,52*52三个尺度的特征。其中小尺度特征(比如131313*13)负责预测大物体,大尺度特征负责预测小物体。因为小尺度每个grid ceil对应更大的感受野。

三个尺度的特征,每个特征的grid ceil都会生成33anchor,一共99anchor。其中在99anchor中,与ground truthIOU最大的anchor负责预测这个ground truth

正负样本

假设IOU阈值为0.5,其中与ground truthIOU小于阈值的anchor负样本。超过阈值,且与ground truthIOU最大的anchor正样本。查过阈值,但是与ground truthIOU不是最大的anchor既不是正样本也不是负样本

损失函数

λcoordi=0S2j=0B1i,jobj[(bxbx^)2+(byby^)2+(bwbw^)2+(bhbh^)2]+i=0S2j=0B1i,jobj[log(pc)+i=1nBCE(ci^,ci)]+λnoobji=0S2j=0B1i,jnoobj[log(1pc)] \begin{equation} \begin{split} \lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{1}_{i,j}^{obj}\cdot[(b_x-\hat{b_x})^2 + (b_y-\hat{b_y})^2 + (b_w-\hat{b_w})^2 +(b_h-\hat{b_h})^2] \\ + \quad \sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{1}_{i,j}^{obj}\cdot[-log(p_c)+\sum_{i=1}^{n}{BCE(\hat{c_i},c_i)}] \\ + \quad \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{1}_{i,j}^{noobj}\cdot[-log(1-p_c)] \end{split} \end{equation}

训练过程

image-20220518144159747
image-20220518144159747

测试过程

image-20220518144241994
image-20220518144241994

附录

官方

YOLOV3目标检测Demo视频https://www.youtube.com/watch?v=MPU2HistivIopen in new window

https://pjreddie.com/darknet/yolo/open in new window

https://github.com/pjreddie/darknetopen in new window

论文地址https://arxiv.org/abs/1804.02767open in new window

博客

江大白https://zhuanlan.zhihu.com/p/143747206open in new window

郭冠华https://zhuanlan.zhihu.com/p/40332004open in new window

Netron可视化YOLOV3网络结构https://blog.csdn.net/nan355655600/article/details/106246355open in new window

木盏https://blog.csdn.net/leviopku/article/details/82660381open in new window

太阳花的小绿豆https://blog.csdn.net/qq_37541097/article/details/81214953open in new window

B站工程师Algernon鉴黄YOLOhttps://github.com/thisiszhou/SexyYoloopen in new window

B站工程师Algernon博客https://zhuanlan.zhihu.com/p/76802514open in new window

损失函数https://blog.csdn.net/qq_34795071/article/details/92803741open in new window

代码复现

Ultralytics公司https://github.com/ultralytics/yolov3open in new window

https://github.com/qqwweee/keras-yolo3open in new window

https://github.com/bubbliiiing/yolo3-pytorchopen in new window

cvpodshttps://github.com/Megvii-BaseDetection/cvpods/blob/master/cvpods/modeling/meta_arch/yolov3.pyopen in new window

MS COCO目标检测数据集80个类别

交通:人、自行车、汽车、摩托车、飞机、公交车、火车、卡车、船

市政:红绿灯、消防栓、STOP标志、停车收费米表、长椅

动物:鸟、猫、狗、马、绵羊、奶牛、大象、熊、斑马、长颈鹿

随身物品:双肩背包、雨伞、手提包、领带、行李箱

运动:飞盘、雪橇、滑雪板、篮球、风筝、棒球棒、棒球手套、滑板、冲浪板、网球拍

器皿餐具:瓶子、玻璃酒杯、茶杯、叉子、餐刀、勺子、碗

食物:香蕉、苹果、三明治、橘子、西兰花、胡萝卜、热狗、匹萨、甜甜圈、蛋糕

家具:椅子、沙发、盆栽、床、餐桌、厕所、电视、笔记本电脑、鼠标、遥控器、键盘、手机、微波炉、烤箱、烤吐司炉、洗碗槽、冰箱、书、钟表、花瓶、剪刀、泰迪熊、电吹风、牙刷

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.15.8