吴恩达目标检测课堂笔记

目标检测是计算机视觉领域中一个新兴的应用方向,其任务是对输入图像进行分类的同时,检测图像中是否包含某些目标,并对他们准确定位并标识。

本文所涉及的目标检测算法是 Ng 课堂上所讲的 YOLO,除此之外流行的还有 RCNN、Fast RCNN、Faster RCNN 和 SSD。

相关链接:

CNN经典网络总结

LeNet-5

LeNet诞生于1998年,网络结构比较完整,包括卷积层、pooling层、全连接层,这些都是现代CNN网络的基本组件,被认为是CNN的开端。

网络特点:

  • LeNet-5 针对灰度图像而训练,因此输入图片的通道数为 1。
  • 该模型总共包含了约 6 万个参数,远少于标准神经网络所需。
  • 典型的 LeNet-5 结构包含卷积层(CONV layer),池化层(POOL layer)和全连接层(FC layer),排列顺序一般为 【CONV layer->POOL layer->CONV layer->POOL layer->FC layer->FC layer->OUTPUT layer】。一个或多个卷积层后面跟着一个池化层的模式至今仍十分常用。在计算神经网络的层数时,通常只统计具有权重和参数的层池化层没有需要训练的参数,所以和之前的卷积层共同计为一层
  • 当 LeNet-5模型被提出时,其池化层使用的是平均池化,而且各层激活函数一般选用 Sigmoid 和 tanh。现在,我们可以根据需要,做出改进,使用最大池化并选用 ReLU 作为激活函数。