深度学习笔记

置顶

查看更多

机器学习笔记

置顶

查看更多

目标检测流行算法总结

吴恩达目标检测课堂笔记

目标检测是计算机视觉领域中一个新兴的应用方向,其任务是对输入图像进行分类的同时,检测图像中是否包含某些目标,并对他们准确定位并标识。

本文所涉及的目标检测算法是 Ng 课堂上所讲的 YOLO,除此之外流行的还有 RCNN、Fast RCNN、Faster RCNN 和 SSD。

相关链接:

查看更多

序列模型与注意力机制

Seq2Seq 模型

Seq2Seq(Sequence-to-Sequence)模型能够应用于机器翻译、语音识别等各种序列到序列的转换问题。一个 Seq2Seq 模型包含编码器(Encoder)解码器(Decoder)两部分,它们通常是两个不同的 RNN。如下图所示,将编码器的输出作为解码器的输入,由解码器负责输出正确的翻译结果。

查看更多

自然语言处理与词嵌入

词嵌入

one-hot 向量将每个单词表示为完全独立的个体,不同词向量都是正交的,因此单词间的相似度无法体现。

换用特征化表示方法能够解决这一问题。我们可以通过用语义特征作为维度来表示一个词,因此语义相近的词,其词向量也相近。

将高维的词嵌入“嵌入”到一个二维空间里,就可以进行可视化。常用的一种可视化算法是 t-SNE 算法。在通过复杂而非线性的方法映射到二维空间后,每个词会根据语义和相关程度聚在一起。相关论文:van der Maaten and Hinton., 2008. Visualizing Data using t-SNE

词嵌入(Word Embedding)是 NLP 中语言模型与表征学习技术的统称,概念上而言,它是指把一个维数为所有词的数量的高维空间(one-hot 形式表示的词)“嵌入”到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。对大量词汇进行词嵌入后获得的词向量,可用于完成 命名实体识别(Named Entity Recognition) 等任务。

查看更多

循环训练模型

前言

自然语言和音频都是前后相互关联的数据,对于这些序列数据需要使用循环神经网络(Recurrent Neural Network,RNN)来进行处理。

使用 RNN 实现的应用包括下图中所示:

查看更多

神经风格转移

简介

神经风格迁移(Neural style transfer)将参考风格图像的风格“迁移”到另外一张内容图像中,生成具有其特色的图像。

相关链接:

查看更多

人脸识别

简介

人脸验证(Face Verification)和人脸识别(Face Recognition)的区别:

  • 人脸验证:一般指一个一对一问题,只需要验证输入的人脸图像是否与某个已知的身份信息对应;
  • 人脸识别:一个更为复杂的一对多问题,需要验证输入的人脸图像是否与多个已知身份信息中的某一个匹配。

一般来说,由于需要匹配的身份信息更多导致错误率增加,人脸识别比人脸验证更难一些。

相关链接:

查看更多

CNN经典网络总结

LeNet-5

LeNet诞生于1998年,网络结构比较完整,包括卷积层、pooling层、全连接层,这些都是现代CNN网络的基本组件,被认为是CNN的开端。

网络特点:

  • LeNet-5 针对灰度图像而训练,因此输入图片的通道数为 1。
  • 该模型总共包含了约 6 万个参数,远少于标准神经网络所需。
  • 典型的 LeNet-5 结构包含卷积层(CONV layer),池化层(POOL layer)和全连接层(FC layer),排列顺序一般为 【CONV layer->POOL layer->CONV layer->POOL layer->FC layer->FC layer->OUTPUT layer】。一个或多个卷积层后面跟着一个池化层的模式至今仍十分常用。在计算神经网络的层数时,通常只统计具有权重和参数的层池化层没有需要训练的参数,所以和之前的卷积层共同计为一层
  • 当 LeNet-5模型被提出时,其池化层使用的是平均池化,而且各层激活函数一般选用 Sigmoid 和 tanh。现在,我们可以根据需要,做出改进,使用最大池化并选用 ReLU 作为激活函数。

查看更多