归一化

一、数值类型特征常用归一化方法

1、线性函数归一化(Min-Max Scaling)

它对原始数据进行线性变换,使结果映射到[0, 1]的范围,实现对原始数据的等比缩放。
归一化公式如下,其中X为原始数据,X max 、X min 分别为数据最大值和最小值。

优点:通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从 而消除量纲和数量级的影响
缺点:由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端 值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。实际使用中可以用经验常量值来替代max和min。

2、零均值归一化(Z-Score Normalization)

它会将原始数据映射到均值为0、标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么
归一化公式定义为

优点:去量纲化。我的理解就是通过某种方法能去掉实际过程中的单位,从而简化计算。
缺点:这种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕。

机器学习开发策略

ML策略

假设你构建了一个喵咪分类器,训练之后准确率达到90%,但在测试集上还不够好。此时你可以想到的优化方法有哪些呢?总结后大致如下:

  • 收集更多的数据
  • 收集更多的多样化训练集,比如不同姿势的猫咪图片等
  • 用梯度下降法训练更长时间
  • 尝试Adam算法
  • 尝试更大的网路
  • 尝试小一点的网络
  • 尝试dropout随机失活算法
  • 加上L2正则项
  • 改善网络结构,如变更激活函数,变更隐藏层节点数量

优化的方法虽然很多,但如果方向错误,可能白费几个月时间。
那通过哪些策略可以减少错误发生的几率呢?怎么判断哪些方法可以尝试,哪些方法可以丢弃呢?

损失函数和成本函数

损失函数针对的是单个样本,代价函数或者成本函数针对的是全体样本。


逻辑回归

Logistic 回归是一个用于二分分类的算法。

Logistic 回归中使用的参数如下:

  • 输入的特征向量:$x \in R^{n_x}$,其中 ${n_x}$ 是特征数量;
  • 用于训练的标签:$y \in 0,1$
  • 权重:$w \in R^{n_x}$
  • 偏置: $b \in R$
  • 输出:$\hat{y} = \sigma(w^Tx+b)$
  • Sigmoid 函数

机器学习选择题集锦

回归

1、对于线性回归,我们应该有以下哪些假设?

  1. 找到离群点很重要, 因为线性回归对离群点很敏感
  2. 线性回归要求所有变量必须符合正态分布
  3. 线性回归假设数据没有多重线性相关性
    A 1 和 2
    B 2 和 3
    C 1,2 和 3
    D 以上都不是

基础概念

理解矩阵

有人说,矩阵的本质就是线性方程式,两者是一一对应关系
链接:http://www.ruanyifeng.com/blog/2015/09/matrix-multiplication.html

也有人说,矩阵的本质是运动的描述。简而言之,就是在线性空间中选定基之后,向量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。
链接:https://pan.baidu.com/s/1BLyrQH5_VAw832jKkCgpBA 密码:ljwq