十一城

跬步千里,小流江海。

Home Linux ML Python Java Thoughts KmKg BookCan Links About

2018-01-31
机器学习-广义线性模型-线性回归

• 分类: ml • 标签:

线性回归是建立在高斯分布的假设上,Logistic 回归是建立在伯努利分布的假设上。如果不能从概率的角度理解线性回归和 Logistic 回归,就很难升一级去理解广义线性回归,而广义线性模型就是要将其它的分布也包纳进来,提取这些分布模型的共同点,成为一个模型,这样再遇到其它分布,如多项式分布、泊松分布、伽马分布、指数分布、贝塔分布和 Dirichlet 分布等,就可以按部就班地套模型进行计算。

广义线性模型(generalized linear model)综述

使用广义线性模型的步骤:

  1. 分析数据集,确定概率分布类型,如高斯分布、伯努利分布等
  2. 把概率$P(y;\eta)$写成**指数分布簇$exp()$**的形式,并找到对应的 $T(y)$、$\eta$、$E(y;x)$ 等
  3. 写出$log$最大似然函数,不同的分布所使用的连接函数不一样,并找到使该似然函数最大化的参数值
  • 线性回归(linear regression) -> 用一条线去拟合训练数据
    • 回归模型
    • 损失函数 = MSE + 无正则项
    • 损失函数
      • 最小二乘法(OLS)——误差平方
      • LAD线性回归——最小绝对偏差(Least Absolute Deviation, LAD)回归模型
        • 分位数回归
      • Huber回归
    • 惩罚线性模型
      • 前向逐步回归
      • 岭回归 Ridge
        • 应用欧式几何的指标
        • 方差
        • L2范数/正则化
      • 套索回归 Lasso
        • 出租车/曼哈顿距离
        • 方差
        • L1范数/正则化
        • 求解算法——L1-norm的求解比较困难,可以用坐标下降法或是最小角度回归法求解
          • 坐标下降法
          • 最小角度回归法 LARS
          • Glmnet
      • Elastic Net
  • 分类模型
    • 逻辑斯蒂回归(logistic regression)
      • logistic 误差(对数似然损失函数
      • 损失函数(极大似然法MLE)解法
        • 梯度下降法
        • 牛顿法
      • L2范数
    • 感知机 Percetron
      • 感知机的$wx+b$可以理解为线性回归,即感知机将线性回归的输出作为使用单位阶跃函数的输入,最终的分类结果是阶跃函数的输出
      • 损失函数——误分类点到分类超平面的总距离
      • 随机梯度下降

指数分布簇

当一个分布能写成以下形式时,我们就说它属于指数分布簇。
$$
p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))
$$
其中$\eta$是分布的自然参数,$T(y)$是充分统计量,$a(\eta)$被称为log partition function,$exp(—a(\eta))$起着归一化的作用,保证分布$p(y;\eta)$积分从y到1。

参考:

  1. http://www.cnblogs.com/NaughtyBaby/p/5294547.html
  2. http://www.cnblogs.com/NaughtyBaby/p/5300831.html

线性回归

前提假设—LINE

  1. Linearity 线性——因变量和每个自变量都是线性关系
  2. Indpendence 独立性——对于所有的观测值,它们的误差项相互之间是独立的
  3. Normality 正态性——误差项服从正态分布
  4. Equal-variance 等方差——所有的误差项具有同样方差

当给定参数$θ$和$x$时,目标值$y$也服从正态分布,这里 y 服从的是均值为$θ^Tx$的正态分布,当我们训练得到参数$θ$后,那么对于不同的$\theta$值,$y$服从的就是不同均值的正态分布。

基函数

pass

求解方法

  • a directed closed-form equation
  • an iterative optimization approach

优点与缺点

  • 优点
    • 线性回归的理解和解释都非常直观,还能通过正则化来避免过拟合。此外,线性模型很容易通过随机梯度下降来更新数据模型。
    • 回归分析法在分析多因素模型时,更加简单和方便;
    • 运用回归模型,只要采用的模型和数据相同,通过标准的统计方法可以计算出的结果,但在图和表的形式中,数据之间关系的解释往往因人而异,不同分析者画出的拟合曲线很可能也是不一样的;
    • 回归分析可以准确地计量各个因素之间的相关程度回归拟合程度的高低,提高预测方程式的效果;在回归分析法时,由于实际一个变量仅受单个因素的影响的情况极少,要注意模式的适合范围,所以一元回归分析法适用确实存在一个对因变量影响作用明显高于其他因素的变量是使用。多元回归分析法比较适用于实际经济问题,受多因素综合影响时使用。
  • 缺点:
    • 线性回归在处理非线性关系时非常糟糕,在识别复杂模式上也不够灵活,而添加正确的相互作用项或多项式又极为棘手且耗时。
    • 有时候在回归分析中,选用何种因子该因子采用何种表达式只是一种推测,这影响了用电因子的多样性和某些因子的不可测性,使得回归分析在某些情况下受到限制。

多项式回归

也是为了解决线性不可分的问题啊

是否就是核函数啊???!!!!

基函数

岭回归与套索回归

参考

  1. https://juejin.im/post/5930cc4c2f301e006bd4b2a9
  2. http://blog.csdn.net/cyh_24/article/details/50359055
  3. http://www.cnblogs.com/NaughtyBaby/p/5300831.html
  4. https://www.zhihu.com/question/31989952
  5. https://tech.meituan.com/intro_to_logistic_regression.html

dzzxjl

Home Linux ML Python Java Thoughts KmKg BookCan Links About