线性模型

1. 基本形式

1.1 公式

$$f(x)=w^Tx+b$$
其中,$x=(x_1;x_2;…;x_d)$,$x_i$是$x$在第$i$个属性上的取值,$w=(w_1;w_2;…;w_d)$

1.2 特点

  • 线性模型形式简单、易于建模,有很好的可解释性
  • 功能强大的非线性模型可在线性模型的基础上通过引入层级结构高维映射而得。

2. 线性回归

2.1 二元线性回归

$$(w^\star,b^\star) = \mathop{\arg\min}_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2 \\
= \mathop{\arg\min}_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2$$

其中,$w^\star$为$w$的解
基于均方误差最小化来进行模型求解的方法称为最小二乘法
将$E_{(w,b)}$分别对$w$和$b$求导,再令式为零即可得$w$和$b$的最优解闭式
$$w=\frac{\displaystyle\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\displaystyle\sum_{i=1}^{m}x_i^2-\frac{1}{m}({\displaystyle\sum_{i=1}^{m}x_i})^2}$$

2.2 多元线性回归

令$\hat{w}=(w;b)$,
$X=\begin{bmatrix}
x_{11}&x_{12}&\cdots&x_{1d}&1\\\
x_{21}&x_{22}&\cdots&x_{2d}&1\\\
\vdots&\vdots&\ddots&\vdots&\vdots\\\
x_{m1}&x_{m2}&\cdots&x_{md}&1
\end{bmatrix}$,$y=(y_1;y_2;…;y_m)$
则$w^Tx_i+b =X\hat{w}$
则$$\hat{w}^*=\mathop{\arg\min}_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})$$
令$E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})$,对$\hat{w}$求导得到
$$\frac{\partial{E_{\hat{w}}}}{\partial{\hat{w}}}=2X^T(X\hat{w}-y)$$
令上式为零可得$\hat{w}$最优解的闭式解。

若$X^TX$为满秩矩阵或正定矩阵时,$\hat{w}^\star=(X^TX)^{-1}X^Ty$,令$\hat{x}^\star=(x_i;1)$,则最终学得的多元线性回归模型为
$$f(\hat{x_i})={\hat{x_i}}^T(X^T X)^{-1}X^T y$$
若$X^TX$不是上述矩阵,如变量数超过样例数,矩阵不满秩,此时可以解出多个$\hat{w}$,它们都能使均方误差最小化,选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化。

2.3 对数线性回归(log-linear regression)

$$\ln{y}=w^Tx+b$$

2.4 广义线性模型

$$y=g^{-1}(w^Tx+b)$$
其中,$g(\cdot)$为单调可微函数,称为联系函数

3. 对数几率回归(logistic regression)

3.1 公式

对于二分类问题,上述$g(\cdot)$函数可取Sigmoid函数
$$y=\frac{1}{1+e^{-(w^Tx+b)}}$$
类似于对数线性回归式,得$$\ln{\frac{y}{1-y}}=w^Tx+b$$
其中$y$为样本$x$作为正例的可能性,$1-y$为样本$x$作为反例的可能性

3.2 特点

  • 直接对分布可能性建模,无需事先假设数据分布,避免了假设分布不准确所带来的问题
  • 它不仅预测出“类别”,而是可得到近似概率预测,对于许多利用概率辅助决策的任务很有用
  • 对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解

参考书籍: 《机器学习》 周志华