多元回归分析

最近上时空数据分析与建模课,重新学习了一下多元线性回归分析的内容,计划在此做一个梳理,整理一下完整的流程与注意事项。


多元线性回归

1、多元线性回归的相关概念

在客观世界中普遍存在着变量和变量之间的关系,某一些关系是非确定性的,即无法用函数关系直接表达,但是其往往存在高度相关性,比如人的身高和体重,身高较高的人往往体重也较重。回归分析可以帮助我们从一个/组变量(自变量,用 $X$ 表示)的取值来估计另一个变量(因变量,用 $Y$ 表示)的值。

在实际问题中,随机变量 $Y$ 往往与多个普通变量 $x_1,x_2,…,x_p ,(p>1)$ 有关。对于自变量 $x_1,x_2,…,x_p$ 的一组确定的值,$Y$ 有它的分布。我们可以用 $F(Y \vert x_1,x_2,…,x_p)$ 来表示当 $x_1,x_2,…,x_p$ 取确定值时,所对应的 $Y$ 的分布函数。

如果能够发掘 $F(Y \vert x_1,x_2,…,x_p)$ 随 $x_1,x_2,…,x_p$ 取值的变化规律,就可以完全确定 $Y$ 和 $X$ 之间的关系。然而上述步骤往往非常复杂,为了简化计算,我们可以做一种近似,去考察 $Y$ 的数学期望 $E(Y)$。即若 $Y$ 的数学期望存在,则其值随 $x_1,x_2,…,x_p$ 的取值而定,因而它是 $x_1,x_2,…,x_p$ 的函数,记为 $\mu_{Y \vert x_1,x_2,…,x_p}$ 或 $\mu(x_1,x_2,…,x_p)$ 即为 $Y$ 关于 $x$ 的回归函数,从而将讨论 $Y$ 和 $X$ 之间的相关关系问题转化为讨论 $E(Y) = \mu(x_1,x_2,…,x_p)$ 与 $x_1,x_2,…,x_p$ 的函数关系问题。

当 $\mu (x_1,x_2,…,x_p)$ 是 $x_1,x_2,…,x_p$ 的线性函数时,有:

$$ Y = b_0 + b_1x_1 + … + b_px_p + \epsilon, , \epsilon \sim N(0, \sigma^2) \tag{1} $$

其中 $b_0,b_1,…,b_p, \sigma^2$ 均为与 $x_1,x_2,…,x_p$ 无关的未知参数。

1