多元回归分析
最近上时空数据分析与建模课,重新学习了一下多元线性回归分析的内容,计划在此做一个梳理,整理一下完整的流程与注意事项。
多元线性回归
1、多元线性回归的相关概念
在客观世界中普遍存在着变量和变量之间的关系,某一些关系是非确定性的,即无法用函数关系直接表达,但是其往往存在高度相关性,比如人的身高和体重,身高较高的人往往体重也较重。回归分析可以帮助我们从一个/组变量(自变量,用 \(X\) 表示)的取值来估计另一个变量(因变量,用 \(Y\) 表示)的值。
在实际问题中,随机变量 \(Y\) 往往与多个普通变量 \(x_1,x_2,...,x_p \,(p>1)\) 有关。对于自变量 \(x_1,x_2,...,x_p\) 的一组确定的值,\(Y\) 有它的分布。我们可以用 \(F(Y \vert x_1,x_2,...,x_p)\) 来表示当 \(x_1,x_2,...,x_p\) 取确定值时,所对应的 \(Y\) 的分布函数。
如果能够发掘 \(F(Y \vert x_1,x_2,...,x_p)\) 随 \(x_1,x_2,...,x_p\) 取值的变化规律,就可以完全确定 \(Y\) 和 \(X\) 之间的关系。然而上述步骤往往非常复杂,为了简化计算,我们可以做一种近似,去考察 \(Y\) 的数学期望 \(E(Y)\)。即若 \(Y\) 的数学期望存在,则其值随 \(x_1,x_2,...,x_p\) 的取值而定,因而它是 \(x_1,x_2,...,x_p\) 的函数,记为 \(\mu_{Y \vert x_1,x_2,...,x_p}\) 或 \(\mu(x_1,x_2,...,x_p)\) 即为 \(Y\) 关于 \(x\) 的回归函数,从而将讨论 \(Y\) 和 \(X\) 之间的相关关系问题转化为讨论 \(E(Y) = \mu(x_1,x_2,...,x_p)\) 与 \(x_1,x_2,...,x_p\) 的函数关系问题。
当 \(\mu (x_1,x_2,...,x_p)\) 是 \(x_1,x_2,...,x_p\) 的线性函数时,有:
\[ Y = b_0 + b_1x_1 + ... + b_px_p + \epsilon, \, \epsilon \sim N(0, \sigma^2) \tag{1} \]
其中 \(b_0,b_1,...,b_p, \sigma^2\) 均为与 \(x_1,x_2,...,x_p\) 无关的未知参数。
1 |