单变数线性迴归模式

一、前言

简单迴归分析 (simple regression analysis) 是建构一适当的数学方程式来表示两个变数(分别称为自变数与应变数)之间的关係,此数学方程式即称为迴归方程式。其中自变数与应变数或称为其他别名(表一)。

若应变数和自变数之间有线性的函数关係存在,则此迴归模式为单变数线性模式 (simple linear regression);若应变数和自变数之间存在有非线性的函数关係,则为单变数非线性迴归 (simple nonlinear regression)。

单变数线性迴归模式

表一、自变数与应变数之别名。(表格来源:本文作者颜芷筠製)

迴归分析主要应用有二,一为用来解释资料过去的现象,二为利用自变数 \(X\) 来预测应变数 \(Y\) 未来可能产生的数值。以某产品销售量和某产品广告费用为例,若我们想知道花在某产品广告上的费用与某产品销售量的关係,则可藉由所建立的迴归方程式来作解释费用提升 \(1\) 万元预期可增加的销售量为何;或者我们可以预测投入 \(100\) 万的广告费用之后,某产品的销售量会有多少。

但在此需特别注意,当我们在进行某应变数的预测时,自变数的值不可以超过迴归模式的範围 — 假设前述产品销售量和广告费用的範例中,若建立迴归模式的自变数(广告费用)範围于 \(10\) 万元至 \(150\) 万元时,该模式将无法预测自变数(广告费用)为 \(200\) 万元所对应的应变数(产品销售量)为多少,因为我们无法得知是否超出此範围之外的地方也是符合此线性关係。

本篇介绍如何利用简单线性迴归分析建立应变数和自变数的迴归方程式,再依此迴归方程式来作系统分析与预测。

二、简单线性迴归模式之建立

单变数线性迴归模式

图一、所有资料点皆落在迴归线上。(本文作者颜芷筠绘)

单变数线性迴归模式是由自变数 \(X\) 与应变数 \(Y\) 所建构而成,由于此两变数之间是线性关係,因此可以用一直线方程式来表示(图一),其关係式为

\(Y=\beta_0+\beta_1X\)

式中的 \(\beta_0\)、\(\beta_1\) 为此迴归等式之迴归係数,\(\beta_0\) 为此直线的截距 (intercept),而 \(\beta_1\) 为此直线的斜率 (slope),其意义为当 \(X\) 变动一个单位时,\(Y\) 的变动量为 \(\beta_1\) 单位。

单变数线性迴归模式

图二、资料点与迴归线之正迴归关係。(本文作者颜芷筠绘)

单变数线性迴归模式

图三、资料点与迴归线之负迴归关係。(本文作者颜芷筠绘)

由于抽样误差的缘故,当我们从样本调查 \(X\) 与 \(Y\) 之间的关係时,第 \(i\) 组观测值 \(x_i\) 与 \(y_i\) 的关係通常不会恰好落在线上(图二、图三),故以下式表示

\(y_i=\beta_0+\beta_1x_i+\varepsilon_i,~~i=1,2,…,n\)

\(\varepsilon_i\) 为第 \(i\) 个样本的随机误差项,即为实际的 \(y\) 值与迴归线之间的距离。

用以描述 \(X\) 与 \(Y\) 之间关係的最佳 \(\beta_0\)、\(\beta_1\) 可利用样本资料进行估计,最小平方法 (method of least squares) 为常用的估计法之一,其原理是调整 \(\beta_0\)、\(\beta_1\) 使得所有应变数观测值 \(y_i\) 的误差平方和最小,其所得 \(\beta_0\)、\(\beta_1\) 之估计值分别为

\(\hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}\)

\(\displaystyle\hat{\beta_1}=\frac{\sum\limits^n_{i=1}(x_i-\overline{x})(y_i-\overline{y})}{\sum\limits^n_{i=1}(x_i-\overline{x})^2}\)

因此我们可以利用样本资料所计算出来的 \(\hat{\beta_0}\)、\(\hat{\beta_1}\) 得一最适当的迴归线 \(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x\),即可对于其他的 \(x\) 进行预测。

三、例子

单变数线性迴归模式

表二、年龄与血压的对应资料。(表格来源:本文作者颜芷筠製)

某医院提供了一份健保门诊病患年龄和血压的资料,如表二所示,

我们想建立此笔资料的迴归模式,则可利用最小平方法,

将此样本资料所计算出来的 \(\hat{\beta_0}\)、\(\hat{\beta_1}\) 得一最适当的迴归线 \(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x\),

而计算后的 \(\hat{\beta_0}=88.9612\)、\(\hat{\beta_1}=0.9344\),

因此迴归线为 \(\hat{y}=88.9612+0.9344x\)(图四),

则当年龄 \(X\) 介于 \(43\) 至 \(80\) 之间,皆可代入此迴归线中,得一预测血压值 \(Y\),

例如当年龄 \(X=50\),可得血压值 \(Y=135.6812\)。

单变数线性迴归模式

图四、年龄与血压之迴归模式。(本文作者颜芷筠绘)


参考文献