一元线性回归分析(R语言)
回归分析就是利用样本(已知数据),产生拟合方程,根据回归结果,得出各个因变量对目标变量产生的影响,还可以(对未知数据)进行预测。
计算实例
下面参考薛毅的书例6.5进行阐述一元回归模型的计算过程。
画出散点图
我们利用R画出散点图
1 |
|
可以大致看出图形乘线性增长趋势,做回归分析,设线性回归方程为:
$$y=ax+b$$
根据线性回归方程,在R中描绘出log100关于F的函数
1 |
|
R是怎么画出这条线的?
首先做样本点到一元回归方程且平行与Y轴的一条线段,并求得每个样本点的误差值,这样问题就可以转换为怎么画这条直线才能使得残差平方和最小
什么是残差平方和,对于上图中每个误差值的绝对值的总和称为残差和,由于带着绝对值求解不太方便,所以对误差值的平方后求和,即为残差平方和
$$f\left(a,b\right)=\sum_{i=1}^{n}{\left(Y_i - \left(\ aX_i + b \right)\right)^2}$$
对于函数的极值问题,利用高等数学中偏导数定理,即$$\frac{\delta f}{\delta a}=0$$和$$\frac{\delta f}{\delta b}=0$$。下面为证明过程,由于公式太难打这边就插图了:
最终求得a和b的值。有了这个公式,对于本例子,我们就可以算出拟合直线具体是什么。分别求出公式中的各种平均数,然后带入即可,最后算出a=0.89546,b=-42.13087
最终的回归拟合直线为
$$Y=-42.13087 + 0.89546X$$
评价回归线拟合程度的好坏
可以使用R里面的**summary()**函数解决这个问题。
1 |
|
参数详述
Residuals: 列出了残差的最小值、下四分为数、中位数、上四分为数、最大值
Coefficients : -42.13087表示的是截距、0.89546表示的是斜率,推算的系数的标准差,t值,P-值(结合Signif做显著性检验)
Signif:显著性标记,三颗表示极度显著,二颗表示高度显著,一颗*表示显著,圆点表示不太显著,没有记号表示不显著
Residual standard error : 残差标准查
Multiple R-squared : 相关系数平方
F-statistic: F检验值
推荐一篇不错的blog回归分析法&一元线性回归操作和解释