回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。如:
居民月消费支出与月可支配收收入的关系
商品价格、消费者收入水平与商品需求量的关系
前一个变量被称为被解释变量(Explained Variable)或因变量(Dependent Variable)后一个(些)变量被称为解释变量(Explanatory Variable)或自变量(Independent Variable)。
回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。
回归分析的函数f(x)有线性、非线性关系以及无关系三种。一个被解释变量,一个或多个解释变量(解释变量、控制变量、调节变量、中介变量、工具变量、代理变量)。数据类型分为定性数据、定量数据以及横截面数据、时间序列数据、面板数据(panel data)两个维度。回归分析构成计量经济学的方法论基础,其主要内容包括:1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;2)对回归方程、参数估计值进行检验;3)利用回归方程进行分析、评价及预测。
一元线性回归中,研究对象是自变量x和因变量y之间的关系,数据如下:(x1, y1),(x2, y2), ……(xn, yn)。
一元线性回归模型主要是描述线性相关关系,有两个特点:1)线性趋势:样本分布在一条直线周围,随着x的增加,y有线性上升或线性下降的趋势;2)分散性:样本点没有落在一条直线上,由x不能唯一确定y。
一元线性回归模型的数学形式,即理论回归模型为:
模型假设如下:
回归模型的结论如下:
一元线性回归案例(Python)
1、案例背景:某公司制造一种零件,每月批量生产一次,批量大小根据需求而变化。下表给出最近生产的18次批量和需要的劳动工时数,请建立一元线性回归模型进行分析。
2、代码实现:
# -*- coding: utf-8 -*-#导入库import pandas as pdimport matplotlib.pyplot as pltimport statsmodels.api as smfrom statsmodels.sandbox.regression.predstd import wls_prediction_std#读取数据data=pd.read_csv('simple_regression_case.csv') #需设置路径,并将数据文件放入当前文件夹x= data['x'].values.reshape(-1,1) #读入x的值y= data['y'].values.reshape(-1,1)#读入y的值#画图plt.scatter(x,y)#画x和y的散点图# plt.show#构建回归模型x2=sm.add_constant(x) #回归方程添加一列x0=1mo=sm.OLS(y,x2)#最小二乘法result=mo.fit #拟合数据print(result.summary) #打印结果print(result.conf_int(alpha=0.05, cols=None))#平方和分解print("总平方和SST:result.centered_tss={0:.1f}".format(result.centered_tss))print("回归平方和SSR:result.ess={0:.1f}".format(result.ess))print("残差平方和SSE:result.ssr={0:.1f}".format(result.ssr))#预测y_fitted = result.fittedvalues #计算点预测值_,confidence_interval_lower,confidence_interval_upper = wls_prediction_std(result) #计算区间预测 #画图plt.plot(x,y_fitted,c='r')plt.plot(x,confidence_interval_upper,"r--")plt.plot(x,confidence_interval_lower,"r--")plt.show
3、回归分析
1)散点图:可以看出,需要的劳动工时数与批量大小,呈现很强的线性相关关系。
2)估计的回归方程:
从上图可以看出:截距β0=28.6308(const值),斜率β1=3.9062(const值),所以估计的回归方程为y=28.6308+3.9062x。其中β0的含义是:当批量为0时,平均工时数为28.6308;β1的含义是:当批量每增加一个单位,劳动工时数平均增加3.9062单位
3)t检验
Step 1:提出假设
H0:β1=0(无线性关系)
H1:β1≠0(无线性关系)
Step 2:检验统计量及实现值
Step 3:得出决策。从上图结果页可以观测到,P值=0.000<0.05,拒绝原假设,认为批量大小与劳动工时的线性关系显著。
4)平方和分解和拟合优度检验
名称 | 代码 | 值 |
总平方和SST | result.centered_tss | 255927.6 |
回归平方和SSR | result.ess | 255481.3 |
残差平方和SSE | result.ssr | 30446.3 |
R-squared=SSR/SST=225481.3/255927.6=0.881=88.1%,即2)回归模型中R-squred值。
5)F检验
方差来源 | 自由度 | 平方和 | 均方 | F值 | P值 |
回归 | 16 | 225481.23 | 255481 | 118.5 | 0.000 |
残差 | 1 | 30446.38 | 1902.9 |
|
|
总和 | 17 | 255927.61 |
|
|
|
F=(SSR/1) / (SSE/n-2)=118.4953,P值=0.000。因此拒绝原假设,批量大小和所需工时数的线性关系显著,同时F检验与t检验等价。
6)预测
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/167262.html