数据分析知识体系及实践(十四)- 一元线性回归

生活的钟摆课程2024-04-06 13:40:58  135

回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。如:

居民月消费支出与月可支配收收入的关系

商品价格、消费者收入水平与商品需求量的关系

前一个变量被称为被解释变量(Explained Variable)或因变量(Dependent Variable)后一个(些)变量被称为解释变量(Explanatory Variable)或自变量(Independent Variable)。

回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。

回归分析的函数f(x)有线性、非线性关系以及无关系三种。一个被解释变量,一个或多个解释变量(解释变量、控制变量、调节变量、中介变量、工具变量、代理变量)。数据类型分为定性数据、定量数据以及横截面数据、时间序列数据、面板数据(panel data)两个维度。回归分析构成计量经济学的方法论基础,其主要内容包括:1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;2)对回归方程、参数估计值进行检验;3)利用回归方程进行分析、评价及预测。

一元线性回归中,研究对象是自变量x和因变量y之间的关系,数据如下:(x1, y1),(x2, y2), ……(xn, yn)。

一元线性回归模型主要是描述线性相关关系,有两个特点:1)线性趋势:样本分布在一条直线周围,随着x的增加,y有线性上升或线性下降的趋势;2)分散性:样本点没有落在一条直线上,由x不能唯一确定y。

一元线性回归模型的数学形式,即理论回归模型为:

模型假设如下:

回归模型的结论如下:

一元线性回归案例(Python)

1、案例背景:某公司制造一种零件,每月批量生产一次,批量大小根据需求而变化。下表给出最近生产的18次批量和需要的劳动工时数,请建立一元线性回归模型进行分析。

2、代码实现:

# -*- coding: utf-8 -*-#导入库import pandas as pdimport matplotlib.pyplot as pltimport statsmodels.api as smfrom statsmodels.sandbox.regression.predstd import wls_prediction_std#读取数据data=pd.read_csv('simple_regression_case.csv') #需设置路径,并将数据文件放入当前文件夹x= data['x'].values.reshape(-1,1) #读入x的值y= data['y'].values.reshape(-1,1)#读入y的值#画图plt.scatter(x,y)#画x和y的散点图# plt.show#构建回归模型x2=sm.add_constant(x) #回归方程添加一列x0=1mo=sm.OLS(y,x2)#最小二乘法result=mo.fit #拟合数据print(result.summary) #打印结果print(result.conf_int(alpha=0.05, cols=None))#平方和分解print("总平方和SST:result.centered_tss={0:.1f}".format(result.centered_tss))print("回归平方和SSR:result.ess={0:.1f}".format(result.ess))print("残差平方和SSE:result.ssr={0:.1f}".format(result.ssr))#预测y_fitted = result.fittedvalues #计算点预测值_,confidence_interval_lower,confidence_interval_upper = wls_prediction_std(result) #计算区间预测 #画图plt.plot(x,y_fitted,c='r')plt.plot(x,confidence_interval_upper,"r--")plt.plot(x,confidence_interval_lower,"r--")plt.show

3、回归分析

1)散点图:可以看出,需要的劳动工时数与批量大小,呈现很强的线性相关关系。

2)估计的回归方程:

从上图可以看出:截距β0=28.6308(const值),斜率β1=3.9062(const值),所以估计的回归方程为y=28.6308+3.9062x。其中β0的含义是:当批量为0时,平均工时数为28.6308;β1的含义是:当批量每增加一个单位,劳动工时数平均增加3.9062单位

3)t检验

Step 1:提出假设

H0:β1=0(无线性关系)

H1:β1≠0(无线性关系)

Step 2:检验统计量及实现值

Step 3:得出决策。从上图结果页可以观测到,P值=0.000<0.05,拒绝原假设,认为批量大小与劳动工时的线性关系显著。

4)平方和分解和拟合优度检验

名称

代码

总平方和SST

result.centered_tss

255927.6

回归平方和SSR

result.ess

255481.3

残差平方和SSE

result.ssr

30446.3

R-squared=SSR/SST=225481.3/255927.6=0.881=88.1%,即2)回归模型中R-squred值。

5)F检验

方差来源

自由度

平方和

均方

F值

P值

回归

16

225481.23

255481

118.5

0.000

残差

1

30446.38

1902.9



总和

17

255927.61




F=(SSR/1) / (SSE/n-2)=118.4953,P值=0.000。因此拒绝原假设,批量大小和所需工时数的线性关系显著,同时F检验与t检验等价。

6)预测

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/167262.html
0
随机主题
瑞丰银行: 山高路远, 道阻且长男单爆大冷! 男单世界冠军2-3日本选手, 无缘开门红, 球迷很意外打起来了? 以军再次发起“斩首行动”, 以色列或被围攻, 美英失声LOL官方推特: 如果全世界都与Faker为敌, 那我就与全世界为敌新手练车最基本最开始需要练习的起步停车,可以循环练习,感受离合器的运用历史重演?海港外援不满被换下:当场与教练组发生“内讧”!我的视频就是为了这个??????一不小心中国又领先了, 2023年, 中国电力需求增长6.9%正义不能总是迟到, 国际法院终于要对以色列动手, 给世界上了一课中国小县城打破欧美垄断, 制霸全球房车Uzi传奇杯首败后, 完成偷龙翻盘! 小伞彻底破防, icon生日夜沉默乐道L60开启预售, 起售价为21.99万元8900多买了部华为pura70ultra手机,玩游戏流畅60帧非常给力哈哈辽篮夺冠发布会杨导感谢所有人!夸赞新疆主场新疆球迷!年轻人的第1台插混SUV, 星途追风C-DM关于卖好纯电车, 给理想汽车几个不成熟的建议赵燕菁: 房地产新政本质是救债务端, 这关乎中美博弈的走势底盘革新之作——问界新M7 Max焕新版即将正式上市英国官员: 英国不能承受在贸易问题上“冷落”中国的代价《庆余年2》范闲收服桑文, 他还不知, 桑文让他将来得以掌控庆国与预售价一样 2.4T乘用炮、商用炮上市 12.58万元起售
最新回复(0)