什么是简单回归分析? - 指导
已发表: 2020-08-06您知道简单的回归分析可以用于商业中的各种目的吗? 事实上,预测未来的机会和风险是回归分析在企业中的主要应用之一。 此外,公司使用线性回归模型通过将大量原始数据减少为可操作的信息来优化其业务流程。
- 简单回归分析定义
- 简单线性回归模型
- 如何执行
- 要知道的关键部件
- 简单线性回归的假设
- 简单线性回归分析示例
- 限制
什么是简单回归分析
基本上,简单回归分析是一种统计工具,用于根据过去进行的观察来量化单个自变量和单个因变量之间的关系。 在外行的解释中,这意味着可以使用简单的线性回归分析来证明组织生产机器的小时数(这是自变量)的变化将如何导致组织电力成本的变化.
简单线性回归模型
基本上,简单线性回归模型可以用与简单回归公式相同的值来表示。
y = β 0 + β 1 X+ ε。
在简单的线性回归模型中,我们考虑了一个自变量和因变量之间的建模。 通常,当线性回归模型中只有一个自变量时,该模型通常称为简单线性回归模型。 请记住,当有多个自变量时,它会变成一个多元线性回归模型。
在简单线性回归模型中,y 是指研究或因变量,X 是解释变量或自变量。 表达式β 0和β 1是线性回归模型的参数。 β 0参数被认为是截距项,而β 1参数被认为是斜率参数。 这些参数的通用术语称为回归系数。
表达式“ε”是无法观察到的误差,它解释了数据无法保持在直线上的原因。 它还代表了“y”的观察和真实实现之间的变化。
有几个原因可以归因于这些差异。 例如,变量可能是定性的,观察中固有的随机性,模型中所有已删除变量的影响也会导致差异。 因此,假设 ε 被观察为独立且同分布的随机变量,均值为 0,方差为 q²。 随后,将进一步假设ε是正态分布的。
线性回归模型中的自变量被视为由实验者控制。 这就是为什么它被认为是非随机的,而 y 被认为是随机变量:
E(y) = β 0 + β 1 X。和
Var(y) = q²
在某些情况下,X 可以作为随机变量。 在这些情况下,我们将考虑 y 的条件均值,而不是 y 的样本方差和样本均值,前提是 X = x 为
ε(y) = β0 和 β1
并且 y 的条件方差提供 X = x 为
Var(y|x) = q²。
因此,当β 0 、β 1和q² 的值已知时,简单回归分析模型就完全表达了。 通常,参数 β 0 、β 1和 q² 在实践中是未知的,ε 是未观察到的。 因此,您会看到统计模型 y = β 0 + β 1 X + ε 的确定是基于对 β 0 、β 1和 q² 的确定(即估计)。 为了确定这些参数的值,观察/收集 (X, y) 上的 n 对观测值 (x, y)( = 1,…, n) 并用于确定这些未知参数。
总之,在确定参数的估计值时可以采用不同的估计方法。 最流行的方法是最小二乘估计和最大似然估计方法。
如何执行简单的回归分析
人们执行简单回归分析的最常见方式是使用统计程序来快速分析数据。
在 R 中执行简单的线性回归
R 是一个统计程序,用于执行简单的线性回归分析。 它使用广泛,功能强大且免费。 这是它的工作原理。
首先,您必须将 income.data 数据集加载到您的 R 环境中。 然后你运行下面的命令来创建一个库模型来展示幸福和收入之间的关系。
一些线性回归的 R 代码
收入.幸福.lm <- lm(幸福~收入,数据=收入.数据)
基本上,此代码将获取收集的数据“data = income.data”,然后使用线性模型的方程:lm() 评估自变量“income”对因变量“happiness”的影响。
如何解释结果
要查看模型的结果,您可以使用 R 中的“summary()”函数:
摘要(收入.幸福.lm)
该函数的作用是从线性模型中获取最重要的参数并将它们放入表格中。
此结果表最初重复生成结果时使用的公式(“调用”)。 此后,它总结了模型残差(“残差”)。 这有助于深入了解模型与原始数据的拟合程度。
然后我们转到“系数”表。 第一行提供 y 截距的估计值,而第二行提供模型的回归系数。
表格的第一行标记为“(截取)”。 这是回归方程的 y 截距,值为 0.20。 如果您想预测您分析的收入范围内的幸福值,您可以将其纳入回归方程:
幸福= 0.20 + 0.71*收入±0.018
“系数”表中的下一行是收入。 这一行解释了收入对报告的幸福感的估计影响。
“估计”列是估计的效果。 它也可以称为 r² 值或回归系数。 表中的数字 (0.713) 告诉我们,每增加一个单位的收入(假设一个单位的收入等于 10,000 美元),报告的幸福感就会相应增加 0.71 个单位(以幸福为尺度 1至 10)。
“标准。 误差”列描述了估计的标准误差。 这个数字表明了我们对幸福和收入之间关系的估计的变化程度。
检验统计量显示在“t 值”列中。 如果您未另行指定,则线性回归中使用的检验统计量仍是双面 t 检验的 t 值。 检验统计量越高,我们的结果巧合发生的可能性就越低。
“pr(>| t |)”列描述了 p 值。 那里的图向我们展示了如果没有影响的零假设是准确的,那么收入对幸福的估计影响的概率。
由于 p 值非常低(p < 0.001),我们可以驳回原假设并得出收入对幸福具有统计相关影响的结论。
模型摘要的最后 3 行是关于整个模型的统计信息。 这里要记住的最重要的事情是模型的 p 值。 它在这里变得相关(p < 0.001),这意味着该模型是观察数据的标准拟合。
结果介绍
在结果报告中,添加 p 值、估计的标准误差和估计的效果(即回归系数)。 您还必须解释您的数字,以使您的读者清楚地了解回归系数的含义。
结果
收入与幸福感之间存在相关关系 (p < 0.001) (R² = 0.71±0.018),收入每增加 10,000 美元,幸福感就会增加 0.71 个单位。
此外,最好在结果中添加图表。 对于简单的线性回归,您所要做的就是在 x 和 y 轴上绘制观察结果。 然后添加回归函数和回归线。
简单的线性回归公式
简单线性回归的公式是
y = β 0 + β 1 + ε
简单回归分析的关键部分
R²
这是关联的度量。 它表示 Y 值的方差百分比,可以通过了解 X 的值来显示。R² 从最小值 0.0(根本没有解释方差)到最大值 +1.0 不等(其中解释了每个方差)。
塞布
这是指b的注册值的标准误差。 通过将 b 的值除以其标准误差来执行系数统计重要性的 t 检验。 根据经验法则,高于 2.0 的 t 值通常具有统计相关性,但您必须参考 t 表才能确定。
如果根据 t 值表明 b 系数具有统计相关性,则说明回归方程中应保留 X 的自变量。 这尤其是因为它具有与因变量或 Y 的统计相关关系。在该关系在统计上不相关的情况下,“b 系数”值将与零相同(从统计上讲)。
F
这是对整个回归方程的统计相关性的检验。 它是通过将描述的方差除以无法解释的方差来生成的。 根据经验法则,任何高于 4.0 的 F 值通常都具有统计相关性。 尽管如此,您必须参考 F 表才能确定。 如果 F 是相关的,那么回归方程可以帮助我们了解 X 和 Y 之间的关系。
简单线性回归的假设
- 方差同质性:这也可以称为同方差。 这一假设的核心是,我们对自变量值的预测中的误差大小没有显着变化。
- 观测值的独立性:这里采用统计有效的抽样方法收集数据集中的观测值,观测值之间不存在未知关系。
- 正态性:这只是假设数据服从正态分布。
简单的线性回归示例
在这里,我们将引用一个场景作为实现简单回归分析的示例。
让我们假设部署 2 个高速公路巡逻队时的平均速度为 75 mph,或者部署 10 个高速公路巡逻队时的平均速度为 35 mph。 因此,问题是当部署 5 个高速公路巡逻队时,高速公路上汽车的平均速度是多少?
使用我们的简单回归分析公式,我们可以计算这些值并得出以下等式:Y = 85 + (-5) X,假设 Y 是高速公路上汽车的平均速度。 A = 85,或X = 0时的平均速度
B = (-5),每辆额外部署的巡逻车对 Y 的影响
X = 部署的巡逻次数
因此,当高速公路巡逻为零时(X=0),高速公路上汽车的平均速度将为 85 mph。 每增加一辆高速公路巡逻车,平均速度将降低 5 英里/小时。 因此,对于 5 辆巡逻车 (X = 5),我们有 Y = 85 + (-5) (5) = 85 – 25 = 60 mph。
简单线性回归的限制
即使是最好的数据也不能完美。 通常,简单线性回归分析在研究中广泛用于标记变量之间存在的关系。 但是,由于相关性不能解释为因果关系,因此两个变量之间的关系并不意味着一个变量会导致另一个变量的发生。 事实上,简单线性回归中的一条线可以很好地描述数据点,可能不会带来因果关系。
使用简单的回归分析示例将使您能够找出变量之间是否存在关系。 因此,需要额外的统计分析和研究来确定究竟是什么关系,以及一个变量是否会导致另一个变量。
最后的想法
总之,今天的企业需要考虑简单的回归分析,如果他们需要一个能够为管理决策提供出色支持并识别判断错误的选项。 通过适当的分析,企业随着时间的推移积累的大量非结构化数据将有可能为企业提供有价值的见解。
其他有用的资源:
要知道的不同类型的回归分析
回归分析在商业中的重要性