什麼是簡單回歸分析？ - 指導

已發表: 2020-08-06

您知道簡單的回歸分析可以用於商業中的各種目的嗎？事實上，預測未來的機會和風險是回歸分析在企業中的主要應用之一。此外，公司使用線性回歸模型通過將大量原始數據減少為可操作的信息來優化其業務流程。

在這篇文章中

簡單回歸分析定義
簡單線性回歸模型
如何執行
要知道的關鍵部件
簡單線性回歸的假設
簡單線性回歸分析示例
限制

什麼是簡單回歸分析

基本上，簡單回歸分析是一種統計工具，用於根據過去進行的觀察來量化單個自變量和單個因變量之間的關係。在外行的解釋中，這意味著可以使用簡單的線性回歸分析來證明組織生產機器的小時數（這是自變量）的變化將如何導致組織電力成本的變化.

簡單線性回歸模型

基本上，簡單線性回歸模型可以用與簡單回歸公式相同的值來表示。

y = β ₀ + β ₁ X+ ε。

在簡單的線性回歸模型中，我們考慮了一個自變量和因變量之間的建模。通常，當線性回歸模型中只有一個自變量時，該模型通常稱為簡單線性回歸模型。請記住，當有多個自變量時，它會變成一個多元線性回歸模型。

在簡單線性回歸模型中，y 是指研究或因變量，X 是解釋變量或自變量。表達式β ₀和β ₁是線性回歸模型的參數。 β ₀參數被認為是截距項，而β ₁參數被認為是斜率參數。這些參數的通用術語稱為回歸係數。

表達式“ε”是無法觀察到的誤差，它解釋了數據無法保持在直線上的原因。它還代表了“y”的觀察和真實實現之間的變化。

有幾個原因可以歸因於這些差異。例如，變量可能是定性的，觀察中固有的隨機性，模型中所有已刪除變量的影響也會導致差異。因此，假設 ε 被觀察為獨立且同分佈的隨機變量，均值為 0，方差為 q²。隨後，將進一步假設ε是正態分佈的。

線性回歸模型中的自變量被視為由實驗者控制。這就是為什麼它被認為是非隨機的，而 y 被認為是隨機變量：

E(y) = β ₀ + β ₁ X。和

Var(y) = q²

在某些情況下，X 可以作為隨機變量。在這些情況下，我們將考慮 y 的條件均值，而不是 y 的樣本方差和样本均值，前提是 X = x 為

ε(y) = β0 和 β1

並且 y 的條件方差提供 X = x 為

Var(y|x) = q²。

因此，當β ₀ 、β ₁和q² 的值已知時，簡單回歸分析模型就完全表達了。通常，參數 β ₀ 、β ₁和 q² 在實踐中是未知的，ε 是未觀察到的。因此，您會看到統計模型 y = β ₀ + β ₁ X + ε 的確定是基於對 β ₀ 、β ₁和 q² 的確定（即估計）。為了確定這些參數的值，觀察/收集 (X, y) 上的 n 對觀測值 (x, y)( = 1,…, n) 並用於確定這些未知參數。

總之，在確定參數的估計值時可以採用不同的估計方法。最流行的方法是最小二乘估計和最大似然估計方法。

如何執行簡單的回歸分析

人們執行簡單回歸分析的最常見方式是使用統計程序來快速分析數據。

在 R 中執行簡單的線性回歸

R 是一個統計程序，用於執行簡單的線性回歸分析。它使用廣泛，功能強大且免費。這是它的工作原理。

首先，您必須將 income.data 數據集加載到您的 R 環境中。然後你運行下面的命令來創建一個庫模型來展示幸福和收入之間的關係。

一些線性回歸的 R 代碼

收入.幸福.lm <- lm（幸福~收入，數據=收入.數據）

基本上，此代碼將獲取收集的數據“data = income.data”，然後使用線性模型的方程：lm() 評估自變量“income”對因變量“happiness”的影響。

如何解釋結果

要查看模型的結果，您可以使用 R 中的“summary()”函數：

摘要（收入.幸福.lm）

該函數的作用是從線性模型中獲取最重要的參數並將它們放入表格中。

此結果表最初重複生成結果時使用的公式（“調用”）。此後，它總結了模型殘差（“殘差”）。這有助於深入了解模型與原始數據的擬合程度。

然後我們轉到“係數”表。第一行提供 y 截距的估計值，而第二行提供模型的回歸係數。

表格的第一行標記為“（截取）”。這是回歸方程的 y 截距，值為 0.20。如果您想預測您分析的收入範圍內的幸福值，您可以將其納入回歸方程：

幸福= 0.20 + 0.71*收入±0.018

“係數”表中的下一行是收入。這一行解釋了收入對報告的幸福感的估計影響。

“估計”列是估計的效果。它也可以稱為 r² 值或回歸係數。表中的數字 (0.713) 告訴我們，每增加一個單位的收入（假設一個單位的收入等於 10,000 美元），報告的幸福感就會相應增加 0.71 個單位（以幸福為尺度 1至 10)。

“標準。誤差”列描述了估計的標準誤差。這個數字表明了我們對幸福和收入之間關係的估計的變化程度。

檢驗統計量顯示在“t 值”列中。如果您未另行指定，則線性回歸中使用的檢驗統計量仍是雙面 t 檢驗的 t 值。檢驗統計量越高，我們的結果巧合發生的可能性就越低。

“pr(>| t |)”列描述了 p 值。那裡的圖向我們展示瞭如果沒有影響的零假設是準確的，那麼收入對幸福的估計影響的概率。

由於 p 值非常低（p < 0.001），我們可以駁回原假設並得出收入對幸福具有統計相關影響的結論。

模型摘要的最後 3 行是關於整個模型的統計信息。這裡要記住的最重要的事情是模型的 p 值。它在這裡變得相關（p < 0.001），這意味著該模型是觀察數據的標準擬合。

結果介紹

在結果報告中，添加 p 值、估計的標準誤差和估計的效應（即回歸係數）。您還必須解釋您的數字，以使您的讀者清楚地了解回歸係數的含義。

結果

收入與幸福感之間存在相關關係 (p < 0.001) (R² = 0.71±0.018)，收入每增加 10,000 美元，幸福感就會增加 0.71 個單位。

此外，最好在結果中添加圖表。對於簡單的線性回歸，您所要做的就是在 x 和 y 軸上繪製觀察結果。然後添加回歸函數和回歸線。

簡單的線性回歸公式

簡單線性回歸的公式是

y = β ₀ + β ₁ + ε

簡單回歸分析的關鍵部分

R²

這是關聯的度量。它表示 Y 值的方差百分比，可以通過了解 X 的值來顯示。R² 從最小值 0.0（根本沒有解釋方差）到最大值 +1.0 不等（其中解釋了每個方差）。

塞布

這是指b的註冊值的標準誤差。通過將 b 的值除以其標準誤差來執行係數統計重要性的 t 檢驗。根據經驗法則，高於 2.0 的 t 值通常具有統計相關性，但您必須參考 t 表才能確定。

如果根據 t 值表明 b 係數具有統計相關性，則說明回歸方程中應保留 X 的自變量。這尤其是因為它具有與因變量或 Y 的統計相關關係。在該關係在統計上不相關的情況下，“b 係數”值將與零相同（從統計上講）。

F

這是對整個回歸方程的統計相關性的檢驗。它是通過將描述的方差除以無法解釋的方差來生成的。根據經驗法則，任何高於 4.0 的 F 值通常都具有統計相關性。儘管如此，您必須參考 F 表才能確定。如果 F 是相關的，那麼回歸方程可以幫助我們了解 X 和 Y 之間的關係。

簡單線性回歸的假設

方差同質性：這也可以稱為同方差。這一假設的核心是，我們對自變量值的預測中的誤差大小沒有顯著變化。
觀測值的獨立性：這裡採用統計有效的抽樣方法收集數據集中的觀測值，觀測值之間不存在未知關係。
正態性：這只是假設數據服從正態分佈。

簡單的線性回歸示例

在這裡，我們將引用一個場景作為實現簡單回歸分析的示例。

讓我們假設部署 2 個高速公路巡邏隊時的平均速度為 75 mph，或者部署 10 個高速公路巡邏隊時的平均速度為 35 mph。因此，問題是當部署 5 個高速公路巡邏隊時，高速公路上汽車的平均速度是多少？

使用我們的簡單回歸分析公式，我們可以計算這些值並得出以下等式：Y = 85 + (-5) X，假設 Y 是高速公路上汽車的平均速度。 A = 85，或X = 0時的平均速度

B = (-5)，每輛額外部署的巡邏車對 Y 的影響

X = 部署的巡邏次數

因此，當高速公路巡邏為零時（X=0），高速公路上汽車的平均速度將為 85 mph。每增加一輛高速公路巡邏車，平均速度將降低 5 英里/小時。因此，對於 5 輛巡邏車 (X = 5)，我們有 Y = 85 + (-5) (5) = 85 – 25 = 60 mph。

簡單線性回歸的限制

即使是最好的數據也不能完美。通常，簡單線性回歸分析在研究中廣泛用於標記變量之間存在的關係。但是，由於相關性不能解釋為因果關係，因此兩個變量之間的關係並不意味著一個變量會導致另一個變量的發生。事實上，簡單線性回歸中的一條線可以很好地描述數據點，可能不會帶來因果關係。

使用簡單的回歸分析示例將使您能夠找出變量之間是否存在關係。因此，需要額外的統計分析和研究來確定究竟是什麼關係，以及一個變量是否會導致另一個變量。

最後的想法

總之，今天的企業需要考慮簡單的回歸分析，如果他們需要一個能夠為管理決策提供出色支持並識別判斷錯誤的選項。通過適當的分析，企業隨著時間的推移積累的大量非結構化數據將有可能為企業提供有價值的見解。

其他有用的資源：

要知道的不同類型的回歸分析

回歸分析在商業中的重要性