要知道的不同類型的回歸分析
已發表: 2020-03-05回歸分析是試圖在因變量與單個或多個自變量之間建立關係的方法。
回歸本身是一個統計概念,但它正在許多與商業相關的領域(如金融、投資、股票市場)以及科學和工程等領域得到應用。
回歸分析的一些新興應用以數據科學、機器學習和人工智能的形式出現,標誌著人類的未來。
- 術語
- 不同類型的回歸分析
- 這有什麼用途?
- 如何選擇合適的型號
與回歸相關的術語
要了解回歸分析的類型,了解相關術語很有用。
異常值
離群值在圖表上的數據圖中可見。 在回歸分析 (1) 中,異常值是圖上明顯落在由其他點組成的雲之外的點。 離群點是必不可少的,因為它們會嚴重影響回歸分析的結果。要理解這個概念,我們假設一棟大樓裡擠滿了收入平均財務背景的專業人士。
他們的平均年薪都在十萬美元左右。 突然,比爾蓋茨和傑夫貝索斯走進大樓,一旦將這兩位億萬富翁的薪水包括在內,平均薪水就變得非常不准確。這兩位知名先生的薪水是這個例子中的異常值。
多重共線性
在回歸分析中,觀察兩個或多個輸入變量之間的相關性,可以觀察到,當添加一個或多個輸入變量時,模型無法使事物對現實世界更加透明。
找出輸入變量之間的關係至關重要。測量回歸模型的多重共線性是找到輸入變量之間關係的一種方法。例如,您可能會遇到一個模型,您願意在其中找出是什麼決定了一個人在特定年齡的工資。考慮了諸如教育背景、年齡和許多其他影響個人平均工資的因素的自變量(因素)。
但是,在您進一步將模型中的每個因素拋諸腦後之前,您需要知道它們是如何關聯的(關聯間)。 如果多重共線性太高,會導致數據混亂,模型就會崩潰。
異方差
當在給定時間內測量的變量標準誤差 (SE) 的讀數不恒定時,就會出現異方差(有時拼寫為異方差)。
對此類數據進行的任何回歸分析都顯示出異方差性,至少會給出有偏的係數並破壞結果。
過擬合
回歸分析中的過度擬合是當變量開始顯示隨機誤差而不是有效地描述變量之間的關係時發生的。 過度擬合會產生大量噪聲,而不是人口的真實表示。 模型的結果已經不現實了。你需要讓你的模型盡可能地接近現實。作為現實世界的舾装示例。 描述真實世界示例中的裝備的最佳詞是“過度概括”。 當誤差或偏差增加時,無法將實際值確定為結果。
欠擬合
當變量的數量幾乎不適合給定模型並且輸出不能保持準確時,就會發生欠擬合。 要從回歸分析中獲得成功的結果,您需要變量的最佳值,因此獲得的模型接近現實。簡而言之,當變量沒有優化,或者模型沒有有效地擬合數據時,它被稱為欠擬合。
回歸分析的類型
任何形式的回歸都有兩種類型的變量。 一種是自變量,也稱為解釋變量,用於輸入。 另一種類型的變量是因變量,也稱為預測變量。 這是您試圖找出的價值或模型的結果。
下面介紹不同類型的回歸分析。
線性回歸
線性回歸處理兩種類型的變量。 一種變量稱為自變量,另一種變量稱為因變量。
自變量沿笛卡爾平面的 x 軸變化,因變量沿 y 軸變化。 這些變量分別是“x”和“y”。 y 的值取決於 x。 當 x 改變時,“y”要么增加,要么減少。
線性回歸有兩種類型。- 簡單線性回歸
- 多元線性回歸
- 簡單線性回歸:在簡單線性回歸中,只有一個因變量和一個因變量。
簡單線性回歸的方程是y=β_0+β_1 x這裡,x代表自變量,是回歸線的斜率,是y截距。 “y”是因變量或結果。
- 多元線性回歸:在多元線性回歸中,因變量是一個,但您有多個自變量。
下面的等式表示多元線性回歸,y= β_0+β_1 x_1+⋯β_n x_n+ ε這裡,y是因變量,是y截距。 表示模型中的多個自變量。 是“偏見”或“錯誤”。 最小化偏差或錯誤是我們的主要目標,以便創建一個接近現實世界情況的模型。
多元回歸
多元回歸不同於多元線性回歸,因為它具有多個因變量和多個自變量的輸入。 因變量 ( y_1,y_2 ,y_3 .... y_n) 在不同的公式中。 它有多個自變量(x_1, x_2, ....x_m)來預測 Ys。 在多元回歸中,所使用的數據大多與其他類型的回歸分析中的數據類型相同。
物流回歸
後勤回歸是繼線性回歸之後第二流行的回歸形式,其用途跨越生物統計學、醫學和社會科學。
邏輯回歸處理布爾值,例如,- 對或錯
- 是還是不是
- 大或小
- 一或零
物流回歸用於對對象進行分類,例如電子郵件是“垃圾郵件”還是“非垃圾郵件”。
簡而言之,邏輯回歸中有一個輸出可以是“真”或“假”。 此外,物流回歸模型中可以有單個輸入或多個輸入。
多項式回歸
在某些情況下,我們必須處理關係是非線性的變量。 在這種情況下,我們的模型是一條曲線,而不是與線性回歸不同的一條線。 因此,我們有另一種形式的回歸,稱為多項式回歸。
多項式回歸方程是輸入變量 x 的升冪,其概括如下。
y= β_0+ β_1 x+〖β〗_2 x^2+〖β〗_3〖x〗^3+⋯β_n x^n+ ε
分位數回歸
分位數回歸的定義與實際情況大不相同。 分位數是統計學中中位數的別稱。
分位數是將輸出數據分成兩個相等部分的點或線。 想像一些數據集在 y 軸上以一條線的形式出現。 數據集被精確地分成兩個相等的部分。 分位數的值在分割點為 0.5 或 50%。
同樣,這兩個等分的數據再次沿 y 軸等分。 這次我們把數據分成四等份,圖下方 y 軸的新分割點為 0.25 或 25%。
同樣,上 y 軸拆分分位數為 0.75 或 75%。 通常,分位數只是將數據分成相等的塊或組的線或點。
分位數在一百個同樣大小的組中吐出數據。 但是,在現實世界中,分位數的定義要靈活得多。
當模型中存在高異方差時,分位數回歸很有用,並且線性回歸不足以準確預測結果,因為線性模型依賴於平均值,而分位數可以更精確地使用中值。
嶺回歸
嶺回歸採用了一種稱為“正則化”的技術。 正則化適用於在測試數據上失敗但通過訓練數據的模型。
當模型中的大多數變量都有用時,嶺回歸效果最好。
當樣本數據顯示多重共線性時,會發生兩件不想要的事情,
- 預測變量係數的最小二乘估計會產生高誤差。
- 標準誤差存在膨脹。
嶺回歸是一種在存在多重共線性的情況下穩定回歸係數的技術。
套索回歸
Lasso 代表“最小絕對收縮和選擇運算符”。 當您有很多無用的變量時,Lasso Regression 表現最好。 Lasso Regression 類似於 Ridge 回歸,但一些差異使其獨一無二。
嶺回歸和套索回歸適用於存在多重共線性的相同場景。 然而,嶺回歸適用於長期預測。
套索回歸對數據應用收縮。 數據值向中心點收縮,如中位數或平均值。
數據模型的簡化和稀疏性是 Lasso Regression 做得最好的功能。 換句話說,數據模型應該具有獲得準確結果的最佳參數。
主成分回歸 (PCR)
主成分分析適用於 x 變量,降低數據的維數。 它涉及在迭代過程中提取具有大多數變化的數據集。
由於該過程是迭代的,因此它可以分析多維數據集,因此主成分回歸克服了普通最小二乘回歸中存在的維數和共線性問題。
彈性網絡回歸
彈性網絡回歸簡化了模型以便於解釋。 一個模型可以有大量的變量(又名參數); 在特定型號中,它們的範圍可達數百萬。 在這樣的模型中,無法確定哪些變量是有用的,哪些是無用的。
在這種情況下,您不知道從 Ridge 回歸和 Lasso 回歸中選擇哪種回歸類型。 在這裡,彈性網絡回歸開始發揮作用以簡化模型。
Elastic-Net 回歸結合了嶺回歸懲罰和套索回歸懲罰,並提供了兩全其美的效果。 它也適用於相關變量。
偏最小二乘法 (PLS)
偏最小二乘法同時考慮解釋變量和因變量。 這種回歸的基本原理是 x 和 y 變量在迭代過程中分解為潛在結構。
PLS 可以處理多重共線性。 它考慮了與 x 和 y 相關的數據結構,為您提供精細的可視化結果來解釋數據。 可以考慮幾個變量。
支持向量回歸
支持向量回歸 (SVR) 是一種適用於連續函數的算法。 從這個意義上說,與支持向量機相比,支持向量機(SVM)處理分類問題。 SVR 預測連續有序變量。
在簡單回歸中,重點必須是最小化錯誤,而支持向量回歸找出錯誤的閾值。
序數回歸
Logistics Regression 處理兩個類別,但在 Ordinal Regression(又名 Ordinal Logistics Regression)中,三個或更多類別在假設明確排序的情況下發揮作用。
當存在一個或多個自變量時,序數回歸有助於預測序數因變量。
泊松回歸
在泊松回歸中,事件發生的計數或速率是重點。
我們在泊松回歸中測量事件發生的速率。 換句話說,我們對事件隨時間發生的次數(計數)進行建模。 在泊松回歸中,時間是恆定的,我們測量事件的計數。
負二項式回歸
對離散(計數)數據集進行建模很有用。 同樣,負二項式回歸有助於當數據的方差高於平均值時,當您繪製數據時,數據的離散度太大。
負二項式模型不假設變量等於基於泊松回歸的模型的均值。
準泊松回歸
準泊松回歸是泊松回歸的推廣。 如前所述,泊松回歸模型取決於通常不公平的假設,即方差等於均值。
當方差是均值的線性函數並且它也高於均值時,準泊松模型就會發揮作用。 這是準泊松更適合適用的場景。
考克斯回歸
Cox 回歸(又名比例風險回歸)研究幾個變量在指定事件發生的持續時間內的影響。
考慮以下可以發現 Cox 回歸有用的事件,
- 第一次心髒病發作後第二次心髒病發作所用的時間。
- 第一次事故後發生第二次事故的時間。
- 從癌症檢測到死亡所用的時間。
事件發生時間數據對於 cox 回歸的應用至關重要。
托比特回歸
當在因變量中發現刪失時,Tobit 回歸在線性關係的估計中派上用場。 審查是對所有自變量的觀察。 因變量值的實際說明僅在有限的觀察範圍內。
貝葉斯回歸
貝葉斯回歸基於概率分佈而不是點估計。 因此,輸出或“y”不是單個值。 這是一個概率分佈。 眾所周知,概率分佈是一個數學函數,而不是一個值。 概率分佈給出了實驗中可能的結果。
當我們根據概率分佈組成線性回歸模型的公式時,我們得到以下表達式。
y ~ N(β^TX,σ^2 I)- 輸出 (y) 是根據均值和方差從正態高斯分佈計算得出的。
- 權重矩陣 (β) 的轉置 (T) 是通過將其與預測矩陣 (X) 相乘而獲得的。
- 方差是標準差的平方 (σ^2 ) 乘以單位矩陣 (I)。
(模型的多維表述正在考慮中)
最小絕對偏差 (LAD) 回歸
最小絕對偏差是用於分析線性模型的最小二乘法的最廣為人知的替代方法。 我們知道,在最小二乘法中,我們將誤差平方和最小化,但在 LAD 中,我們將誤差絕對值之和最小化。 它試圖找到一個與一組數據緊密匹配的函數。
在我們的數據很簡單的情況下,最小絕對偏差是二維笛卡爾平面中的直線。
最小絕對的公式很容易理解。 假設我們的數據集包含兩個變量點( (x_i ,y_i) 和 i=1,2,3,4,5……n。
我們的目標是找到一個近似等於 (~) 的函數 f,如下所示。
f(x_i ) ~ y_i
聲稱函數 f 具有特定形式,其中包含我們需要計算的一些參數。 這裡要注意的一點是,函數 f 可以有 I 個 x 參數(或自變量或解釋變量)。
我們將嘗試找出將最小化以下誤差(或殘差)絕對值之和的參數值。
S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )生態回歸
生態回歸主要在政治科學和歷史等學科中發揮作用。 該技術使我們能夠在宏觀層面上進行計數,並在微觀層面上做出預測。
生態回歸可以確定個人在不同派別和社會群體之間的投票行為。 該估計是基於從以前的帳戶中收集的數據。
生態數據基於特定區域、群體、對像或一段時間內的計數。 簡而言之,匯總數據有助於我們了解縮小到個人的行為。
回歸分析的用途是什麼?
回歸分析可用於獲得多個業務目標。
預測分析
最突出的應用之一是允許更準確地預測特定業務事件的預測分析。 一種類型的預測分析是“需求分析”,它衡量產品銷量的增長。 一個新推出的產品的成功,以及正在運行的產品,都能在市場上得到正確的定位。
作為另一個例子,回歸分析在產品和服務的廣告中有應用。 回歸分析可以預測有多少購物者可能會看到一個廣告。 它可以幫助銷售和營銷專業人員設置宣傳材料的出價。
回歸分析也是保險公司的有用工具。 保險公司使用它來了解保單持有人的信用,並估計可能從客戶那裡提出的索賠數量。
運營效率
組織使用回歸分析來優化他們的運營做出嚴肅的決定。
數據驅動的決策可以排除有問題的決策、憑直覺做出的不准確猜測以及公司政治。
回歸分析正在將管理藝術轉化為科學。 例如,可以將呼叫者的等待時間與呼叫中心或客戶服務部門的投訴數量聯繫起來。
決策支持
今天的組織擁有大量與財務、營銷、運營和許多其他部門相關的數據。 高層決策者更傾向於數據分析和數據科學,以便在消除猜測的情況下做出更明智的決策。
在回歸分析的幫助下,大數據可以進行壓縮以獲取面向行動的精益信息,從而為更準確的決策制定開闢道路。 回歸分析不會移除或替換管理者; 相反,它為他們提供了一個強大的工具,可以做出比以往任何時候都更有影響力和效率的決策。
錯誤修正
回歸分析還有助於識別業務經理在判斷和決策中的直觀錯誤。
例如,商店經理可能決定讓商店在他決定僱用新員工的夜間營業。
回歸分析可以準確地表明,考慮到員工的費用和它在夜間產生的總銷售額不能相互證明。 因此,回歸分析的定量應用能夠排除錯誤的決策。
可行的見解
公司了解並承認數據的價值以及回歸分析技術可以實現的目標,但許多公司未能將這些數據轉化為可操作的見解。 從原始數據中獲得洞察力並非易事。 Forrester 的一份報告稱,74% 的公司希望通過數據輸入做出決定,但只有 29% 的公司成功獲得了可以讓他們做出富有成效的決策的分析。
來自商界的一個重要案例研究是柯尼卡美能達。 柯尼卡是最成功的相機製造商之一。 2000 年,大多數攝影師和相機愛好者轉向數碼相機。
由於 2004 年柯尼卡推出第一款相機時,柯尼卡的最高決策機構做出決策的速度不夠快,尼康和佳能等大多數競爭對手已經在新的數碼相機市場上站穩了腳跟。 結果,在 2006 年,該公司遭受瞭如此慘重的損失,以至於將其大部分技術和資產賣給了索尼。
如果柯尼卡從通過回歸分析和類似技術處理的原始商業和市場數據中獲得洞察力,柯尼卡將能夠在正確的時間做出正確的決定。
提供可操作見解的數據回歸分析將絕對權力掌握在可以成為現實世界遊戲規則改變者的決策者手中。
如何選擇正確的回歸模型?
有數百種回歸類型,我們涵蓋了最流行的類型。
現實世界非常複雜,模型創建者測量了許多變量,但模型中只包含了幾個變量。 分析師排除了對因變量或結果幾乎沒有影響的自變量。
在選擇回歸模型時,應牢記以下簡單事實,通過在回歸方程中放置正確數量的自變量來保持平衡。
- 自變量太少,未指定的模型成為偏差。
- 自變量太多,未指定的模型失去精度。
- 當數學術語沒有偏差並且最精確時,就會創建正確的模型。
最後的想法
回歸分析起源於具有百年曆史的統計學,但隨著大數據的爆炸式增長,它最近受到了關注。 回歸分析正在通過數據分析、數據科學及其在幾乎所有組織中的應用中的統計找到自己的方式。
使用回歸分析創建的回歸模型是增強提供可預測性、運營效率、明智決策、預防錯誤、避免錯誤決策和更好洞察力的不可或缺的工具。
其他有用的資源:
回歸分析在商業中的重要性
回歸分析完整指南