要知道的不同类型的回归分析
已发表: 2020-03-05回归分析是试图在因变量与单个或多个自变量之间建立关系的方法。
回归本身是一个统计概念,但它正在许多与商业相关的领域(如金融、投资、股票市场)以及科学和工程等领域得到应用。
回归分析的一些新兴应用以数据科学、机器学习和人工智能的形式出现,标志着人类的未来。
- 术语
- 不同类型的回归分析
- 这有什么用途?
- 如何选择合适的型号
与回归相关的术语
要了解回归分析的类型,了解相关术语很有用。
异常值
离群值在图表上的数据图中可见。 在回归分析 (1) 中,异常值是图上明显落在由其他点组成的云之外的点。 离群点很重要,因为它们会严重影响回归分析的结果。要理解这个概念,让我们假设一栋大楼里挤满了收入平均财务背景的专业人士。
他们的平均年薪都在十万美元左右。 突然,比尔·盖茨和杰夫·贝索斯走进大楼,一旦你把这两位亿万富翁的工资包括在内,平均工资就变得非常不准确。这两位知名先生的工资是这个例子中的异常值。
多重共线性
在回归分析中,观察两个或多个输入变量之间的相关性,可以观察到当添加一个或多个输入变量时,模型无法使事情对现实世界更加透明。
找出输入变量之间的关系至关重要。测量回归模型的多重共线性是找到输入变量之间关系的一种方法。例如,您可能会遇到一个模型,您愿意在其中找出什么决定了一个人在特定年龄的工资。考虑了诸如教育背景、年龄和许多其他影响个人平均工资的因素的自变量(因素)。
但是,在您进一步将模型中的每个因素抛诸脑后之前,您需要知道它们是如何关联的(关联间)。 如果多重共线性太高,会导致数据混乱,模型就会崩溃。
异方差
当在给定时间内测量的变量标准误差 (SE) 的读数不恒定时,就会出现异方差(有时拼写为异方差)。
对此类数据进行的任何回归分析都显示出异方差性,至少会给出有偏的系数并破坏结果。
过拟合
回归分析中的过度拟合是当变量开始显示随机误差而不是有效地描述变量之间的关系时发生的。 过度拟合会产生大量噪声,而不是人口的真实表示。 模型的结果已经不现实了。你需要让你的模型尽可能地接近现实。作为现实世界的舾装示例。 描述真实世界示例中的装备的最佳词是“过度概括”。 当误差或偏差增加时,无法将实际值确定为结果。
欠拟合
当变量的数量几乎不适合给定模型并且输出不能保持准确时,就会发生欠拟合。 要从回归分析中获得成功的结果,您需要变量的最佳值,因此得到的模型接近现实。简而言之,当变量没有优化,或者模型没有有效地拟合数据时,称为欠拟合。
回归分析的类型
任何形式的回归都有两种类型的变量。 一种是自变量,也称为解释变量,用于输入。 另一种类型的变量是因变量,也称为预测变量。 这是您试图找出的价值或模型的结果。
下面介绍不同类型的回归分析。
线性回归
线性回归处理两种类型的变量。 一种变量称为自变量,另一种变量称为因变量。
自变量沿笛卡尔平面的 x 轴变化,因变量沿 y 轴变化。 这些变量分别是“x”和“y”。 y 的值取决于 x。 当 x 改变时,“y”要么增加,要么减少。
线性回归有两种类型。- 简单线性回归
- 多元线性回归
- 简单线性回归:在简单线性回归中,只有一个因变量和一个因变量。
简单线性回归的方程是y=β_0+β_1 x这里,x代表自变量,是回归线的斜率,是y截距。 “y”是因变量或结果。
- 多元线性回归:在多元线性回归中,因变量是一个,但您有多个自变量。
下面的等式表示多元线性回归,y= β_0+β_1 x_1+⋯β_n x_n+ ε这里,y是因变量,是y截距。 表示模型中的多个自变量。 是“偏见”或“错误”。 最小化偏差或错误是我们的主要目标,以便创建一个接近现实世界情况的模型。
多元回归
多元回归不同于多元线性回归,因为它具有多个因变量和多个自变量的输入。 因变量 ( y_1,y_2 ,y_3 .... y_n) 在不同的公式中。 它有多个自变量(x_1, x_2, ....x_m)来预测 Ys。 在多元回归中,所使用的数据大多与其他类型的回归分析中的数据类型相同。
物流回归
后勤回归是继线性回归之后第二流行的回归形式,其用途跨越生物统计学、医学和社会科学。
逻辑回归处理布尔值,例如,- 对或错
- 是还是不是
- 大或小
- 一或零
物流回归用于对对象进行分类,例如电子邮件是“垃圾邮件”还是“非垃圾邮件”。
简而言之,逻辑回归中有一个输出可以是“真”或“假”。 此外,物流回归模型中可以有单个输入或多个输入。
多项式回归
在某些情况下,我们必须处理关系是非线性的变量。 在这种情况下,我们的模型是一条曲线,而不是与线性回归不同的一条线。 因此,我们有另一种形式的回归,称为多项式回归。
多项式回归方程是输入变量 x 的升幂,其概括如下。
y= β_0+ β_1 x+〖β〗_2 x^2+〖β〗_3〖x〗^3+⋯β_n x^n+ ε
分位数回归
分位数回归的定义与实际情况大不相同。 分位数是统计学中中位数的别称。
分位数是将输出数据分成两个相等部分的点或线。 想象一些数据集在 y 轴上以一条线的形式出现。 数据集被精确地分成两个相等的部分。 分位数的值在分割点为 0.5 或 50%。
同样,这两个等分的数据再次沿 y 轴等分。 这次我们把数据分成四等份,图下方 y 轴的新分割点为 0.25 或 25%。
同样,上 y 轴拆分分位数为 0.75 或 75%。 通常,分位数只是将数据分成相等的块或组的线或点。
分位数在一百个同样大小的组中吐出数据。 但是,在现实世界中,分位数的定义要灵活得多。
当模型中存在高异方差时,分位数回归很有用,并且线性回归不足以准确地预测结果,因为线性模型依赖于平均值,而分位数可以更精确地使用中值。
岭回归
岭回归采用了一种称为“正则化”的技术。 正则化适用于在测试数据上失败但通过训练数据的模型。
当模型中的大多数变量都有用时,岭回归效果最好。
当样本数据显示多重共线性时,会发生两件不想要的事情,
- 预测变量系数的最小二乘估计会产生高误差。
- 标准误差存在膨胀。
岭回归是一种在存在多重共线性的情况下稳定回归系数的技术。
套索回归
Lasso 代表“最小绝对收缩和选择运算符”。 当您有很多无用的变量时,Lasso Regression 表现最好。 Lasso Regression 类似于 Ridge 回归,但一些差异使其独一无二。
岭回归和套索回归适用于存在多重共线性的相同场景。 然而,岭回归适用于长期预测。
套索回归对数据应用收缩。 数据值向中心点收缩,如中位数或平均值。
数据模型的简化和稀疏性是 Lasso Regression 做得最好的功能。 换句话说,数据模型应该具有获得准确结果的最佳参数。
主成分回归 (PCR)
主成分分析适用于 x 变量,降低数据的维数。 它涉及在迭代过程中提取具有大多数变化的数据集。
由于该过程是迭代的,因此它可以分析多维数据集,因此主成分回归克服了普通最小二乘回归中存在的维数和共线性问题。
弹性网络回归
弹性网络回归简化了模型以便于解释。 一个模型可以有大量的变量(又名参数); 在特定型号中,它们的范围可达数百万。 在这样的模型中,无法确定哪些变量是有用的,哪些是无用的。
在这种情况下,您不知道从 Ridge 回归和 Lasso 回归中选择哪种回归类型。 在这里,弹性网络回归开始发挥作用以简化模型。
Elastic-Net 回归结合了岭回归惩罚和套索回归惩罚,并提供了两全其美的效果。 它也适用于相关变量。
偏最小二乘法 (PLS)
偏最小二乘法同时考虑解释变量和因变量。 这种回归的基本原理是 x 和 y 变量在迭代过程中分解为潜在结构。
PLS 可以处理多重共线性。 它考虑了与 x 和 y 相关的数据结构,为您提供精细的可视化结果来解释数据。 可以考虑几个变量。
支持向量回归
支持向量回归 (SVR) 是一种适用于连续函数的算法。 从这个意义上说,与支持向量机相比,支持向量机(SVM)处理分类问题。 SVR 预测连续有序变量。
在简单回归中,重点必须是最小化错误,而支持向量回归找出错误的阈值。
序数回归
Logistics Regression 处理两个类别,但在 Ordinal Regression(又名 Ordinal Logistics Regression)中,三个或更多类别在假设明确排序的情况下发挥作用。
当存在一个或多个自变量时,序数回归有助于预测序数因变量。
泊松回归
在泊松回归中,事件发生的计数或速率是重点。
我们在泊松回归中测量事件发生的速率。 换句话说,我们对事件随时间发生的次数(计数)进行建模。 在泊松回归中,时间是恒定的,我们测量事件的计数。
负二项式回归
对离散(计数)数据集进行建模很有用。 同样,负二项式回归有助于当数据的方差高于平均值时,当您绘制数据时,数据的离散度太大。
负二项式模型不假设变量等于基于泊松回归的模型的均值。
准泊松回归
准泊松回归是泊松回归的推广。 如前所述,泊松回归模型取决于通常不公平的假设,即方差等于均值。
当方差是均值的线性函数并且它也高于均值时,准泊松模型就会发挥作用。 这是准泊松更适合适用的场景。
考克斯回归
Cox 回归(又名比例风险回归)研究几个变量在指定事件发生的持续时间内的影响。
考虑以下可以发现 Cox 回归有用的事件,
- 第一次心脏病发作后第二次心脏病发作所用的时间。
- 第一次事故后发生第二次事故的时间。
- 从癌症检测到死亡所用的时间。
事件发生时间数据对于 cox 回归的应用至关重要。
托比特回归
当在因变量中发现删失时,Tobit 回归在线性关系的估计中派上用场。 审查是对所有自变量的观察。 因变量值的实际说明仅在有限的观察范围内。
贝叶斯回归
贝叶斯回归基于概率分布而不是点估计。 因此,输出或“y”不是单个值。 这是一个概率分布。 众所周知,概率分布是一个数学函数,而不是一个值。 概率分布给出了实验中可能的结果。
当我们根据概率分布组成线性回归模型的公式时,我们得到以下表达式。
y ~ N(β^TX,σ^2 I)- 输出 (y) 是根据均值和方差从正态高斯分布计算得出的。
- 权重矩阵 (β) 的转置 (T) 是通过将其与预测矩阵 (X) 相乘而获得的。
- 方差是标准差的平方 (σ^2 ) 乘以单位矩阵 (I)。
(模型的多维表述正在考虑中)
最小绝对偏差 (LAD) 回归
最小绝对偏差是用于分析线性模型的最小二乘法的最广为人知的替代方法。 我们知道,在最小二乘法中,我们将误差平方和最小化,但在 LAD 中,我们将误差绝对值之和最小化。 它试图找到一个与一组数据紧密匹配的函数。
在我们的数据很简单的情况下,最小绝对偏差是二维笛卡尔平面中的直线。
最小绝对的公式很容易理解。 假设我们的数据集包含两个变量点( (x_i ,y_i) 和 i=1,2,3,4,5……n。
我们的目标是找到一个近似等于 (~) 的函数 f,如下所示。
f(x_i ) ~ y_i
声称函数 f 具有特定形式,其中包含我们需要计算的一些参数。 这里要注意的一点是,函数 f 可以有 I 个 x 参数(或自变量或解释变量)。
我们将尝试找出将最小化以下误差(或残差)绝对值之和的参数值。
S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )生态回归
生态回归主要在政治科学和历史等学科中发挥作用。 该技术使我们能够在宏观层面上进行计数,并在微观层面上做出预测。
生态回归可以确定个人在不同派别和社会群体之间的投票行为。 该估计是基于从以前的帐户中收集的数据。
生态数据基于特定区域、群体、对象或一段时间内的计数。 简而言之,汇总数据有助于我们了解缩小到个人的行为。
回归分析的用途是什么?
回归分析可用于获得多个业务目标。
预测分析
最突出的应用之一是允许更准确地预测特定业务事件的预测分析。 一种类型的预测分析是“需求分析”,它衡量产品销量的增长。 一个新推出的产品的成功,以及正在运行的产品,都能在市场上得到正确的定位。
作为另一个例子,回归分析在产品和服务的广告中有应用。 回归分析可以预测有多少购物者可能会看到一个广告。 它可以帮助销售和营销专业人员设置宣传材料的出价。
回归分析也是保险公司的有用工具。 保险公司使用它来了解保单持有人的信用,并估计可能从客户那里提出的索赔数量。
运营效率
组织使用回归分析来优化他们的运营做出严肃的决定。
数据驱动的决策可以排除有问题的决策、凭直觉做出的不准确猜测以及公司政治。
回归分析正在将管理艺术转化为科学。 例如,可以将呼叫者的等待时间与呼叫中心或客户服务部门的投诉数量联系起来。
决策支持
今天的组织拥有大量与财务、营销、运营和许多其他部门相关的数据。 高层决策者更倾向于数据分析和数据科学,以便在消除猜测的情况下做出更明智的决策。
在回归分析的帮助下,大数据可以进行压缩以获取面向行动的精益信息,从而为更准确的决策制定开辟道路。 回归分析不会移除或替换管理者; 相反,它为他们提供了一个强大的工具,可以做出比以往任何时候都更有影响力和效率的决策。
错误修正
回归分析还有助于识别业务经理在判断和决策中的直观错误。
例如,商店经理可能决定让商店在他决定雇用新员工的夜间营业。
回归分析可以准确地表明,考虑到员工的费用和它在夜间产生的总销售额不能相互证明。 因此,回归分析的定量应用能够排除错误的决策。
可行的见解
公司了解并承认数据的价值以及回归分析技术可以实现的目标,但许多公司未能将这些数据转化为可操作的见解。 从原始数据中获得洞察力并非易事。 Forrester 的一份报告称,74% 的公司希望通过数据输入做出决定,但只有 29% 的公司成功获得了可以让他们做出富有成效的决策的分析。
来自商界的一个重要案例研究是柯尼卡美能达。 柯尼卡是最成功的相机制造商之一。 2000 年,大多数摄影师和相机爱好者转向数码相机。
由于 2004 年柯尼卡推出第一款相机时,柯尼卡的最高决策机构做出决策的速度不够快,尼康和佳能等大多数竞争对手已经在新的数码相机市场上站稳了脚跟。 结果,在 2006 年,该公司遭受了如此惨重的损失,以至于将其大部分技术和资产卖给了索尼。
如果柯尼卡从通过回归分析和类似技术处理的原始商业和市场数据中获得洞察力,柯尼卡将能够在正确的时间做出正确的决定。
提供可操作见解的数据回归分析将绝对权力掌握在可以成为现实世界游戏规则改变者的决策者手中。
如何选择正确的回归模型?
有数百种回归类型,我们涵盖了最流行的类型。
现实世界非常复杂,模型创建者测量了许多变量,但模型中只包含了几个变量。 分析师排除了对因变量或结果几乎没有影响的自变量。
在选择回归模型时,应牢记以下简单事实,以通过在回归方程中放置正确数量的自变量来保持平衡。
- 自变量太少,未指定的模型成为偏差。
- 自变量太多,未指定的模型失去精度。
- 当数学术语没有偏差并且最精确时,就会创建正确的模型。
最后的想法
回归分析起源于具有百年历史的统计学,但随着大数据的爆炸式增长,它最近受到了关注。 回归分析正在通过数据分析、数据科学及其在几乎所有组织中的应用中的统计找到自己的方式。
使用回归分析创建的回归模型是增强提供可预测性、运营效率、明智决策、预防错误、避免错误决策和更好洞察力的不可或缺的工具。
其他有用的资源:
回归分析在商业中的重要性
回归分析完整指南