知っておくべきさまざまなタイプの回帰分析
公開: 2020-03-05回帰分析は、従属変数と単一または複数の独立変数の間の関係を確立しようとする方法論です。
回帰は本来、統計的な概念ですが、金融、投資、株式市場などの多くのビジネス関連分野だけでなく、科学や工学などの分野でもその用途が見出されています。
人類の未来を示すデータサイエンス、機械学習、人工知能の形で回帰分析のいくつかの新進気鋭のアプリケーションがあります。
- 用語
- さまざまなタイプの回帰分析
- それは何のために使われますか?
- 適切なモデルを選択する方法
回帰に関連する用語
回帰分析の種類を理解するには、関連する用語を理解することが役立ちます。
外れ値
外れ値は、グラフ上のデータプロットで表示されます。 回帰分析(1)では、外れ値は、他のポイントで構成されるクラウドのかなり外側にあるグラフ上のポイントです。 外れ値のポイントは、回帰分析の結果に大きな影響を与える可能性があるため、不可欠です。この概念を理解するために、建物が、収益の面で平均的な経済的背景を持つ専門家で満たされていると仮定します。
それらはすべて年間約10万ドルの平均給与を持っています。 突然、ビル・ゲイツとジェフ・ベゾスが建物に足を踏み入れ、これらの20億人の給与を含めると、平均給与は大幅に不正確になります。この例では、これら2人の有名な紳士の給与は外れ値です。
多重共線性
回帰分析では、2つ以上の入力変数間の相関関係を見ると、1つ以上の入力変数の追加が行われると、モデルが現実世界について物事をより透明にすることができないことが観察できます。
入力変数が互いにどのように関連しているかを調べることが重要です。回帰モデルの多重共線性を測定することは、入力変数間の関係を見つける方法です。例として、あなたが見つけたいと思っているモデルに出くわすことがあります。特定の年齢の人の給与を決定するもの。学歴、年齢、および個人の平均給与に影響を与える他の多くの要因などの独立変数(要因)が考慮されます。
ただし、先に進んでモデルの太陽の下にすべての要素を投げる前に、それらがどのように相関するか(相互に関連するか)を知る必要があります。 多重共線性が高くなりすぎると、データの乱れが発生し、モデルが崩壊します。
不均一分散
不均一分散(不均一分散と綴られることもあります)は、特定の時間にわたって測定された変数の標準誤差(SE)の読み取り値が一定でない場合に発生します。
不均一分散性を示すそのようなデータで実行される回帰分析は、少なくとも、偏った係数を与え、結果を台無しにします。
過剰適合
回帰分析での過剰適合は、変数間の関係を効率的に説明するのではなく、変数がランダムエラーを示し始めたときに発生します。 過剰適合は、母集団の実際の表現ではなく、多くのノイズを生成します。 モデルの結果はもはや現実的ではありません。モデルをできるだけ現実に近づける必要があります。現実世界からの艤装の例として。 実際の例からの艤装を説明する最も良い言葉は、「過度の一般化」です。 エラーまたはバイアスが増加している場合、現実的な値を結果として決定することはできません。
アンダーフィッティング
変数の数が特定のモデルにほとんど適合せず、出力が正確に保たれない場合、適合不足が発生します。 回帰分析の結果を成功させるには、変数の最適値が必要であるため、得られるモデルは現実に近くなります。つまり、変数が最適化されていない場合、またはモデルがデータに効率的に適合しない場合、それはと呼ばれます。アンダーフィット。
回帰分析の種類
回帰のどの形式にも2つのタイプの変数があります。 1つは独立変数、または説明変数とも呼ばれ、入力に使用されます。 もう1つのタイプの変数は、予測変数とも呼ばれる従属変数です。 それはあなたが見つけようとしている価値またはモデルの結果です。
以下では、さまざまなタイプの回帰分析について説明します。
線形回帰
線形回帰は、2つのタイプの変数を扱います。 1つの変数は独立変数と呼ばれ、もう1つの種類の変数は従属変数です。
独立変数はデカルト平面のx軸に沿って変化し、従属変数はy軸に沿って変化します。 これらの変数は、それぞれ「x」と「y」です。 yの値はxに依存します。 xが変化すると、「y」は増加または減少します。
線形回帰には2つのタイプがあります。- 単純な線形回帰
- 重回帰
- 単純線形回帰:単純線形回帰では、1つの従属変数と1つの従属変数のみがあります。
単純線形回帰の方程式は次のとおりです。y=β_0+β_1xここで、xは独立変数を表し、は回帰直線の傾きであり、はy切片です。 「y」は従属変数または結果です。
- 重回帰:重回帰では、従属変数は1つですが、複数の独立変数があります。
次の方程式は、重回帰を表します。y=β_0+β_1x_1+⋯β_nx_n+εここで、yは従属変数、はy切片です。 モデル内の複数の独立変数を示します。 「バイアス」または「エラー」です。 バイアスやエラーの最小化は、現実の状況に近いモデルを作成するための私たちの主な目的です。
多変量回帰
多変量回帰は、複数の独立変数の入力を持つ複数の従属変数があるという意味で、多重線形回帰とは異なります。 従属変数(y_1、y_2、y_3….y_n)は異なる式になっています。 また、Yを予測するために、複数の独立変数(x_1、x_2、….x_m)があります。 多変量回帰では、使用されるデータは、他のタイプの回帰分析とほとんど同じタイプです。
ロジスティック回帰
ロジスティック回帰は、線形回帰に次いで2番目に人気のある回帰の形式であり、その用途は生物統計学、医学、社会科学に及びます。
ロジスティック回帰は、次のようなブール値を処理します。- 正しいか間違っているか
- はい、もしくは、いいえ
- 大なり小なり
- 1または0
ロジスティック回帰は、電子メールが「スパム」または「スパムではない」などのオブジェクトの分類に使用されます。
つまり、ロジスティック回帰には、「True」または「False」のいずれかの出力が1つあります。 さらに、ロジスティック回帰モデルには、単一の入力または複数の入力が存在する可能性があります。
多項式回帰
関係が非線形である変数を処理しなければならない場合があります。 このような場合、モデルは曲線であり、線形回帰のように線ではありません。 したがって、多項式回帰として知られる別の形式の回帰があります。
多項式回帰の方程式は、入力変数xの昇乗であり、その一般化は以下のとおりです。
y =β_0+β_1x+〖β〗_2x ^ 2 +〖β〗_3〖x〗^ 3 +⋯β_nx^ n +ε
分位点回帰
分位点回帰の定義は、実際の定義とは大きく異なります。 分位数は、統計の中央値の別名です。
分位数は、出力データを2つの等しい部分に分割する点または線です。 y軸上の線の形でいくつかのデータセットを想像してみてください。 データセットは、正確に2つの等しい部分に分割されます。 分位数の値は、分割の時点で0.5または50%です。
同じように、2つの均等に分割されたデータは、y軸に沿って再び均等に分割されます。 今回は、データを4つの等しい部分に分割しました。グラフの下のy軸の新しい分割点は、0.25または25%です。
同様に、上部のy軸分割分位数は0.75または75%です。 一般に、分位数は、データを等しいチャンクまたはグループに分割する単なる線または点です。
分位数は、同じサイズの100のグループにデータを吐き出します。 しかし、現実の世界では、分位数の定義ははるかに柔軟です。
分位点回帰は、モデルに高い不均一分散が存在する場合に役立ちます。線形モデルは平均値に依存し、分位数は中央値でより正確になる可能性があるため、線形回帰は結果を予測するのに十分な精度ではありません。
リッジ回帰
リッジ回帰は、「正則化」と呼ばれる手法を採用しています。 正則化は、データのテストに失敗したがトレーニングデータを渡すモデルに適しています。
リッジ回帰は、モデル内のほとんどの変数が役立つ場合に最適に機能します。
サンプルデータが多重共線性を示している場合、2つの望ましくないことが起こります。
- 予測変数の係数の最小二乗推定は、高い誤差を与えます。
- 標準誤差にはインフレがあります。
リッジ回帰は、多重共線性が存在する場合に回帰係数を安定化するための手法です。
ラッソ回帰
ラッソは「最小絶対収縮および選択演算子」の略です。 ラッソ回帰は、役に立たない変数がたくさんある場合に最高のパフォーマンスを発揮します。 ラッソ回帰はリッジ回帰に似ていますが、いくつかの違いによりユニークになっています。
リッジ回帰とラッソ回帰は、多重共線性が存在する同じシナリオに適用できます。 ただし、リッジ回帰は長期予測に適しています。
ラッソ回帰は、データに収縮を適用します。 データ値は、中央値や平均値などの中心点に向かって縮小します。
データモデルの単純化とまばらさは、ラッソ回帰が最も効果を発揮する関数です。 言い換えれば、データモデルは正確な結果を得るために最適なパラメータを持っている必要があります。
主成分回帰(PCR)
主成分分析にはx変数への適用があり、データの次元を減らします。 これには、反復プロセスでほとんどのバリエーションを持つデータセットの抽出が含まれます。
このプロセスは反復的であり、多次元データセットを分析できるため、主成分回帰は、通常の最小二乗回帰に存在する次元性と共線性の問題を克服します。
エラスティックネット回帰
エラスティックネット回帰は、解釈を容易にするためにモデルを単純化します。 モデルには大量の変数(別名パラメーター)を含めることができます。 特定のモデルでは、最大で数百万に及ぶ可能性があります。 このようなモデルでは、どの変数が有用でどれが役に立たないかを判断することはできません。
このような場合、リッジ回帰とラッソ回帰からどちらの回帰タイプを選択するかがわかりません。 ここでは、モデルを単純化するためにエラスティックネット回帰が機能します。
Elastic-Net Regressionは、リッジ回帰ペナルティとラッソ回帰ペナルティを組み合わせて、両方の長所を提供します。 また、相関変数でもうまく機能します。
部分最小二乗(PLS)
部分最小二乗法は、説明変数と従属変数の両方を考慮します。 このタイプの回帰の基本原理は、x変数とy変数が反復プロセスで潜在構造に分解されることです。
PLSは多重共線性を処理できます。 xとyに関連するデータ構造を考慮に入れ、データを解釈するための精巧な視覚的結果を提供します。 いくつかの変数を考慮に入れることができます。
ベクトル回帰をサポートする
サポートベクター回帰(SVR)は、連続関数で機能するアルゴリズムです。 この意味で、サポートベクターマシン(SVM)が分類問題を処理するのはサポートベクターマシンとは対照的です。 SVRは、連続順序変数を予測します。
単純な回帰では、サポートベクター回帰がエラーのしきい値を検出する間、エラーを最小化することに重点を置く必要があります。
通常の回帰
ロジスティック回帰は2つのカテゴリを扱いますが、順序回帰(別名、順序ロジスティック回帰)では、明確な順序を前提として3つ以上のカテゴリが機能します。
順序回帰は、1つ以上の独立変数が存在する場合に、順序従属変数を予測するのに役立ちます。
ポアソン回帰
ポアソン回帰では、イベントが発生するカウントまたはレートが主な焦点です。
ポアソン回帰でイベントが発生する割合を測定します。 つまり、時間の経過とともにイベントが発生する回数(カウント)をモデル化します。 ポアソン回帰では、時間は一定であり、イベントの数を測定します。
負の二項回帰
離散(カウント)データセットをモデル化すると便利です。 同じように、負の二項回帰は、データの分散がプロットしたときにデータの分散が大きすぎるという平均と比較して、データの分散が大きい場合に役立ちます。
負の二項モデルは、ポアソン回帰に基づくモデルのように、変数が平均に等しいとは想定していません。
準ポアソン回帰
準ポアソン回帰は、ポアソン回帰の一般化です。 前に述べたように、ポアソン回帰モデルは、分散が平均に等しいという通常は不公平な仮定に依存します。
準ポアソンモデルは、分散が平均の線形関数であり、平均よりも高い場合に機能します。 これは、準ポアソンが適用可能であることがより適切である場合のシナリオです。
コックス回帰
Cox Regression(別名比例ハザード回帰)は、指定されたイベントが発生するまでの期間について、いくつかの変数の影響を調査します。
Cox回帰が役立つと思われる次のイベントについて考えてみます。
- 最初の心臓発作後の2回目の心臓発作にかかった時間。
- 最初の事故から2回目の事故にかかった時間。
- がんの発見から死ぬまでにかかった時間。
イベントまでの時間のデータは、cox回帰の適用に不可欠です。
トービット回帰
Tobit回帰は、従属変数で打ち切りが見つかった場合の線形関係の推定に役立ちます。 打ち切りは、すべての独立変数の観測です。 従属変数の値の実際の説明は、限られた範囲の観測値にのみ含まれます。
ベイズ回帰
ベイズ回帰は、点推定ではなく確率分布に基づいています。 結果として、出力または「y」は単一の値ではありません。 確率分布です。 確率分布は数学関数であり、値ではないことがわかっています。 確率分布は、実験で可能な結果を示します。
確率分布に基づいて線形回帰モデルの定式化を構成すると、次の式が得られます。
y〜N(β^ TX、σ^ 2I)- 出力(y)は、平均と分散に応じて正規ガウス分布から計算されます。
- 重み行列(β)の転置(T)は、予測行列(X)を乗算することによって得られます。
- 分散は、標準偏差の2乗(σ^ 2)に単位行列(I)を掛けたものです。
(モデルの多次元定式化が検討されています)
最小絶対偏差(LAD)回帰
最小絶対偏差は、線形モデルを分析するための最小二乗法の最も広く知られている代替手段です。 最小二乗法では、二乗誤差の合計を最小化しますが、LADでは、誤差の絶対値の合計を最小化します。 データセットにぴったり合う関数を見つけようとします。
データが単純な場合、最小絶対偏差は2次元デカルト平面の直線です。
最小絶対者の定式化は非常に簡単に理解できます。 データセットが2つの可変点((x_i、y_i)とi = 1,2,3,4,5……nで構成されていると仮定します。
私たちの目的は、以下に示すように、(〜)にほぼ等しい関数fを見つけることです。
f(x_i)〜y_i
主張は、関数fは、計算する必要のあるいくつかのパラメーターを含む特定の形式であるということです。 ここで注意すべき点は、関数fはI個のxパラメーター(または独立変数または説明変数)を持つことができるということです。
エラー(または残差)の絶対値の次の合計を最小化するパラメーターの値を見つけようとします。
S = ∑_(i = 1)^n▒〖| y_i〗-f(x_(i))生態学的退行
生態学的回帰は、主に政治学や歴史などの主題に役立ちます。 この手法により、マクロレベルでカウントを行い、ミクロレベルで予測を行うことができます。
生態学的回帰は、異なる派閥や社会集団間の個人の投票行動を決定することができます。 見積もりは、以前のアカウントから収集されたデータに基づいています。
生態学的データは、特定の地域、グループ、オブジェクト、または時間の経過に伴うカウントに基づいています。 つまり、集合体データは、個人に絞り込まれた行動について学ぶのに役立ちます。
回帰分析は何に使用されますか?
回帰分析は、いくつかのビジネス目標を取得するのに役立ちます。
予測分析
最も有名なアプリケーションの1つは、特定のビジネスイベントをより正確に予測できる予測分析です。 予測分析の1つのタイプは、製品の売上の増加を測定する「需要分析」です。 新たに発売された製品の成功だけでなく、実行中の製品も、市場で正しく位置付けることができます。
別の例として、回帰分析には、製品やサービスの広告にアプリケーションがあります。 回帰分析を使用すると、広告に出くわす可能性のある買い物客の数を予測できます。 これは、販売およびマーケティングの専門家が販促資料の入札価格を設定するのに役立ちます。
回帰分析は、保険会社にとっても役立つツールです。 保険会社はこれを使用して、保険契約者の信用を調べ、顧客から提起される可能性のある請求の数を見積もります。
運用効率
組織は、回帰分析を使用して運用を最適化することで深刻な決定を下します。
データ主導の意思決定は、疑わしい意思決定、直感による不正確な当て推量、および企業の政治を除外する可能性があります。
回帰分析は、管理の芸術を科学に変換しています。 一例として、発信者の待ち時間を、コールセンターまたはカスタマーケア部門の苦情の数と関連付けることができます。
意思決定サポート
今日の組織には、財務、マーケティング、運用、およびその他の多くの部門に関連する大量のデータがあります。 最高の意思決定者は、当て推量を排除して、より多くの情報に基づいた意思決定を行うために、データ分析とデータサイエンスにさらに傾倒しています。
回帰分析の助けを借りて、ビッグデータはアクション指向の無駄のない情報のために圧縮され、より正確な意思決定への道を開くことができます。 回帰分析では、マネージャーが削除または置き換えられることはありません。 代わりに、これまで以上に影響力のある効率的な意思決定を行うための強力なツールを手に入れます。
エラー訂正
回帰分析は、ビジネスマネージャーの判断と意思決定における直感的なエラーを特定するのにも役立ちます。
例として、店長は、新しいスタッフを雇うことを決定した夜間に店を開いたままにすることを決定する場合があります。
回帰分析は、スタッフの経費と夜間に発生する総売上高を考慮すると、相互に正当化できないことを正確に示すことができます。 したがって、回帰分析を定量的に適用することで、悪い意思決定を排除することができます。
実用的な洞察
企業は、データの価値と回帰分析の手法によって何が達成できるかを理解して認識していますが、多くの企業はこのデータを実用的な洞察に変換できていません。 生データから洞察を引き出すことは簡単な作業ではありません。 Forresterのレポートによると、企業の74%がデータ入力を使用して意思決定を望んでいますが、実りある意思決定を可能にする分析の取得に成功しているのは29%にすぎません。
ビジネス界からの重要なケーススタディの1つは、コニカミノルタです。 コニカは、カメラの最も成功したメーカーの1つでした。 2000年には、ほとんどの写真家とカメラ愛好家がデジタルカメラに移行しました。
コニカが最初のカメラを発売した2004年までに、コニカの最高意思決定機関は十分な速さで意思決定を下しませんでした。ニコンやキヤノンなどの競合他社のほとんどは、新しいデジタルカメラ市場で確固たる地位を築いていました。 その結果、2006年に同社は多大な損失を被り、その技術と資産の多くをソニーに売却しました。
コニカが回帰分析や同様の手法で処理された生の商業データと市場データからの洞察を持っていれば、コニカは適切なタイミングで適切な意思決定を行うことができたでしょう。
実用的な洞察を提供するデータ回帰分析は、現実の世界でゲームチェンジャーになる可能性のある意思決定者の手に大きな力をもたらします。
適切な回帰モデルを選択する方法は?
回帰には何百ものタイプがあり、最も人気のあるタイプをカバーしました。
現実の世界は非常に複雑であり、モデルの作成者は多くの変数を測定しますが、モデルに含めるのはごくわずかです。 アナリストは、従属変数または結果にほとんどまたはまったく影響を与えない独立変数を除外します。
回帰モデルを選択するときは、回帰方程式に正しい数の独立変数を入れてバランスを維持するために、次の簡単な事実に留意する必要があります。
- 独立変数が少なすぎると、不特定のモデルがバイアスになります。
- 独立変数が多すぎると、指定されていないモデルの精度が低下します。
- 数学用語にバイアスがなく、最も正確な場合に、適切なモデルが作成されます。
最終的な考え
回帰分析は、100年前の科学である統計に端を発していますが、ビッグデータが爆発的に増加しているため、最近注目を集めています。 回帰分析は、データ分析、データサイエンス、およびほぼすべての組織でのそれらのアプリケーションの統計を通じてその道を見つけています。
回帰分析で作成された回帰モデルは、予測可能性、運用効率、十分な情報に基づいた意思決定、エラーの防止、誤った決定の回避、およびより良い洞察の提供を強化するために不可欠なツールです。
その他の有用なリソース:
ビジネスにおける回帰分析の重要性
回帰分析に関する完全ガイド