単純回帰分析とは何ですか? –ガイド
公開: 2020-08-06単純な回帰分析をビジネスのさまざまな目的に使用できることをご存知ですか? 実際、将来の機会とリスクを予測することは、ビジネスにおける回帰分析の主要なアプリケーションの1つです。 さらに、企業は線形回帰モデルを使用して、大量の生データを実用的な情報に削減することにより、ビジネスプロセスを最適化します。
- 単純な回帰分析の定義
- 単純な線形回帰モデル
- 実行する方法
- 知っておくべき重要な部分
- 単純な線形回帰の仮定
- 単純な線形回帰分析の例
- 制限事項
単純な回帰分析とは何ですか
基本的に、単純な回帰分析は、過去に実行された観測に基づいて、単一の独立変数と単一の従属変数の間の関係の定量化に使用される統計ツールです。 素人の解釈では、これが意味するのは、組織の生産機械(独立変数)の時間の変化が結果として組織の電力コストの変化をもたらす方法のデモンストレーションに単純な線形回帰分析を利用できるということです。
単純な線形回帰モデル
基本的に、単純な線形回帰モデルは、単純な回帰式と同じ値で表すことができます。
y =β0 + β1X + ε。
単純な線形回帰モデルでは、1つの独立変数と従属変数の間のモデリングを検討します。 通常、線形回帰モデルに独立変数が1つしかない場合、モデルは通常、単純線形回帰モデルと呼ばれます。 複数の独立変数がある場合は、多重線形回帰モデルになることに注意してください。
単純な線形回帰モデルでは、yは調査変数または従属変数を指し、Xは説明変数または独立変数です。 式β0およびβ1は、線形回帰モデルのパラメーターです。 β0パラメータは切片項と見なされ、 β1パラメータは勾配パラメータと見なされます。 これらのパラメータの一般的な用語は、回帰係数として知られています。
式「ε」は、データが直線上にとどまることができないことを説明する観察不可能なエラーです。 また、「y」の観察された実現と実際の実現の間の変動を表します。
これらの違いにはいくつかの理由が考えられます。 たとえば、変数は定性的で、観測値に固有のランダム性である可能性があり、モデル内のすべての削除された変数の影響も違いに寄与します。 したがって、εは、平均がゼロで分散が一定のq²の独立した同一分布の確率変数として観測されると想定されます。 続いて、εが正常に分布しているとさらに仮定する。
線形回帰モデルの独立変数は、実験者によって制御されているように見えます。 これが、yが確率変数と見なされるのに対し、非確率的と見なされる理由です。
E(y)=β0 + β1X 。および
Var(y)=q²
場合によっては、Xは確率変数として機能することができます。 これらの状況では、yの標本分散と標本平均ではなく、X = xとして、yの条件付き平均を考慮します。
ε(y)=β0およびβ1
X = xとして、yの条件付き分散が提供されます。
Var(y | x)=q²。
したがって、β0、 β1 、q²の値がわかっている場合、単純な回帰分析モデルは完全に表現されます。 一般に、パラメータβ0 、 β1 、およびq²は実際には不明であり、εは観測されません。 したがって、統計モデルy =β0 + β1X + εの決定は、β0、 β1 、およびq²の決定(つまり、推定)に基づいていることがわかります。 これらのパラメーターの値を確認するために、(X、y)上のnペアの観測値(x、y)(= 1、…、n)が観測/収集され、これらの未知のパラメーターを決定するために使用されます。
全体として、パラメータの推定値の決定には、さまざまな推定方法を使用できます。 最も一般的な方法は、最小二乗推定と最尤推定法です。
単純な回帰分析を実行する方法
人々が単純な回帰分析を実行する最も一般的な方法は、統計プログラムを使用してデータの高速分析を可能にすることです。
Rで単純な線形回帰を実行する
Rは、単純な線形回帰分析を実行するために使用される統計プログラムです。 広く使用されており、強力で、無料です。 仕組みは次のとおりです。
まず、income.dataデータセットをR環境にロードする必要があります。 次に、以下のコマンドを実行して、幸福と収入の関係を示すライブラリモデルを作成します。
線形回帰のRコード
収入.happiness.lm <-lm(幸福〜収入、データ=収入.data)
基本的に、このコードは収集されたデータ「data = Income.data」を取得し、線形モデルの方程式lm()を使用して、独立変数「income」が従属変数「happiness」に与える影響を評価します。
結果の解釈方法
モデルの結果を表示するには、Rの「summary()」関数を使用できます。
要約(income.happiness.lm)
この関数が行うことは、線形モデルから最も重要なパラメーターを取得し、それらをテーブルに配置することです。
この結果テーブルは、最初に結果の生成に使用された式(「呼び出し」)を繰り返します。 その後、モデルの残差(「残差」)を要約します。 これは、モデルが元のデータにどの程度適切に適合しているかについての洞察を提供するのに役立ちます。
次に、「係数」テーブルに移動します。 最初の行はy切片の推定値を提供し、2番目の行はモデルの回帰係数を提供します。
表の一番上の行には「(切片)」というラベルが付いています。 これは回帰方程式のy切片であり、値は0.20です。 分析した収入の範囲全体で幸福の値を予測したい場合は、これを回帰の方程式に組み込むことができます。
幸福= 0.20 + 0.71 *収入±0.018
「係数」テーブルの次の行は収入です。 この行は、報告された幸福に対する収入の推定効果を説明しています。
「推定」列は、推定された効果です。 これは、r²値または回帰係数とも呼ばれます。 表の数値(0.713)は、収入が1単位増えるごとに(収入の単位が10,000ドルになる)、それに対応して報告された幸福が0.71単位増える(幸福を1のスケールにする)ことを示しています。から10)。
「標準。 「誤差」列は、推定の標準誤差を示しています。 この数値は、幸福と収入の関係の推定値の変動のレベルを示しています。
検定統計量は「t値」列に表示されます。 特に指定しない場合、線形回帰で使用される検定統計量は、両側t検定のt値のままです。 検定統計量が高いほど、結果が偶然に発生する確率は低くなります。
「pr(> | t |)」列はp値を示します。 そこにある図は、効果がないという帰無仮説が正確である場合に、幸福に対する収入の推定効果が得られる確率を示しています。
p値が非常に低い(p <0.001)ため、帰無仮説を棄却し、収入が幸福に統計的に関連する影響を与えるという結論に達することができます。
モデルの要約の最後の3行は、モデル全体に関する統計です。 ここで覚えておくべき最も重要なことは、モデルのp値です。 ここで関連性があり(p <0.001)、このモデルが観測データの標準適合であることを意味します。
結果の提示
結果のレポートに、p値、推定の標準誤差、および推定された効果(つまり、回帰係数)を追加します。 また、回帰係数の意味が何であるかを読者にわかりやすくするために、数値を解釈する必要があります。
結果
収入と幸福の間には関連する関係(p <0.001)があり(R²= 0.71±0.018)、収入が10,000ドル増えるごとに報告された幸福が0.71単位増加しました。
さらに、結果と一緒にグラフを追加するとよいでしょう。 単純な線形回帰の場合、必要なのはx軸とy軸に観測値をプロットすることだけです。 次に、回帰関数と回帰直線を追加します。
単純な線形回帰式
単純な線形回帰の式は次のとおりです。
y =β0+ β1 + ε
単純回帰分析の重要な部分
R²
これは関連性の尺度です。 これは、Xの値を理解することによって表示できるYの値の分散のパーセントの表現として機能します。R²は、最小0.0(分散がまったく説明されていない)から最大+1.0まで変化します。 (すべての差異が説明されています)。
セブ
これは、bの登録値の標準誤差を指します。 係数の統計的重要性のt検定は、bの値をその標準誤差で割ることによって実行されます。 経験則によれば、2.0より高いt値は通常、統計的に関連性がありますが、念のためにtテーブルを参照する必要があります。
t値によると、b係数が統計的に関連していることが示されている場合は、Xの独立変数を回帰方程式で予約する必要があることを意味します。 これは特に、従属変数またはYとの統計的に関連性のある関係を特徴としているためです。関係が統計的に関連性がない場合、「b係数」の値はゼロとまったく同じになります(統計的に言えば)。
F
これは、回帰方程式全体の統計的関連性のテストです。 これは、記述された分散を説明されていない分散で除算することによって生成されます。 経験則として、4.0より高いF値は、ほとんどの場合、統計的に関連しています。 それでも、念のためにFテーブルを参照する必要があります。 Fが関連している場合、回帰方程式はXとYの関係を知るのに役立ちます。
単純な線形回帰の仮定
- 分散の均一性:これは等分散性とも呼ばれます。 この仮定の核心は、独立変数の値全体で予測の誤差のサイズに有意な変化がないことを示しています。
- 観測値の独立性:ここでは、統計的に有効なサンプリング方法を使用してデータセット内の観測値を収集しました。観測値間に未知の関係はありません。
- 正規性:これは、データが正規分布に従うことを単に前提としています。
単純な線形回帰の例
ここでは、単純な回帰分析の実装例として役立つシナリオを引用します。
2つのハイウェイパトロールが展開されている場合の平均速度が75mph、または10のハイウェイパトロールが展開されている場合の平均速度を35mphと仮定します。 したがって、問題は、5つの高速道路パトロールが展開されたときの高速道路上の車の平均速度はどれくらいかということです。
したがって、単純な回帰分析式を使用して、値を計算し、次の方程式を導き出すことができます。Yは高速道路上の車の平均速度であるとすると、Y = 85 +(-5)Xです。 A = 85、またはX = 0の場合の平均速度
B =(-5)、Yに配備された各追加パトカーの影響
そしてX =配備されたパトロールの数
したがって、ハイウェイパトロールがゼロ(X = 0)で動作しているときのハイウェイ上の車の平均速度は、時速85マイルになります。 余分な高速道路のパトカーが機能するたびに、平均速度は時速5マイル低下します。 したがって、5台のパトカー(X = 5)の場合、Y = 85 +(-5)(5)= 85 – 25 = 60mphになります。
単純な線形回帰の限界
最高のデータでさえ完璧ではありません。 通常、単純な線形回帰分析は、変数間に存在する関係をマークするための研究で広く使用されています。 ただし、相関関係は因果関係として解釈されないため、2つの変数間の関係は、一方が他方を発生させることを意味するものではありません。 実際、データポイントを適切に表す単純な線形回帰の線は、因果関係をもたらさない場合があります。
単純な回帰分析の例を使用すると、変数間に関係が存在するかどうかを確認できます。 したがって、関係が正確に何であるか、および1つの変数が他の変数につながるかどうかを判断するには、追加の統計分析と調査が必要です。
最終的な考え
全体として、今日の企業は、経営者の意思決定に優れたサポートを提供し、判断の誤りを特定するオプションが必要な場合、単純な回帰分析を検討する必要があります。 適切な分析を行うことで、時間の経過とともに企業によって蓄積された大量の非構造化データは、企業に貴重な洞察をもたらす可能性があります。
その他の役立つリソース:
知っておくべきさまざまなタイプの回帰分析
ビジネスにおける回帰分析の重要性