Was ist eine einfache Regressionsanalyse? - Führen
Veröffentlicht: 2020-08-06Wussten Sie, dass einfache Regressionsanalysen für verschiedene Zwecke in der Wirtschaft eingesetzt werden können? Tatsächlich ist die Vorhersage zukünftiger Chancen und Risiken eine der Hauptanwendungen der Regressionsanalyse in einem Unternehmen. Darüber hinaus verwenden Unternehmen lineare Regressionsmodelle, um ihre Geschäftsprozesse zu optimieren, indem sie die riesige Menge an Rohdaten in verwertbare Informationen reduzieren.
- Einfache Definition der Regressionsanalyse
- Das einfache lineare Regressionsmodell
- Wie man ausführt
- Wichtige Teile zu wissen
- Annahmen der einfachen linearen Regression
- Beispiele für einfache lineare Regressionsanalysen
- Einschränkungen
Was ist eine einfache regressionsanalyse
Grundsätzlich ist eine einfache Regressionsanalyse ein statistisches Werkzeug, das zur Quantifizierung der Beziehung zwischen einer einzelnen unabhängigen Variablen und einer einzelnen abhängigen Variablen auf der Grundlage von Beobachtungen verwendet wird, die in der Vergangenheit durchgeführt wurden. In der Laieninterpretation bedeutet dies, dass eine einfache lineare Regressionsanalyse verwendet werden kann, um zu demonstrieren, wie eine Änderung der Stunden der Produktionsmaschine einer Organisation (die die unabhängige Variable ist) folglich zu einer Änderung der Stromkosten der Organisation führt .
Das einfache lineare Regressionsmodell
Grundsätzlich kann das einfache lineare Regressionsmodell im gleichen Wert wie die einfache Regressionsformel ausgedrückt werden.
y = β 0 + β 1 X + ε.
Im einfachen linearen Regressionsmodell betrachten wir die Modellierung zwischen der einen unabhängigen Variablen und der abhängigen Variablen. Normalerweise wird das Modell als einfaches lineares Regressionsmodell bezeichnet, wenn es nur eine einzige unabhängige Variable im linearen Regressionsmodell gibt. Denken Sie daran, dass es zu einem multiplen linearen Regressionsmodell wird, wenn mehr als eine unabhängige Variable vorhanden ist.
Im einfachen linearen Regressionsmodell bezieht sich y auf die Studie oder abhängige Variable und X ist die erklärende oder unabhängige Variable. Die Ausdrücke β 0 und β 1 sind die Parameter des linearen Regressionsmodells. Der Parameter β 0 wird als Schnittterm angesehen, während der Parameter β 1 als Steigungsparameter angesehen wird. Der allgemeine Begriff für diese Parameter ist als Regressionskoeffizient bekannt.
Der Ausdruck „ε“ ist der nicht beobachtbare Fehler, der für die Unfähigkeit der Daten verantwortlich ist, auf der geraden Linie zu bleiben. Es stellt auch die Variation zwischen der beobachteten und der wahren Realisierung von 'y' dar.
Diesen Unterschieden können mehrere Gründe zugeschrieben werden. Beispielsweise können die Variablen qualitativ sein, eine inhärente Zufälligkeit in den Beobachtungen, und die Wirkung aller gelöschten Variablen im Modell trägt ebenfalls zu den Unterschieden bei. Es wird also angenommen, dass ε als unabhängige und gleichverteilte Zufallsvariable mit Mittelwert Null und konstanter Varianz q² betrachtet wird. Nachfolgend wird weiterhin angenommen, dass ε normalverteilt ist.
Die unabhängigen Variablen im linearen Regressionsmodell werden vom Experimentator als kontrolliert angesehen. Aus diesem Grund wird es als nicht stochastisch angesehen, während y als Zufallsvariable betrachtet wird mit:
E(y) = β 0 + β 1 X. und
Var(y) = q²
In einigen Fällen kann X als Zufallsvariable fungieren. In diesen Situationen wird unsere Betrachtung eher auf dem bedingten Mittelwert von y als auf der Stichprobenvarianz und dem Stichprobenmittelwert von y liegen, vorausgesetzt, dass X = x as ist
ε(y) = β0 und β1
und die bedingte Varianz von y vorausgesetzt X = x als
Var(y|x) = q².
Daher wird das einfache Regressionsanalysemodell vollständig ausgedrückt, wenn die Werte von β 0 , β 1 und q² bekannt sind. Im Allgemeinen sind die Parameter β 0 , β 1 und q² in der Praxis nicht bekannt und ε wird nicht beobachtet. Daher sehen Sie, dass die Bestimmung des statistischen Modells y = β 0 + β 1 X + ε auf der Bestimmung (dh Schätzung) von β 0 , β 1 und q² basiert. Um die Werte dieser Parameter zu ermitteln, werden n Beobachtungspaare (x, y)( = 1,…, n) auf (X, y) beobachtet/gesammelt und zur Bestimmung dieser unbekannten Parameter verwendet.
Insgesamt können bei der Bestimmung der Schätzungen der Parameter unterschiedliche Schätzverfahren eingesetzt werden. Die beliebteste Methode ist die Schätzung nach der Methode der kleinsten Quadrate und die Maximum-Likelihood-Methode.
So führen Sie eine einfache Regressionsanalyse durch
Am häufigsten führen Menschen eine einfache Regressionsanalyse durch, indem sie statistische Programme verwenden, um eine schnelle Analyse der Daten zu ermöglichen.
Durchführen der einfachen linearen Regression in R
R ist ein Statistikprogramm, das zur Durchführung einer einfachen linearen Regressionsanalyse verwendet wird. Es ist weit verbreitet, leistungsstark und kostenlos. So funktioniert das.
Zunächst müssen Sie das Dataset „income.data“ in Ihre R-Umgebung laden. Dann führen Sie den folgenden Befehl aus, um ein Bibliotheksmodell zu erstellen, das die Beziehung zwischen Zufriedenheit und Einkommen demonstriert.
R-Code für eine lineare Regression
Einkommen.Glück.lm <- lm(Glück ~ Einkommen, Daten = Einkommen.Daten)
Grundsätzlich nimmt dieser Code die gesammelten Daten „Daten = Einkommen.Daten“ und bewertet dann den Effekt, den die unabhängige Variable „Einkommen“ auf die abhängige Variable „Glück“ hat, indem er die Gleichung für das lineare Modell verwendet: lm().
Wie sind die Ergebnisse zu interpretieren
Um das Ergebnis des Modells anzuzeigen, können Sie die Funktion „summary()“ in R verwenden:
Zusammenfassung (Einkommen.Glück.lm)
Diese Funktion übernimmt die wichtigsten Parameter aus dem linearen Modell und platziert sie in einer Tabelle.
Diese Ergebnistabelle wiederholt zunächst die Formel, die bei der Generierung der Ergebnisse ('Call') verwendet wurde. Danach fasst es die Modellresiduen („Residuen“) zusammen. Dies hilft dabei, einen Einblick zu geben, wie gut das Modell zu den Originaldaten passt.
Dann gehen wir zur Tabelle „Koeffizienten“. Die erste Zeile enthält die Schätzungen des y-Achsenabschnitts, während die zweite Zeile den Regressionskoeffizienten des Modells enthält.
Die erste Zeile der Tabelle ist mit „(Intercept)“ beschriftet. Dies ist der y-Achsenabschnitt der Regressionsgleichung mit einem Wert von 0,20. Sie können dies in die Gleichung Ihrer Regression integrieren, wenn Sie eine Vorhersage für die Werte des Glücks über die von Ihnen analysierte Einkommensspanne treffen möchten:
Glück = 0,20 + 0,71 * Einkommen ± 0,018
Die nächste Zeile in der Tabelle „Koeffizienten“ ist das Einkommen. Diese Zeile erklärt den geschätzten Effekt des Einkommens auf die angegebene Zufriedenheit.
Die Spalte „Schätzung“ ist der geschätzte Effekt. Er kann auch als r²-Wert oder Regressionskoeffizient bezeichnet werden. Die Zahl in der Tabelle (0,713) informiert uns darüber, dass für jede einzelne Einkommenseinheit (wobei angenommen wird, dass eine Einkommenseinheit 10.000 US-Dollar entspricht) ein entsprechender Anstieg des gemeldeten Glücks um 0,71 Einheiten vorliegt (wobei das Glück auf einer Skala von 1 angenommen wird bis 10).
Die „Std. Fehler“ beschreibt den Standardfehler der Schätzung. Diese Zahl zeigt die Schwankungsbreite unserer Schätzung des Zusammenhangs zwischen Glück und Einkommen.
Die Teststatistik wird in der Spalte „t-Wert“ angezeigt. Wenn Sie nichts anderes angeben, bleibt die in der linearen Regression verwendete Teststatistik der t-Wert aus einem doppelseitigen t-Test. Je höher die Teststatistik, desto geringer ist die Wahrscheinlichkeit, dass unsere Ergebnisse zufällig aufgetreten sind.
Die Spalte „pr(>| t |)“ beschreibt den p-Wert. Die Abbildung dort zeigt uns die Wahrscheinlichkeit, den geschätzten Effekt des Einkommens auf das Glück zu haben, wenn die Nullhypothese „kein Effekt“ zutreffend wäre.
Da der p-Wert sehr niedrig ist (p < 0,001), können wir die Nullhypothese verwerfen und zu dem Schluss kommen, dass das Einkommen einen statistisch relevanten Einfluss auf das Glück hat.
Die letzten 3 Zeilen der Modellzusammenfassung sind Statistiken bezüglich des gesamten Modells. Das Wichtigste, was hier zu beachten ist, ist der p-Wert des Modells. Es wird hier relevant (p < 0,001), was bedeutet, dass dieses Modell eine Standardanpassung für die beobachteten Daten ist.
Präsentation der Ergebnisse
Fügen Sie im Ergebnisbericht den p-Wert, den Standardfehler der Schätzung und den geschätzten Effekt (d. h. den Regressionskoeffizienten) hinzu. Es ist auch notwendig, dass Sie Ihre Zahlen interpretieren, um Ihren Lesern anschaulich zu machen, was die Bedeutung des Regressionskoeffizienten ist.
Ergebnis
Es gab eine relevante Beziehung (p < 0,001) zwischen Einkommen und Glück (R² = 0,71 ± 0,018), mit einem Anstieg des berichteten Glücks um 0,71 Einheiten pro 10.000 $ Einkommenszuwachs.
Außerdem wäre es gut, eine Grafik zusammen mit Ihren Ergebnissen hinzuzufügen. Für eine einfache lineare Regression müssen Sie lediglich die Beobachtungen auf der x- und y-Achse darstellen. Dann fügen Sie die Regressionsfunktion und die Regressionsgerade hinzu.
Einfache lineare Regressionsformel
Die Formel für eine einfache lineare Regression lautet
y = β 0 + β 1 + ε
Schlüsselelemente der einfachen Regressionsanalyse
R²
Dies ist ein Maß für die Assoziation. Es dient als Darstellung für den Prozentsatz der Varianz in den Werten von Y, der angezeigt werden kann, indem man den Wert von X versteht. R² variiert von einem Minimum von 0,0 (wo überhaupt keine Varianz erklärt wird) bis zu einem Maximum von +1,0 (in der jede Abweichung erklärt wird).
Seb
Dies bezieht sich auf den Standardfehler des registrierten Werts von b. Ein t-Test für die statistische Bedeutung des Koeffizienten wird durchgeführt, indem der Wert von b durch seinen Standardfehler dividiert wird. Nach der Faustregel ist ein t-Wert über 2,0 in der Regel statistisch relevant, zur Sicherheit muss jedoch auf eine t-Tabelle zurückgegriffen werden.
Wenn nach dem t-Wert ein Hinweis darauf besteht, dass der b-Koeffizient statistisch relevant ist, bedeutet dies, dass die unabhängige Variable von X in der Regressionsgleichung reserviert werden sollte. Dies liegt insbesondere daran, dass es einen statistisch relevanten Zusammenhang mit der abhängigen Variablen oder Y aufweist. In dem Fall, dass der Zusammenhang statistisch nicht relevant ist, wäre der Wert des „b-Koeffizienten“ (statistisch gesehen) gleich Null.
F
Dies ist ein Test für die statistische Relevanz der gesamten Regressionsgleichung. Sie wird generiert, indem die beschriebene Varianz durch die unerklärte Varianz dividiert wird. Als Faustregel gilt, dass jeder F-Wert, der höher als 4,0 ist, meistens statistisch relevant ist. Trotzdem müssen Sie zur Sicherheit auf eine F-Tabelle zurückgreifen. Wenn F relevant ist, hilft uns die Regressionsgleichung, die Beziehung zwischen X und Y zu kennen.
Annahmen der einfachen linearen Regression
- Varianzhomogenität: Dies kann auch als Homoskedastizität bezeichnet werden. Der Kern dieser Annahme besagt, dass es keine signifikante Änderung in der Größe des Fehlers in unserer Vorhersage über die Werte der unabhängigen Variablen gibt.
- Unabhängigkeit der Beobachtungen: Hier wurden statistisch gültige Stichprobenverfahren verwendet, um die Beobachtungen im Datensatz zu sammeln, und es gibt keine unbekannten Beziehungen zwischen den Beobachtungen.
- Normalität: Dies setzt einfach voraus, dass die Daten einer Normalverteilung folgen.
Beispiele für einfache lineare Regression
Hier führen wir ein Szenario an, das als Beispiel für die Umsetzung einer einfachen Regressionsanalyse dient.
Nehmen wir an, die Durchschnittsgeschwindigkeit beträgt 75 mph, wenn 2 Highway Patrols eingesetzt werden, oder 35 mph, wenn 10 Highway Patrols eingesetzt werden. Die Frage ist also, wie hoch ist die Durchschnittsgeschwindigkeit der Autos auf der Autobahn, wenn 5 Autobahnpatrouillen im Einsatz sind?
Unter Verwendung unserer einfachen Regressionsanalyseformel können wir somit die Werte berechnen und die folgende Gleichung ableiten: Y = 85 + (-5) X, vorausgesetzt, dass Y die Durchschnittsgeschwindigkeit von Autos auf der Autobahn ist. A = 85 oder die Durchschnittsgeschwindigkeit bei X = 0
B = (-5), die Auswirkung jedes zusätzlichen Streifenwagens, der auf Y eingesetzt wird
Und X = Anzahl der eingesetzten Patrouillen
Daher beträgt die Durchschnittsgeschwindigkeit von Autos auf der Autobahn, wenn keine Autobahnpatrouillen in Betrieb sind (X = 0), 85 mph. Für jeden zusätzlichen Einsatzwagen der Autobahnpolizei verringert sich die Durchschnittsgeschwindigkeit um 8 km/h. Daher haben wir für 5 Streifenwagen (X = 5) Y = 85 + (-5) (5) = 85 – 25 = 60 mph.
Grenzen der einfachen linearen Regression
Auch die besten Daten ergeben keine Perfektion. Typischerweise wird in der Forschung häufig eine einfache lineare Regressionsanalyse verwendet, um die Beziehung zu markieren, die zwischen Variablen besteht. Da Korrelation jedoch nicht als Kausalität interpretiert wird, bedeutet die Beziehung zwischen zwei Variablen nicht, dass eine das Auftreten der anderen verursacht. Tatsächlich führt eine Linie in einer einfachen linearen Regression, die die Datenpunkte gut beschreibt, möglicherweise nicht zu einer Ursache-Wirkungs-Beziehung.
Anhand eines einfachen Regressionsanalysebeispiels können Sie herausfinden, ob überhaupt eine Beziehung zwischen Variablen besteht. Daher sind zusätzliche statistische Analysen und Untersuchungen erforderlich, um festzustellen, was genau die Beziehung ist und ob eine Variable zur anderen führt.
Abschließende Gedanken
Alles in allem müssen Unternehmen von heute einfache Regressionsanalysen in Betracht ziehen, wenn sie eine Option benötigen, die Managemententscheidungen hervorragend unterstützt und auch Fehleinschätzungen identifiziert. Mit der richtigen Analyse haben große Mengen unstrukturierter Daten, die von Unternehmen im Laufe der Zeit angesammelt wurden, das Potenzial, wertvolle Erkenntnisse für die Unternehmen zu gewinnen.
Andere nützliche Ressourcen:
Verschiedene Arten von Regressionsanalysen zu kennen
Bedeutung der Regressionsanalyse in der Wirtschaft