Verschiedene Arten von Regressionsanalysen zu kennen

Veröffentlicht: 2020-03-05

Die Regressionsanalyse ist die Methode, die versucht, eine Beziehung zwischen einer abhängigen Variablen und einer einzelnen oder mehreren unabhängigen Variablen herzustellen.

Regression ist ursprünglich ein statistisches Konzept, aber es findet seine Anwendung in vielen geschäftsbezogenen Bereichen wie Finanzen, Investitionen, Aktienmärkte sowie in Bereichen wie Wissenschaft und Technik.

Es gibt einige aufstrebende Anwendungen von Regressionsanalysen in Form von Data Science, maschinellem Lernen und künstlicher Intelligenz, die die Zukunft der Menschheit prägen.

In diesem Artikel
  • Terminologien
  • Verschiedene Arten der Regressionsanalyse
  • Was wird es verwendet?
  • So wählen Sie das richtige Modell aus

Terminologien im Zusammenhang mit Regression

Um die Arten der Regressionsanalyse zu verstehen, ist es hilfreich, die zugehörigen Terminologien zu verstehen.

  • Ausreißer

    Ausreißer sind bei Datenplots in einem Diagramm sichtbar. In der Regressionsanalyse(1) sind die Ausreißer Punkte im Diagramm, die deutlich außerhalb der aus anderen Punkten bestehenden Wolke liegen. Die Ausreißerpunkte sind wichtig, da sie das Ergebnis einer Regressionsanalyse stark beeinflussen können. Um dieses Konzept zu verstehen, nehmen wir an, dass ein Gebäude mit Fachleuten mit durchschnittlichem finanziellen Hintergrund in Bezug auf ihr Einkommen gefüllt ist.

    Sie alle haben ein Durchschnittsgehalt von etwa hunderttausend Dollar im Jahr. Plötzlich betreten Bill Gates und Jeff Bezos das Gebäude, und wenn man die Gehälter dieser beiden Milliardäre hinzurechnet, wird das Durchschnittsgehalt drastisch ungenau. Die Gehälter dieser beiden bekannten Herren sind die Ausreißer in diesem Beispiel.

  • Multikollinearität

    Bei der Regressionsanalyse, bei der die Korrelation zwischen zwei oder mehr Eingangsvariablen betrachtet wird, ist zu beobachten, dass das Modell bei der Addition einer oder mehrerer Eingangsvariablen die Dinge nicht transparenter über die reale Welt macht.

    Es ist entscheidend, herauszufinden, wie Eingabevariablen zueinander in Beziehung stehen. Die Messung der Multikollinearität des Regressionsmodells ist eine Möglichkeit, die Beziehung zwischen Eingabevariablen zu ermitteln. Sie können beispielsweise auf ein Modell stoßen, bei dem Sie bereit sind, dies herauszufinden was das Gehalt einer Person in einem bestimmten Alter bestimmt. Unabhängige Variablen (Faktoren) wie Bildungshintergrund, Alter und viele andere Faktoren, die das Durchschnittsgehalt einer Person beeinflussen, werden berücksichtigt.

    Aber bevor Sie weiter gehen und jeden Faktor in Ihrem Modell unter die Sonne werfen, müssen Sie wissen, wie sie korrelieren (interassoziieren). Wenn die Multikollinearität zu hoch wird, führt dies zu einer Störung der Daten und das Modell fällt auseinander.

  • Heteroskedastizität

    Heteroskedastizität (manchmal auch als Heteroskedastizität bezeichnet) tritt auf, wenn der Messwert des über einen bestimmten Zeitraum gemessenen Standardfehlers (SE) einer Variablen nicht konstant ist.

    Jede Regressionsanalyse, die auf solchen Daten ausgeführt wird, die Heteroskedastizität aufweist, ergibt zumindest verzerrte Koeffizienten und ruiniert die Ergebnisse.

  • Überanpassung

    Die Überanpassung in einer Regressionsanalyse tritt auf, wenn die Variablen beginnen, zufällige Fehler zu zeigen, anstatt die Beziehung zwischen den Variablen effizient zu beschreiben. Die Überanpassung erzeugt eher viel Rauschen als die wahre Darstellung der Bevölkerung. Das Ergebnis des Modells ist nicht mehr realistisch. Sie müssen Ihr Modell so realitätsnah wie möglich gestalten. Als Beispiel für eine Ausstattung aus der realen Welt. Das beste Wort, das die Ausstattung aus dem realen Beispiel beschreibt, ist „übertriebene Verallgemeinerung“. Wenn der Fehler oder die Verzerrung zunimmt, können die realistischen Werte als Ergebnis nicht bestimmt werden.

  • Unterausstattung

    Underfitting tritt auf, wenn die Anzahl der Variablen kaum zu einem bestimmten Modell passt und die Ausgabe nicht genau bleibt. Um erfolgreiche Ergebnisse aus einer Regressionsanalyse zu erhalten, benötigen Sie die optimalen Werte der Variablen, damit das erhaltene Modell der Realität nahe kommt. Kurz gesagt, wenn die Variablen nicht optimiert sind oder das Modell nicht effizient an die Daten angepasst ist, heißt es ein Underfit.

Arten der Regressionsanalyse

Es gibt zwei Arten von Variablen in jeder Form der Regression. Eine davon sind die unabhängigen Variablen, oder sie werden auch erklärende Variablen genannt, sie werden für Eingaben verwendet. Der andere Variablentyp ist eine abhängige Variable, die auch als Prädiktor bezeichnet wird. Es ist der Wert, den Sie herausfinden möchten, oder das Ergebnis des Modells.

Im Folgenden werden die verschiedenen Arten der Regressionsanalyse beschrieben.

  • Lineare Regression

    Die lineare Regression befasst sich mit zwei Arten von Variablen. Eine Variable wird als unabhängige Variable bezeichnet, und die andere Art von Variable ist die abhängige Variable.

    Die unabhängige Variable variiert entlang der x-Achse der kartesischen Ebene, und die abhängige Variable variiert entlang der y-Achse. Diese Variablen sind „x“ bzw. „y“. Der Wert von y hängt von x ab. Wenn sich x ändert, nimmt das „y“ entweder zu oder ab.
    Es gibt zwei Arten der linearen Regression.

    1. Einfache lineare Regression
    2. Mehrfache lineare Regression
  • Einfache lineare Regression: Bei der einfachen linearen Regression gibt es nur eine abhängige Variable und eine abhängige Variable.
    Die Gleichung für die einfache lineare Regression lautet y=β_0+β_1 xHier stellt x die unabhängige Variable dar, ist die Steigung der Regressionsgeraden und ist der y-Achsenabschnitt. „y“ ist die abhängige Variable oder das Ergebnis.
  • Mehrfache lineare Regression: Bei der mehrfachen linearen Regression ist die abhängige Variable eine, aber Sie haben mehrere unabhängige Variablen.
    Die folgende Gleichung stellt die multiple lineare Regression dar, y= β_0+β_1 x_1+⋯β_n x_n+ εHier ist y die abhängige Variable, der y-Achsenabschnitt. bezeichnen die mehreren unabhängigen Variablen im Modell. ist die „Voreingenommenheit“ oder der „Fehler“. Die Minimierung von Verzerrungen oder Fehlern ist unser primäres Ziel, um ein realitätsnahes Modell zu erstellen.
  • Multivariate Regression

    Die multivariate Regression unterscheidet sich von der multiplen linearen Regression in dem Sinne, dass sie mehrere abhängige Variablen mit der Eingabe mehrerer unabhängiger Variablen hat. Die abhängigen Variablen ( y_1,y_2 ,y_3 …. y_n) stehen in unterschiedlichen Formeln. Und es hat mehr als eine unabhängige Variable ( x_1, x_2, ….x_m ) um die Ys vorherzusagen. Bei der multivariaten Regression sind die verwendeten Daten meistens vom gleichen Typ wie bei anderen Arten der Regressionsanalyse.

  • Logistikregression

    Die Logistikregression ist nach der linearen Regression die zweitbeliebteste Form der Regression und wird in den Bereichen Biostatistik, Medizin und Sozialwissenschaften verwendet.
    Die logistische Regression befasst sich mit booleschen Werten wie

    • richtig oder falsch
    • ja oder Nein
    • groß oder klein
    • eins oder null

    Die Logistikregression wird bei der Klassifizierung von Objekten verwendet, z. B. ob eine E-Mail „Spam“ oder „kein Spam“ ist.

    Kurz gesagt, es gibt eine Ausgabe in der logistischen Regression, die entweder „Wahr“ oder „Falsch“ sein kann. Darüber hinaus kann es in Logistik-Regressionsmodellen eine einzelne Eingabe oder mehrere Eingaben geben.

  • Polynomiale Regression

    Es gibt Fälle, in denen wir es mit Variablen zu tun haben, deren Beziehung nicht linear ist. In einem solchen Fall ist unser Modell eine Kurve und keine Linie wie bei der linearen Regression. Somit haben wir eine andere Form der Regression, die als polynomiale Regression bekannt ist.

    Die Gleichung der polynomialen Regression sind die aufsteigenden Potenzen der Eingangsvariablen x, deren Verallgemeinerung unten steht.

    y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε

  • Quantilregression

    Die Definition der Quantilregression unterscheidet sich stark von der Praxis. Das Quantil ist ein anderer Name des Medians in der Statistik.

    Quantil ist der Punkt oder die Linie, die die Ausgabedaten in zwei gleiche Teile teilt. Stellen Sie sich einen Datensatz in Form einer Linie auf der y-Achse vor. Der Datensatz wird in genau zwei gleiche Teile geteilt. Der Wert des Quantils beträgt zum Zeitpunkt der Teilung 0,5 bzw. 50 %.

    Auf der gleichen Anmerkung werden die zwei gleich geteilten Datenstücke wieder gleichmäßig entlang der y-Achse geteilt. Dieses Mal haben wir die Daten in vier gleiche Teile aufgeteilt, und die neuen Teilungspunkte auf der unteren Y-Achse des Diagramms sind 0,25 oder 25 %.

    In ähnlicher Weise beträgt das Split-Quantil auf der oberen Y-Achse 0,75 oder 75 %. Im Allgemeinen sind die Quantile nur Linien oder Punkte, die Daten in gleiche Blöcke oder Gruppen aufteilen.

    Quantile spucken Daten in hundert gleich große Gruppen aus. Aber in der realen Welt ist die Definition des Quantils viel flexibler.

    Die Quantilregression ist nützlich, wenn im Modell eine hohe Heteroskedastizität vorhanden ist und die lineare Regression nicht genau genug ist, um das Ergebnis vorherzusagen, da das lineare Modell auf Mittelwerten beruht und Quantile mit Medianwerten genauer sein können.

  • Ridge-Regression

    Die Ridge-Regression verwendet eine Technik, die als „Regularisierung“ bezeichnet wird. Die Regularisierung ist für Modelle geeignet, die beim Testen von Daten scheitern, aber die Trainingsdaten weitergeben.

    Die Ridge-Regression funktioniert am besten, wenn die meisten Variablen im Modell nützlich sind.

    Wenn Beispieldaten Multikollinearität aufweisen, passieren zwei unerwünschte Dinge:

    1. Die Schätzungen der kleinsten Quadrate der Koeffizienten der Prädiktorvariablen ergeben hohe Fehler.
    2. Es gibt Inflation bei Standardfehlern.

    Ridge Regression ist eine Technik zur Stabilisierung der Regressionskoeffizienten bei Vorhandensein von Multikollinearität.

  • Lasso-Regression

    Lasso steht für „Least Absolute Shrinkage and Selection Operator“. Die Lasso-Regression funktioniert am besten, wenn Sie viele nutzlose Variablen haben. Die Lasso-Regression ähnelt der Ridge-Regression, aber einige Unterschiede machen sie einzigartig.

    Die Ridge-Regression und die Lasso-Regression haben Anwendungen in denselben Szenarien, in denen Multikollinearität vorhanden ist. Die Ridge-Regression eignet sich jedoch für langfristige Vorhersagen.

    Die Lasso-Regression wendet Schrumpfung auf die Daten an. Die Datenwerte schrumpfen zu einem zentralen Punkt wie dem Median oder dem Mittelwert.

    Die Vereinfachung und Sparsamkeit von Datenmodellen sind die Funktionen, bei denen die Lasso-Regression am besten funktioniert. Mit anderen Worten, die Datenmodelle sollten die optimalen Parameter für genaue Ergebnisse haben.

  • Hauptkomponentenregression (PCR)

    Die Hauptkomponentenanalyse hat eine Anwendung auf die x-Variable, wodurch die Dimensionalität der Daten reduziert wird. Es beinhaltet die Extraktion von Datensätzen mit den meisten Variationen in einem iterativen Prozess.

    Da der Prozess iterativ ist, sodass ein mehrdimensionaler Datensatz analysiert werden kann, überwindet die Hauptkomponentenregression die Dimensionalitäts- und Kollinearitätsprobleme, die bei der gewöhnlichen Regression der kleinsten Quadrate vorhanden sind.

  • Elastic Net-Regression

    Elastic Net Regression vereinfacht ein Modell für eine einfachere Interpretation. Ein Modell kann Tonnen von Variablen (auch bekannt als Parameter) haben; Sie können bei bestimmten Modellen bis zu Millionen betragen. In einem solchen Modell ist es nicht möglich festzustellen, welche Variablen nützlich und welche nutzlos sind.

    In einem solchen Fall wissen Sie nicht, welchen Regressionstyp Sie zwischen Ridge-Regression und Lasso-Regression wählen sollen. Hier kommt die Elastic Net Regression ins Spiel, um das Modell zu vereinfachen.

    Die Elastic-Net-Regression kombiniert eine Ridge-Regression-Penalty mit der Lasso-Regression-Penalty und bietet das Beste aus beiden Welten. Es funktioniert auch besser mit korrelierten Variablen.

  • Partielle kleinste Quadrate (PLS)

    Die partielle Methode der kleinsten Quadrate berücksichtigt sowohl die erklärenden als auch die abhängigen Variablen. Das zugrunde liegende Prinzip dieser Art von Regression ist, dass x- und y-Variablen in einem iterativen Prozess eine Zerlegung in latente Strukturen durchlaufen.

    PLS kann mit Multikollinearität umgehen. Es berücksichtigt die x- und y-bezogenen Datenstrukturen und liefert Ihnen aufwändige visuelle Ergebnisse zur Interpretation der Daten. Es können mehrere Variablen in Betracht kommen.

  • Unterstützung der Vektorregression

    Die Support Vector Regression (SVR) ist ein Algorithmus, der mit einer stetigen Funktion arbeitet. Im Gegensatz zur Support Vector Machine in diesem Sinne befasst sich die Support Vector Machine (SVM) mit Klassifizierungsproblemen. SVR sagt kontinuierliche geordnete Variablen voraus.

    Bei der einfachen Regression muss der Schwerpunkt auf der Minimierung des Fehlers liegen, während die Support Vector Regression den Schwellenwert des Fehlers ermittelt.

  • Ordinale Regression

    Die Logistik-Regression befasst sich mit zwei Kategorien, aber bei der ordinalen Regression (auch bekannt als ordinale Logistik-Regression) kommen drei oder mehr Kategorien ins Spiel, wobei eine eindeutige Ordnung angenommen wird.

    Die ordinale Regression hilft bei der Vorhersage einer ordinalen abhängigen Variablen, wenn eine oder mehrere unabhängige Variablen vorhanden sind.

  • Poisson-Regression

    Bei der Poisson-Regression steht die Anzahl oder Rate, mit der das Ereignis eintritt, im Mittelpunkt.

    Wir messen die Rate, mit der das Ereignis in der Poisson-Regression auftritt. Mit anderen Worten, wir modellieren die Häufigkeit, mit der das Ereignis im Laufe der Zeit auftritt (Anzahl). Bei der Poisson-Regression ist die Zeit konstant und wir messen die Anzahl der Ereignisse.

  • Negative binomiale Regression

    Es ist nützlich, den diskreten (Zähl-)Datensatz zu modellieren. In gleicher Weise hilft die negative binomiale Regression, wenn die Daten eine höhere Varianz im Vergleich zum Mittelwert aufweisen, dh die Streuung der Daten beim Zeichnen zu groß ist.

    Das negative Binomialmodell geht nicht davon aus, dass die Variable gleich dem Mittelwert ist, wie es das auf der Poisson-Regression basierende Modell macht.

  • Quasi-Poisson-Regression

    Die Quasi-Poisson-Regression ist die Verallgemeinerung der Poisson-Regression. Wie bereits erwähnt, beruht das Poisson-Regressionsmodell auf einer normalerweise unfairen Annahme, dass die Varianz gleich dem Mittelwert ist.

    Das Quasi-Poisson-Modell kommt ins Spiel, wenn die Varianz die lineare Funktion des Mittelwerts ist und auch höher als der Mittelwert ist. Es ist das Szenario, in dem Quasi Poisson besser anwendbar ist.

  • Cox-Regression

    Die Cox-Regression (auch bekannt als Proportional-Hazards-Regression) untersucht die Auswirkungen mehrerer Variablen für die Zeitdauer, die ein bestimmtes Ereignis benötigt, um einzutreten.

    Betrachten Sie die folgenden Ereignisse, bei denen die Cox-Regression nützlich sein kann:

    • Die Zeit, die nach dem ersten Herzinfarkt für einen zweiten Herzinfarkt benötigt wurde.
    • Die Zeit, die nach dem ersten Unfall für den zweiten Unfall benötigt wurde.
    • Die Zeit nach der Krebserkennung bis zum Tod.

    Die Time-to-Event-Daten sind für die Anwendung der Cox-Regression von entscheidender Bedeutung.

  • Tobit-Regression

    Die Tobit-Regression ist praktisch bei der Schätzung einer linearen Beziehung, wenn Zensierung in der abhängigen Variablen gefunden wird. Zensieren ist die Beobachtung aller unabhängigen Variablen. Die tatsächliche Berücksichtigung des Wertes der abhängigen Variablen liegt nur in einem eingeschränkten Beobachtungsbereich.

  • Bayessche Regression

    Die Bayes'sche Regression basiert eher auf Wahrscheinlichkeitsverteilung als auf Punktschätzung. Folglich ist die Ausgabe oder das „y“ kein einzelner Wert. Es ist eine Wahrscheinlichkeitsverteilung. Wie wir wissen, ist die Wahrscheinlichkeitsverteilung eine mathematische Funktion und kein Wert. Die Wahrscheinlichkeitsverteilung gibt mögliche Ergebnisse in einem Experiment an.

    Wenn wir die Formulierung des linearen Regressionsmodells basierend auf der Wahrscheinlichkeitsverteilung erstellen, erhalten wir den folgenden Ausdruck.
    y ˜ N(β^TX,σ^2 I)

    • Die Ausgabe (y) wird aus einer normalen Gaußschen Verteilung in Abhängigkeit von Mittelwert und Varianz berechnet.
    • Die Transponierte (T) der Gewichtsmatrix (β) wird erhalten, indem sie mit der Prädiktormatrix (X) multipliziert wird.
    • Die Varianz ist das Quadrat der Standardabweichung (σ^2) multipliziert mit der Identitätsmatrix (I).

    (Die mehrdimensionale Formulierung des Modells ist in Prüfung)

  • Regression der kleinsten absoluten Abweichung (LAD).

    Die kleinste absolute Abweichung ist die bekannteste Alternative zur Methode der kleinsten Quadrate zur Analyse der linearen Modelle. Wir wissen, dass wir bei der Methode der kleinsten Quadrate die Summe der quadrierten Fehler minimieren, aber bei LAD minimieren wir die Summe der absoluten Fehlerwerte. Es versucht, eine Funktion zu finden, die genau zu einem Datensatz passt.

    In einem Fall, in dem unsere Daten einfach sind, ist die kleinste absolute Abweichung eine gerade Linie in einer zweidimensionalen kartesischen Ebene.

    Die Formulierung des kleinsten Absoluten ist sehr einfach zu verstehen. Nehmen wir an, unser Datensatz besteht aus zwei variablen Punkten ( (x_i ,y_i) und i=1,2,3,4,5……n.

    Unser Ziel ist es, eine Funktion f zu finden, die ungefähr gleich (~) ist, wie unten gezeigt.

    f(x_i) ~ y_i

    Die Behauptung ist, dass die Funktion f eine bestimmte Form hat, die einige Parameter enthält, die wir berechnen müssen. Hier ist zu beachten, dass die Funktion f eine Anzahl von x Parametern (oder unabhängigen Variablen oder erklärenden Variablen) haben kann.

    Wir werden versuchen, die Werte von Parametern herauszufinden, die die folgende Summe der Absolutwerte der Fehler (oder Residuen) minimieren.
    S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )

  • Ökologische Regression

    Ökologische Regression ist vor allem in Fächern wie Politikwissenschaften und Geschichte von Nutzen. Die Technik ermöglicht es uns, auf Makroebene zu zählen und auf Mikroebene Vorhersagen zu treffen.

    Die Ökologische Regression kann das Wahlverhalten von Individuen zwischen verschiedenen Fraktionen und Gruppen von Gesellschaften bestimmen. Die Schätzung basiert auf Daten, die aus früheren Konten gesammelt wurden.

    Die ökologischen Daten basieren auf Zählungen in einer bestimmten Region, Gruppen, Objekten oder im Laufe der Zeit. Kurz gesagt, die aggregierten Daten helfen uns, etwas über das auf Einzelpersonen eingegrenzte Verhalten zu erfahren.

Wozu dient die Regressionsanalyse?

Die Regressionsanalyse ist nützlich, um mehrere Geschäftsziele zu erreichen.

  • Vorausschauende Analyse

    Eine der prominentesten Anwendungen ist die prädiktive Analyse, die eine genauere Vorhersage bestimmter Geschäftsereignisse ermöglicht. Eine Art der prädiktiven Analyse ist die „Nachfrageanalyse“, die die Steigerung des Absatzes eines Produkts misst. Der Erfolg eines neu eingeführten Produktes sowie laufende Produkte können richtig im Markt positioniert werden.

    Als weiteres Beispiel hat die Regressionsanalyse Anwendungen in der Werbung für Produkte und Dienstleistungen. Mit der Regressionsanalyse ist vorhersehbar, wie viele Käufer wahrscheinlich auf eine Anzeige stoßen werden. Es hilft den Vertriebs- und Marketingfachleuten, den Gebotswert von Werbematerialien festzulegen.

    Auch für Versicherungen ist die Regressionsanalyse ein hilfreiches Tool. Versicherungsunternehmen ermitteln damit die Kreditwürdigkeit von Versicherungsnehmern und schätzen die Anzahl der Schadensfälle, die von ihren Kunden wahrscheinlich geltend gemacht werden.

  • Betriebseffizienz

    Unternehmen treffen ernsthafte Entscheidungen mithilfe der Regressionsanalyse, um ihre Abläufe zu optimieren.

    Datengesteuerte Entscheidungen können fragwürdige Entscheidungen, ungenaue Vermutungen mit Bauchgefühl und Unternehmenspolitik ausschließen.

    Die Regressive Analyse verwandelt die Kunst des Managements in eine Wissenschaft. Beispielsweise ist es möglich, die Wartezeit eines Anrufers mit der Anzahl der Beschwerden in einem Callcenter oder einer Kundenbetreuung in Beziehung zu setzen.

  • Unterstützung bei der Entscheidungsfindung

    Die Unternehmen verfügen heute über Unmengen von Daten in Bezug auf Finanzen, Marketing, Betrieb und viele andere Abteilungen. Die Top-Entscheidungsträger tendieren mehr zu Datenanalyse und Datenwissenschaft, um fundiertere Entscheidungen zu treffen, ohne Vermutungen anstellen zu müssen.

    Mit Hilfe der Regressionsanalyse können Big Data einer Komprimierung für handlungsorientierte, schlanke Informationen unterzogen werden, die den Weg zu einer genaueren Entscheidungsfindung ebnen. Die Regressionsanalyse entfernt oder ersetzt keine Manager; Stattdessen gibt es ihnen ein wirksames Werkzeug in die Hand, um wirkungsvollere und effizientere Entscheidungen als je zuvor zu treffen.

  • Fehler Korrektur

    Die Regressionsanalyse hilft auch dabei, intuitive Fehler bei der Beurteilung und Entscheidungsfindung für Unternehmensleiter zu identifizieren.

    Beispielsweise kann ein Geschäftsleiter entscheiden, das Geschäft nachts offen zu halten, wofür er beschließt, neues Personal einzustellen.

    Die Regressionsanalyse kann genau zeigen, dass die Berücksichtigung der Ausgaben des Personals und des Gesamtumsatzes, den es nachts generiert, keine gegenseitige Rechtfertigung haben kann. Somit ermöglicht die quantitative Anwendung der Regressionsanalyse, Fehlentscheidungen auszuschließen.

  • Umsetzbare Erkenntnisse

    Unternehmen verstehen und erkennen den Wert von Daten und was durch die Techniken der Regressionsanalyse erreicht werden kann, aber viele scheitern daran, diese Daten in umsetzbare Erkenntnisse umzuwandeln. Erkenntnisse aus Rohdaten zu gewinnen, ist keine leichte Aufgabe. Ein Bericht von Forrester behauptet, dass 74 % der Unternehmen mit Dateneingaben entscheiden wollen, aber nur 29 % erfolgreich Analysen erhalten, die es ihnen ermöglichen, fruchtbare Entscheidungen zu treffen.

    Eine kritische Fallstudie aus der Geschäftswelt ist Konica Minolta. Konica war einer der erfolgreichsten Hersteller von Kameras. Im Jahr 2000 wechselten die meisten Fotografen und Kamerabegeisterten zu Digitalkameras.

    Das oberste Entscheidungsgremium bei Konica traf Entscheidungen nicht schnell genug, als Konica 2004 seine erste Kamera auf den Markt brachte, die meisten Konkurrenten wie Nikon und Canon sich auf dem neuen Markt für Digitalkameras gut etabliert hatten. Infolgedessen erlitt das Unternehmen 2006 so schwere Verluste, dass es einen Großteil seiner Technologie und seiner Vermögenswerte an Sony verkaufte.

    Wenn Konica die Erkenntnisse aus den kommerziellen Rohdaten und Marktdaten durch Regressionsanalyse und ähnliche Techniken verarbeitet hätte, wäre Konica in der Lage gewesen, die richtige Entscheidung zur richtigen Zeit zu treffen.

    Die Datenregressionsanalyse, die umsetzbare Erkenntnisse liefert, gibt Entscheidungsträgern, die in der realen Welt bahnbrechend sein können, pure Macht.

Wie wählt man das richtige Regressionsmodell aus?

Es gibt Hunderte von Regressionstypen, und wir haben die beliebtesten Typen abgedeckt.

Die reale Welt ist sehr komplex, und die Modellersteller messen viele Variablen, beziehen aber nur wenige in das Modell ein. Die Analysten schließen die unabhängigen Variablen aus, die sehr wenig bis gar keinen Einfluss auf die abhängige Variable oder das Ergebnis haben.

Bei der Auswahl eines Regressionsmodells sollte die folgende einfache Tatsache berücksichtigt werden, um das Gleichgewicht zu wahren, indem die richtige Anzahl unabhängiger Variablen in die Regressionsgleichung eingesetzt wird.

  • Zu wenige unabhängige Variablen, das unspezifizierte Modell wird verzerrt.
  • Zu viele unabhängige Variablen, das unspezifizierte Modell verliert seine Genauigkeit.
  • Just the Right-Modell entsteht, wenn die mathematischen Begriffe nicht voreingenommen und am genauesten sind.

Abschließende Gedanken

Die Regressionsanalyse hat ihren Ursprung in der Statistik, die eine hundert Jahre alte Wissenschaft ist, aber in letzter Zeit durch die Explosion von Big Data ins Rampenlicht gerückt ist. Die Regressionsanalyse findet ihren Weg durch Statistiken in der Datenanalyse, Datenwissenschaft und deren Anwendungen in fast allen Organisationen.

Die mit der Regressionsanalyse erstellten Regressionsmodelle sind ein unverzichtbares Werkzeug für die verbesserte Bereitstellung von Vorhersagbarkeit, Betriebseffizienz, fundierte Entscheidungsfindung, Fehlervermeidung, Vermeidung von Fehlentscheidungen und bessere Einblicke.

Andere nützliche Ressourcen:

Bedeutung der Regressionsanalyse in der Wirtschaft

Der vollständige Leitfaden zur Regressionsanalyse