Ce este analiza de regresie simplă? - Ghid

Publicat: 2020-08-06

Știți că analiza de regresie simplă poate fi folosită în diverse scopuri în afaceri? De fapt, prognozarea oportunităților și riscurilor viitoare este una dintre aplicațiile majore ale analizei de regresie într-o afacere. În plus, companiile folosesc modele de regresie liniară pentru a-și optimiza procesele de afaceri prin reducerea cantității masive de date brute în informații utile.

În acest articol
  • Definirea analizei de regresie simplă
  • Modelul de regresie liniară simplă
  • Cum să Performați
  • Părți cheie de știut
  • Ipoteze ale regresiei liniare simple
  • Exemple de analiză de regresie liniară simplă
  • Limitări

Ce este analiza de regresie simplă

Practic, o analiză de regresie simplă este un instrument statistic care este utilizat în cuantificarea relației dintre o singură variabilă independentă și o singură variabilă dependentă pe baza observațiilor care au fost efectuate în trecut. În interpretarea profană, aceasta înseamnă că o simplă analiză de regresie liniară poate fi utilizată în demonstrarea modului în care o modificare a orelor de funcționare a mașinii de producție a unei organizații (care este variabila independentă) va avea ca rezultat o modificare a costului de energie electrică al organizației. .

Modelul de regresie liniară simplă

Practic, modelul de regresie liniară simplă poate fi exprimat în aceeași valoare ca și formula de regresie simplă .

y = β 0 + β 1 X+ ε.

În modelul de regresie liniară simplă, luăm în considerare modelarea dintre o variabilă independentă și variabila dependentă. De obicei, modelul este numit de obicei un model de regresie liniară simplă atunci când există doar o singură variabilă independentă în modelul de regresie liniară. Rețineți că devine un model de regresie liniară multiplă atunci când există mai multe variabile independente.

În modelul de regresie liniară simplă, y se referă la studiu sau variabila dependentă, iar X este variabila explicativă sau independentă. Expresiile β 0 și β 1 sunt parametrii modelului de regresie liniară. Parametrul β 0 este privit ca un termen de interceptare, în timp ce parametrul β 1 este privit ca parametrul pantei. Termenul general pentru acești parametri este cunoscut sub numele de coeficienți de regresie.

Expresia „ε” este eroarea neobservabilă care explică incapacitatea datelor de a rămâne pe linie dreaptă. De asemenea, reprezintă variația dintre realizarea observată și reală a lui „y”.

Mai multe motive pot fi atribuite acestor diferențe. De exemplu, variabilele pot fi calitative, aleatorii inerente în observații, iar efectul tuturor variabilelor șterse din model contribuie, de asemenea, la diferențe. Astfel, se presupune că ε este observată ca variabilă aleatoare independentă și distribuită identic, cu medie zero și varianță constantă q². Ulterior, se va presupune în continuare că ε este distribuit normal.

Variabilele independente din modelul de regresie liniară sunt văzute ca fiind controlate de experimentator. Acesta este motivul pentru care este considerată non-stochastică, în timp ce y este considerată o variabilă aleatorie cu:

E(y) = β 0 + β 1 X. și

Var(y) = q²

În unele cazuri, X poate funcționa ca o variabilă aleatoare. În aceste situații, mai degrabă decât varianța eșantionului și media eșantionului a lui y, considerația noastră va fi pe media condiționată a lui y cu condiția ca X = x

ε(y) = β0 și β1

iar varianța condiționată a lui y a furnizat X = x ca

Var(y|x) = q².

Prin urmare, modelul de analiză de regresie simplă este complet exprimat atunci când sunt cunoscute valorile lui β 0 , β 1 și q². În general, parametrii β 0 , β 1 și q² nu sunt cunoscuți în practică și ε este neobservat. Prin urmare, vedeți că determinarea modelului statistic y = β 0 + β 1 X + ε se bazează pe determinarea (adică estimarea) a β 0 , β 1 și q². Pentru a stabili valorile acestor parametri, n perechi de observații (x, y)( = 1,…, n) pe (X, y) sunt observate/colectate și sunt folosite pentru a determina acești parametri necunoscuți.

În total, în determinarea estimărilor parametrilor pot fi folosite diferite metode de estimare. Cea mai populară metodă este estimarea celor mai mici pătrate și metoda de estimare a probabilității maxime.

Cum se efectuează o analiză de regresie simplă

Cel mai comun mod în care oamenii efectuează o analiză de regresie simplă este utilizarea programelor statistice pentru a permite analiza rapidă a datelor.

Efectuând regresia liniară simplă în R

R este un program statistic care este utilizat în realizarea unei analize de regresie liniară simplă. Este folosit pe scară largă, puternic și gratuit. Iată cum funcționează.

În primul rând, trebuie să încărcați setul de date income.data în mediul dvs. R. Apoi rulați comanda de mai jos pentru a crea un model de bibliotecă care demonstrează relația dintre fericire și venit.

Cod R pentru o regresie liniară

venit.fericire.lm <- lm(fericire ~ venit, date = venit.date)

Practic, acest cod va prelua datele adunate „data = income.data” și apoi va evalua efectul pe care variabila independentă „venit” îl are asupra variabilei dependente „fericire” folosind ecuația pentru modelul liniar: lm().

Cum se interpretează rezultatele

Pentru a vedea rezultatul modelului, puteți utiliza funcția „summary()” din R:

rezumat(venit.fericire.lm)

Ceea ce face această funcție este să preia cei mai importanți parametri din modelul liniar și să îi plaseze într-un tabel.

Acest tabel de rezultate repetă inițial formula care a fost utilizată la generarea rezultatelor („Apel”). Ulterior, acesta rezumă reziduurile modelului („Reziduuri”). Acest lucru ajută la furnizarea de informații despre cât de adecvat se potrivește modelul cu datele originale.

Apoi trecem la tabelul „Coeficienți”. Primul rând oferă estimările intersecției cu y, în timp ce al doilea rând oferă coeficientul de regresie al modelului.

Rândul numărul unu al tabelului este etichetat „(Interceptare)”. Aceasta este interceptarea în y a ecuației de regresie, având o valoare de 0,20. Puteți încorpora acest lucru în ecuația regresiei dvs. dacă doriți să faceți predicții pentru valorile fericirii din intervalul de venituri pe care ați analizat-o:

fericire = 0,20 + 0,71*venit±0,018

Următorul rând din tabelul „Coeficienți” este venitul. Acest rând explică efectul estimat al venitului asupra fericirii raportate.

Coloana „Estimare” este efectul estimat. Poate fi denumit și valoare r² sau coeficient de regresie. Numărul din tabel (0,713) ne informează că pentru fiecare unitate de creștere a venitului (luând ca o unitate de venit să fie egală cu 10.000 USD), există o creștere corespunzătoare de 0,71 unități a fericirii raportate (luând fericirea ca o scară de 1). la 10).

„Std. Coloana „Eroare” descrie eroarea standard a estimării. Acest număr demonstrează nivelul de variație în estimarea noastră a relației dintre fericire și venit.

Statistica testului este afișată în coloana „valoare t”. Dacă nu specificați altfel, statistica de test utilizată în regresia liniară rămâne valoarea t dintr-un test t cu două fețe. Cu cât statistica testului este mai mare, cu atât este mai mică probabilitatea ca rezultatele noastre să apară coincidență.

Coloana „pr(>| t |)” descrie valoarea p. Figura de acolo ne arată probabilitatea de a avea efectul estimat al venitului asupra fericirii dacă ipoteza nulă a lipsei efectului ar fi corectă.

Deoarece valoarea p este foarte mică (p < 0,001), putem respinge ipoteza nulă și ajungem la concluzia că venitul are un efect statistic relevant asupra fericirii.

Ultimele 3 rânduri ale rezumatului modelului sunt statistici referitoare la întregul model. Cel mai semnificativ lucru de reținut aici este valoarea p a modelului. Acesta devine relevant aici (p < 0,001), ceea ce înseamnă că acest model este o potrivire standard pentru datele observate.

Prezentarea rezultatelor

În raportul rezultatelor, adăugați valoarea p, eroarea standard a estimării și efectul estimat (adică coeficientul de regresie). De asemenea, este necesar să vă interpretați numerele pentru a le face cititorilor clar sensul coeficientului de regresie.

Rezultat

A existat o relație relevantă (p < 0,001) între venit și fericire (R² = 0,71±0,018), cu o creștere de 0,71 unități a fericirii raportate pentru fiecare creștere de 10.000 USD a venitului.

În plus, ar fi bine să adăugați un grafic împreună cu rezultatele dvs. Pentru o regresie liniară simplă , tot ce trebuie să faci este să trasezi observațiile pe axa x și y. Apoi adăugați funcția de regresie și linia de regresie.

Formula simplă de regresie liniară

Formula pentru o regresie liniară simplă este

y = β 0 + β 1 + ε

Părți cheie ale analizei de regresie simplă

Aceasta este o măsură a asocierii. Acesta servește ca reprezentare pentru procentul de variație a valorilor lui Y care poate fi afișat prin înțelegerea valorii lui X. R² variază de la un minim de 0,0 (unde nu se explică nicio variație), până la un maxim de +1,0 (în care fiecare dintre variații este explicată).

Seb

Aceasta se referă la eroarea standard a valorii înregistrate a lui b. Un test t pentru importanța statistică a coeficientului este efectuat prin împărțirea valorii lui b la eroarea sa standard. Conform regulii generale, o valoare t care este mai mare de 2,0 este de obicei relevantă din punct de vedere statistic, totuși trebuie să faceți referire la un tabel t doar pentru a fi sigur.

Dacă în conformitate cu valoarea t există indicii că coeficientul b este relevant statistic, atunci înseamnă că variabila independentă a lui X ar trebui să fie rezervată în ecuația de regresie. Acest lucru se datorează mai ales că prezintă o relație relevantă statistic cu variabila dependentă sau Y. În cazul în care relația nu este relevantă statistic, atunci valoarea „coeficientului b” ar fi la fel cu zero (din punct de vedere statistic).

F

Acesta este un test pentru relevanța statistică a întregii ecuații de regresie. Este generată prin împărțirea varianței descrise la varianța inexplicabilă. După cum postulează regula generală, orice valoare F care este mai mare de 4,0 este cel mai adesea relevantă din punct de vedere statistic. Cu toate acestea, trebuie să vă referiți la un tabel F doar pentru a fi sigur. Dacă F este relevantă, atunci ecuația de regresie ne ajută să cunoaștem relația dintre X și Y.

Ipoteze ale regresiei liniare simple

  • Omogenitatea varianței: aceasta poate fi denumită și homoscedasticitate. Miezul acestei ipoteze afirmă că nu există o schimbare semnificativă a mărimii erorii în predicția noastră pentru valorile variabilei independente.
  • Independența observațiilor: aici s-au folosit metode de eșantionare valide statistic pentru a colecta observațiile din setul de date și nu există relații necunoscute între observații.
  • Normalitate: aceasta presupune pur și simplu că datele urmează o distribuție normală.

Exemple simple de regresie liniară

Aici, vom cita un scenariu care servește ca exemplu de implementare a analizei de regresie simplă .

Să presupunem că viteza medie atunci când sunt desfășurate 2 patrule pe autostradă este de 75 mph sau 35 mph atunci când sunt desfășurate 10 patrule pe autostradă. Întrebarea este, așadar, care este viteza medie a mașinilor pe autostradă atunci când sunt dislocate 5 patrule de autostradă?

Folosind formula noastră simplă de analiză de regresie , putem calcula astfel valorile și obținem următoarea ecuație: Y = 85 + (-5) X, având în vedere că Y este viteza medie a mașinilor pe autostradă. A = 85 sau viteza medie când X = 0

B = (-5), impactul fiecărei mașini de patrulare suplimentare desfășurate pe Y

Și X = numărul de patrule desfășurate

Prin urmare, viteza medie a mașinilor pe autostradă atunci când nu există patrule pe autostradă care funcționează (X=0) va fi de 85 mph. Pentru fiecare mașină suplimentară de patrulare pe autostradă care funcționează, viteza medie se va reduce cu 5 mph. Prin urmare, pentru 5 mașini de patrulare (X = 5), avem Y = 85 + (-5) (5) = 85 – 25 = 60 mph.

Limitele regresiei liniare simple

Nici cele mai bune date nu dau perfectiune. De obicei, analiza de regresie liniară simplă este utilizată pe scară largă în cercetare pentru a marca relația care există între variabile. Cu toate acestea, deoarece corelația nu se interpretează ca o cauzalitate, relația dintre 2 variabile nu înseamnă că una determină apariția celeilalte. De fapt, o linie dintr-o regresie liniară simplă care descrie bine punctele de date poate să nu aducă o relație cauză-efect.

Utilizarea unui exemplu simplu de analiză de regresie vă va permite să aflați dacă există vreo relație între variabile. Prin urmare, sunt necesare analize și cercetări statistice suplimentare pentru a determina care este exact relația și dacă o variabilă duce la cealaltă.

Gânduri finale

În total, întreprinderile de astăzi trebuie să ia în considerare analiza de regresie simplă dacă au nevoie de o opțiune care să ofere un suport excelent pentru deciziile de management și, de asemenea, să identifice erorile de judecată. Cu o analiză adecvată, cantități mari de date nestructurate care au fost acumulate de companii de-a lungul timpului vor avea potențialul de a oferi informații valoroase afacerilor.

Alte resurse utile:

Diferite tipuri de analiză de regresie pentru a cunoaște

Importanța analizei de regresie în afaceri