Diferite tipuri de analiză de regresie pentru a cunoaște
Publicat: 2020-03-05Analiza regresiei este metodologia care încearcă să stabilească o relație între o variabilă dependentă și o variabilă independentă unică sau multiplă.
Regresia este în mod nativ un concept statistic, dar își găsește aplicațiile în multe domenii legate de afaceri, cum ar fi finanțele, investițiile, bursele, precum și în domenii precum știința și inginerie.
Există câteva aplicații viitoare ale analizelor de regresie sub forma științei datelor, învățării automate și inteligenței artificiale care marchează viitorul umanității.
- Terminologii
- Diferite tipuri de analiză de regresie
- Pentru ce este folosit?
- Cum să alegi modelul potrivit
Terminologii legate de regresie
Pentru a înțelege tipurile de analiză de regresie, înțelegerea terminologiilor aferente este utilă.
Outliers
Valorile aberante sunt vizibile cu diagrame de date pe un grafic. În analiza de regresie (1), valorile aberante sunt puncte de pe grafic care se încadrează semnificativ în afara norului format din alte puncte. Punctele aberante sunt esențiale deoarece pot influența puternic rezultatul unei analize de regresie. Pentru a înțelege acest concept, să presupunem că o clădire este plină de profesioniști cu medii financiare medii în ceea ce privește câștigurile lor.
Toți au un salariu mediu de aproximativ o sută de mii de dolari pe an. Dintr-o dată, Bill Gates și Jeff Bezos intră în clădire și, odată ce includeți salariile acestor doi miliardari, salariul mediu devine drastic inexact. Salariile acestor doi domni cunoscuți sunt valorile aberante din acest exemplu.
Multicoliniaritate
În analiza de regresie, analizând corelația dintre două sau mai multe variabile de intrare, este observabil că atunci când are loc adăugarea uneia sau mai multor variabile de intrare, modelul nu reușește să facă lucrurile mai transparente despre lumea reală.
Este esențial să aflați modul în care variabilele de intrare se relaționează între ele. Măsurarea multicoliniarității modelului de regresie este o modalitate de a găsi relația dintre variabilele de intrare. De exemplu, puteți întâlni un model în care sunteți dispus să aflați ceea ce determină salariul unei persoane la o anumită vârstă. Sunt luate în considerare variabile (factori) independenți, cum ar fi studiile, vârsta și mulți alți factori care influențează salariul mediu al unei persoane.
Dar, înainte de a merge mai departe și de a arunca fiecare factor sub Soare în modelul tău, trebuie să știi cum se corelează (inter-asociere). Dacă multicoliniaritatea devine prea mare, aceasta cauzează perturbări ale datelor și modelul se destramă.
Heteroscedasticitate
Heteroscedasticitatea (uneori scrisă ca heteroschedasticitate) apare atunci când citirea erorii standard (SE) a unei variabile măsurată într-un timp dat nu este constantă.
Orice analiză de regresie care rulează pe astfel de date care prezintă heteroscedasticitate oferă, cel puțin, coeficienți părtinitori și ruinează rezultatele.
Supramontare
Suprapotrivirea într-o analiză de regresie este apariția când variabilele încep să arate erori aleatorii, mai degrabă decât să descrie eficient relația dintre variabile. Supramontarea produce mai mult zgomot decât reprezentarea adevărată a populației. Rezultatul modelului nu mai este realist. Trebuie să vă faceți modelul cât mai aproape de realitate. Ca exemplu de ținută din lumea reală. Cel mai bun cuvânt posibil care descrie ținuta din exemplul din lumea reală este „suprageneralizare”. Când eroarea sau părtinirea crește, valorile realiste nu pot fi determinate ca rezultat.
Underfitting
Subadaptarea are loc atunci când numărul de variabile abia se potrivește unui model dat, iar rezultatul nu rămâne exact. Pentru a avea rezultate reușite dintr-o analiză de regresie, aveți nevoie de valorile optime ale variabilelor, astfel încât modelul obținut este aproape de realitate. Pe scurt, atunci când variabilele nu sunt optimizate, sau modelul nu se potrivește eficient datelor, se numește un underfit.
Tipuri de analiză de regresie
Există două tipuri de variabile în orice formă de regresie. Una sunt variabilele independente, sau sunt numite și variabile explicative, sunt folosite pentru intrări. Celălalt tip de variabilă este o variabilă dependentă, cunoscută și sub numele de predictor. Este valoarea pe care încercați să o aflați sau rezultatul modelului.
În cele ce urmează sunt descrise diferitele tipuri de analiză de regresie.
Regresie liniara
Regresia liniară se ocupă de două tipuri de variabile. O variabilă se numește variabilă independentă, iar celălalt tip de variabilă este variabilă dependentă.
Variabila independentă variază de-a lungul axei x a planului cartezian, iar variabila dependentă variază de-a lungul axei y. Aceste variabile sunt „x” și, respectiv, „y”. Valoarea lui y depinde de x. Când x se schimbă, „y” fie crește, fie scade.
Există două tipuri de regresie liniară.- Regresia liniară simplă
- Regresia liniară multiplă
- Regresia liniară simplă: în regresia liniară simplă, există o singură variabilă dependentă și o variabilă dependentă.
Ecuația pentru regresia liniară simplă este y=β_0+β_1 xAici, x reprezintă variabila independentă, este panta dreptei de regresie și este intersecția cu y. „y” este variabila dependentă sau rezultatul.
- Regresia liniară multiplă: în regresia liniară multiplă, variabila dependentă este una, dar aveți mai multe variabile independente.
Următoarea ecuație reprezintă regresia liniară multiplă,y= β_0+β_1 x_1+⋯β_n x_n+ εAici, y este variabila dependentă, este intersecția cu y. notează variabilele independente multiple din model. este „prejudecata” sau „eroarea”. Minimizarea părtinirii sau erorii este obiectivul nostru principal pentru a crea un model apropiat de situația din lumea reală.
Regresie multivariată
Regresia multivariată este diferită de regresia liniară multiplă în sensul că are mai multe variabile dependente cu intrarea mai multor variabile independente. Variabilele dependente ( y_1,y_2 ,y_3 …. y_n) sunt în formule diferite. Și are mai multe variabile independente ( x_1, x_2, ….x_m ) pentru a prezice Y. În regresia multivariată, datele care sunt utilizate sunt în mare parte de același tip ca și în alte tipuri de analiză de regresie.
Regresia logistică
Regresia logistică este a doua cea mai populară formă de regresie după regresia liniară, iar utilizările sale se referă la biostatistică, medicină și științe sociale.
Regresia logistică se ocupă de valori booleene, cum ar fi,- adevărat sau fals
- da sau nu
- mare sau mic
- unu sau zero
Regresia logistică este utilizată în clasificarea obiectelor, cum ar fi un e-mail este „spam” sau „nu este spam”.
Pe scurt, există un rezultat în regresia logistică care poate fi fie „adevărat”, fie „fals”. Mai mult, poate exista o singură intrare sau mai multe intrări într-un model de regresie logistică.
Regresia polinomială
Sunt cazuri când avem de a face cu variabile a căror relație este neliniară. Într-un astfel de caz, modelul nostru este o curbă, nu o linie, spre deosebire de regresia liniară. Astfel, avem o altă formă de regresie cunoscută sub numele de regresie polinomială.
Ecuația regresiei polinomiale este puterile crescătoare ale variabilei de intrare x, a cărei generalizare este mai jos.
y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε
Regresia cuantilă
Definiția regresiei cuantile este foarte diferită de ceea ce este în practică. Cuantila este un alt nume al medianei în statistică.
Quantila este punctul sau linia care împarte datele de ieșire în două părți egale. Imaginează-ți un set de date sub forma unei linii pe axa y. Setul de date este împărțit în exact două părți egale. Valoarea cuantilei este de 0,5 sau 50% în punctul de scindare.
În aceeași notă, cele două date împărțite în mod egal sunt împărțite din nou în mod egal de-a lungul axei y. De data aceasta, am împărțit datele în patru părți egale, iar noile puncte de împărțire de pe axa y inferioară a graficului sunt 0,25 sau 25%.
În mod similar, cuantila de împărțire a axei y superioară este de 0,75 sau 75%. În general, cuantilele sunt doar linii sau puncte care împart datele în bucăți sau grupuri egale.
Quantilele scuipă date în o sută de grupuri de dimensiuni egale. Dar, în lumea reală, definiția cuantilei este mult mai flexibilă.
Regresia cuantilă este utilă atunci când există o prezență de heteroscedasticitate ridicată în model, iar regresia liniară nu este suficient de precisă pentru a prezice rezultatul, deoarece modelul liniar se bazează pe valori medii, iar cuantilele pot fi mai precise cu valorile mediane.
Regresia crestei
Regresia crestei foloseste o tehnica numita "Regularizare". Regularizarea este adecvată pentru modelele care eșuează la datele de testare, dar transmit datele de antrenament.
Regresia Ridge funcționează cel mai bine atunci când majoritatea variabilelor din model sunt utile.
Când datele eșantionului arată o coliniaritate multiplă, se întâmplă două lucruri nedorite,
- Estimările celor mai mici pătrate ale coeficienților variabilelor predictoare dau erori mari.
- Există inflație în erorile standard.
Ridge Regression este o tehnică de stabilizare a coeficienților de regresie în prezența multicoliniarității.
Regresia Lasso
Lasso înseamnă „Operator de contracție și selecție minimă absolută”. Regresia Lasso funcționează cel mai bine atunci când aveți o mulțime de variabile inutile. Regresia Lasso seamănă cu regresia Ridge, dar unele diferențe o fac unică.
Regresia Ridge și Regresia Lasso au aplicații la aceleași scenarii în care este prezentă multicoliniaritatea. Cu toate acestea, Ridge Regression este potrivită pentru predicții pe termen lung.
Regresia Lasso aplică o contracție datelor. Valorile datelor se micșorează spre un punct central, cum ar fi mediana sau media.
Simplificarea și raritatea modelelor de date sunt funcțiile în care regresia Lasso face cel mai bine. Cu alte cuvinte, modelele de date ar trebui să aibă parametrii optimi pentru rezultate precise.
Regresia componentelor principale (PCR)
Analiza componentelor principale are o aplicație la variabila x, reducând dimensionalitatea datelor. Implica extragerea setului de date cu cele mai multe variații într-un proces iterativ.
Deoarece procesul este iterativ, astfel încât să poată analiza un set de date multidimensional, regresia componentelor principale depășește problemele de dimensionalitate și coliniaritate prezente în regresia obișnuită cu cele mai mici pătrate.
Regresia netă elastică
Elastic Net Regression simplifică un model pentru ușurința interpretării. Un model poate avea tone de variabile (aka parametri); pot varia până la milioane în anumite modele. Într-un astfel de model, nu este posibil să se determine care variabile sunt utile și care sunt inutile.
Într-un astfel de caz, nu știți ce tip de regresie să alegeți dintre regresia Ridge și regresia Lasso. Aici, regresia netă elastică intră în joc pentru a simplifica modelul.
Regresia Elastic-Net combină o penalizare de regresie Ridge cu penalitatea de regresie Lasso și oferă tot ce este mai bun din ambele lumi. De asemenea, funcționează mai bine cu variabilele corelate.
Cele mai mici pătrate parțiale (PLS)
Cele mai mici pătrate parțiale iau în considerare atât variabilele explicative, cât și variabilele dependente. Principiul de bază al acestui tip de regresie este că variabilele x și y trec prin descompunere în structuri latente într-un proces iterativ.
PLS poate face față multicoliniarității. Ia în considerare structurile de date legate de x și y, oferindu-vă rezultate vizuale elaborate pentru interpretarea datelor. Mai multe variabile pot intra în considerare.
Sprijină regresia vectorială
Regresia vectorială de suport (SVR) este un algoritm care funcționează cu o funcție continuă. Spre deosebire de Support Vector Machine în acest sens, Support Vector Machine (SVM) se ocupă de problemele de clasificare. SVR prezice variabile ordonate continue.
În regresia simplă, accentul trebuie să se pună pe minimizarea erorii, în timp ce regresia vectorială de suport descoperă pragul erorii.
Regresia ordinală
Regresia logistică se ocupă de două categorii, dar în Regresia ordinală (aka Regresia logistică ordinală), trei sau mai multe categorii intră în joc cu presupunerea ordonării fără ambiguitate.
Regresia ordinală ajută la prezicerea unei variabile dependente ordinale atunci când sunt prezente una sau mai multe variabile independente.
Regresia Poisson
În regresia Poisson, numărul sau rata la care are loc evenimentul este punctul principal de focalizare.
Măsurăm rata la care apare evenimentul în regresia Poisson. Cu alte cuvinte, modelăm numărul de ori evenimentul are loc (numără) în timp. În regresia Poisson, timpul este constant și măsuram numărul evenimentului.
Regresie binomială negativă
Este utilă modelarea setului de date discrete (numărătoare). În aceeași notă, regresia binomială negativă ajută atunci când datele au o varianță mai mare în comparație cu media care este dispersia datelor este prea mare atunci când le trasați.
Modelul binom negativ nu presupune că variabila este egală cu medie, așa cum o face modelul bazat pe regresia Poisson.
Regresie aproape Poisson
Regresia Quasi Poisson este generalizarea regresiei Poisson. După cum sa menționat anterior, modelul de regresie Poisson se bazează pe o presupunere, de obicei, incorectă, că varianța este egală cu medie.
Modelul Quasi Poisson intră în joc atunci când varianța este funcția liniară a mediei și este, de asemenea, mai mare decât medie. Este scenariul în care Quasi Poisson este mai potrivit să fie aplicabil.
Regresia Cox
Regresia Cox (denumită și regresia pericolelor proporționale) investighează efectele mai multor variabile pentru durata de timp necesară pentru a se produce un anumit eveniment.
Luați în considerare următoarele evenimente în care regresia Cox poate fi găsită utilă,
- Timpul necesar pentru un al doilea atac de cord după primul atac de cord.
- Timpul necesar pentru al doilea accident după primul accident.
- Timpul durat de la detectarea cancerului până la moarte.
Datele de timp până la eveniment sunt vitale pentru aplicarea regresiei Cox.
Regresia Tobit
Regresia Tobit este utilă în estimarea unei relații liniare atunci când cenzura este găsită în variabila dependentă. Cenzura este observarea tuturor variabilelor independente. Contul real al valorii variabilei dependente este doar într-un interval restrâns de observații.
Regresia Bayesiană
Regresia Bayesiană se bazează mai degrabă pe distribuția probabilității decât pe estimarea punctuală. Ca rezultat, ieșirea sau „y” nu este o singură valoare. Este o distribuție de probabilitate. După cum știm că distribuția probabilității este o funcție matematică și nu o valoare. Distribuția probabilității oferă rezultate posibile într-un experiment.
Când compunem formularea modelului de regresie liniară pe baza distribuției de probabilitate, obținem următoarea expresie.
y ˜ N(β^TX,σ^2 I)- Ieșirea (y) este calculată dintr-o distribuție Gaussiană normală, în funcție de medie și varianță.
- Transpunerea (T) a matricei de ponderi (β) se obține prin înmulțirea acesteia cu matricea predictoare (X).
- Varianta este abaterea standard la pătrat (σ^2 ) înmulțită cu matricea Identității (I).
(Formularea multidimensională a modelului este în considerare)
Regresia cu cea mai mică abatere absolută (LAD).
Deviația absolută cea mai mică este cea mai cunoscută alternativă la metoda celor mai mici pătrate pentru a analiza modelele liniare. Știm că în metoda celor mai mici pătrate, minimizăm suma erorilor pătrate, dar în LAD, minimizăm suma valorilor absolute ale erorilor. Încearcă să găsească o funcție care se potrivește cu un set de date.
Într-un caz în care datele noastre sunt simple, cea mai mică abatere absolută este o linie dreaptă în plan cartezian bidimensional.
Formularea celui mai puțin absolut este foarte simplu de înțeles. Să presupunem că setul nostru de date este format din două puncte variabile ((x_i ,y_i) și i=1,2,3,4,5……n.
Obiectivul nostru este să găsim o funcție f astfel încât să fie aproximativ egală cu (~) așa cum se arată mai jos.
f(x_i ) ~ y_i
Pretenția este că funcția f are o formă specifică care conține niște parametri pe care trebuie să-i calculăm. Ideea de remarcat aici este că funcția f poate avea un număr de x parametri (sau variabile independente sau variabile explicative).
Vom încerca să aflăm valorile parametrilor care vor minimiza următoarea sumă a valorilor absolute ale erorilor (sau reziduurilor).
S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )Regresia ecologică
Regresia ecologică este instrumentală mai ales în subiecte precum științele politice și istoria. Tehnica ne permite să facem numărări la nivel macro și să venim cu predicții la nivel micro.
Regresia ecologică poate determina comportamentul de vot al indivizilor între diferite facțiuni și grupuri de societăți. Estimarea se bazează pe datele care sunt colectate din conturile anterioare.
Datele ecologice se bazează pe numărări într-o anumită regiune, grupuri, obiecte sau, în timp. Pe scurt, datele agregate ne ajută să aflăm despre comportamentul restrâns la indivizi.
Pentru ce este folosită analiza de regresie?
Analiza de regresie este utila in obtinerea mai multor obiective de business.
Analiza predictivă
Una dintre cele mai proeminente aplicații este analiza predictivă care permite prognozarea mai precisă a evenimentelor specifice de afaceri. Un tip de analiză predictivă este „analiza cererii”, care măsoară creșterea vânzărilor unui produs. Succesul unui produs nou lansat, precum și al produselor aflate în funcțiune, pot fi poziționate corect pe piață.
Ca un alt exemplu, Analiza de regresie are aplicații în reclamele produselor și serviciilor. Cu analiza de regresie, este previzibil ca câți cumpărători vor întâlni o reclamă. Ajută profesioniștii în vânzări și marketing să stabilească valoarea licitată a materialelor promoționale.
Analiza regresiei este, de asemenea, un instrument util pentru companiile de asigurări. Companiile de asigurări îl folosesc pentru a afla creditul asiguraților și pentru a estima numărul de daune susceptibile de a fi formulate de la clienții lor.
Eficienta operationala
Organizațiile iau decizii serioase folosind analiza de regresie pentru a-și optimiza operațiunile.
Deciziile bazate pe date pot exclude decizii îndoielnice, presupuneri inexacte cu sentimente instinctive și politici corporative.
Analiza regresivă transformă arta managementului într-o știință. De exemplu, este posibil să relaționăm timpul de așteptare al unui apelant cu numărul de reclamații dintr-un call center sau un departament de asistență clienți.
Suport pentru luarea deciziilor
Organizațiile de astăzi au o mulțime de date referitoare la finanțe, marketing, operațiuni și multe alte departamente. Factorii de decizie de top se înclină mai mult spre analiza datelor și știința datelor pentru a lua decizii mai informate cu eliminarea presupunerilor.
Cu ajutorul analizei de regresie, marile date pot fi supuse compresiei pentru informații slabe orientate spre acțiune, deschizând calea către luarea deciziilor mai precise. Analiza de regresie nu înlătură sau înlocuiește managerii; în schimb, pune în mâinile lor un instrument puternic pentru a lua decizii mai eficiente și mai eficiente decât oricând.
Corectarea erorii
Analiza de regresie ajută, de asemenea, la identificarea erorilor intuitive de judecată și de luare a deciziilor pentru managerii de afaceri.
De exemplu, un manager de magazin poate decide să mențină magazinul deschis pe timp de noapte pentru care decide să angajeze personal nou.
Analiza de regresie poate indica cu acuratețe că luarea în considerare a cheltuielilor cu personalul și a vânzărilor totale pe care aceasta le generează pe timp de noapte nu poate avea o justificare reciprocă. Astfel, aplicarea cantitativă a analizei de regresie permite excluderea luării de decizii proaste.
Perspective acționabile
Companiile înțeleg și recunosc valoarea datelor și ceea ce poate fi obținut prin tehnicile de analiză de regresie, dar multe nu reușesc să transforme aceste date în perspective acționabile. Obținerea de informații din datele brute nu este o sarcină ușoară. Un raport al Forrester susține că 74% dintre companii vor să decidă cu introducerea datelor, dar doar 29% reușesc să obțină analize care să le permită să ia decizii fructuoase.
Un studiu de caz critic din lumea afacerilor este Konica Minolta. Konica a fost unul dintre cei mai de succes producători de camere. În 2000, majoritatea fotografilor și pasionaților de aparate foto au trecut la camerele digitale.
Cel mai important organism decizional de la Konica nu a luat decizii suficient de rapid, ca urmare, până în 2004, când Konica și-a lansat primul aparat foto, majoritatea concurenților precum Nikon și Canon s-au consacrat bine pe piața noii camere digitale. Drept urmare, în 2006, compania a suferit pierderi atât de mari încât a vândut o mare parte din tehnologia și activele sale către Sony.
Dacă Konica ar fi avut cunoștințele din datele brute comerciale și de piață procesate prin analiză de regresie și tehnici similare, Konica ar fi putut să ia decizia corectă la momentul potrivit.
Analiza de regresie a datelor care oferă perspective acționabile pune puterea absolută în mâinile factorilor de decizie care pot schimba jocul în lumea reală.
Cum să alegeți modelul de regresie corect?
Există sute de tipuri de regresii și am acoperit cele mai populare tipuri.
Lumea reală este foarte complexă, iar creatorii de modele măsoară multe variabile, dar includ doar câteva în model. Analiștii exclud variabilele independente care au un impact foarte mic sau deloc asupra variabilei dependente sau a rezultatului.
Atunci când selectați un model de regresie, trebuie reținut următorul fapt simplu pentru a menține echilibrul prin introducerea numărului corect de variabile independente în ecuația de regresie.
- Prea puține variabile independente, modelul nespecificat devine părtinitor.
- Prea multe variabile independente, modelul nespecificat își pierde precizia.
- Modelul Just the Right apare atunci când termenii matematici nu sunt părtinitori și sunt cei mai precisi.
Gânduri finale
Analiza de regresie își are originile în statistici care este o știință veche de o sută de ani, dar recent a câștigat atenția pe măsură ce big data explodează. Analiza de regresie își găsește drumul prin statistici în analiza datelor, știința datelor și aplicațiile acestora în aproape toate organizațiile.
Modelele de regresie create cu analiza de regresie sunt un instrument indispensabil pentru furnizarea îmbunătățită de predictibilitate, eficiență operațională, luare a deciziilor bine informate, prevenirea erorilor, evitarea deciziilor greșite și perspective mai bune.
Altă resursă utilă:
Importanța analizei de regresie în afaceri
Ghidul complet pentru analiza regresiei