Diversi tipi di analisi di regressione da conoscere
Pubblicato: 2020-03-05L'analisi di regressione è la metodologia che tenta di stabilire una relazione tra una variabile dipendente e una singola o più variabili indipendenti.
La regressione è nativamente un concetto statistico, ma sta trovando le sue applicazioni in molti campi legati al business come la finanza, gli investimenti, i mercati azionari, nonché in aree come la scienza e l'ingegneria.
Esistono alcune applicazioni emergenti delle analisi di regressione sotto forma di scienza dei dati, apprendimento automatico e intelligenza artificiale che segnano il futuro dell'umanità.
- Terminologie
- Diversi tipi di analisi di regressione
- A cosa serve?
- Come scegliere il modello giusto
Terminologie relative alla regressione
Per comprendere i tipi di analisi di regressione, è utile comprendere le relative terminologie.
Valori anomali
I valori anomali sono visibili con grafici di dati su un grafico. Nell'analisi di regressione(1), i valori anomali sono punti del grafico che cadono significativamente al di fuori della nuvola composta da altri punti. I punti anomali sono essenziali perché possono influenzare pesantemente l'esito di un'analisi di regressione. Per comprendere questo concetto, supponiamo che un edificio sia pieno di professionisti con un background finanziario medio in termini di guadagni.
Hanno tutti uno stipendio medio di circa centomila dollari l'anno. Improvvisamente, Bill Gates e Jeff Bezos entrano nell'edificio e, una volta inclusi gli stipendi di questi due miliardari, lo stipendio medio diventa drasticamente impreciso. Gli stipendi di questi due famosi gentiluomini sono i valori anomali in questo esempio.
Multicollinearità
Nell'analisi di regressione, osservando la correlazione tra due o più variabili di input, è osservabile che quando avviene l'aggiunta di una o più variabili di input, il modello non riesce a rendere le cose più trasparenti sul mondo reale.
È fondamentale scoprire come le variabili di input si relazionano tra loro. Misurare la multicollinearità del modello di regressione è un modo per trovare la relazione tra le variabili di input. Ad esempio, potresti imbatterti in un modello in cui sei disposto a scoprirlo ciò che determina lo stipendio di una persona a una determinata età. Vengono prese in considerazione variabili (fattori) indipendenti come il livello di istruzione, l'età e molti altri fattori che influenzano lo stipendio medio di un individuo.
Ma, prima di andare oltre e gettare ogni fattore sotto il sole nel tuo modello, devi sapere come sono correlati (inter-associati). Se la multicollinearità diventa troppo alta, provoca un'alterazione dei dati e il modello va in pezzi.
Eteroscedasticità
L'eteroschedasticità (a volte scritta come eteroschedasticità) si verifica quando la lettura dell'errore standard (SE) di una variabile misurata in un dato tempo non è costante.
Qualsiasi analisi di regressione eseguita su tali dati che mostra eteroschedasticità fornisce, come minimo, coefficienti distorti e rovina i risultati.
Sovraccarico
L'overfitting in un'analisi di regressione si verifica quando le variabili iniziano a mostrare errori casuali piuttosto che descrivere in modo efficiente la relazione tra le variabili. L'overfitting produce molto rumore piuttosto che la vera rappresentazione della popolazione. Il risultato del modello non è più realistico. Devi rendere il tuo modello il più vicino possibile alla realtà. Come esempio di allestimento dal mondo reale. La migliore parola possibile che descrive l'equipaggiamento dall'esempio del mondo reale è "generalizzazione eccessiva". Quando l'errore o la distorsione aumenta, i valori realistici non possono essere determinati come risultato.
Inadeguato
L'underfitting si verifica quando il numero di variabili si adatta a malapena a un dato modello e l'output non rimane accurato. Per avere risultati positivi da un'analisi di regressione, sono necessari i valori ottimali delle variabili, quindi il modello ottenuto è vicino alla realtà. In breve, quando le variabili non sono ottimizzate, o il modello non adatta i dati in modo efficiente, viene chiamato un inadeguato.
Tipi di analisi di regressione
Esistono due tipi di variabili in qualsiasi forma di regressione. Una sono le variabili indipendenti, o sono anche chiamate variabili esplicative, vengono utilizzate per gli input. L'altro tipo di variabile è una variabile dipendente, nota anche come predittore. È il valore che stai cercando di scoprire o il risultato del modello.
Di seguito vengono descritti i diversi tipi di analisi di regressione.
Regressione lineare
La regressione lineare si occupa di due tipi di variabili. Una variabile è chiamata variabile indipendente e l'altro tipo di variabile è la variabile dipendente.
La variabile indipendente varia lungo l'asse x del piano cartesiano e la variabile dipendente varia lungo l'asse y. Queste variabili sono rispettivamente "x" e "y". Il valore di y dipende da x. Quando x cambia, la "y" aumenta o diminuisce.
Esistono due tipi di regressione lineare.- Regressione lineare semplice
- Regressione lineare multipla
- Regressione lineare semplice: nella regressione lineare semplice, c'è solo una variabile dipendente e una variabile dipendente.
L'equazione per la regressione lineare semplice è y=β_0+β_1 xQui, x rappresenta la variabile indipendente, è la pendenza della retta di regressione ed è l'intercetta y. “y” è la variabile dipendente o il risultato.
- Regressione lineare multipla: nella regressione lineare multipla, la variabile dipendente è una, ma hai più variabili indipendenti.
La seguente equazione rappresenta la regressione lineare multipla,y= β_0+β_1 x_1+⋯β_n x_n+ εQui, y è la variabile dipendente, è l'intercetta y. denotare le molteplici variabili indipendenti nel modello. è il "pregiudizio" o "errore". La minimizzazione di pregiudizi o errori è il nostro obiettivo principale al fine di creare un modello vicino alla situazione del mondo reale.
Regressione multivariata
La regressione multivariata è diversa dalla regressione lineare multipla nel senso che ha più variabili dipendenti con l'input di più variabili indipendenti. Le variabili dipendenti ( y_1, y_2 , y_3 …. y_n) sono in formule diverse. E ha più di una variabile indipendente ( x_1, x_2, ….x_m ) per prevedere le Y. Nella regressione multivariata i dati utilizzati sono per lo più dello stesso tipo di altri tipi di analisi di regressione.
Regressione logistica
La regressione logistica è la seconda forma più popolare di regressione dopo la regressione lineare e i suoi usi abbracciano la biostatistica, la medicina e le scienze sociali.
La regressione logistica si occupa di valori booleani come,- vero o falso
- sì o no
- grande o piccolo
- uno o zero
La regressione logistica viene utilizzata nella classificazione di oggetti come un'e-mail come "spam" o "non spam".
In breve, c'è un output nella regressione logistica che può essere "Vero" o "Falso". Inoltre, nei modelli di regressione logistica possono essere presenti un singolo input o più input.
Regressione polinomiale
Ci sono casi in cui abbiamo a che fare con variabili la cui relazione non è lineare. In tal caso, il nostro modello è una curva, non una linea a differenza della regressione lineare. Quindi, abbiamo un'altra forma di regressione nota come regressione polinomiale.
L'equazione della regressione polinomiale è il potere ascendente della variabile di input x, una generalizzazione di cui è sotto.
y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε
Regressione quantilica
La definizione di regressione quantile è molto diversa da quella che è nella pratica. Il quantile è un altro nome della mediana nelle statistiche.
Il quantile è il punto o la linea che divide i dati di output in due parti uguali. Immagina un set di dati sotto forma di una linea sull'asse y. Il set di dati è diviso esattamente in due parti uguali. Il valore del quantile è 0,5 o 50% al punto della divisione.
Nella stessa nota, le due parti di dati equamente divise vengono nuovamente divise equamente lungo l'asse y. Questa volta abbiamo diviso i dati in quattro parti uguali e i nuovi punti di divisione sull'asse y inferiore del grafico sono 0,25 o 25%.
Allo stesso modo, il quantile diviso dell'asse y superiore è 0,75 o 75%. In generale, i quantili sono solo linee o punti che dividono i dati in blocchi o gruppi uguali.
I quantili sputano dati in un centinaio di gruppi di uguali dimensioni. Ma, nel mondo reale, la definizione di quantile è molto più flessibile.
La regressione quantile è utile quando c'è una presenza di elevata eteroschedasticità nel modello e la regressione lineare non è sufficientemente accurata per prevedere il risultato perché il modello lineare si basa su valori medi e i quantili possono essere più precisi con valori mediani.
Regressione della cresta
La regressione della cresta utilizza una tecnica chiamata "regolarizzazione". La regolarizzazione è appropriata per i modelli che non riescono a testare i dati ma trasmettono i dati di addestramento.
La regressione della cresta funziona meglio quando la maggior parte delle variabili nel modello sono utili.
Quando i dati di esempio mostrano multi collinearità, accadono due cose indesiderate,
- Le stime dei minimi quadrati dei coefficienti delle variabili predittive danno errori elevati.
- C'è inflazione negli errori standard.
Ridge Regression è una tecnica per la stabilizzazione dei coefficienti di regressione in presenza di multicollinearità.
Regressione con lazo
Lasso sta per "operatore di restringimento e selezione meno assoluto". La regressione lazo funziona meglio quando si hanno molte variabili inutili. Lasso Regression assomiglia alla regressione di Ridge, ma alcune differenze la rendono unica.
La regressione della cresta e la regressione lazo hanno applicazioni negli stessi scenari in cui è presente la multicollinearità. Tuttavia, la regressione della cresta è adatta per previsioni a lungo termine.
La regressione lazo applica il restringimento ai dati. I valori dei dati si restringono verso un punto centrale come la mediana o la media.
La semplificazione e la scarsità dei modelli di dati sono le funzioni in cui la regressione lazo funziona meglio. In altre parole, i modelli di dati dovrebbero avere i parametri ottimali per risultati accurati.
Regressione della componente principale (PCR)
L'analisi delle componenti principali ha un'applicazione alla variabile x, riducendo la dimensionalità dei dati. Implica l'estrazione di set di dati con la maggior parte delle variazioni in un processo iterativo.
Poiché il processo è iterativo in modo da poter analizzare un set di dati multidimensionale, la regressione della componente principale supera i problemi di dimensionalità e collinearità presenti nella normale regressione dei minimi quadrati.
Regressione della rete elastica
Elastic Net Regression semplifica un modello per facilitarne l'interpretazione. Un modello può avere tonnellate di variabili (ovvero parametri); possono variare fino a milioni in modelli specifici. In un tale modello, non è possibile determinare quali variabili sono utili e quali sono inutili.
In tal caso, non si sa quale tipo di regressione scegliere tra Regressione cresta e Regressione lazo. Qui entra in gioco la Elastic Net Regression per semplificare il modello.
La Elastic-Net Regression combina una penalità di regressione di cresta con la penalità di regressione con lazo e dà il meglio di entrambi i mondi. Funziona meglio anche con variabili correlate.
Minimi quadrati parziali (PLS)
I minimi quadrati parziali considerano sia le variabili esplicative che dipendenti. Il principio alla base di questo tipo di regressione è che le variabili xey passano attraverso la scomposizione in strutture latenti in un processo iterativo.
PLS può gestire la multicollinearità. Prende in considerazione le strutture di dati relative a xey, fornendo risultati visivi elaborati per l'interpretazione dei dati. Possono essere prese in considerazione diverse variabili.
Supporta la regressione vettoriale
Il Support Vector Regression (SVR) è un algoritmo che funziona con una funzione continua. È in contrasto con Support Vector Machine in questo senso che Support Vector Machine (SVM) si occupa di problemi di classificazione. SVR prevede variabili ordinate continue.
Nella regressione semplice, l'enfasi deve essere sulla minimizzazione dell'errore mentre la regressione del vettore di supporto scopre la soglia dell'errore.
Regressione ordinale
La regressione logistica si occupa di due categorie, ma nella regressione ordinale (nota anche come regressione logistica ordinale), tre o più categorie entrano in gioco con il presupposto di un ordinamento non ambiguo.
La regressione ordinale aiuta a prevedere una variabile ordinale dipendente quando sono presenti una o più variabili indipendenti.
Regressione di Poisson
Nella regressione di Poisson, il conteggio o la frequenza con cui si verifica l'evento è il punto focale principale.
Misuriamo la velocità con cui l'evento si verifica nella regressione di Poisson. In altre parole, modelliamo il numero di volte in cui l'evento si verifica (conta) nel tempo. Nella regressione di Poisson, il tempo è costante e misuriamo il conteggio dell'evento.
Regressione binomiale negativa
È utile modellare il set di dati (conteggio) discreto. Sulla stessa nota, la regressione binomiale negativa aiuta quando i dati hanno una varianza maggiore rispetto alla media che la dispersione dei dati è eccessiva quando li si traccia.
Il modello binomiale negativo non presuppone che la variabile sia uguale a media come fa il modello basato sulla regressione di Poisson.
Regressione di quasi Poisson
La regressione di Quasi Poisson è la generalizzazione della regressione di Poisson. Come accennato in precedenza, il modello di regressione di Poisson si basa su un presupposto generalmente ingiusto che la varianza sia uguale a media.
Il modello di Quasi Poisson entra in gioco quando la varianza è la funzione lineare della media, ed è anche superiore alla media. È lo scenario in cui Quasi Poisson è più appropriato da applicare.
Regressione di Cox
La regressione di Cox (aka Proportional Hazards Regression) studia gli effetti di diverse variabili per la durata del tempo necessario per il verificarsi di un determinato evento.
Considera i seguenti eventi in cui la regressione di Cox può essere considerata utile,
- Il tempo impiegato per un secondo infarto dopo il primo infarto.
- Il tempo impiegato per il secondo incidente dopo il primo.
- Il tempo impiegato dalla scoperta del cancro fino alla morte.
I dati del tempo all'evento sono vitali per l'applicazione della regressione di Cox.
Regressione di Tobi
La regressione di Tobit è utile nella stima di una relazione lineare quando si trova la censura nella variabile dipendente. La censura è l'osservazione di tutte le variabili indipendenti. Il resoconto effettivo del valore della variabile dipendente si trova solo in un ristretto intervallo di osservazioni.
Regressione bayesiana
La regressione bayesiana si basa sulla distribuzione di probabilità piuttosto che sulla stima puntuale. Di conseguenza, l'output o la "y" non è un singolo valore. È una distribuzione di probabilità. Come sappiamo, la distribuzione di probabilità è una funzione matematica e non un valore. La distribuzione di probabilità fornisce possibili risultati in un esperimento.
Quando componiamo la formulazione del modello di regressione lineare basata sulla distribuzione di probabilità, otteniamo la seguente espressione.
y ˜ N(β^TX,σ^2 I)- L'output (y) viene calcolato da una normale distribuzione gaussiana a seconda della media e della varianza.
- La trasposizione (T) della matrice di peso (β) si ottiene moltiplicandola per la matrice predittiva (X).
- La varianza è la deviazione standard al quadrato (σ^2 ) moltiplicata per la matrice di identità (I).
(È allo studio la formulazione multidimensionale del modello)
Regressione della deviazione minima assoluta (LAD).
La deviazione minima assoluta è l'alternativa più conosciuta al metodo dei minimi quadrati per analizzare i modelli lineari. Sappiamo che nel metodo dei minimi quadrati minimizziamo la somma degli errori al quadrato, ma in LAD minimizziamo la somma dei valori assoluti degli errori. Cerca di trovare una funzione che si adatti molto bene a un insieme di dati.
In un caso in cui i nostri dati sono semplici, la deviazione minima assoluta è una linea retta nel piano cartesiano bidimensionale.
La formulazione del minimo assoluto è molto semplice da capire. Supponiamo che il nostro set di dati sia composto da due punti variabili ( (x_i ,y_i) e i=1,2,3,4,5……n.
Il nostro obiettivo è trovare una funzione f tale che sia approssimativamente uguale a (~) come mostrato di seguito.
f(x_i ) ~ y_i
L'affermazione è che la funzione f ha una forma specifica contenente alcuni parametri che dobbiamo calcolare. Il punto da notare qui è che la funzione f può avere un numero di x parametri (o variabili indipendenti o variabili esplicative).
Cercheremo di scoprire i valori dei parametri che minimizzeranno la seguente somma dei valori assoluti degli errori (o residui).
S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )Regressione ecologica
La regressione ecologica è strumentale principalmente in materie come scienze politiche e storia. La tecnica ci consente di fare i conti a livello macro e di elaborare previsioni a livello micro.
La regressione ecologica può determinare il comportamento di voto degli individui tra diverse fazioni e gruppi di società. La stima si basa sui dati raccolti dai conti precedenti.
I dati ecologici si basano su conteggi in una particolare regione, gruppi, oggetti o, nel tempo. In breve, i dati aggregati ci aiutano a conoscere il comportamento ristretto agli individui.
A cosa serve l'analisi di regressione?
L'analisi di regressione è utile per ottenere diversi obiettivi di business.
Analisi predittiva
Una delle applicazioni più importanti è l'analisi predittiva che consente di prevedere in modo più accurato eventi aziendali specifici. Un tipo di analisi predittiva è l'"analisi della domanda", che misura l'aumento delle vendite di un prodotto. Il successo di un prodotto appena lanciato, così come i prodotti in esecuzione, possono essere posizionati correttamente nel mercato.
Come altro esempio, l'analisi di regressione ha applicazioni nella pubblicità di prodotti e servizi. È prevedibile con l'analisi della regressione quanti acquirenti possono imbattersi in un annuncio pubblicitario. Aiuta i professionisti delle vendite e del marketing a stabilire il valore dell'offerta dei materiali promozionali.
L'analisi di regressione è anche uno strumento utile per le compagnie assicurative. Le compagnie di assicurazione lo utilizzano per scoprire il credito degli assicurati e stimare il numero di richieste di risarcimento che potrebbero essere avanzate dai loro clienti.
Efficienza operativa
Le organizzazioni prendono decisioni serie utilizzando l'analisi di regressione per ottimizzare le proprie operazioni.
Le decisioni basate sui dati possono escludere decisioni discutibili, congetture imprecise con sentimenti istintivi e politiche aziendali.
L'analisi regressiva sta convertendo l'arte del management in una scienza. Ad esempio, è possibile mettere in relazione il tempo di attesa di un chiamante con il numero di reclami in un call center o in un servizio clienti.
Supporto al processo decisionale
Le organizzazioni oggi hanno un sacco di dati relativi a finanza, marketing, operazioni e molti altri dipartimenti. I principali responsabili delle decisioni si stanno orientando maggiormente verso l'analisi dei dati e la scienza dei dati per prendere decisioni più informate eliminando le congetture.
Con l'aiuto dell'analisi di regressione, i big data possono essere compressi per ottenere informazioni snelle orientate all'azione, aprendo la strada a un processo decisionale più accurato. L'analisi di regressione non rimuove né sostituisce i gestori; invece, mette nelle loro mani uno strumento potente per prendere decisioni più efficaci ed efficaci che mai.
Correzione dell'errore
L'analisi di regressione aiuta anche a identificare errori intuitivi nel giudizio e nel processo decisionale per i manager aziendali.
Ad esempio, un responsabile di negozio può decidere di tenere il negozio aperto nelle ore notturne per cui decide di assumere nuovo personale.
L'analisi di regressione può indicare con precisione che considerare le spese del personale e il totale delle vendite che genera nelle ore notturne non possono avere una giustificazione reciproca. Pertanto, l'applicazione quantitativa dell'analisi di regressione consente di escludere decisioni sbagliate.
Approfondimenti attuabili
Le aziende comprendono e riconoscono il valore dei dati e ciò che può essere ottenuto con le tecniche di analisi di regressione, ma molte non riescono a convertire questi dati in informazioni fruibili. Ottenere informazioni dettagliate dai dati grezzi non è un compito facile. Un rapporto di Forrester afferma che il 74% delle aziende vuole decidere con l'immissione di dati, ma solo il 29% riesce a ottenere analisi che possono consentire loro di prendere decisioni fruttuose.
Un caso di studio critico dal mondo degli affari è Konica Minolta. Konica è stato uno dei produttori di fotocamere di maggior successo. Nel 2000, la maggior parte dei fotografi e degli appassionati di fotocamere è passata alle fotocamere digitali.
Il massimo organo decisionale di Konica non ha preso decisioni abbastanza velocemente, di conseguenza nel 2004, quando Konica ha lanciato la sua prima fotocamera, la maggior parte dei concorrenti come Nikon e Canon si erano affermati nel nuovo mercato delle fotocamere digitali. Di conseguenza, nel 2006, la società ha subito perdite così pesanti che ha venduto gran parte della sua tecnologia e risorse a Sony.
Se Konica avesse avuto le informazioni dai dati commerciali e di mercato grezzi elaborati attraverso l'analisi di regressione e tecniche simili, Konica sarebbe stata in grado di prendere la decisione giusta al momento giusto.
L'analisi della regressione dei dati che fornisce informazioni utili mette il potere assoluto nelle mani dei responsabili delle decisioni che possono cambiare le regole del gioco nel mondo reale.
Come scegliere il modello di regressione giusto?
Esistono centinaia di tipi di regressioni e abbiamo trattato i tipi più popolari.
Il mondo reale è molto complesso e i creatori del modello misurano molte variabili ma ne includono solo alcune nel modello. Gli analisti escludono le variabili indipendenti che hanno un impatto minimo o nullo sulla variabile dipendente o sul risultato.
Quando si seleziona un modello di regressione, è necessario tenere presente il seguente semplice fatto per mantenere l'equilibrio inserendo il numero corretto di variabili indipendenti nell'equazione di regressione.
- Troppo poche variabili indipendenti, il modello non specificato diventa bias.
- Troppe variabili indipendenti, il modello non specificato perde la sua precisione.
- Il modello Just the Right viene creato quando i termini matematici non sono distorti e sono i più precisi.
Pensieri finali
L'analisi di regressione ha le sue origini nella statistica che è una scienza centenaria, ma di recente ha guadagnato i riflettori dell'attenzione poiché i big data stanno esplodendo. L'analisi di regressione si sta facendo strada attraverso le statistiche nell'analisi dei dati, nella scienza dei dati e nelle loro applicazioni in quasi tutte le organizzazioni.
I modelli di regressione creati con l'analisi di regressione sono uno strumento indispensabile per migliorare la prevedibilità, l'efficienza operativa, il processo decisionale ben informato, la prevenzione degli errori, la prevenzione di decisioni sbagliate e una migliore comprensione.
Altre risorse utili:
Importanza dell'analisi di regressione negli affari
La guida completa sull'analisi di regressione