Che cos'è l'analisi di regressione semplice? – Guida

Pubblicato: 2020-08-06

Sai che la semplice analisi di regressione può essere impiegata per vari scopi negli affari? In effetti, la previsione di opportunità e rischi futuri è una delle principali applicazioni dell'analisi di regressione in un'azienda. Inoltre, le aziende utilizzano modelli di regressione lineare per ottimizzare i propri processi aziendali riducendo l'enorme quantità di dati grezzi in informazioni utilizzabili.

In questo articolo

Definizione di analisi di regressione semplice
Il modello di regressione lineare semplice
Come eseguire
Parti chiave da sapere
Assunzioni di regressione lineare semplice
Esempi di analisi di regressione lineare semplice
Limitazioni

Cos'è l'analisi di regressione semplice

Fondamentalmente, una semplice analisi di regressione è uno strumento statistico che viene utilizzato nella quantificazione della relazione tra una singola variabile indipendente e una singola variabile dipendente sulla base di osservazioni che sono state effettuate in passato. Nell'interpretazione profano, ciò significa che una semplice analisi di regressione lineare può essere utilizzata per dimostrare come una variazione delle ore della macchina di produzione di un'organizzazione (che è la variabile indipendente) si tradurrà di conseguenza in una variazione del costo dell'elettricità dell'organizzazione .

Il modello di regressione lineare semplice

Fondamentalmente, il modello di regressione lineare semplice può essere espresso nello stesso valore della formula di regressione semplice .

y = β ₀ + β ₁ X+ ε.

Nel modello di regressione lineare semplice, consideriamo la modellazione tra una variabile indipendente e la variabile dipendente. Di solito, il modello è in genere chiamato modello di regressione lineare semplice quando nel modello di regressione lineare è presente solo una singola variabile indipendente. Tieni presente che diventa un modello di regressione lineare multipla quando sono presenti più variabili indipendenti.

Nel modello di regressione lineare semplice, y si riferisce allo studio o alla variabile dipendente e X è la variabile esplicativa o indipendente. Le espressioni β ₀ e β ₁ sono i parametri del modello di regressione lineare. Il parametro β ₀ è considerato un termine di intercetta, mentre il parametro β ₁ è considerato il parametro della pendenza. Il termine generale per questi parametri è noto come coefficienti di regressione.

L'espressione 'ε' è l'errore non osservabile che spiega l'impossibilità dei dati di rimanere sulla retta. Rappresenta anche la variazione tra la realizzazione osservata e quella vera di 'y'.

Diverse ragioni possono essere attribuite a queste differenze. Ad esempio, le variabili possono essere qualitative, casualità intrinseca nelle osservazioni e anche l'effetto di tutte le variabili eliminate nel modello contribuisce alle differenze. Pertanto, si assume che ε sia osservato come variabile casuale indipendente e identicamente distribuita con media zero e varianza costante q². Successivamente, si assumerà inoltre che ε sia distribuito normalmente.

Le variabili indipendenti nel modello di regressione lineare sono viste come controllate dallo sperimentatore. Questo è il motivo per cui è considerata non stocastica, mentre y è considerata una variabile casuale con:

E(y) = β ₀ + β ₁ X. e

Var(y) = q²

In alcuni casi, X può funzionare come una variabile casuale. In queste situazioni, piuttosto che la varianza campionaria e la media campionaria di y, la nostra considerazione sarà sulla media condizionata di y fornita X = x come

ε(y) = β0 e β1

e la varianza condizionale di y fornito X = x come

Var(y|x) = q².

Quindi, il modello di analisi di regressione semplice è completamente espresso quando sono noti i valori di β ₀ , β ₁ e q². In generale, i parametri β ₀ , β ₁ e q² non sono noti nella pratica e ε non è osservato. Pertanto, si vede che la determinazione del modello statistico y = β ₀ + β ₁ X + ε si basa sulla determinazione (cioè stima) di β ₀ , β ₁ e q². Per accertare i valori di questi parametri, vengono osservate/raccolte n coppie di osservazioni (x, y)( = 1,…, n) su (X, y) e utilizzate per determinare questi parametri sconosciuti.

In tutto, nella determinazione delle stime dei parametri possono essere impiegati diversi metodi di stima. Il metodo più popolare è la stima dei minimi quadrati e il metodo di stima della massima verosimiglianza.

Come eseguire una semplice analisi di regressione

Il modo più comune in cui le persone eseguono una semplice analisi di regressione consiste nell'utilizzare programmi statistici per consentire un'analisi rapida dei dati.

Eseguendo la semplice regressione lineare in R

R è un programma statistico utilizzato per eseguire una semplice analisi di regressione lineare. È ampiamente usato, potente e gratuito. Ecco come funziona.

Innanzitutto, devi caricare il set di dati reddito.data nel tuo ambiente R. Quindi esegui il comando seguente per creare un modello di libreria che dimostri la relazione tra felicità e reddito.

Codice R per una regressione lineare

reddito.felicità.lm <- lm(felicità ~ reddito, dati = reddito.data)

Fondamentalmente, questo codice prenderà i dati raccolti "data = reddito.data" e quindi valuterà l'effetto che la variabile indipendente "reddito" ha sulla variabile dipendente "felicità" utilizzando l'equazione per il modello lineare: lm().

Come interpretare i risultati

Per visualizzare l'esito del modello, è possibile utilizzare la funzione “summary()” in R:

sommario(reddito.felicità.lm)

Ciò che fa questa funzione è prendere i parametri più importanti dal modello lineare e inserirli in una tabella.

Questa tabella dei risultati ripete inizialmente la formula utilizzata nella generazione dei risultati ("Chiamata"). Successivamente, riassume i residui del modello ("Residui"). Questo aiuta a fornire informazioni su come il modello si adatta in modo appropriato ai dati originali.

Quindi passiamo alla tabella 'Coefficienti'. La prima riga fornisce le stime dell'intercetta y, mentre la seconda riga fornisce il coefficiente di regressione del modello.

La riga numero uno della tabella è denominata "(Intercetta)". Questa è l'intercetta y dell'equazione di regressione, con un valore di 0,20. Puoi incorporarlo nell'equazione della tua regressione se vuoi fare previsioni per i valori di felicità nell'intervallo di reddito che hai analizzato:

felicità = 0,20 + 0,71*reddito±0,018

La riga successiva nella tabella "Coefficienti" è il reddito. Questa riga spiega l'effetto stimato del reddito sulla felicità dichiarata.

La colonna "Stima" è l'effetto stimato. Può anche essere indicato come valore r² o coefficiente di regressione. Il numero nella tabella (0,713) ci informa che per ogni singola unità di aumento del reddito (considerando che un'unità di reddito equivale a $ 10.000), c'è un corrispondente aumento di 0,71 unità della felicità dichiarata (considerando la felicità come una scala di 1 a 10).

Il “Std. La colonna "Errore" descrive l'errore standard della stima. Questo numero dimostra il livello di variazione nella nostra stima della relazione tra felicità e reddito.

La statistica del test viene visualizzata nella colonna "t value". Se non si specifica diversamente, la statistica del test utilizzata nella regressione lineare rimane il valore t di un test t a doppia faccia. Maggiore è la statistica del test, minore è la probabilità che i nostri risultati si siano verificati per caso.

La colonna "pr(>| t |)" descrive il valore p. La figura ci mostra la probabilità di avere l'effetto stimato del reddito sulla felicità se l'ipotesi nulla di nessun effetto fosse corretta.

Poiché il valore p è molto basso (p < 0,001), possiamo respingere l'ipotesi nulla e giungere alla conclusione che il reddito ha un effetto statisticamente rilevante sulla felicità.

Le ultime 3 righe del riepilogo del modello sono statistiche relative all'intero modello. La cosa più significativa da tenere a mente qui è il valore p del modello. Diventa rilevante qui (p < 0,001), il che significa che questo modello è un adattamento standard per i dati osservati.

Presentazione dei risultati

Nel report dei risultati, aggiungere il valore p, l'errore standard della stima e l'effetto stimato (ovvero il coefficiente di regressione). È anche necessario interpretare i tuoi numeri per rendere chiaro ai tuoi lettori qual è il significato del coefficiente di regressione.

Risultato

C'era una relazione rilevante (p < 0,001) tra reddito e felicità ( R² = 0,71±0,018), con un aumento di 0,71 unità della felicità dichiarata per ogni aumento di $ 10.000 di reddito.

Inoltre, sarebbe utile aggiungere un grafico insieme ai risultati. Per una semplice regressione lineare , tutto ciò che devi fare è tracciare le osservazioni sull'asse xey. Quindi aggiungi la funzione di regressione e la retta di regressione.

Semplice formula di regressione lineare

La formula per una semplice regressione lineare è

y = β ₀ + β ₁ + ε

Parti chiave dell'analisi di regressione semplice

R²

Questa è una misura di associazione. Serve come rappresentazione per la percentuale della varianza nei valori di Y che può essere visualizzata comprendendo il valore di X. R² varia da un minimo di 0,0 (dove non viene spiegata alcuna varianza), a un massimo di +1,0 (in cui viene spiegata ogni varianza).

Seb

Questo si riferisce all'errore standard del valore registrato di b. Un test t per l'importanza statistica del coefficiente viene effettuato dividendo il valore di b per il suo errore standard. Secondo la regola pratica, un valore t superiore a 2,0 è in genere statisticamente rilevante, tuttavia è necessario fare riferimento a una tabella t solo per essere sicuri.

Se in base al valore t c'è un'indicazione che il coefficiente b è statisticamente rilevante, allora significa che la variabile indipendente di X dovrebbe essere riservata nell'equazione di regressione. Ciò è soprattutto perché presenta una relazione statisticamente rilevante con la variabile dipendente o Y. Nel caso in cui la relazione non sia statisticamente rilevante, il valore del "coefficiente b" sarebbe uguale a zero (statisticamente parlando).

F

Questo è un test per la rilevanza statistica dell'intera equazione di regressione. Viene generato dividendo la varianza descritta per la varianza inspiegabile. Come afferma la regola pratica, qualsiasi valore F superiore a 4,0 è molto spesso statisticamente rilevante. Tuttavia, devi fare riferimento a una tabella F solo per essere sicuro. Se F è rilevante, l'equazione di regressione ci aiuta a conoscere la relazione tra X e Y.

Assunzioni di regressione lineare semplice

Omogeneità della varianza: questa può anche essere definita omoscedasticità. Il nucleo di questa ipotesi afferma che non vi è alcun cambiamento significativo nella dimensione dell'errore nella nostra previsione attraverso i valori della variabile indipendente.
Indipendenza delle osservazioni: qui sono stati utilizzati metodi di campionamento statisticamente validi per raccogliere le osservazioni nel set di dati e non esistono relazioni sconosciute tra le osservazioni.
Normalità: questo presuppone semplicemente che i dati seguano una distribuzione normale.

Esempi di regressione lineare semplice

Qui citeremo uno scenario che funge da esempio dell'implementazione dell'analisi di regressione semplice .

Assumiamo che la velocità media quando vengono schierate 2 pattuglie autostradali sia di 75 mph, o 35 mph quando vengono schierate 10 pattuglie autostradali. La domanda quindi è qual è la velocità media delle auto in autostrada quando sono schierate 5 pattuglie autostradali?

Utilizzando la nostra semplice formula di analisi di regressione , possiamo quindi calcolare i valori e ricavare la seguente equazione: Y = 85 + (-5) X, dato che Y è la velocità media delle auto in autostrada. A = 85, o la velocità media quando X = 0

B = (-5), l'impatto di ogni auto di pattuglia in più schierata su Y

E X = nessun pattugliamento schierato

Pertanto, la velocità media delle auto in autostrada quando non ci sono pattuglie autostradali in funzione (X=0) sarà di 85 mph. Per ogni auto di pattuglia autostradale in più in funzione, la velocità media si riduce di 5 mph. Quindi, per 5 auto di pattuglia (X = 5), abbiamo Y = 85 + (-5) (5) = 85 – 25 = 60 mph.

Limiti della regressione lineare semplice

Anche i dati migliori non danno la perfezione. Tipicamente, la semplice analisi di regressione lineare è ampiamente utilizzata nella ricerca per evidenziare la relazione che esiste tra le variabili. Tuttavia, poiché la correlazione non viene interpretata come causalità, la relazione tra 2 variabili non significa che una causi il verificarsi dell'altra. In effetti, una linea in una semplice regressione lineare che descriva bene i punti dati potrebbe non determinare una relazione di causa ed effetto.

L'uso di un semplice esempio di analisi di regressione ti consentirà di scoprire se esiste una relazione tra le variabili. Pertanto, sono necessarie ulteriori analisi statistiche e ricerche per determinare quale sia esattamente la relazione e se una variabile conduce all'altra.

Pensieri finali

Complessivamente, le aziende di oggi devono prendere in considerazione una semplice analisi di regressione se necessitano di un'opzione che fornisca un eccellente supporto alle decisioni di gestione e identifichi anche errori di giudizio. Con un'analisi adeguata, grandi quantità di dati non strutturati che sono stati accumulati dalle aziende nel tempo avranno il potenziale per fornire preziose informazioni alle aziende.

Altre risorse utili:

Diversi tipi di analisi di regressione da conoscere

Importanza dell'analisi di regressione negli affari