Co to jest prosta analiza regresji? - Przewodnik

Opublikowany: 2020-08-06

Czy wiesz, że prosta analiza regresji może być wykorzystywana w biznesie do różnych celów? W rzeczywistości prognozowanie przyszłych możliwości i zagrożeń jest jednym z głównych zastosowań analizy regresji w firmie. Ponadto firmy stosują modele regresji liniowej w celu optymalizacji procesów biznesowych poprzez redukcję ogromnej ilości nieprzetworzonych danych w informacje umożliwiające podjęcie działań.

W tym artykule
  • Definicja prostej analizy regresji
  • Prosty model regresji liniowej
  • Jak wystąpić
  • Kluczowe części do poznania
  • Założenia prostej regresji liniowej
  • Przykłady prostej analizy regresji liniowej
  • Ograniczenia

Czym jest prosta analiza regresji

Zasadniczo prosta analiza regresji jest narzędziem statystycznym używanym do kwantyfikacji związku między pojedynczą zmienną niezależną a pojedynczą zmienną zależną na podstawie obserwacji przeprowadzonych w przeszłości. W interpretacji laika oznacza to, że prostą analizę regresji liniowej można wykorzystać do wykazania, w jaki sposób zmiana godzin pracy maszyny produkcyjnej organizacji (która jest zmienną niezależną) w konsekwencji spowoduje zmianę kosztów energii elektrycznej w organizacji .

Prosty model regresji liniowej

Zasadniczo prosty model regresji liniowej może być wyrażony w tej samej wartości, co prosty wzór regresji .

y = β 0 + β 1 X+ ε.

W modelu prostej regresji liniowej rozważamy modelowanie między jedną zmienną niezależną a zmienną zależną. Zwykle model jest zwykle nazywany prostym modelem regresji liniowej, gdy w modelu regresji liniowej występuje tylko jedna zmienna niezależna. Należy pamiętać, że staje się on modelem regresji liniowej wielokrotnej, gdy istnieje więcej niż jedna zmienna niezależna.

W modelu prostej regresji liniowej y odnosi się do badania lub zmiennej zależnej, a X jest zmienną objaśniającą lub niezależną. Wyrażenia β 0 i β 1 są parametrami modelu regresji liniowej. Parametr β 0 jest traktowany jako wyraz przecięcia, podczas gdy parametr β 1 jest uważany za parametr nachylenia. Ogólny termin określający te parametry jest znany jako współczynniki regresji.

Wyrażenie „ε” jest nieobserwowalnym błędem, który odpowiada za niezdolność danych do pozostania na linii prostej. Reprezentuje również różnicę między obserwowaną a prawdziwą realizacją „y”.

Różnicom tym można przypisać kilka przyczyn. Na przykład zmienne mogą być jakościowe, wrodzona losowość obserwacji, a wpływ wszystkich usuniętych zmiennych w modelu również przyczynia się do różnic. Zakłada się zatem, że ε jest obserwowana jako niezależna i identycznie rozłożona zmienna losowa o średniej zerowej i stałej wariancji q². Następnie założymy, że ε ma rozkład normalny.

Zmienne niezależne w modelu regresji liniowej są postrzegane jako kontrolowane przez eksperymentatora. Dlatego uważa się ją za niestochastyczną, podczas gdy y uważa się za zmienną losową z:

E(y) = β 0 + β 1 X. i

Zmienna(y) = q²

W niektórych przypadkach X może funkcjonować jako zmienna losowa. W takich sytuacjach, zamiast wariancji próby i średniej próby y, nasze rozważania będą dotyczyć średniej warunkowej y, pod warunkiem, że X = x jako

ε(y) = β0 i β1

i warunkowa wariancja y pod warunkiem, że X = x as

Zmienna(y|x) = q².

Stąd model analizy regresji prostej jest całkowicie wyrażony, gdy znane są wartości β 0 , β 1 i q². Generalnie parametry β 0 , β 1 i q² nie są znane w praktyce, a ε nie jest obserwowane. Widzisz zatem, że wyznaczenie modelu statystycznego y = β 0 + β 1 X + ε jest oparte na wyznaczeniu (czyli oszacowaniu) β 0 , β 1 i q². W celu ustalenia wartości tych parametrów, n par obserwacji (x, y) ( = 1,…, n) na (X, y) jest obserwowanych/zbieranych i używanych do określenia tych nieznanych parametrów.

Ogólnie rzecz biorąc, do określania oszacowań parametrów można zastosować różne metody estymacji. Najpopularniejszą metodą jest estymacja metodą najmniejszych kwadratów oraz metoda największej wiarygodności.

Jak przeprowadzić prostą analizę regresji

Najczęstszym sposobem, w jaki ludzie wykonują prostą analizę regresji, jest używanie programów statystycznych, które umożliwiają szybką analizę danych.

Wykonywanie prostej regresji liniowej w R

R to program statystyczny używany do przeprowadzania prostej analizy regresji liniowej. Jest szeroko stosowany, potężny i darmowy. Oto jak to działa.

Najpierw musisz załadować zestaw danych dochodowych.data do swojego środowiska R. Następnie uruchamiasz poniższe polecenie, aby utworzyć model biblioteki, który pokazuje związek między szczęściem a dochodem.

Kod R dla pewnej regresji liniowej

dochód.szczęście.lm <- lm(szczęście ~ dochód, dane = dochód.dane)

Zasadniczo kod ten weźmie zebrane dane „dane = dochód.dane”, a następnie oceni wpływ, jaki zmienna niezależna „dochód” ma na zmienną zależną „szczęście” za pomocą równania dla modelu liniowego: lm().

Jak interpretować wyniki?

Aby wyświetlić wynik modelu, możesz skorzystać z funkcji „summary()” w R:

podsumowanie(dochód.szczęście.lm)

Funkcja ta pobiera najważniejsze parametry z modelu liniowego i umieszcza je w tabeli.

Ta tabela wyników początkowo powtarza formułę użytą do wygenerowania wyników („Zadzwoń”). Następnie podsumowuje reszty modelu („Residuals”). Pomaga to uzyskać wgląd w to, jak prawidłowo model pasuje do oryginalnych danych.

Następnie przechodzimy do tabeli „Współczynniki”. Pierwszy wiersz zawiera oszacowania punktu przecięcia z osią y, podczas gdy drugi wiersz zawiera współczynnik regresji modelu.

Wiersz numer jeden w tabeli jest oznaczony „(Przecięcie)”. Jest to punkt przecięcia y równania regresji o wartości 0,20. Możesz włączyć to do równania swojej regresji, jeśli chcesz przewidzieć wartości szczęścia w analizowanym przez Ciebie zakresie dochodów:

szczęście = 0,20 + 0,71*dochód±0,018

Kolejny wiersz w tabeli „Współczynniki” to dochód. Ten wiersz wyjaśnia szacowany wpływ dochodu na raportowane szczęście.

Kolumna „Szacunek” to szacowany efekt. Może być również określany jako wartość r² lub współczynnik regresji. Liczba w tabeli (0,713) informuje nas, że na każdą pojedynczą jednostkę wzrostu dochodu (przyjmując, że jednostka dochodu jest równa 10 000 USD), występuje odpowiedni wzrost o 0,71 jednostki w raportowanym szczęściu (przyjmując szczęście w skali 1 do 10).

„Stand. Kolumna Error” opisuje standardowy błąd oszacowania. Liczba ta pokazuje poziom zróżnicowania naszego szacunku związku między szczęściem a dochodem.

Statystyka testu jest wyświetlana w kolumnie „wartość t”. Jeśli nie określisz inaczej, statystyka testowa użyta w regresji liniowej pozostaje wartością t z dwustronnego testu t. Im wyższa statystyka testu, tym mniejsze prawdopodobieństwo, że nasze wyniki wystąpiły przypadkowo.

Kolumna „pr(>| t |)” opisuje wartość p. Rysunek tam pokazuje nam prawdopodobieństwo wystąpienia szacowanego wpływu dochodu na szczęście, jeśli hipoteza zerowa o braku wpływu byłaby trafna.

Ponieważ wartość p jest bardzo niska (p < 0,001), możemy odrzucić hipotezę zerową i dojść do wniosku, że dochód ma statystycznie istotny wpływ na szczęście.

Ostatnie 3 wiersze podsumowania modelu to statystyki dotyczące całości modelu. Najważniejszą rzeczą, o której należy pamiętać, jest wartość p modelu. Tutaj staje się istotne (p < 0,001), co oznacza, że ​​model ten jest standardowym dopasowaniem dla obserwowanych danych.

Prezentacja wyników

W raporcie wyników dodaj wartość p, błąd standardowy oszacowania i szacowany efekt (czyli współczynnik regresji). Konieczne jest również zinterpretowanie swoich liczb, aby uświadomić czytelnikom, co oznacza współczynnik regresji.

Wynik

Istniała odpowiednia zależność (p < 0,001) między dochodem a szczęściem (R² = 0,71±0,018), z przyrostem o 0,71 jednostki w raportowanym szczęściu na każde 10 000 dolarów wzrostu dochodu.

Dodatkowo dobrze byłoby dodać wykres wraz z wynikami. W przypadku prostej regresji liniowej wystarczy wykreślić obserwacje na osiach x i y. Następnie dodajesz funkcję regresji i linię regresji.

Prosta formuła regresji liniowej

Wzór na prostą regresję liniową to

y = β 0 + β 1 + ε

Kluczowe elementy prostej analizy regresji

To jest miara skojarzenia. Służy jako reprezentacja procentu wariancji w wartościach Y, którą można wyświetlić, rozumiejąc wartość X. R² waha się od minimum 0,0 (gdzie w ogóle nie jest wyjaśniona wariancja), do maksimum +1,0 (w którym wyjaśniono każdą z wariancji).

Seb

Odnosi się to do standardowego błędu zarejestrowanej wartości b. Test t dla statystycznej istotności współczynnika przeprowadza się dzieląc wartość b przez jej błąd standardowy. Zgodnie z praktyczną zasadą, wartość t wyższa niż 2,0 jest zazwyczaj statystycznie istotna, jednak dla pewności należy odnieść się do tabeli t.

Jeżeli z wartości t wynika, że ​​współczynnik b jest statystycznie istotny, oznacza to, że zmienna niezależna X powinna być zarezerwowana w równaniu regresji. Dzieje się tak zwłaszcza dlatego, że charakteryzuje się statystycznie istotną relacją ze zmienną zależną lub Y. W przypadku, gdy relacja nie jest statystycznie istotna, wartość „współczynnika b” byłaby po prostu taka sama jak zero (statystycznie rzecz biorąc).

F

Jest to test na statystyczną istotność całego równania regresji. Jest generowany przez podzielenie opisanej wariancji przez niewyjaśnioną wariancję. Zgodnie z ogólną zasadą, każda wartość F wyższa niż 4,0 jest najczęściej statystycznie istotna. Niemniej jednak, aby mieć pewność, musisz odwołać się do stołu F. Jeśli F jest istotne, to równanie regresji pomaga nam poznać związek między X i Y.

Założenia prostej regresji liniowej

  • Jednorodność wariancji: można ją również określić jako homoskedastyczność. Rdzeń tego założenia stwierdza, że ​​nie ma znaczącej zmiany w wielkości błędu w naszej prognozie dla wartości zmiennej niezależnej.
  • Niezależność obserwacji: tutaj do zebrania obserwacji w zbiorze danych zastosowano statystycznie poprawne metody próbkowania i nie ma nieznanych zależności między obserwacjami.
  • Normalność: to po prostu zakłada, że ​​dane mają rozkład normalny.

Przykłady prostej regresji liniowej

W tym miejscu przytoczymy scenariusz, który służy jako przykład implementacji prostej analizy regresji .

Załóżmy, że średnia prędkość, gdy rozmieszczone są 2 patrole autostradowe, wynosi 75 mil na godzinę lub 35 mil na godzinę, gdy rozmieszczonych jest 10 patroli autostradowych. Powstaje zatem pytanie, jaka jest średnia prędkość samochodów na autostradzie, gdy rozmieszczonych jest 5 patroli autostradowych?

Korzystając z naszego prostego wzoru analizy regresji , możemy obliczyć wartości i wyprowadzić następujące równanie: Y = 85 + (-5) X, zakładając, że Y jest średnią prędkością samochodów na autostradzie. A = 85 lub średnia prędkość, gdy X = 0

B = (-5), wpływ każdego dodatkowego wozu patrolowego rozmieszczonego na Y

A X = liczba rozmieszczonych patroli

W związku z tym średnia prędkość samochodów na autostradzie przy braku patroli autostradowych (X=0) wyniesie 85 mil na godzinę. Za każdy dodatkowy samochód patrolowy na autostradzie, średnia prędkość zmniejszy się o 5 mil na godzinę. Stąd dla 5 radiowozów (X = 5) mamy Y = 85 + (-5) (5) = 85 – 25 = 60 mil na godzinę.

Granice prostej regresji liniowej

Nawet najlepsze dane nie dają perfekcji. Zazwyczaj prosta analiza regresji liniowej jest szeroko stosowana w badaniach w celu oznaczenia związku, który istnieje między zmiennymi. Ponieważ jednak korelacja nie jest interpretowana jako przyczynowość, związek między dwiema zmiennymi nie oznacza, że ​​jedna powoduje wystąpienie drugiej. W rzeczywistości linia w prostej regresji liniowej, która dobrze opisuje punkty danych, może nie wywołać związku przyczynowo-skutkowego.

Użycie prostego przykładu analizy regresji pozwoli Ci dowiedzieć się, czy w ogóle istnieje związek między zmiennymi. Dlatego potrzebna jest dodatkowa analiza statystyczna i badania, aby określić, na czym dokładnie polega ta zależność i czy jedna zmienna prowadzi do drugiej.

Końcowe przemyślenia

Podsumowując, dzisiejsze firmy muszą rozważyć prostą analizę regresji, jeśli potrzebują opcji, która zapewnia doskonałe wsparcie dla decyzji kierowniczych, a także identyfikuje błędy w ocenie. Przy odpowiedniej analizie duże ilości nieustrukturyzowanych danych, które zostały nagromadzone przez firmy w czasie, będą miały potencjał, aby zapewnić firmom cenny wgląd.

Inne przydatne zasoby:

Różne rodzaje analizy regresji do poznania

Znaczenie analizy regresji w biznesie