Basit Regresyon Analizi Nedir? - Kılavuz
Yayınlanan: 2020-08-06Basit regresyon analizinin iş dünyasında çeşitli amaçlar için kullanılabileceğini biliyor musunuz? Aslında, gelecekteki fırsatları ve riskleri tahmin etmek, bir işletmede regresyon analizinin ana uygulamalarından biridir. Ayrıca şirketler, büyük miktarda ham veriyi eyleme dönüştürülebilir bilgilere indirgeyerek iş süreçlerini optimize etmek için doğrusal regresyon modellerini kullanır.
- Basit regresyon analizi tanımı
- Basit Doğrusal Regresyon Modeli
- Nasıl performans
- Bilinmesi Gereken Anahtar Parçalar
- Basit doğrusal regresyon varsayımları
- Basit doğrusal regresyon analizi örnekleri
- sınırlamalar
Basit regresyon analizi nedir
Temel olarak basit bir regresyon analizi , geçmişte yapılmış gözlemlere dayalı olarak tek bir bağımsız değişken ile tek bir bağımlı değişken arasındaki ilişkinin nicelleştirilmesinde kullanılan istatistiksel bir araçtır. Layman'ın yorumunda bunun anlamı, bir kuruluşun üretim makinesinin (bağımsız değişken olan) saatlerindeki bir değişikliğin sonuç olarak kuruluşun elektrik maliyetinde bir değişikliğe neden olacağının gösterilmesinde basit bir doğrusal regresyon analizinin kullanılabileceğidir. .
Basit Doğrusal Regresyon Modeli
Temel olarak, basit doğrusal regresyon modeli, basit regresyon formülü ile aynı değerde ifade edilebilir.
y = β 0 + β 1 X+ ε.
Basit doğrusal regresyon modelinde, bir bağımsız değişken ile bağımlı değişken arasındaki modellemeyi ele alıyoruz. Genellikle, doğrusal regresyon modelinde yalnızca tek bir bağımsız değişken olduğunda, model tipik olarak basit bir doğrusal regresyon modeli olarak adlandırılır. Birden fazla bağımsız değişken olduğunda çoklu doğrusal regresyon modeli haline geldiğini unutmayın.
Basit doğrusal regresyon modelinde y, çalışmayı veya bağımlı değişkeni, X ise açıklayıcı veya bağımsız değişkeni ifade eder. β 0 ve β 1 ifadeleri doğrusal regresyon modelinin parametreleridir. β 0 parametresi bir kesme terimi olarak kabul edilirken β 1 parametresi eğim parametresi olarak kabul edilir. Bu parametreler için genel terim, regresyon katsayıları olarak bilinir.
'ε' ifadesi, verilerin düz bir çizgide kalmamasını açıklayan gözlemlenemeyen hatadır. Aynı zamanda, 'y'nin gözlemlenen ve gerçek gerçekleşmesi arasındaki değişimi temsil eder.
Bu farklılıklara birkaç neden atfedilebilir. Örneğin, değişkenler nitel olabilir, gözlemlerde doğuştan gelen rastgelelik olabilir ve modelde silinen tüm değişkenlerin etkisi de farklılıklara katkıda bulunur. Böylece, ε'nin ortalama sıfır ve sabit varyans q² ile bağımsız ve özdeş dağılımlı rasgele değişken olarak gözlendiği varsayılmaktadır. Daha sonra, ε'nin normal dağıldığı varsayılacaktır.
Doğrusal regresyon modelindeki bağımsız değişkenler, deneyci tarafından kontrol edilmiş olarak görülür. Bu nedenle, stokastik olmayan olarak kabul edilirken, y, aşağıdakilerle rastgele bir değişken olarak kabul edilir:
E(y) = β 0 + β 1 X. ve
Var(y) = q²
Bazı durumlarda X, rastgele bir değişken olarak işlev görebilir. Bu durumlarda, y'nin örnek varyansı ve örnek ortalaması yerine, X = x olması koşuluyla, y'nin koşullu ortalamasını dikkate alacağız.
ε(y) = β0 ve β1
ve X = x olarak sağlanan y'nin koşullu varyansı
Var(y|x) = q².
Dolayısıyla, basit regresyon analizi modeli, β 0 , β 1 ve q² değerleri bilindiğinde tam olarak ifade edilir. Genellikle β 0 , β 1 ve q² parametreleri pratikte bilinmez ve ε gözlenmez. Bu nedenle, y = β 0 + β 1 X + ε istatistiksel modelinin belirlenmesinin β 0 , β 1 ve q²'nin belirlenmesine (yani tahminine) dayandığını görüyorsunuz. Bu parametrelerin değerlerini tespit etmek için (X, y) üzerinde n gözlem çifti (x, y)( = 1,…, n) gözlenir/toplanır ve bu bilinmeyen parametreleri belirlemek için kullanılır.
Toplamda, parametrelerin tahminlerinin belirlenmesinde farklı tahmin yöntemleri kullanılabilir. En popüler yöntem, en küçük kareler tahmini ve maksimum olabilirlik tahmin yöntemidir.
Basit Bir Regresyon Analizi Nasıl Gerçekleştirilir
İnsanların basit bir regresyon analizi gerçekleştirmesinin en yaygın yolu, verilerin hızlı analizini sağlamak için istatistiksel programları kullanmaktır.
R'de basit doğrusal regresyon gerçekleştirme
R, basit bir doğrusal regresyon analizinin yürütülmesinde kullanılan istatistiksel bir programdır. Yaygın olarak kullanılır, güçlüdür ve ücretsizdir. İşte nasıl çalıştığı.
İlk olarak, gelir.data veri setini R ortamınıza yüklemelisiniz. Ardından, mutluluk ve gelir arasındaki ilişkiyi gösteren bir kütüphane modeli oluşturmak için aşağıdaki komutu çalıştırıyorsunuz.
Bazı doğrusal regresyon için R kodu
gelir.mutluluk.lm <- lm(mutluluk ~ gelir, veri = gelir.veri)
Temel olarak, bu kod toplanan verileri “veri = gelir.veri” alacak ve daha sonra doğrusal model denklemini kullanarak “gelir” bağımsız değişkeninin bağımlı değişken “mutluluk” üzerindeki etkisini değerlendirecektir: lm().
Sonuçlar nasıl yorumlanır?
Modelin sonucunu görmek için R'deki “summary()” fonksiyonunu kullanabilirsiniz:
özet(gelir.mutluluk.lm)
Bu fonksiyonun yaptığı, lineer modelden en önemli parametreleri alıp bir tabloya yerleştirmektir.
Bu sonuç tablosu başlangıçta sonuçların oluşturulmasında kullanılan formülü tekrarlar ('Arama'). Daha sonra model artıkları ('Artıklar') özetlenir. Bu, modelin orijinal verilere ne kadar uygun bir şekilde uyduğu konusunda fikir sağlamaya yardımcı olur.
Ardından 'Katsayılar' tablosuna geçiyoruz. İlk satır, y-kesme noktasının tahminlerini sağlarken, ikinci satır, modelin regresyon katsayısını sağlar.
Tablonun bir numaralı satırı “(Intercept)” olarak etiketlenmiştir. Bu, 0.20 değerine sahip regresyon denkleminin y-kesişimidir. Analiz ettiğiniz gelir aralığında mutluluk değerleri için tahminde bulunmak istiyorsanız, bunu regresyon denkleminize dahil edebilirsiniz:
mutluluk = 0.20 + 0.71*gelir±0.018
'Katsayılar' tablosundaki bir sonraki satır gelirdir. Bu satır, gelirin bildirilen mutluluk üzerindeki tahmini etkisini açıklar.
"Tahmin" sütunu tahmini etkidir. Ayrıca r² değeri veya regresyon katsayısı olarak da adlandırılabilir. Tablodaki sayı (0.713) bize gelirdeki her bir birim artış için (bir gelir birimi 10.000 $'a eşit alındığında), rapor edilen mutlulukta buna karşılık gelen 0.71 birimlik bir artış olduğunu bildirmektedir (mutluluğu 1 ölçeği olarak almak) 10'a kadar).
"St. Hata” sütunu, tahminin standart hatasını açıklar. Bu sayı, mutluluk ve gelir arasındaki ilişkiye ilişkin tahminimizdeki varyasyonun düzeyini göstermektedir.
Test istatistiği “t değeri” sütununda görüntülenir. Aksini belirtmezseniz, doğrusal regresyonda kullanılan test istatistiği, çift taraflı t testinden elde edilen t değeri olarak kalır. Test istatistiği ne kadar yüksek olursa, sonuçlarımızın tesadüfen meydana gelme olasılığı o kadar düşük olur.
“pr(>| t |)” sütunu p-değerini tanımlar. Buradaki şekil, etkinin olmadığı sıfır hipotezi doğruysa, gelirin mutluluk üzerindeki tahmini etkisine sahip olma olasılığını gösterir.
p değeri çok düşük olduğundan (p < 0,001), sıfır hipotezini reddedebilir ve gelirin mutluluk üzerinde istatistiksel olarak alakalı bir etkisi olduğu sonucuna varabiliriz.
Model özetinin son 3 satırı, modelin tamamına ilişkin istatistiklerdir. Burada akılda tutulması gereken en önemli şey modelin p değeridir. Burada alakalı hale gelir (p < 0,001), bu modelin gözlemlenen veriler için standart bir uyum olduğu anlamına gelir.
Sonuçların sunumu
Sonuçların raporunda, p-değerini, tahminin standart hatasını ve tahmin edilen etkiyi (yani, regresyon katsayısını) ekleyin. Ayrıca, regresyon katsayısının ne anlama geldiğini okuyucularınıza canlı hale getirmek için sayılarınızı yorumlamanız gerekir.
Sonuç
Gelir ve mutluluk ( R² = 0.71±0.018) arasında, gelirdeki her 10.000 $'lık artış için rapor edilen mutlulukta 0.71 birimlik bir artışla ilgili bir ilişki (p < 0.001) vardı.
Ayrıca, sonuçlarınızla birlikte bir grafik eklemeniz iyi olur. Basit bir lineer regresyon için tek yapmanız gereken gözlemleri x ve y ekseninde çizmektir. Sonra regresyon fonksiyonunu ve regresyon çizgisini eklersiniz.
Basit doğrusal regresyon formülü
Basit bir doğrusal regresyon formülü şu şekildedir:
y = β 0 + β 1 + ε
Basit Regresyon Analizinin Temel Parçaları
R²
Bu bir birliktelik ölçüsüdür. X'in değeri anlaşılarak görüntülenebilen Y değerlerindeki varyansın yüzdesi için bir temsil görevi görür. R², minimum 0.0'dan (hiçbir varyansın açıklanmadığı yerde), maksimum +1.0'a kadar değişir. (burada her bir varyans açıklanmıştır).
Seb
Bu, b'nin kayıtlı değerinin standart hatasını ifade eder. Katsayının istatistiksel önemi için bir t testi, b değerinin standart hatasına bölünmesiyle gerçekleştirilir. Genel kurala göre, 2.0'dan yüksek bir t değeri tipik olarak istatistiksel olarak alakalıdır, ancak emin olmak için bir t tablosuna başvurmanız gerekir.
Eğer t-değerine göre, b katsayısının istatistiksel olarak ilgili olduğuna dair bir gösterge varsa, bu, X'in bağımsız değişkeninin regresyon denkleminde saklanması gerektiği anlamına gelir. Bunun nedeni, özellikle bağımlı değişken veya Y ile istatistiksel olarak alakalı bir ilişkiye sahip olmasıdır. İlişkinin istatistiksel olarak alakalı olmadığı durumda, o zaman 'b katsayısı' değeri (istatistiksel olarak konuşursak) sıfırla aynı olacaktır.
F
Bu, tüm regresyon denkleminin istatistiksel uygunluğu için bir testtir. Tanımlanan varyansın açıklanamayan varyansa bölünmesiyle üretilir. Genel bir kural olarak, 4.0'dan yüksek herhangi bir F değeri, çoğunlukla istatistiksel olarak alakalıdır. Bununla birlikte, emin olmak için bir F tablosuna başvurmanız gerekir. F ilgiliyse, o zaman regresyon denklemi X ve Y arasındaki ilişkiyi bilmemize yardımcı olur.
Basit doğrusal regresyon varsayımları
- Varyansın homojenliği: Bu aynı zamanda homoskedastisite olarak da ifade edilebilir. Bu varsayımın özü, bağımsız değişkenin değerleri arasındaki tahminimizde hatanın boyutunda önemli bir değişiklik olmadığını belirtir.
- Gözlemlerin bağımsızlığı: Burada, veri setindeki gözlemleri toplamak için istatistiksel olarak geçerli örnekleme yöntemleri kullanılmıştır ve gözlemler arasında bilinmeyen bir ilişki yoktur.
- Normallik: Bu, verilerin normal bir dağılım izlediğini varsayar.
Basit Doğrusal Regresyon Örnekleri
Burada, basit regresyon analizinin uygulanmasına örnek teşkil eden bir senaryodan bahsedeceğiz.
2 otoyol devriyesi konuşlandırıldığında ortalama hızın 75 mil veya 10 otoyol devriyesi konuşlandırıldığında 35 mil olduğunu varsayalım. Dolayısıyla soru, 5 otoyol devriyesi konuşlandırıldığında otoyoldaki arabaların ortalama hızı nedir?
Basit regresyon analizi formülümüzü kullanarak, böylece değerleri hesaplayabilir ve aşağıdaki denklemi türetebiliriz: Y = 85 + (-5) X, Y'nin otoyoldaki arabaların ortalama hızı olduğu göz önüne alındığında. A = 85 veya X = 0 olduğunda ortalama hız
B = (-5), Y üzerinde konuşlandırılan her ekstra devriye arabasının etkisi
Ve X = konuşlandırılan devriye sayısı
Bu nedenle, sıfır otoyol devriyesi varken (X=0) otoyoldaki araçların ortalama hızı 85 mph olacaktır. Çalışan her ekstra otoyol devriye arabası için ortalama hız 5 mil azalır. Dolayısıyla, 5 devriye arabası için (X = 5), Y = 85 + (-5) (5) = 85 – 25 = 60 mph'ye sahibiz.
Basit Doğrusal Regresyon Sınırları
En iyi veriler bile mükemmellik vermez. Tipik olarak, basit doğrusal regresyon analizi , araştırmalarda değişkenler arasında var olan ilişkiyi işaretlemek için yaygın olarak kullanılmaktadır. Ancak korelasyon nedensellik olarak yorumlanmadığından 2 değişken arasındaki ilişki birinin diğerinin oluşmasına neden olduğu anlamına gelmez. Aslında, veri noktalarını iyi tanımlayan basit bir doğrusal regresyondaki bir doğru, bir sebep-sonuç ilişkisi getirmeyebilir.
Basit bir regresyon analizi örneğinin kullanılması, değişkenler arasında bir ilişki olup olmadığını öğrenmenize olanak sağlayacaktır. Bu nedenle, ilişkinin tam olarak ne olduğunu ve bir değişkenin diğerine yol açıp açmadığını belirlemek için ekstra istatistiksel analiz ve araştırmaya ihtiyaç vardır.
Son düşünceler
Genel olarak, günümüz işletmeleri, yönetim kararlarına mükemmel destek sağlayan ve aynı zamanda yargıdaki hataları belirleyen bir seçeneğe ihtiyaç duyarlarsa, basit regresyon analizini dikkate almaları gerekir. Doğru analizle, işletmeler tarafından zaman içinde biriken büyük miktarda yapılandırılmamış veri, işletmelere değerli bilgiler verme potansiyeline sahip olacaktır.
Diğer Faydalı Kaynaklar:
Bilinmesi Gereken Farklı Regresyon Analizi Türleri
İşletmelerde Regresyon Analizinin Önemi