Apa itu Analisis Regresi Sederhana? - Memandu

Diterbitkan: 2020-08-06

Tahukah Anda bahwa analisis regresi sederhana dapat digunakan untuk berbagai tujuan dalam bisnis? Faktanya, meramalkan peluang dan risiko masa depan adalah salah satu aplikasi utama analisis regresi dalam bisnis. Selain itu, perusahaan menggunakan model regresi linier untuk mengoptimalkan proses bisnis mereka dengan mengurangi sejumlah besar data mentah menjadi informasi yang dapat ditindaklanjuti.

Dalam artikel ini
  • Definisi analisis regresi sederhana
  • Model Regresi Linier Sederhana
  • Cara Melakukan
  • Bagian Penting untuk diketahui
  • Asumsi regresi linier sederhana
  • Contoh analisis regresi linier sederhana
  • Keterbatasan

Apa itu analisis regresi sederhana?

Pada dasarnya, analisis regresi sederhana adalah alat statistik yang digunakan dalam kuantifikasi hubungan antara variabel bebas tunggal dan variabel terikat tunggal berdasarkan pengamatan yang telah dilakukan di masa lalu. Dalam interpretasi awam, ini berarti bahwa analisis regresi linier sederhana dapat digunakan dalam demonstrasi bagaimana perubahan jam mesin produksi organisasi (yang merupakan variabel independen) akibatnya akan menghasilkan perubahan biaya listrik organisasi. .

Model Regresi Linier Sederhana

Pada dasarnya model regresi linier sederhana dapat dinyatakan dalam nilai yang sama dengan rumus regresi sederhana .

y = 0 + 1 X+ .

Dalam model regresi linier sederhana, kami mempertimbangkan pemodelan antara satu variabel independen dan variabel dependen. Biasanya, model tersebut biasanya disebut model regresi linier sederhana ketika hanya ada satu variabel bebas dalam model regresi linier. Perlu diingat bahwa itu menjadi model regresi linier berganda ketika ada lebih dari satu variabel independen.

Dalam model regresi linier sederhana, y mengacu pada penelitian atau variabel dependen dan X adalah variabel penjelas atau independen. Ekspresi 0 dan 1 adalah parameter model regresi linier. Parameter 0 dianggap sebagai istilah intersep, sedangkan parameter 1 dianggap sebagai parameter kemiringan. Istilah umum untuk parameter ini dikenal sebagai koefisien regresi.

Ekspresi 'ε' adalah kesalahan yang tidak dapat diamati yang menjelaskan ketidakmampuan data untuk tetap berada pada garis lurus. Ini juga mewakili variasi antara realisasi yang diamati dan realisasi yang sebenarnya dari 'y'.

Beberapa alasan dapat dikaitkan dengan perbedaan ini. Misalnya, variabel mungkin kualitatif, keacakan yang melekat dalam pengamatan, dan efek dari semua variabel yang dihapus dalam model juga berkontribusi terhadap perbedaan. Dengan demikian, diasumsikan bahwa diamati sebagai variabel acak independen dan terdistribusi identik dengan mean nol dan varians konstan q². Selanjutnya akan diasumsikan bahwa terdistribusi secara normal.

Variabel-variabel independen dalam model regresi linier dipandang sebagai dikendalikan oleh eksperimen. Inilah sebabnya mengapa dianggap sebagai non-stochastic, sedangkan y dianggap sebagai variabel acak dengan:

E(y) = 0 + 1 X. dan

Var(y) = q²

Dalam beberapa kasus, X dapat berfungsi sebagai variabel acak. Dalam situasi ini, daripada varians sampel dan mean sampel y, pertimbangan kita akan berada pada mean kondisional y asalkan X = x sebagai

(y) = 0 dan 1

dan varians bersyarat dari y asalkan X = x as

Var(y|x) = q².

Oleh karena itu, model analisis regresi sederhana dinyatakan secara lengkap ketika nilai 0 , 1 dan q² diketahui. Umumnya, parameter 0 , 1 dan q² tidak diketahui dalam praktik dan tidak teramati. Oleh karena itu, Anda melihat bahwa penentuan model statistik y = 0 + 1 X + didasarkan pada penentuan (yaitu, estimasi) dari 0 , 1 dan q². Untuk memastikan nilai parameter ini, n pasang pengamatan (x, y)( = 1,…, n) pada (X, y) diamati/dikumpulkan dan digunakan untuk menentukan parameter yang tidak diketahui ini.

Secara keseluruhan, metode estimasi yang berbeda dapat digunakan dalam penentuan estimasi parameter. Metode yang paling populer adalah estimasi kuadrat terkecil dan metode estimasi kemungkinan maksimum.

Bagaimana Melakukan Analisis Regresi Sederhana

Cara paling umum orang melakukan analisis regresi sederhana adalah dengan menggunakan program statistik untuk memungkinkan analisis data yang cepat.

Melakukan regresi linier sederhana pada R

R adalah program statistik yang digunakan dalam melakukan analisis regresi linier sederhana. Ini banyak digunakan, kuat, dan gratis. Berikut cara kerjanya.

Pertama, Anda harus memuat dataset income.data ke lingkungan R Anda. Kemudian Anda menjalankan perintah di bawah ini untuk membuat model perpustakaan yang menunjukkan hubungan antara kebahagiaan dan pendapatan.

Kode R untuk beberapa regresi linier

pendapatan.kebahagiaan.lm <- lm(kebahagiaan ~ pendapatan, data = pendapatan.data)

Pada dasarnya, kode ini akan mengambil data yang dikumpulkan “data = pendapatan.data” dan kemudian mengevaluasi pengaruh variabel independen “pendapatan” terhadap variabel dependen “kebahagiaan” dengan menggunakan persamaan untuk model linier: lm().

Bagaimana menginterpretasikan hasil

Untuk melihat hasil model, Anda dapat menggunakan fungsi “ringkasan()” di R:

ringkasan(penghasilan.kebahagiaan.lm)

Apa yang dilakukan fungsi ini adalah mengambil parameter terpenting dari model linier dan menempatkannya ke dalam tabel.

Tabel hasil ini awalnya mengulangi rumus yang digunakan dalam pembuatan hasil ('Panggil'). Setelah itu, meringkas model residual ('Residuals'). Ini membantu memberikan wawasan tentang seberapa tepat model tersebut cocok dengan data asli.

Kemudian kita pindah ke tabel 'Koefisien'. Baris pertama memberikan perkiraan perpotongan y, sedangkan baris kedua memberikan koefisien regresi model.

Baris nomor satu tabel diberi label “(Intercept)”. Ini adalah perpotongan y dari persamaan regresi, yang memiliki nilai 0,20. Anda dapat memasukkan ini ke dalam persamaan regresi Anda jika Anda ingin membuat prediksi untuk nilai kebahagiaan di seluruh rentang pendapatan yang telah Anda analisis:

kebahagiaan = 0,20 + 0,71*penghasilan±0,018

Baris berikutnya dalam tabel 'Koefisien' adalah pendapatan. Baris ini menjelaskan perkiraan efek pendapatan pada kebahagiaan yang dilaporkan.

Kolom “Perkiraan” adalah perkiraan efek. Ini juga dapat disebut sebagai nilai r² atau koefisien regresi. Angka dalam tabel (0,713) memberi tahu kita bahwa untuk setiap kenaikan satu unit pendapatan (menganggap satu unit pendapatan sama dengan $10.000), ada peningkatan 0,71 unit terkait dalam kebahagiaan yang dilaporkan (menganggap kebahagiaan sebagai skala 1 sampai 10).

"Std. Kolom Error” menjelaskan kesalahan standar estimasi. Angka ini menunjukkan tingkat variasi dalam perkiraan kami tentang hubungan antara kebahagiaan dan pendapatan.

Statistik uji ditampilkan di kolom “nilai t”. Jika Anda tidak menentukan sebaliknya, statistik uji yang digunakan dalam regresi linier tetap merupakan nilai-t dari uji-t dua sisi. Semakin tinggi statistik uji, semakin rendah kemungkinan bahwa hasil kami terjadi secara kebetulan.

Kolom “pr(>| t |)” menjelaskan nilai-p. Gambar di sana menunjukkan kepada kita kemungkinan memiliki efek estimasi pendapatan pada kebahagiaan jika hipotesis nol tidak ada efek akurat.

Karena nilai-p sangat rendah (p <0,001), kita dapat mengabaikan hipotesis nol dan sampai pada kesimpulan bahwa pendapatan memiliki pengaruh yang relevan secara statistik terhadap kebahagiaan.

3 baris terakhir dari ringkasan model adalah statistik mengenai keseluruhan model. Hal terpenting yang perlu diingat di sini adalah nilai-p model. Ini menjadi relevan di sini (p <0,001), artinya model ini cocok standar untuk data yang diamati.

Presentasi hasil

Dalam laporan hasil, tambahkan nilai p, kesalahan standar estimasi, dan efek estimasi (yaitu, koefisien regresi). Anda juga perlu menginterpretasikan angka-angka Anda agar jelas bagi pembaca Anda apa arti dari koefisien regresi.

Hasil

Ada hubungan yang relevan (p <0,001) antara pendapatan dan kebahagiaan ( R² = 0,71±0,018), dengan peningkatan 0,71 unit dalam kebahagiaan yang dilaporkan untuk setiap kenaikan pendapatan $10.000.

Selain itu, akan lebih baik untuk menambahkan grafik bersama dengan hasil Anda. Untuk regresi linier sederhana , yang harus Anda lakukan adalah memplot pengamatan pada sumbu x dan y. Kemudian Anda menambahkan fungsi regresi dan garis regresi.

Rumus regresi linier sederhana

Rumus untuk regresi linier sederhana adalah

y = 0 + 1 +

Bagian Kunci dari Analisis Regresi Sederhana

Ini adalah ukuran asosiasi. Ini berfungsi sebagai representasi untuk persentase varians dalam nilai Y yang dapat ditampilkan dengan memahami nilai X. R² bervariasi dari minimum 0,0 (di mana tidak ada varians yang dijelaskan), hingga maksimum +1,0 (di mana setiap varians dijelaskan).

seb

Hal ini mengacu pada kesalahan standar dari nilai terdaftar dari b. Uji-t untuk kepentingan statistik dari koefisien dilakukan dengan membagi nilai b dengan kesalahan standarnya. Menurut aturan praktis, nilai t yang lebih tinggi dari 2,0 biasanya relevan secara statistik, namun Anda harus merujuk ke tabel t hanya untuk memastikan.

Jika menurut nilai t terdapat indikasi bahwa koefisien b relevan secara statistik, maka berarti variabel bebas X harus dicadangkan dalam persamaan regresi. Hal ini terutama karena fitur ini memiliki hubungan yang relevan secara statistik dengan variabel dependen atau Y. Dalam kasus di mana hubungan tersebut tidak relevan secara statistik, maka nilai 'koefisien b' akan sama dengan nol (secara statistik).

F

Ini adalah tes untuk relevansi statistik dari seluruh persamaan regresi. Ini dihasilkan dengan membagi varians yang dijelaskan dengan varians yang tidak dapat dijelaskan. Sebagai aturan praktis, nilai F apa pun yang lebih tinggi dari 4,0 paling sering relevan secara statistik. Meskipun demikian, Anda harus merujuk ke F-tabel hanya untuk memastikan. Jika F relevan, maka persamaan regresi membantu kita untuk mengetahui hubungan antara X dan Y.

Asumsi regresi linier sederhana

  • Homogenitas varians: ini juga dapat disebut sebagai homoskedastisitas. Inti dari asumsi ini menyatakan bahwa tidak ada perubahan signifikan dalam ukuran kesalahan dalam prediksi kami di seluruh nilai variabel independen.
  • Independensi pengamatan: di sini, metode pengambilan sampel yang valid secara statistik digunakan untuk mengumpulkan pengamatan dalam kumpulan data, dan tidak ada hubungan yang tidak diketahui di antara pengamatan.
  • Normalitas: ini hanya mengasumsikan bahwa data mengikuti distribusi normal.

Contoh Regresi Linier Sederhana

Di sini, kami akan mengutip skenario yang berfungsi sebagai contoh penerapan analisis regresi sederhana .

Mari kita asumsikan kecepatan rata-rata ketika 2 patroli jalan raya dikerahkan adalah 75 mph, atau 35 mph ketika 10 patroli jalan raya dikerahkan. Pertanyaannya adalah berapa kecepatan rata-rata mobil di jalan bebas hambatan ketika 5 patroli jalan raya dikerahkan?

Dengan menggunakan rumus analisis regresi sederhana , kita dapat menghitung nilai dan menurunkan persamaan berikut: Y = 85 + (-5) X, mengingat Y adalah kecepatan rata-rata mobil di jalan raya. A = 85, atau kecepatan rata-rata saat X = 0

B = (-5), dampak dari setiap mobil patroli tambahan yang dikerahkan pada Y

Dan X = jumlah patroli yang dikerahkan

Oleh karena itu, kecepatan rata-rata mobil di jalan raya ketika tidak ada patroli jalan raya yang beroperasi (X=0) adalah 85 mph. Untuk setiap mobil patroli jalan raya ekstra yang bekerja, kecepatan rata-rata akan berkurang 5 mph. Jadi, untuk 5 mobil patroli (X = 5), kita mendapatkan Y = 85 + (-5) (5) = 85 – 25 = 60 mph.

Batas Regresi Linier Sederhana

Bahkan data terbaik pun tidak memberikan kesempurnaan. Biasanya, analisis regresi linier sederhana banyak digunakan dalam penelitian untuk menandai hubungan yang ada antar variabel. Namun, karena korelasi tidak diartikan sebagai sebab akibat, hubungan antara 2 variabel tidak berarti bahwa yang satu menyebabkan yang lain terjadi. Faktanya, garis dalam regresi linier sederhana yang menggambarkan titik-titik data dengan baik mungkin tidak menghasilkan hubungan sebab-akibat.

Penggunaan contoh analisis regresi sederhana akan memungkinkan Anda untuk mengetahui apakah ada hubungan antara variabel. Oleh karena itu, analisis dan penelitian statistik ekstra diperlukan untuk menentukan apa sebenarnya hubungan itu, dan apakah satu variabel mengarah ke yang lain.

Pikiran Akhir

Secara keseluruhan, bisnis saat ini perlu mempertimbangkan analisis regresi sederhana jika mereka membutuhkan opsi yang memberikan dukungan yang sangat baik untuk keputusan manajemen, dan juga mengidentifikasi kesalahan dalam penilaian. Dengan analisis yang tepat, sejumlah besar data tidak terstruktur yang telah dikumpulkan oleh bisnis dari waktu ke waktu akan berpotensi menghasilkan wawasan yang berharga bagi bisnis.

Sumber Daya Berguna Lainnya:

Berbagai Jenis Analisis Regresi yang Perlu Diketahui

Pentingnya Analisis Regresi dalam Bisnis