การวิเคราะห์การถดถอยอย่างง่ายคืออะไร - แนะนำ

เผยแพร่แล้ว: 2020-08-06

คุณรู้หรือไม่ว่า การวิเคราะห์การถดถอยอย่างง่าย สามารถนำมาใช้เพื่อวัตถุประสงค์ต่างๆ ในธุรกิจได้? อันที่จริง การคาดการณ์โอกาสและความเสี่ยงในอนาคตเป็นหนึ่งในการใช้งานหลักของการวิเคราะห์การถดถอยในธุรกิจ นอกจากนี้ บริษัทต่างๆ ยังใช้แบบจำลองการถดถอยเชิงเส้นเพื่อเพิ่มประสิทธิภาพกระบวนการทางธุรกิจโดยลดข้อมูลดิบจำนวนมหาศาลให้เป็นข้อมูลที่นำไปดำเนินการได้

ในบทความนี้
  • นิยามการวิเคราะห์การถดถอยอย่างง่าย
  • แบบจำลองการถดถอยเชิงเส้นอย่างง่าย
  • วิธีการดำเนินการ
  • ส่วนสำคัญที่ต้องรู้
  • สมมติฐานของการถดถอยเชิงเส้นอย่างง่าย
  • ตัวอย่างการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย
  • ข้อจำกัด

การวิเคราะห์การถดถอยอย่างง่ายคืออะไร

โดยพื้นฐานแล้ว การวิเคราะห์การถดถอยอย่างง่าย เป็นเครื่องมือทางสถิติที่ใช้ในการหาปริมาณของความสัมพันธ์ระหว่างตัวแปรอิสระตัวเดียวและตัวแปรตามตัวเดียวตามการสังเกตที่ดำเนินการในอดีต ในการตีความแบบฆราวาส ความหมายก็คือ การวิเคราะห์การถดถอยเชิงเส้นอย่างง่ายสามารถใช้ในการสาธิตว่าการเปลี่ยนแปลงในชั่วโมงของเครื่องจักรการผลิตขององค์กร (ซึ่งเป็นตัวแปรอิสระ) ได้อย่างไร จะส่งผลให้เกิดการเปลี่ยนแปลงในค่าไฟฟ้าขององค์กร .

แบบจำลองการถดถอยเชิงเส้นอย่างง่าย

โดยพื้นฐานแล้ว ตัวแบบการถดถอยเชิงเส้นอย่างง่ายสามารถแสดงเป็นค่าเดียวกับ สูตรการถดถอยอย่างง่าย

y = β 0 + β 1 X+ ε

ในแบบจำลองการถดถอยเชิงเส้นอย่างง่าย เราจะพิจารณาการสร้างแบบจำลองระหว่างตัวแปรอิสระตัวเดียวกับตัวแปรตาม โดยปกติ ตัวแบบจะเรียกว่าตัวแบบการถดถอยเชิงเส้นอย่างง่ายเมื่อมีตัวแปรอิสระเพียงตัวเดียวในแบบจำลองการถดถอยเชิงเส้น โปรดทราบว่ามันจะกลายเป็นตัวแบบการถดถอยเชิงเส้นหลายตัวเมื่อมีตัวแปรอิสระมากกว่าหนึ่งตัว

ในแบบจำลองการถดถอยเชิงเส้นอย่างง่าย y หมายถึงการศึกษาหรือตัวแปรตาม และ X คือตัวแปรอธิบายหรือตัวแปรอิสระ นิพจน์ β 0 และ β 1 เป็นพารามิเตอร์ของตัวแบบการถดถอยเชิงเส้น พารามิเตอร์ β 0 ถือเป็นระยะการสกัดกั้น ในขณะที่พารามิเตอร์ β 1 ถือเป็นพารามิเตอร์ความชัน คำศัพท์ทั่วไปสำหรับพารามิเตอร์เหล่านี้เรียกว่าสัมประสิทธิ์การถดถอย

นิพจน์ 'ε' เป็นข้อผิดพลาดที่ไม่สามารถสังเกตได้ซึ่งทำให้ข้อมูลไม่สามารถอยู่บนเส้นตรงได้ นอกจากนี้ยังแสดงถึงความผันแปรระหว่างการรับรู้ที่สังเกตได้และการรับรู้ที่แท้จริงของ 'y'

สาเหตุหลายประการสามารถนำมาประกอบกับความแตกต่างเหล่านี้ ตัวอย่างเช่น ตัวแปรอาจเป็นเชิงคุณภาพ การสุ่มโดยธรรมชาติในการสังเกต และผลกระทบของตัวแปรที่ถูกลบทั้งหมดในแบบจำลองก็มีส่วนทำให้เกิดความแตกต่างเช่นกัน ดังนั้นจึงถือว่า ε ถูกสังเกตได้ว่าเป็นตัวแปรสุ่มที่เป็นอิสระและกระจายอย่างเหมือนกันโดยมีค่าเฉลี่ยศูนย์และความแปรปรวนคงที่ q² ต่อจากนั้น จะสันนิษฐานต่อไปว่า ε มีการกระจายตามปกติ

ตัวแปรอิสระในแบบจำลองการถดถอยเชิงเส้นถูกควบคุมโดยผู้ทดลอง นี่คือเหตุผลที่ถือว่าไม่สุ่มในขณะที่ y ถือเป็นตัวแปรสุ่มด้วย:

E(y) = β 0 + β 1 X. และ

Var(y) = q²

ในบางกรณี X สามารถทำหน้าที่เป็นตัวแปรสุ่มได้ ในสถานการณ์เหล่านี้ แทนที่จะเป็นความแปรปรวนตัวอย่างและค่าเฉลี่ยตัวอย่างของ y การพิจารณาของเราจะอยู่บนค่าเฉลี่ยตามเงื่อนไขของ y ที่ให้ไว้ X = x เป็น

ε(y) = β0 และ β1

และความแปรปรวนตามเงื่อนไขของ y ที่ให้ไว้ X = x as

วาร์(y|x) = q²

ดังนั้น แบบจำลอง การวิเคราะห์การถดถอยอย่างง่าย จึงแสดงออกมาอย่างสมบูรณ์เมื่อทราบค่าของ β 0 , β 1 และ q² โดยทั่วไป พารามิเตอร์ β 0 , β 1 และ q² ไม่เป็นที่รู้จักในทางปฏิบัติ และ ε จะไม่มีการสังเกต ดังนั้น คุณเห็นว่าการกำหนดแบบจำลองทางสถิติ y = β 0 + β 1 X + ε ขึ้นอยู่กับการกำหนด (นั่นคือ การประมาณค่า) ของ β 0 , β 1 และ q² เพื่อตรวจสอบค่าของพารามิเตอร์เหล่านี้ มีการสังเกต/รวบรวม n คู่ของการสังเกต (x, y)( = 1,…, n) บน (X, y) และใช้เพื่อกำหนดพารามิเตอร์ที่ไม่รู้จักเหล่านี้

โดยรวมแล้ว สามารถใช้วิธีการประมาณค่าต่างๆ ในการหาค่าประมาณของพารามิเตอร์ได้ วิธีที่นิยมมากที่สุดคือการประมาณค่ากำลังสองน้อยที่สุดและวิธีประมาณความน่าจะเป็นสูงสุด

วิธีการวิเคราะห์การถดถอยอย่างง่าย

วิธีที่ใช้กันทั่วไปในการวิเคราะห์การถดถอยอย่างง่ายคือการใช้โปรแกรมทางสถิติเพื่อให้สามารถวิเคราะห์ข้อมูลได้อย่างรวดเร็ว

ทำการถดถอยเชิงเส้นอย่างง่ายใน R

R คือโปรแกรมทางสถิติที่ใช้ในการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย มีการใช้กันอย่างแพร่หลาย มีประสิทธิภาพ และฟรี นี่คือวิธีการทำงาน

ขั้นแรก คุณต้องโหลดชุดข้อมูล Income.data ในสภาพแวดล้อม R ของคุณ จากนั้นคุณเรียกใช้คำสั่งด้านล่างเพื่อสร้างแบบจำลองห้องสมุดที่แสดงให้เห็นถึงความสัมพันธ์ระหว่างความสุขและรายได้

รหัส R สำหรับการถดถอยเชิงเส้นบางส่วน

Income.happiness.lm <- lm(ความสุข ~ รายได้ ข้อมูล = Income.data)

โดยพื้นฐานแล้ว รหัสนี้จะนำข้อมูลที่รวบรวมมาได้ "data = Income.data" แล้วประเมินผลกระทบที่ "รายได้" ของตัวแปรอิสระมีต่อ "ความสุข" ของตัวแปรตาม โดยใช้สมการสำหรับโมเดลเชิงเส้น: lm()

วิธีตีความผลลัพธ์

หากต้องการดูผลลัพธ์ของโมเดล คุณสามารถใช้ฟังก์ชัน "summary()" ใน R:

สรุป(income.happiness.lm)

ฟังก์ชันนี้ทำอะไรคือนำพารามิเตอร์ที่สำคัญที่สุดจากโมเดลเชิงเส้นมาใส่ลงในตาราง

ตารางผลลัพธ์นี้เริ่มต้นซ้ำสูตรที่ใช้ในการสร้างผลลัพธ์ ('โทร') จากนั้นจึงสรุปผลตกค้างของแบบจำลอง ('Residuals') ซึ่งช่วยให้เข้าใจถึงความเหมาะสมของแบบจำลองกับข้อมูลต้นฉบับ

จากนั้นเราย้ายไปที่ตาราง 'สัมประสิทธิ์' แถวแรกแสดงค่าประมาณของจุดตัดแกน y ในขณะที่แถวที่สองแสดงค่าสัมประสิทธิ์การถดถอยของแบบจำลอง

แถวที่หนึ่งของตารางมีชื่อว่า “(Intercept)” นี่คือค่าตัดแกน y ของสมการถดถอย มีค่า 0.20 คุณสามารถรวมสิ่งนี้ไว้ในสมการถดถอยของคุณ หากคุณต้องการทำนายค่าของความสุขตลอดช่วงของรายได้ที่คุณวิเคราะห์:

ความสุข = 0.20 + 0.71*รายได้±0.018

แถวถัดไปในตาราง 'ค่าสัมประสิทธิ์' คือรายได้ แถวนี้อธิบายผลกระทบโดยประมาณของรายได้ต่อความสุขที่รายงาน

คอลัมน์ "ประมาณการ" เป็นผลกระทบโดยประมาณ นอกจากนี้ยังสามารถเรียกว่าค่าr²หรือค่าสัมประสิทธิ์การถดถอย ตัวเลขในตาราง (0.713) บอกเราว่า ทุก ๆ หน่วยของรายได้ที่เพิ่มขึ้น (โดยเอาหน่วยของรายได้มาเท่ากับ $10,000) มีความสุขที่รายงานเพิ่มขึ้น 0.71 หน่วยที่สอดคล้องกัน (นำความสุขมาเป็นมาตราส่วน 1 ถึง 10)

“มาตรฐาน คอลัมน์ข้อผิดพลาด” อธิบายข้อผิดพลาดมาตรฐานของการประมาณการ ตัวเลขนี้แสดงให้เห็นถึงระดับของความผันแปรในการประเมินความสัมพันธ์ระหว่างความสุขและรายได้ของเรา

สถิติการทดสอบจะแสดงในคอลัมน์ "ค่า t" หากคุณไม่ระบุเป็นอย่างอื่น สถิติการทดสอบที่ใช้ในการถดถอยเชิงเส้นยังคงเป็นค่า t จากการทดสอบ t แบบสองด้าน ยิ่งสถิติการทดสอบสูง ความน่าจะเป็นที่ผลลัพธ์ของเราจะเกิดขึ้นโดยบังเอิญก็จะยิ่งต่ำลง

คอลัมน์ “pr(>| t |)” อธิบายค่า p ตัวเลขที่แสดงให้เราเห็นถึงความน่าจะเป็นที่จะมีผลโดยประมาณของรายได้ต่อความสุข หากสมมติฐานว่างว่าไม่มีผลกระทบนั้นแม่นยำ

เนื่องจากค่า p ต่ำมาก (p < 0.001) เราจึงสามารถละทิ้งสมมติฐานว่างและสรุปได้ว่ารายได้มีผลกระทบต่อความสุขในทางสถิติ

ข้อมูลสรุปแบบจำลอง 3 บรรทัดสุดท้ายเป็นสถิติเกี่ยวกับความสมบูรณ์ของแบบจำลอง สิ่งที่สำคัญที่สุดที่ต้องจำไว้คือค่า p ของโมเดล มีความเกี่ยวข้องที่นี่ (p < 0.001) หมายความว่าโมเดลนี้เป็นแบบมาตรฐานสำหรับข้อมูลที่สังเกตได้

การนำเสนอผลงาน

ในรายงานผล ให้บวกค่า p ค่าความคลาดเคลื่อนมาตรฐานของการประมาณค่า และผลกระทบโดยประมาณ (นั่นคือ ค่าสัมประสิทธิ์การถดถอย) คุณยังจำเป็นต้องตีความตัวเลขเพื่อให้ผู้อ่านเข้าใจความหมายของสัมประสิทธิ์การถดถอย

ผลลัพธ์

มีความสัมพันธ์ที่เกี่ยวข้อง (p < 0.001) ระหว่างรายได้และความสุข ( R² = 0.71±0.018) โดยความสุขที่รายงานเพิ่มขึ้น 0.71 หน่วยสำหรับรายได้ที่เพิ่มขึ้นทุกๆ 10,000 ดอลลาร์

นอกจากนี้ คุณควรเพิ่มกราฟพร้อมกับผลลัพธ์ของคุณ สำหรับการ ถดถอยเชิงเส้นอย่างง่าย สิ่งที่คุณต้องทำคือพล็อตการสังเกตบนแกน x และ y จากนั้นคุณเพิ่มฟังก์ชันการถดถอยและเส้นการถดถอย

สูตรการถดถอยเชิงเส้นอย่างง่าย

สูตรสำหรับการถดถอยเชิงเส้นอย่างง่ายคือ

y = β 0 + β 1 + ε

ส่วนสำคัญของการวิเคราะห์การถดถอยอย่างง่าย

นี่คือการวัดความสัมพันธ์ มันทำหน้าที่เป็นตัวแทนสำหรับเปอร์เซ็นต์ของความแปรปรวนในค่าของ Y ที่สามารถแสดงได้โดยการทำความเข้าใจค่าของ X R² จะแตกต่างกันไปตั้งแต่ขั้นต่ำ 0.0 (โดยที่ไม่มีการอธิบายความแปรปรวนเลย) ไปจนถึงสูงสุดที่ +1.0 (ซึ่งอธิบายความแปรปรวนทุกประการ)

เซบ

หมายถึงข้อผิดพลาดมาตรฐานของค่าที่ลงทะเบียนของ b การทดสอบ t สำหรับความสำคัญทางสถิติของสัมประสิทธิ์ทำได้โดยการหารค่า b ด้วยค่าคลาดเคลื่อนมาตรฐาน ตามกฎทั่วไป ค่า t ที่สูงกว่า 2.0 มักจะมีความเกี่ยวข้องทางสถิติ อย่างไรก็ตาม คุณต้องอ้างอิงถึงตาราง t เพื่อให้แน่ใจ

หากตามค่า t มีการบ่งชี้ว่าสัมประสิทธิ์ b มีความเกี่ยวข้องทางสถิติ ก็หมายความว่าตัวแปรอิสระของ X ควรสงวนไว้ในสมการถดถอย โดยเฉพาะอย่างยิ่งเนื่องจากคุณลักษณะนี้แสดงความสัมพันธ์ที่เกี่ยวข้องทางสถิติกับตัวแปรตามหรือ Y ในกรณีที่ความสัมพันธ์ไม่มีความเกี่ยวข้องทางสถิติ ค่าสัมประสิทธิ์ 'b' จะเท่ากับศูนย์ (ตามสถิติ)

F

นี่คือการทดสอบความเกี่ยวข้องทางสถิติของสมการถดถอยทั้งหมด มันถูกสร้างขึ้นโดยการหารความแปรปรวนที่อธิบายไว้ด้วยความแปรปรวนที่ไม่ได้อธิบาย ตามกฎเกณฑ์ง่ายๆ ค่า F ใดๆ ที่สูงกว่า 4.0 มักมีความเกี่ยวข้องทางสถิติมากที่สุด อย่างไรก็ตาม คุณต้องอ้างถึง F-table เพื่อให้แน่ใจ ถ้า F เกี่ยวข้องกัน สมการถดถอยจะช่วยให้เราทราบความสัมพันธ์ระหว่าง X และ Y

สมมติฐานของการถดถอยเชิงเส้นอย่างง่าย

  • ความเป็นเนื้อเดียวกันของความแปรปรวน: สิ่งนี้สามารถเรียกได้ว่าเป็น homoscedasticity แก่นของข้อสันนิษฐานนี้ระบุว่าไม่มีการเปลี่ยนแปลงที่สำคัญในขนาดของข้อผิดพลาดในการคาดคะเนของเราในค่าของตัวแปรอิสระ
  • ความเป็นอิสระของการสังเกต: ที่นี่ ใช้วิธีการสุ่มตัวอย่างที่ถูกต้องทางสถิติเพื่อรวบรวมการสังเกตในชุดข้อมูล และไม่มีความสัมพันธ์ที่ไม่รู้จักระหว่างการสังเกต
  • ความปกติ: นี่ถือว่าข้อมูลเป็นไปตามการแจกแจงแบบปกติ

ตัวอย่างการถดถอยเชิงเส้นอย่างง่าย

ในที่นี้ เราจะกล่าวถึงสถานการณ์สมมติที่ใช้เป็นตัวอย่างของการนำ การวิเคราะห์การถดถอยอย่างง่าย ไปใช้

ให้เราสมมติความเร็วเฉลี่ยเมื่อมีการวางสายตรวจทางหลวง 2 นายคือ 75 ไมล์ต่อชั่วโมง หรือ 35 ไมล์ต่อชั่วโมงเมื่อมีการวางสายตรวจทางหลวง 10 นาย คำถามคือ ความเร็วเฉลี่ยของรถยนต์บนทางด่วนเมื่อตำรวจทางหลวง 5 นายถูกวางกำลังเป็นเท่าไร?

ด้วยการใช้ สูตรการวิเคราะห์การถดถอยอย่างง่าย เราสามารถคำนวณค่าและได้สมการต่อไปนี้: Y = 85 + (-5) X โดยที่ Y คือความเร็วเฉลี่ยของรถยนต์บนทางหลวง A = 85 หรือความเร็วเฉลี่ยเมื่อ X = 0

B = (-5) ผลกระทบของรถสายตรวจพิเศษแต่ละคันที่นำไปใช้กับY

และ X = จำนวนการลาดตระเวนที่นำไปใช้

ดังนั้น ความเร็วเฉลี่ยของรถยนต์บนทางหลวงเมื่อมีหน่วยลาดตระเวนทางหลวงเป็นศูนย์ (X=0) จะเท่ากับ 85 ไมล์ต่อชั่วโมง สำหรับรถสายตรวจทางหลวงพิเศษทุกคันที่ทำงาน ความเร็วเฉลี่ยจะลดลง 5 ไมล์ต่อชั่วโมง ดังนั้น สำหรับรถสายตรวจ 5 คัน (X = 5) เรามี Y = 85 + (-5) (5) = 85 – 25 = 60 ไมล์ต่อชั่วโมง

ขีดจำกัดของการถดถอยเชิงเส้นอย่างง่าย

แม้แต่ข้อมูลที่ดีที่สุดก็ไม่ได้ให้ความสมบูรณ์แบบ โดยทั่วไปแล้ว การวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย มักใช้ในการวิจัยเพื่อทำเครื่องหมายความสัมพันธ์ที่มีอยู่ระหว่างตัวแปร อย่างไรก็ตาม เนื่องจากความสัมพันธ์ไม่ได้ตีความว่าเป็นสาเหตุ ความสัมพันธ์ระหว่างตัวแปร 2 ตัวไม่ได้หมายความว่าตัวแปรหนึ่งเป็นสาเหตุให้อีกตัวแปรหนึ่งเกิดขึ้น อันที่จริง เส้นในการถดถอยเชิงเส้นอย่างง่ายที่อธิบายจุดข้อมูลอย่างดีอาจไม่ทำให้เกิดความสัมพันธ์แบบเหตุและผล

การใช้ ตัวอย่างการวิเคราะห์การถดถอยอย่างง่าย จะช่วยให้คุณทราบว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ ดังนั้น จำเป็นต้องมีการวิเคราะห์และวิจัยทางสถิติเพิ่มเติมเพื่อกำหนดว่าความสัมพันธ์คืออะไร และถ้าตัวแปรหนึ่งนำไปสู่อีกตัวแปรหนึ่งหรือไม่

ความคิดสุดท้าย

โดยรวมแล้ว ธุรกิจในปัจจุบันจำเป็นต้องพิจารณา การวิเคราะห์การถดถอยอย่างง่าย หากพวกเขาต้องการตัวเลือกที่ให้การสนับสนุนที่ดีเยี่ยมต่อการตัดสินใจของฝ่ายบริหาร และยังระบุข้อผิดพลาดในการตัดสินด้วย ด้วยการวิเคราะห์ที่เหมาะสม ข้อมูลที่ไม่มีโครงสร้างจำนวนมากที่สะสมโดยธุรกิจเมื่อเวลาผ่านไปจะมีศักยภาพในการให้ข้อมูลเชิงลึกอันมีค่าแก่ธุรกิจ

แหล่งข้อมูลที่เป็นประโยชน์อื่นๆ:

การวิเคราะห์การถดถอยประเภทต่าง ๆ ที่ควรทราบ

ความสำคัญของการวิเคราะห์การถดถอยในธุรกิจ