การวิเคราะห์การถดถอยประเภทต่าง ๆ ที่ควรทราบ
เผยแพร่แล้ว: 2020-03-05การวิเคราะห์การถดถอยเป็นวิธีการที่พยายามสร้างความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเดี่ยวหรือหลายตัวแปร
การถดถอยโดยกำเนิดเป็นแนวคิดทางสถิติ แต่กำลังค้นหาการใช้งานในสาขาที่เกี่ยวข้องกับธุรกิจมากมาย เช่น การเงิน การลงทุน ตลาดหุ้น และในสาขาต่างๆ เช่น วิทยาศาสตร์และวิศวกรรมศาสตร์
มีการประยุกต์ใช้การวิเคราะห์การถดถอยที่กำลังจะเกิดขึ้นในรูปแบบของวิทยาศาสตร์ข้อมูล การเรียนรู้ของเครื่อง และปัญญาประดิษฐ์ที่ทำเครื่องหมายอนาคตของมนุษยชาติ
- คำศัพท์
- การวิเคราะห์การถดถอยประเภทต่างๆ
- ใช้ทำอะไร?
- วิธีการเลือกรุ่นที่เหมาะสม
คำศัพท์ที่เกี่ยวข้องกับการถดถอย
เพื่อทำความเข้าใจประเภทของการวิเคราะห์การถดถอย การทำความเข้าใจคำศัพท์ที่เกี่ยวข้องจะมีประโยชน์
ค่าผิดปกติ
ค่าผิดปกติสามารถมองเห็นได้ด้วยแผนภาพข้อมูลบนกราฟ ในการวิเคราะห์การถดถอย(1) ค่าผิดปกติคือจุดบนกราฟที่อยู่นอกคลาวด์ที่ประกอบขึ้นจากจุดอื่นๆ อย่างมีนัยสำคัญ จุดผิดปกติมีความสำคัญเนื่องจากสามารถมีอิทธิพลอย่างมากต่อผลลัพธ์ของการวิเคราะห์การถดถอย เพื่อให้เข้าใจแนวคิดนี้ สมมติว่าอาคารแห่งหนึ่งเต็มไปด้วยผู้เชี่ยวชาญที่มีพื้นฐานทางการเงินโดยเฉลี่ยในแง่ของรายได้
พวกเขาทั้งหมดมีเงินเดือนเฉลี่ยประมาณหนึ่งแสนเหรียญต่อปี ทันใดนั้น Bill Gates และ Jeff Bezos ก้าวเข้ามาในอาคาร และเมื่อคุณรวมเงินเดือนของมหาเศรษฐีสองคนนี้แล้ว เงินเดือนเฉลี่ยจะไม่ถูกต้องอย่างมาก เงินเดือนของสุภาพบุรุษที่รู้จักกันดีสองคนนี้เป็นค่าผิดปกติในตัวอย่างนี้
ความหลากหลายทางชีวภาพ
ในการวิเคราะห์การถดถอย เมื่อพิจารณาถึงความสัมพันธ์ระหว่างตัวแปรอินพุตตั้งแต่สองตัวขึ้นไป จะสังเกตได้ว่าเมื่อมีการเพิ่มตัวแปรอินพุตตั้งแต่หนึ่งตัวขึ้นไป โมเดลดังกล่าวล้มเหลวในการทำให้สิ่งต่าง ๆ โปร่งใสมากขึ้นเกี่ยวกับโลกแห่งความเป็นจริง
สิ่งสำคัญคือต้องค้นหาว่าตัวแปรอินพุตมีความสัมพันธ์กันอย่างไร การวัดค่า multicollinearity ของตัวแบบการถดถอยเป็นวิธีการค้นหาความสัมพันธ์ระหว่างตัวแปรอินพุต ตัวอย่างเช่น คุณอาจพบแบบจำลองที่คุณยินดีที่จะค้นหา อะไรเป็นตัวกำหนดเงินเดือนของบุคคลในวัยใดช่วงหนึ่ง ตัวแปรอิสระ (ปัจจัย) เช่น วุฒิการศึกษา อายุ และปัจจัยอื่น ๆ อีกมากมายที่มีอิทธิพลต่อเงินเดือนโดยเฉลี่ยของบุคคลนั้นจะถูกนำมาพิจารณาด้วย
แต่ก่อนที่คุณจะไปไกลกว่านี้และโยนทุกปัจจัยภายใต้ดวงอาทิตย์ในแบบจำลองของคุณ คุณจำเป็นต้องรู้ว่าปัจจัยเหล่านี้มีความสัมพันธ์กันอย่างไร หาก multicollinearity สูงเกินไป จะทำให้เกิดการรบกวนของข้อมูลและแบบจำลองจะแยกออกจากกัน
ความต่าง
heteroscedasticity (บางครั้งสะกดว่า heteroskedasticity) เกิดขึ้นเมื่อการอ่านค่าความผิดพลาดมาตรฐาน (SE) ของตัวแปรที่วัดในช่วงเวลาหนึ่งไม่คงที่
การวิเคราะห์การถดถอยใด ๆ ที่ทำงานบนข้อมูลดังกล่าวซึ่งแสดงความไม่ต่างกันให้ค่าสัมประสิทธิ์แบบเอนเอียงอย่างน้อยที่สุดและทำลายผลลัพธ์
ฟิตเกินไป
การใส่มากเกินไปในการวิเคราะห์การถดถอยคือเกิดขึ้นเมื่อตัวแปรเริ่มแสดงข้อผิดพลาดแบบสุ่ม แทนที่จะอธิบายความสัมพันธ์ระหว่างตัวแปรอย่างมีประสิทธิภาพ การใส่มากเกินไปทำให้เกิดเสียงรบกวนมากกว่าการเป็นตัวแทนที่แท้จริงของประชากร ผลลัพธ์ของแบบจำลองนั้นไม่สมจริงอีกต่อไป คุณต้องสร้างแบบจำลองของคุณให้ใกล้เคียงกับความเป็นจริงมากที่สุด เป็นตัวอย่างของการแต่งกายจากโลกแห่งความเป็นจริง คำที่ดีที่สุดที่อธิบายการแต่งตัวจากตัวอย่างในโลกแห่งความเป็นจริงคือ "over-generalization" เมื่อข้อผิดพลาดหรืออคติเพิ่มขึ้น ค่าจริงจะไม่สามารถกำหนดเป็นผลได้
Underfitting
Underfitting เกิดขึ้นเมื่อจำนวนของตัวแปรแทบจะไม่พอดีกับแบบจำลองที่กำหนด และเอาต์พุตไม่แม่นยำ เพื่อให้ได้ผลลัพธ์ที่ประสบความสำเร็จจากการวิเคราะห์การถดถอย คุณต้องมีค่าที่เหมาะสมที่สุดของตัวแปร ดังนั้นแบบจำลองที่ได้รับนั้นใกล้เคียงกับความเป็นจริง กล่าวโดยสรุป เมื่อตัวแปรไม่ได้รับการปรับให้เหมาะสมหรือแบบจำลองไม่พอดีกับข้อมูลอย่างมีประสิทธิภาพ เรียกว่า เสื้อชั้นใน
ประเภทของการวิเคราะห์การถดถอย
มีตัวแปรสองประเภทในรูปแบบการถดถอยใด ๆ หนึ่งคือตัวแปรอิสระหรือเรียกอีกอย่างว่าตัวแปรอธิบายซึ่งใช้สำหรับอินพุต ตัวแปรอีกประเภทหนึ่งคือตัวแปรตามหรือที่เรียกว่าตัวทำนาย เป็นค่าที่คุณพยายามค้นหาหรือผลลัพธ์ของแบบจำลอง
ต่อไปนี้จะอธิบายการวิเคราะห์การถดถอยประเภทต่างๆ
การถดถอยเชิงเส้น
การถดถอยเชิงเส้นเกี่ยวข้องกับตัวแปรสองประเภท ตัวแปรหนึ่งเรียกว่าตัวแปรอิสระ และตัวแปรอีกประเภทหนึ่งเรียกว่าตัวแปรตาม
ตัวแปรอิสระแปรผันตามแกน x ของระนาบคาร์ทีเซียน และตัวแปรตามแปรผันตามแกน y ตัวแปรเหล่านี้คือ "x" และ "y" ตามลำดับ ค่าของ y ขึ้นอยู่กับ x เมื่อ x เปลี่ยนแปลง ตัว “y” จะเพิ่มขึ้นหรือลดลง
การถดถอยเชิงเส้นมีสองประเภท- การถดถอยเชิงเส้นอย่างง่าย
- การถดถอยเชิงเส้นพหุคูณ
- การถดถอยเชิงเส้นอย่างง่าย: ในการถดถอยเชิงเส้นอย่างง่าย มีตัวแปรตามเพียงตัวเดียวและตัวแปรตามเพียงตัวเดียว
สมการสำหรับการถดถอยเชิงเส้นอย่างง่ายคือ y=β_0+β_1 xที่นี่ x แทนตัวแปรอิสระ คือ ความชันของเส้นการถดถอย และเป็นจุดตัด y “y” คือตัวแปรตามหรือผลลัพธ์
- การถดถอยเชิงเส้นพหุคูณ: ในการถดถอยเชิงเส้นพหุคูณ ตัวแปรตามเป็นตัวแปรเดียว แต่คุณมีตัวแปรอิสระหลายตัว
สมการต่อไปนี้แทนการถดถอยเชิงเส้นพหุคูณ,y= β_0+β_1 x_1+⋯β_n x_n+ εที่นี่ y คือตัวแปรตาม คือการสกัดกั้น y แสดงถึงตัวแปรอิสระหลายตัวในแบบจำลอง คือ "อคติ" หรือ "ข้อผิดพลาด" การลดอคติหรือข้อผิดพลาดให้น้อยที่สุดคือวัตถุประสงค์หลักของเรา เพื่อสร้างแบบจำลองที่ใกล้เคียงกับสถานการณ์ในโลกแห่งความเป็นจริง
การถดถอยหลายตัวแปร
การถดถอยหลายตัวแปรนั้นแตกต่างจากการถดถอยเชิงเส้นพหุคูณในแง่ที่ว่ามันมีตัวแปรตามหลายตัวพร้อมอินพุตของตัวแปรอิสระหลายตัว ตัวแปรตาม ( y_1,y_2 ,y_3 …. y_n) อยู่ในสูตรที่แตกต่างกัน และมีตัวแปรอิสระมากกว่าหนึ่งตัว ( x_1, x_2, ….x_m ) เพื่อทำนายค่า Ys ในการถดถอยหลายตัวแปร ข้อมูลที่ใช้ส่วนใหญ่เป็นประเภทเดียวกับในการวิเคราะห์การถดถอยประเภทอื่น
การถดถอยโลจิสติก
การถดถอยโลจิสติกเป็นรูปแบบการถดถอยที่ได้รับความนิยมมากที่สุดเป็นอันดับสองรองจากการถดถอยเชิงเส้น และการใช้งานครอบคลุมชีวสถิติ การแพทย์ และสังคมศาสตร์
การถดถอยลอจิสติกส์เกี่ยวข้องกับค่าบูลีนเช่น- จริงหรือเท็จ
- ใช่หรือไม่
- ใหญ่หรือเล็ก
- หนึ่งหรือศูนย์
Logistic Regression ใช้ในการจำแนกประเภทของอ็อบเจ็กต์ เช่น อีเมลเป็น “สแปม” หรือ “ไม่ใช่สแปม”
กล่าวโดยสรุป มีหนึ่งผลลัพธ์ในการถดถอยโลจิสติกที่สามารถเป็น "จริง" หรือ "เท็จ" นอกจากนี้ อาจมีอินพุตเดียวหรือหลายอินพุตในแบบจำลองการถดถอยลอจิสติกส์
การถดถอยพหุนาม
มีหลายกรณีที่เราต้องจัดการกับตัวแปรที่มีความสัมพันธ์ไม่เป็นเชิงเส้น ในกรณีเช่นนี้ แบบจำลองของเราเป็นเส้นโค้ง ไม่ใช่เส้นตรงที่แตกต่างจากการถดถอยเชิงเส้น ดังนั้นเราจึงมีรูปแบบการถดถอยอีกรูปแบบหนึ่งที่เรียกว่าการถดถอยพหุนาม
สมการการถดถอยพหุนามคือกำลังจากน้อยไปมากของตัวแปรอินพุต x ซึ่งมีลักษณะทั่วไปอยู่ด้านล่าง
y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε
การถดถอยเชิงปริมาณ
นิยามการถดถอยของควอนไทล์แตกต่างอย่างมากจากความหมายในทางปฏิบัติ ควอนไทล์เป็นอีกชื่อหนึ่งของค่ามัธยฐานในสถิติ
Quantile คือจุดหรือเส้นที่แยกข้อมูลเอาต์พุตออกเป็นสองส่วนเท่าๆ กัน ลองนึกภาพชุดข้อมูลในรูปแบบของเส้นตรงบนแกน y ชุดข้อมูลแบ่งออกเป็นสองส่วนเท่าๆ กัน ค่าของควอนไทล์คือ 0.5 หรือ 50% ที่จุดแยก
ในบันทึกเดียวกัน ข้อมูลที่แบ่งเท่าๆ กันทั้งสองจะถูกแบ่งเท่าๆ กันอีกครั้งตามแกน y ครั้งนี้ เราได้ข้อมูลที่ถูกแบ่งออกเป็นสี่ส่วนเท่าๆ กัน และจุดแยกใหม่ที่แกน y ล่างของกราฟคือ 0.25 หรือ 25%
ในทำนองเดียวกัน ควอนไทล์การแยกแกน y ด้านบนคือ 0.75 หรือ 75% โดยทั่วไป ควอนไทล์เป็นเพียงเส้นหรือจุดที่แบ่งข้อมูลออกเป็นชิ้นๆ หรือกลุ่มเท่าๆ กัน
ควอนไทล์คายข้อมูลในกลุ่มที่มีขนาดเท่ากันหลายร้อยกลุ่ม แต่ในโลกแห่งความเป็นจริง คำจำกัดความของควอนไทล์นั้นยืดหยุ่นกว่ามาก
การถดถอยเชิงควอนไทล์มีประโยชน์เมื่อมี heteroscedasticity สูงในแบบจำลอง และการถดถอยเชิงเส้นนั้นไม่แม่นยำพอที่จะทำนายผลลัพธ์ เนื่องจากตัวแบบเชิงเส้นอาศัยค่าเฉลี่ยและควอนไทล์สามารถแม่นยำยิ่งขึ้นด้วยค่ามัธยฐาน
การถดถอยของสันเขา
การถดถอยสันเขาใช้เทคนิคที่เรียกว่า การทำให้เป็นมาตรฐานนั้นเหมาะสมสำหรับโมเดลที่ล้มเหลวในการทดสอบข้อมูลแต่ส่งต่อข้อมูลการฝึก
การถดถอยริดจ์จะทำงานได้ดีที่สุดเมื่อตัวแปรส่วนใหญ่ในแบบจำลองมีประโยชน์
เมื่อข้อมูลตัวอย่างแสดงการทำงานร่วมกันหลายแบบ สองสิ่งที่ไม่ต้องการก็เกิดขึ้น
- การประมาณค่าสัมประสิทธิ์ของตัวแปรทำนายน้อยที่สุดกำลังสองน้อยที่สุดทำให้เกิดข้อผิดพลาดสูง
- มีอัตราเงินเฟ้อในข้อผิดพลาดมาตรฐาน
Ridge Regression เป็นเทคนิคสำหรับการรักษาเสถียรภาพของสัมประสิทธิ์การถดถอยเมื่อมี multicollinearity
การถดถอยของ Lasso
Lasso ย่อมาจาก "ผู้ดำเนินการคัดเลือกและหดตัวน้อยที่สุด" Lasso Regression ทำงานได้ดีที่สุดเมื่อคุณมีตัวแปรที่ไม่มีประโยชน์มากมาย Lasso Regression คล้ายกับการถดถอยของ Ridge แต่ความแตกต่างบางอย่างทำให้เป็นเอกลักษณ์
Ridge Regression และ Lasso Regression มีการประยุกต์ใช้กับสถานการณ์เดียวกันกับที่มี multicollinearity อย่างไรก็ตาม Ridge Regression เหมาะสำหรับการทำนายระยะยาว
Lasso Regression ใช้การหดตัวกับข้อมูล ค่าข้อมูลจะหดตัวลงสู่จุดศูนย์กลาง เช่น ค่ามัธยฐานหรือค่าเฉลี่ย
การทำให้เข้าใจง่ายและความกระจัดกระจายของตัวแบบข้อมูลเป็นฟังก์ชันที่ Lasso Regression ทำงานได้ดีที่สุด กล่าวอีกนัยหนึ่ง ตัวแบบข้อมูลควรมีพารามิเตอร์ที่เหมาะสมที่สุดสำหรับผลลัพธ์ที่แม่นยำ
การถดถอยองค์ประกอบหลัก (PCR)
การวิเคราะห์องค์ประกอบหลักมีแอปพลิเคชันกับตัวแปร x ซึ่งช่วยลดมิติข้อมูล มันเกี่ยวข้องกับการแยกชุดข้อมูลที่มีการเปลี่ยนแปลงส่วนใหญ่ในกระบวนการวนซ้ำ
เนื่องจากกระบวนการเป็นแบบวนซ้ำ จึงสามารถวิเคราะห์ชุดข้อมูลหลายมิติได้ การถดถอยองค์ประกอบหลักจึงเอาชนะปัญหาเชิงมิติและแนวร่วมที่มีอยู่ในการถดถอยกำลังสองน้อยที่สุดธรรมดา
การถดถอยสุทธิแบบยืดหยุ่น
Elastic Net Regression ช่วยลดความซับซ้อนของแบบจำลองเพื่อให้ง่ายต่อการตีความ โมเดลสามารถมีตัวแปรได้มากมาย (พารามิเตอร์ที่เรียกว่า); พวกเขาสามารถช่วงได้ถึงล้านในรุ่นเฉพาะ ในรูปแบบดังกล่าว ไม่สามารถระบุได้ว่าตัวแปรใดมีประโยชน์และตัวแปรใดไม่มีประโยชน์
ในกรณีเช่นนี้ คุณไม่ทราบว่าประเภทการถดถอยแบบใดให้เลือกระหว่าง Ridge Regression และ Lasso regression ในที่นี้ การนำ Elastic Net Regression มาใช้เพื่อลดความซับซ้อนของโมเดล
Elastic-Net Regression รวมการปรับการถดถอยของ Ridge กับบทลงโทษ Lasso Regression และให้สิ่งที่ดีที่สุดของทั้งสองโลก นอกจากนี้ยังทำงานได้ดีขึ้นกับตัวแปรที่สัมพันธ์กัน
กำลังสองน้อยที่สุดบางส่วน (PLS)
Least Squares บางส่วนจะพิจารณาทั้งตัวแปรอธิบายและตัวแปรตาม หลักการพื้นฐานของการถดถอยประเภทนี้คือตัวแปร x และ y ผ่านการย่อยสลายเป็นโครงสร้างแฝงในกระบวนการวนซ้ำ
PLS สามารถจัดการกับ multicollinearity โดยคำนึงถึงโครงสร้างข้อมูลที่เกี่ยวข้องกับ x และ y โดยให้ผลลัพธ์ที่มองเห็นได้ชัดเจนสำหรับการตีความข้อมูล สามารถนำมาพิจารณาได้หลายตัวแปร
รองรับเวกเตอร์การถดถอย
Support Vector Regression (SVR) เป็นอัลกอริธึมที่ทำงานร่วมกับฟังก์ชันต่อเนื่อง ตรงกันข้ามกับ Support Vector Machine ในแง่นี้ Support Vector Machine (SVM) เกี่ยวข้องกับปัญหาการจำแนกประเภท SVR คาดการณ์ตัวแปรที่เรียงลำดับอย่างต่อเนื่อง
ในการถดถอยอย่างง่าย การเน้นจะต้องอยู่ที่การลดข้อผิดพลาดให้น้อยที่สุดในขณะที่ Support Vector Regression ค้นหาขีดจำกัดของข้อผิดพลาด
การถดถอยลำดับ
การถดถอยลอจิสติกส์เกี่ยวข้องกับสองประเภท แต่ในการถดถอยเชิงลำดับ (หรือที่รู้จักการถดถอยลอจิสติกส์ลำดับ) สามประเภทหรือมากกว่านั้นเกี่ยวข้องกับการเรียงลำดับที่ชัดเจน
การถดถอยเชิงลำดับช่วยในการทำนายตัวแปรตามอันดับเมื่อมีตัวแปรอิสระอย่างน้อยหนึ่งตัว
การถดถอยปัวซอง
ในการถดถอยปัวซอง การนับหรืออัตราที่เหตุการณ์เกิดขึ้นเป็นจุดสนใจหลัก
เราวัดอัตราที่เหตุการณ์เกิดขึ้นใน Poisson Regression กล่าวอีกนัยหนึ่ง เราจำลองจำนวนครั้งที่เหตุการณ์เกิดขึ้น (นับ) เมื่อเวลาผ่านไป ในการถดถอยปัวซอง เวลาเป็นค่าคงที่ และเราวัดจำนวนเหตุการณ์
การถดถอยทวินามเชิงลบ
มีประโยชน์ในการสร้างแบบจำลองชุดข้อมูลแบบไม่ต่อเนื่อง (นับ) ในบันทึกเดียวกัน การถดถอยทวินามเชิงลบช่วยเมื่อข้อมูลมีความแปรปรวนสูงกว่าเมื่อเทียบกับค่าเฉลี่ยที่มีการกระจายของข้อมูลมากเกินไปเมื่อคุณวางแผน
ตัวแบบทวินามเชิงลบไม่ได้ถือว่าตัวแปรนั้นเท่ากับค่าเฉลี่ยตามแบบจำลองที่อิงจากการถดถอยแบบปัวซอง
การถดถอยกึ่งปัวซอง
การถดถอยเสมือนปัวซองเป็นการสรุปทั่วไปของการถดถอยปัวซอง ดังที่ได้กล่าวไว้ก่อนหน้านี้ แบบจำลองการถดถอยปัวซองขึ้นอยู่กับสมมติฐานที่ไม่เป็นธรรมซึ่งโดยปกติแล้วความแปรปรวนจะเท่ากับค่าเฉลี่ย
แบบจำลอง Quasi Poisson เข้ามามีบทบาทเมื่อความแปรปรวนเป็นฟังก์ชันเชิงเส้นของค่าเฉลี่ย และค่านี้ยังสูงกว่าค่าเฉลี่ยอีกด้วย เป็นสถานการณ์ที่ Quasi Poisson มีความเหมาะสมกว่าที่จะนำไปใช้
การถดถอยค็อกซ์
Cox Regression (หรือที่เรียกว่า Proportional Hazards Regression) ตรวจสอบผลกระทบของตัวแปรหลายตัวในช่วงเวลาที่เหตุการณ์ที่ระบุเกิดขึ้น
พิจารณาเหตุการณ์ต่อไปนี้ซึ่งพบว่า Cox Regression มีประโยชน์
- เวลาที่หัวใจวายครั้งที่สองหลังจากหัวใจวายครั้งแรก
- เวลาที่ใช้สำหรับอุบัติเหตุครั้งที่สองหลังจากเกิดอุบัติเหตุครั้งแรก
- ระยะเวลาที่ใช้หลังจากการตรวจพบมะเร็งจนเสียชีวิต
ข้อมูลเวลาถึงเหตุการณ์มีความสำคัญต่อการประยุกต์ใช้การถดถอยค็อกซ์
Tobit Regression
Tobit Regression มีประโยชน์ในการประมาณความสัมพันธ์เชิงเส้นเมื่อพบการเซ็นเซอร์ในตัวแปรตาม การเซ็นเซอร์คือการสังเกตตัวแปรอิสระทั้งหมด บัญชีจริงของค่าของตัวแปรตามนั้นอยู่ในช่วงการสังเกตที่จำกัดเท่านั้น
การถดถอยแบบเบย์
การถดถอยแบบเบย์อิงจากการแจกแจงความน่าจะเป็นมากกว่าการประมาณค่าจุด เป็นผลให้ผลลัพธ์หรือ "y" ไม่ใช่ค่าเดียว เป็นการแจกแจงความน่าจะเป็น ดังที่เราทราบแล้วว่าการแจกแจงความน่าจะเป็นเป็นฟังก์ชันทางคณิตศาสตร์ไม่ใช่ค่า การแจกแจงความน่าจะเป็นให้ผลลัพธ์ที่เป็นไปได้ในการทดสอบ
เมื่อเราเขียนสูตรของตัวแบบการถดถอยเชิงเส้นตามการกระจายความน่าจะเป็น เราจะได้นิพจน์ต่อไปนี้
y ˜ N(β^TX,σ^2 ฉัน)- เอาต์พุต (y) คำนวณจากการแจกแจงแบบเกาส์เซียนปกติขึ้นอยู่กับค่าเฉลี่ยและความแปรปรวน
- ทรานสโพส (T) ของเมทริกซ์น้ำหนัก (β) ได้มาจากการคูณด้วยเมทริกซ์ตัวทำนาย (X)
- ความแปรปรวนคือค่าเบี่ยงเบนมาตรฐานกำลังสอง (σ^2 ) คูณด้วยเมทริกซ์เอกลักษณ์ (I)
(กำลังพิจารณาสูตรหลายมิติของโมเดล)
การถดถอยค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด (LAD)
ค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุดเป็นทางเลือกที่รู้จักกันอย่างแพร่หลายมากที่สุดสำหรับวิธี Least Square ในการวิเคราะห์ตัวแบบเชิงเส้น เรารู้ว่าในวิธี Least Square เราย่อผลรวมของข้อผิดพลาดกำลังสองให้เหลือน้อยที่สุด แต่ใน LAD เราย่อผลรวมของค่าสัมบูรณ์ของข้อผิดพลาดให้น้อยที่สุด จะพยายามค้นหาฟังก์ชันที่เข้ากับชุดข้อมูลอย่างใกล้ชิด
ในกรณีที่ข้อมูลของเราง่าย ความเบี่ยงเบนน้อยที่สุดจะเป็นเส้นตรงในระนาบคาร์ทีเซียนสองมิติ
สูตรของสัมบูรณ์น้อยที่สุดนั้นตรงไปตรงมามากที่จะเข้าใจ สมมติว่าชุดข้อมูลของเราประกอบด้วยจุดตัวแปรสองจุด ( (x_i ,y_i) และ i=1,2,3,4,5……n
วัตถุประสงค์ของเราคือการหาฟังก์ชัน f ที่ประมาณเท่ากับ (~) ดังที่แสดงด้านล่าง
f(x_i ) ~ y_i
ข้ออ้างคือฟังก์ชัน f อยู่ในรูปแบบเฉพาะที่มีพารามิเตอร์บางอย่างที่เราจำเป็นต้องคำนวณ ประเด็นที่ควรทราบในที่นี้คือฟังก์ชัน f สามารถมีพารามิเตอร์ x จำนวน I ได้ (หรือตัวแปรอิสระหรือตัวแปรอธิบาย)
เราจะพยายามค้นหาค่าของพารามิเตอร์ที่จะลดผลรวมของค่าสัมบูรณ์ของข้อผิดพลาด (หรือค่าคงเหลือ) ต่อไปนี้
S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )การถดถอยทางนิเวศวิทยา
การถดถอยเชิงนิเวศเป็นเครื่องมือส่วนใหญ่ในวิชาเช่นรัฐศาสตร์และประวัติศาสตร์ เทคนิคนี้ช่วยให้เราสามารถนับในระดับมหภาคและคาดการณ์ได้ในระดับจุลภาค
การถดถอยเชิงนิเวศน์สามารถกำหนดพฤติกรรมการลงคะแนนเสียงของบุคคลระหว่างฝ่ายต่างๆ และกลุ่มสังคมต่างๆ การประเมินจะขึ้นอยู่กับข้อมูลที่รวบรวมจากบัญชีก่อนหน้า
ข้อมูลทางนิเวศวิทยาขึ้นอยู่กับการนับในภูมิภาค กลุ่ม วัตถุ หรือเมื่อเวลาผ่านไป กล่าวโดยสรุป ข้อมูลโดยรวมช่วยให้เราเรียนรู้เกี่ยวกับพฤติกรรมที่จำกัดเฉพาะบุคคล
การวิเคราะห์การถดถอยใช้สำหรับอะไร?
การวิเคราะห์การถดถอยมีประโยชน์ในการบรรลุวัตถุประสงค์ทางธุรกิจหลายประการ
การวิเคราะห์เชิงทำนาย
แอปพลิเคชั่นที่โดดเด่นที่สุดตัวหนึ่งคือการวิเคราะห์เชิงคาดการณ์ที่ช่วยให้คาดการณ์เหตุการณ์ทางธุรกิจที่เฉพาะเจาะจงได้แม่นยำยิ่งขึ้น การวิเคราะห์เชิงคาดการณ์ประเภทหนึ่งคือ "การวิเคราะห์ความต้องการ" ซึ่งวัดการเพิ่มขึ้นของยอดขายของผลิตภัณฑ์ ความสำเร็จของผลิตภัณฑ์ที่เพิ่งเปิดตัวรวมทั้งผลิตภัณฑ์ที่ใช้งานสามารถวางตำแหน่งได้อย่างถูกต้องในตลาด
อีกตัวอย่างหนึ่ง การวิเคราะห์การถดถอยมีการใช้งานในการโฆษณาผลิตภัณฑ์และบริการ การวิเคราะห์การถดถอยสามารถคาดการณ์ได้ว่ามีผู้ซื้อจำนวนเท่าใดที่มีโอกาสเจอโฆษณา ช่วยให้ผู้เชี่ยวชาญด้านการขายและการตลาดกำหนดราคาเสนอของสื่อส่งเสริมการขาย
การวิเคราะห์การถดถอยยังเป็นเครื่องมือที่เป็นประโยชน์สำหรับบริษัทประกันภัยอีกด้วย บริษัทประกันภัยใช้ข้อมูลนี้เพื่อค้นหาเครดิตของผู้ถือกรมธรรม์และประเมินจำนวนการเรียกร้องที่น่าจะเสนอให้แก่ลูกค้าของตน
ประสิทธิภาพการดำเนินงาน
องค์กรตัดสินใจอย่างจริงจังโดยใช้การวิเคราะห์การถดถอยเพื่อเพิ่มประสิทธิภาพการดำเนินงาน
การตัดสินใจที่ขับเคลื่อนด้วยข้อมูลสามารถขจัดการตัดสินใจที่น่าสงสัย การคาดเดาที่ไม่ถูกต้องด้วยความรู้สึกนึกคิด และการเมืององค์กร
การวิเคราะห์แบบถดถอยกำลังแปลงศิลปะของการจัดการให้เป็นวิทยาศาสตร์ ตัวอย่างเช่น เป็นไปได้ที่จะเชื่อมโยงเวลารอของผู้โทรกับจำนวนข้อร้องเรียนในศูนย์บริการทางโทรศัพท์หรือฝ่ายดูแลลูกค้า
สนับสนุนการตัดสินใจ
องค์กรในปัจจุบันมีข้อมูลมากมายเกี่ยวกับการเงิน การตลาด การปฏิบัติการ และแผนกอื่นๆ อีกมากมาย ผู้มีอำนาจตัดสินใจอันดับต้นๆ มักหันมาใช้การวิเคราะห์ข้อมูลและวิทยาศาสตร์ข้อมูลมากขึ้น เพื่อทำการตัดสินใจอย่างมีข้อมูลมากขึ้นโดยไม่ต้องคาดเดา
ด้วยความช่วยเหลือของการวิเคราะห์การถดถอย บิ๊กดาต้าสามารถรับการบีบอัดข้อมูลแบบลีนที่เน้นการดำเนินการ ซึ่งเป็นการเปิดเส้นทางสู่การตัดสินใจที่แม่นยำยิ่งขึ้น การวิเคราะห์การถดถอยไม่ได้ลบหรือแทนที่ผู้จัดการ แต่กลับวางเครื่องมืออันทรงพลังไว้ในมือเพื่อการตัดสินใจที่มีประสิทธิภาพและประสิทธิผลมากกว่าที่เคยเป็นมา
แก้ไขข้อผิดพลาด
การวิเคราะห์การถดถอยยังช่วยระบุข้อผิดพลาดโดยสัญชาตญาณในการตัดสินและตัดสินใจสำหรับผู้จัดการธุรกิจ
ตัวอย่างเช่น ผู้จัดการร้านอาจตัดสินใจให้ร้านเปิดในเวลากลางคืนซึ่งเขาตัดสินใจจ้างพนักงานใหม่
การวิเคราะห์การถดถอยสามารถระบุได้อย่างถูกต้องว่าการพิจารณาค่าใช้จ่ายของพนักงานและยอดขายทั้งหมดที่เกิดขึ้นในเวลากลางคืนไม่สามารถมีเหตุผลร่วมกันได้ ดังนั้น การประยุกต์ใช้การวิเคราะห์การถดถอยเชิงปริมาณช่วยให้สามารถแยกแยะการตัดสินใจที่ไม่ถูกต้องออกได้
ข้อมูลเชิงลึกที่นำไปใช้ได้จริง
บริษัทต่างๆ เข้าใจและรับทราบถึงคุณค่าของข้อมูลและสิ่งที่สามารถทำได้โดยเทคนิคการวิเคราะห์การถดถอย แต่หลายบริษัทล้มเหลวในการแปลงข้อมูลนี้เป็นข้อมูลเชิงลึกที่นำไปปฏิบัติได้ การขับเคลื่อนข้อมูลเชิงลึกจากข้อมูลดิบไม่ใช่เรื่องง่าย รายงานโดย Forrester อ้างว่า 74% ของบริษัทต้องการตัดสินใจด้วยการป้อนข้อมูล แต่มีเพียง 29% เท่านั้นที่ประสบความสำเร็จในการรับการวิเคราะห์ที่สามารถทำให้พวกเขาตัดสินใจได้อย่างประสบผลสำเร็จ
กรณีศึกษาที่สำคัญอย่างหนึ่งในโลกธุรกิจคือโคนิก้า มินอลต้า Konica เป็นหนึ่งในผู้ผลิตกล้องที่ประสบความสำเร็จมากที่สุด ในปี 2543 ช่างภาพและผู้ชื่นชอบกล้องส่วนใหญ่เปลี่ยนมาใช้กล้องดิจิทัล
หน่วยงานที่มีอำนาจตัดสินใจสูงสุดที่โคนิก้าไม่ได้ตัดสินใจเร็วพอเป็นผลให้ในปี 2547 เมื่อโคนิก้าเปิดตัวกล้องตัวแรก คู่แข่งส่วนใหญ่อย่างนิคอนและแคนนอนได้สร้างชื่อเสียงให้กับตนเองในตลาดกล้องดิจิตอลใหม่ เป็นผลให้ในปี 2549 บริษัทประสบความสูญเสียอย่างหนักจนขายเทคโนโลยีและทรัพย์สินจำนวนมากให้กับ Sony
หากโคนิก้ามีข้อมูลเชิงลึกจากข้อมูลดิบทางการค้าและการตลาดที่ประมวลผลผ่านการวิเคราะห์การถดถอยและเทคนิคที่คล้ายคลึงกัน โคนิก้าจะสามารถตัดสินใจได้อย่างถูกต้องในเวลาที่เหมาะสม
การวิเคราะห์การถดถอยของข้อมูลที่ให้ข้อมูลเชิงลึกที่นำไปใช้ได้จริงนั้นมอบอำนาจที่แท้จริงให้อยู่ในมือของผู้มีอำนาจตัดสินใจ ซึ่งสามารถเป็นผู้เปลี่ยนเกมในโลกแห่งความเป็นจริง
วิธีการเลือกแบบจำลองการถดถอยที่เหมาะสม?
การถดถอยมีหลายร้อยประเภท และเราได้ครอบคลุมประเภทที่ได้รับความนิยมมากที่สุด
โลกแห่งความจริงนั้นซับซ้อนมาก และผู้สร้างแบบจำลองได้วัดตัวแปรมากมายแต่รวมไว้เพียงไม่กี่ตัวในแบบจำลอง นักวิเคราะห์ไม่รวมตัวแปรอิสระที่มีผลกระทบต่อตัวแปรตามหรือผลลัพธ์น้อยมากถึงไม่มีเลย
เมื่อเลือกแบบจำลองการถดถอย ควรคำนึงถึงข้อเท็จจริงง่ายๆ ต่อไปนี้เพื่อรักษาสมดุลโดยใส่จำนวนตัวแปรอิสระที่ถูกต้องลงในสมการถดถอย
- ตัวแปรอิสระน้อยเกินไป โมเดลที่ไม่ระบุจะกลายเป็นอคติ
- มีตัวแปรอิสระมากเกินไป โมเดลที่ไม่ระบุจะสูญเสียความแม่นยำไป
- Just the Right model เกิดขึ้นเมื่อคำศัพท์ทางคณิตศาสตร์ไม่ลำเอียงและแม่นยำที่สุด
ความคิดสุดท้าย
การวิเคราะห์การถดถอยมีต้นกำเนิดในสถิติที่เป็นวิทยาศาสตร์ที่มีอายุหลายร้อยปี แต่เพิ่งได้รับความสนใจจากข้อมูลขนาดใหญ่ที่กำลังระเบิด การวิเคราะห์การถดถอยกำลังค้นหาทางผ่านสถิติในการวิเคราะห์ข้อมูล วิทยาศาสตร์ข้อมูล และแอปพลิเคชันในเกือบทุกองค์กร
แบบจำลองการถดถอยที่สร้างขึ้นด้วยการวิเคราะห์การถดถอยเป็นเครื่องมือที่จำเป็นสำหรับการเพิ่มความสามารถในการคาดการณ์ ประสิทธิภาพการดำเนินงาน การตัดสินใจอย่างชาญฉลาด การป้องกันข้อผิดพลาด การป้องกันการตัดสินใจที่ผิดพลาด และข้อมูลเชิงลึกที่ดีขึ้น
แหล่งข้อมูลที่เป็นประโยชน์อื่นๆ:
ความสำคัญของการวิเคราะห์การถดถอยในธุรกิจ
คู่มือฉบับสมบูรณ์เกี่ยวกับการวิเคราะห์การถดถอย