การวิเคราะห์การถดถอยประเภทต่าง ๆ ที่ควรทราบ

เผยแพร่แล้ว: 2020-03-05

การวิเคราะห์การถดถอยเป็นวิธีการที่พยายามสร้างความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเดี่ยวหรือหลายตัวแปร

การถดถอยโดยกำเนิดเป็นแนวคิดทางสถิติ แต่กำลังค้นหาการใช้งานในสาขาที่เกี่ยวข้องกับธุรกิจมากมาย เช่น การเงิน การลงทุน ตลาดหุ้น และในสาขาต่างๆ เช่น วิทยาศาสตร์และวิศวกรรมศาสตร์

มีการประยุกต์ใช้การวิเคราะห์การถดถอยที่กำลังจะเกิดขึ้นในรูปแบบของวิทยาศาสตร์ข้อมูล การเรียนรู้ของเครื่อง และปัญญาประดิษฐ์ที่ทำเครื่องหมายอนาคตของมนุษยชาติ

ในบทความนี้
  • คำศัพท์
  • การวิเคราะห์การถดถอยประเภทต่างๆ
  • ใช้ทำอะไร?
  • วิธีการเลือกรุ่นที่เหมาะสม

คำศัพท์ที่เกี่ยวข้องกับการถดถอย

เพื่อทำความเข้าใจประเภทของการวิเคราะห์การถดถอย การทำความเข้าใจคำศัพท์ที่เกี่ยวข้องจะมีประโยชน์

  • ค่าผิดปกติ

    ค่าผิดปกติสามารถมองเห็นได้ด้วยแผนภาพข้อมูลบนกราฟ ในการวิเคราะห์การถดถอย(1) ค่าผิดปกติคือจุดบนกราฟที่อยู่นอกคลาวด์ที่ประกอบขึ้นจากจุดอื่นๆ อย่างมีนัยสำคัญ จุดผิดปกติมีความสำคัญเนื่องจากสามารถมีอิทธิพลอย่างมากต่อผลลัพธ์ของการวิเคราะห์การถดถอย เพื่อให้เข้าใจแนวคิดนี้ สมมติว่าอาคารแห่งหนึ่งเต็มไปด้วยผู้เชี่ยวชาญที่มีพื้นฐานทางการเงินโดยเฉลี่ยในแง่ของรายได้

    พวกเขาทั้งหมดมีเงินเดือนเฉลี่ยประมาณหนึ่งแสนเหรียญต่อปี ทันใดนั้น Bill Gates และ Jeff Bezos ก้าวเข้ามาในอาคาร และเมื่อคุณรวมเงินเดือนของมหาเศรษฐีสองคนนี้แล้ว เงินเดือนเฉลี่ยจะไม่ถูกต้องอย่างมาก เงินเดือนของสุภาพบุรุษที่รู้จักกันดีสองคนนี้เป็นค่าผิดปกติในตัวอย่างนี้

  • ความหลากหลายทางชีวภาพ

    ในการวิเคราะห์การถดถอย เมื่อพิจารณาถึงความสัมพันธ์ระหว่างตัวแปรอินพุตตั้งแต่สองตัวขึ้นไป จะสังเกตได้ว่าเมื่อมีการเพิ่มตัวแปรอินพุตตั้งแต่หนึ่งตัวขึ้นไป โมเดลดังกล่าวล้มเหลวในการทำให้สิ่งต่าง ๆ โปร่งใสมากขึ้นเกี่ยวกับโลกแห่งความเป็นจริง

    สิ่งสำคัญคือต้องค้นหาว่าตัวแปรอินพุตมีความสัมพันธ์กันอย่างไร การวัดค่า multicollinearity ของตัวแบบการถดถอยเป็นวิธีการค้นหาความสัมพันธ์ระหว่างตัวแปรอินพุต ตัวอย่างเช่น คุณอาจพบแบบจำลองที่คุณยินดีที่จะค้นหา อะไรเป็นตัวกำหนดเงินเดือนของบุคคลในวัยใดช่วงหนึ่ง ตัวแปรอิสระ (ปัจจัย) เช่น วุฒิการศึกษา อายุ และปัจจัยอื่น ๆ อีกมากมายที่มีอิทธิพลต่อเงินเดือนโดยเฉลี่ยของบุคคลนั้นจะถูกนำมาพิจารณาด้วย

    แต่ก่อนที่คุณจะไปไกลกว่านี้และโยนทุกปัจจัยภายใต้ดวงอาทิตย์ในแบบจำลองของคุณ คุณจำเป็นต้องรู้ว่าปัจจัยเหล่านี้มีความสัมพันธ์กันอย่างไร หาก multicollinearity สูงเกินไป จะทำให้เกิดการรบกวนของข้อมูลและแบบจำลองจะแยกออกจากกัน

  • ความต่าง

    heteroscedasticity (บางครั้งสะกดว่า heteroskedasticity) เกิดขึ้นเมื่อการอ่านค่าความผิดพลาดมาตรฐาน (SE) ของตัวแปรที่วัดในช่วงเวลาหนึ่งไม่คงที่

    การวิเคราะห์การถดถอยใด ๆ ที่ทำงานบนข้อมูลดังกล่าวซึ่งแสดงความไม่ต่างกันให้ค่าสัมประสิทธิ์แบบเอนเอียงอย่างน้อยที่สุดและทำลายผลลัพธ์

  • ฟิตเกินไป

    การใส่มากเกินไปในการวิเคราะห์การถดถอยคือเกิดขึ้นเมื่อตัวแปรเริ่มแสดงข้อผิดพลาดแบบสุ่ม แทนที่จะอธิบายความสัมพันธ์ระหว่างตัวแปรอย่างมีประสิทธิภาพ การใส่มากเกินไปทำให้เกิดเสียงรบกวนมากกว่าการเป็นตัวแทนที่แท้จริงของประชากร ผลลัพธ์ของแบบจำลองนั้นไม่สมจริงอีกต่อไป คุณต้องสร้างแบบจำลองของคุณให้ใกล้เคียงกับความเป็นจริงมากที่สุด เป็นตัวอย่างของการแต่งกายจากโลกแห่งความเป็นจริง คำที่ดีที่สุดที่อธิบายการแต่งตัวจากตัวอย่างในโลกแห่งความเป็นจริงคือ "over-generalization" เมื่อข้อผิดพลาดหรืออคติเพิ่มขึ้น ค่าจริงจะไม่สามารถกำหนดเป็นผลได้

  • Underfitting

    Underfitting เกิดขึ้นเมื่อจำนวนของตัวแปรแทบจะไม่พอดีกับแบบจำลองที่กำหนด และเอาต์พุตไม่แม่นยำ เพื่อให้ได้ผลลัพธ์ที่ประสบความสำเร็จจากการวิเคราะห์การถดถอย คุณต้องมีค่าที่เหมาะสมที่สุดของตัวแปร ดังนั้นแบบจำลองที่ได้รับนั้นใกล้เคียงกับความเป็นจริง กล่าวโดยสรุป เมื่อตัวแปรไม่ได้รับการปรับให้เหมาะสมหรือแบบจำลองไม่พอดีกับข้อมูลอย่างมีประสิทธิภาพ เรียกว่า เสื้อชั้นใน

ประเภทของการวิเคราะห์การถดถอย

มีตัวแปรสองประเภทในรูปแบบการถดถอยใด ๆ หนึ่งคือตัวแปรอิสระหรือเรียกอีกอย่างว่าตัวแปรอธิบายซึ่งใช้สำหรับอินพุต ตัวแปรอีกประเภทหนึ่งคือตัวแปรตามหรือที่เรียกว่าตัวทำนาย เป็นค่าที่คุณพยายามค้นหาหรือผลลัพธ์ของแบบจำลอง

ต่อไปนี้จะอธิบายการวิเคราะห์การถดถอยประเภทต่างๆ

  • การถดถอยเชิงเส้น

    การถดถอยเชิงเส้นเกี่ยวข้องกับตัวแปรสองประเภท ตัวแปรหนึ่งเรียกว่าตัวแปรอิสระ และตัวแปรอีกประเภทหนึ่งเรียกว่าตัวแปรตาม

    ตัวแปรอิสระแปรผันตามแกน x ของระนาบคาร์ทีเซียน และตัวแปรตามแปรผันตามแกน y ตัวแปรเหล่านี้คือ "x" และ "y" ตามลำดับ ค่าของ y ขึ้นอยู่กับ x เมื่อ x เปลี่ยนแปลง ตัว “y” จะเพิ่มขึ้นหรือลดลง
    การถดถอยเชิงเส้นมีสองประเภท

    1. การถดถอยเชิงเส้นอย่างง่าย
    2. การถดถอยเชิงเส้นพหุคูณ
  • การถดถอยเชิงเส้นอย่างง่าย: ในการถดถอยเชิงเส้นอย่างง่าย มีตัวแปรตามเพียงตัวเดียวและตัวแปรตามเพียงตัวเดียว
    สมการสำหรับการถดถอยเชิงเส้นอย่างง่ายคือ y=β_0+β_1 xที่นี่ x แทนตัวแปรอิสระ คือ ความชันของเส้นการถดถอย และเป็นจุดตัด y “y” คือตัวแปรตามหรือผลลัพธ์
  • การถดถอยเชิงเส้นพหุคูณ: ในการถดถอยเชิงเส้นพหุคูณ ตัวแปรตามเป็นตัวแปรเดียว แต่คุณมีตัวแปรอิสระหลายตัว
    สมการต่อไปนี้แทนการถดถอยเชิงเส้นพหุคูณ,y= β_0+β_1 x_1+⋯β_n x_n+ εที่นี่ y คือตัวแปรตาม คือการสกัดกั้น y แสดงถึงตัวแปรอิสระหลายตัวในแบบจำลอง คือ "อคติ" หรือ "ข้อผิดพลาด" การลดอคติหรือข้อผิดพลาดให้น้อยที่สุดคือวัตถุประสงค์หลักของเรา เพื่อสร้างแบบจำลองที่ใกล้เคียงกับสถานการณ์ในโลกแห่งความเป็นจริง
  • การถดถอยหลายตัวแปร

    การถดถอยหลายตัวแปรนั้นแตกต่างจากการถดถอยเชิงเส้นพหุคูณในแง่ที่ว่ามันมีตัวแปรตามหลายตัวพร้อมอินพุตของตัวแปรอิสระหลายตัว ตัวแปรตาม ( y_1,y_2 ,y_3 …. y_n) อยู่ในสูตรที่แตกต่างกัน และมีตัวแปรอิสระมากกว่าหนึ่งตัว ( x_1, x_2, ….x_m ) เพื่อทำนายค่า Ys ในการถดถอยหลายตัวแปร ข้อมูลที่ใช้ส่วนใหญ่เป็นประเภทเดียวกับในการวิเคราะห์การถดถอยประเภทอื่น

  • การถดถอยโลจิสติก

    การถดถอยโลจิสติกเป็นรูปแบบการถดถอยที่ได้รับความนิยมมากที่สุดเป็นอันดับสองรองจากการถดถอยเชิงเส้น และการใช้งานครอบคลุมชีวสถิติ การแพทย์ และสังคมศาสตร์
    การถดถอยลอจิสติกส์เกี่ยวข้องกับค่าบูลีนเช่น

    • จริงหรือเท็จ
    • ใช่หรือไม่
    • ใหญ่หรือเล็ก
    • หนึ่งหรือศูนย์

    Logistic Regression ใช้ในการจำแนกประเภทของอ็อบเจ็กต์ เช่น อีเมลเป็น “สแปม” หรือ “ไม่ใช่สแปม”

    กล่าวโดยสรุป มีหนึ่งผลลัพธ์ในการถดถอยโลจิสติกที่สามารถเป็น "จริง" หรือ "เท็จ" นอกจากนี้ อาจมีอินพุตเดียวหรือหลายอินพุตในแบบจำลองการถดถอยลอจิสติกส์

  • การถดถอยพหุนาม

    มีหลายกรณีที่เราต้องจัดการกับตัวแปรที่มีความสัมพันธ์ไม่เป็นเชิงเส้น ในกรณีเช่นนี้ แบบจำลองของเราเป็นเส้นโค้ง ไม่ใช่เส้นตรงที่แตกต่างจากการถดถอยเชิงเส้น ดังนั้นเราจึงมีรูปแบบการถดถอยอีกรูปแบบหนึ่งที่เรียกว่าการถดถอยพหุนาม

    สมการการถดถอยพหุนามคือกำลังจากน้อยไปมากของตัวแปรอินพุต x ซึ่งมีลักษณะทั่วไปอยู่ด้านล่าง

    y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε

  • การถดถอยเชิงปริมาณ

    นิยามการถดถอยของควอนไทล์แตกต่างอย่างมากจากความหมายในทางปฏิบัติ ควอนไทล์เป็นอีกชื่อหนึ่งของค่ามัธยฐานในสถิติ

    Quantile คือจุดหรือเส้นที่แยกข้อมูลเอาต์พุตออกเป็นสองส่วนเท่าๆ กัน ลองนึกภาพชุดข้อมูลในรูปแบบของเส้นตรงบนแกน y ชุดข้อมูลแบ่งออกเป็นสองส่วนเท่าๆ กัน ค่าของควอนไทล์คือ 0.5 หรือ 50% ที่จุดแยก

    ในบันทึกเดียวกัน ข้อมูลที่แบ่งเท่าๆ กันทั้งสองจะถูกแบ่งเท่าๆ กันอีกครั้งตามแกน y ครั้งนี้ เราได้ข้อมูลที่ถูกแบ่งออกเป็นสี่ส่วนเท่าๆ กัน และจุดแยกใหม่ที่แกน y ล่างของกราฟคือ 0.25 หรือ 25%

    ในทำนองเดียวกัน ควอนไทล์การแยกแกน y ด้านบนคือ 0.75 หรือ 75% โดยทั่วไป ควอนไทล์เป็นเพียงเส้นหรือจุดที่แบ่งข้อมูลออกเป็นชิ้นๆ หรือกลุ่มเท่าๆ กัน

    ควอนไทล์คายข้อมูลในกลุ่มที่มีขนาดเท่ากันหลายร้อยกลุ่ม แต่ในโลกแห่งความเป็นจริง คำจำกัดความของควอนไทล์นั้นยืดหยุ่นกว่ามาก

    การถดถอยเชิงควอนไทล์มีประโยชน์เมื่อมี heteroscedasticity สูงในแบบจำลอง และการถดถอยเชิงเส้นนั้นไม่แม่นยำพอที่จะทำนายผลลัพธ์ เนื่องจากตัวแบบเชิงเส้นอาศัยค่าเฉลี่ยและควอนไทล์สามารถแม่นยำยิ่งขึ้นด้วยค่ามัธยฐาน

  • การถดถอยของสันเขา

    การถดถอยสันเขาใช้เทคนิคที่เรียกว่า การทำให้เป็นมาตรฐานนั้นเหมาะสมสำหรับโมเดลที่ล้มเหลวในการทดสอบข้อมูลแต่ส่งต่อข้อมูลการฝึก

    การถดถอยริดจ์จะทำงานได้ดีที่สุดเมื่อตัวแปรส่วนใหญ่ในแบบจำลองมีประโยชน์

    เมื่อข้อมูลตัวอย่างแสดงการทำงานร่วมกันหลายแบบ สองสิ่งที่ไม่ต้องการก็เกิดขึ้น

    1. การประมาณค่าสัมประสิทธิ์ของตัวแปรทำนายน้อยที่สุดกำลังสองน้อยที่สุดทำให้เกิดข้อผิดพลาดสูง
    2. มีอัตราเงินเฟ้อในข้อผิดพลาดมาตรฐาน

    Ridge Regression เป็นเทคนิคสำหรับการรักษาเสถียรภาพของสัมประสิทธิ์การถดถอยเมื่อมี multicollinearity

  • การถดถอยของ Lasso

    Lasso ย่อมาจาก "ผู้ดำเนินการคัดเลือกและหดตัวน้อยที่สุด" Lasso Regression ทำงานได้ดีที่สุดเมื่อคุณมีตัวแปรที่ไม่มีประโยชน์มากมาย Lasso Regression คล้ายกับการถดถอยของ Ridge แต่ความแตกต่างบางอย่างทำให้เป็นเอกลักษณ์

    Ridge Regression และ Lasso Regression มีการประยุกต์ใช้กับสถานการณ์เดียวกันกับที่มี multicollinearity อย่างไรก็ตาม Ridge Regression เหมาะสำหรับการทำนายระยะยาว

    Lasso Regression ใช้การหดตัวกับข้อมูล ค่าข้อมูลจะหดตัวลงสู่จุดศูนย์กลาง เช่น ค่ามัธยฐานหรือค่าเฉลี่ย

    การทำให้เข้าใจง่ายและความกระจัดกระจายของตัวแบบข้อมูลเป็นฟังก์ชันที่ Lasso Regression ทำงานได้ดีที่สุด กล่าวอีกนัยหนึ่ง ตัวแบบข้อมูลควรมีพารามิเตอร์ที่เหมาะสมที่สุดสำหรับผลลัพธ์ที่แม่นยำ

  • การถดถอยองค์ประกอบหลัก (PCR)

    การวิเคราะห์องค์ประกอบหลักมีแอปพลิเคชันกับตัวแปร x ซึ่งช่วยลดมิติข้อมูล มันเกี่ยวข้องกับการแยกชุดข้อมูลที่มีการเปลี่ยนแปลงส่วนใหญ่ในกระบวนการวนซ้ำ

    เนื่องจากกระบวนการเป็นแบบวนซ้ำ จึงสามารถวิเคราะห์ชุดข้อมูลหลายมิติได้ การถดถอยองค์ประกอบหลักจึงเอาชนะปัญหาเชิงมิติและแนวร่วมที่มีอยู่ในการถดถอยกำลังสองน้อยที่สุดธรรมดา

  • การถดถอยสุทธิแบบยืดหยุ่น

    Elastic Net Regression ช่วยลดความซับซ้อนของแบบจำลองเพื่อให้ง่ายต่อการตีความ โมเดลสามารถมีตัวแปรได้มากมาย (พารามิเตอร์ที่เรียกว่า); พวกเขาสามารถช่วงได้ถึงล้านในรุ่นเฉพาะ ในรูปแบบดังกล่าว ไม่สามารถระบุได้ว่าตัวแปรใดมีประโยชน์และตัวแปรใดไม่มีประโยชน์

    ในกรณีเช่นนี้ คุณไม่ทราบว่าประเภทการถดถอยแบบใดให้เลือกระหว่าง Ridge Regression และ Lasso regression ในที่นี้ การนำ Elastic Net Regression มาใช้เพื่อลดความซับซ้อนของโมเดล

    Elastic-Net Regression รวมการปรับการถดถอยของ Ridge กับบทลงโทษ Lasso Regression และให้สิ่งที่ดีที่สุดของทั้งสองโลก นอกจากนี้ยังทำงานได้ดีขึ้นกับตัวแปรที่สัมพันธ์กัน

  • กำลังสองน้อยที่สุดบางส่วน (PLS)

    Least Squares บางส่วนจะพิจารณาทั้งตัวแปรอธิบายและตัวแปรตาม หลักการพื้นฐานของการถดถอยประเภทนี้คือตัวแปร x และ y ผ่านการย่อยสลายเป็นโครงสร้างแฝงในกระบวนการวนซ้ำ

    PLS สามารถจัดการกับ multicollinearity โดยคำนึงถึงโครงสร้างข้อมูลที่เกี่ยวข้องกับ x และ y โดยให้ผลลัพธ์ที่มองเห็นได้ชัดเจนสำหรับการตีความข้อมูล สามารถนำมาพิจารณาได้หลายตัวแปร

  • รองรับเวกเตอร์การถดถอย

    Support Vector Regression (SVR) เป็นอัลกอริธึมที่ทำงานร่วมกับฟังก์ชันต่อเนื่อง ตรงกันข้ามกับ Support Vector Machine ในแง่นี้ Support Vector Machine (SVM) เกี่ยวข้องกับปัญหาการจำแนกประเภท SVR คาดการณ์ตัวแปรที่เรียงลำดับอย่างต่อเนื่อง

    ในการถดถอยอย่างง่าย การเน้นจะต้องอยู่ที่การลดข้อผิดพลาดให้น้อยที่สุดในขณะที่ Support Vector Regression ค้นหาขีดจำกัดของข้อผิดพลาด

  • การถดถอยลำดับ

    การถดถอยลอจิสติกส์เกี่ยวข้องกับสองประเภท แต่ในการถดถอยเชิงลำดับ (หรือที่รู้จักการถดถอยลอจิสติกส์ลำดับ) สามประเภทหรือมากกว่านั้นเกี่ยวข้องกับการเรียงลำดับที่ชัดเจน

    การถดถอยเชิงลำดับช่วยในการทำนายตัวแปรตามอันดับเมื่อมีตัวแปรอิสระอย่างน้อยหนึ่งตัว

  • การถดถอยปัวซอง

    ในการถดถอยปัวซอง การนับหรืออัตราที่เหตุการณ์เกิดขึ้นเป็นจุดสนใจหลัก

    เราวัดอัตราที่เหตุการณ์เกิดขึ้นใน Poisson Regression กล่าวอีกนัยหนึ่ง เราจำลองจำนวนครั้งที่เหตุการณ์เกิดขึ้น (นับ) เมื่อเวลาผ่านไป ในการถดถอยปัวซอง เวลาเป็นค่าคงที่ และเราวัดจำนวนเหตุการณ์

  • การถดถอยทวินามเชิงลบ

    มีประโยชน์ในการสร้างแบบจำลองชุดข้อมูลแบบไม่ต่อเนื่อง (นับ) ในบันทึกเดียวกัน การถดถอยทวินามเชิงลบช่วยเมื่อข้อมูลมีความแปรปรวนสูงกว่าเมื่อเทียบกับค่าเฉลี่ยที่มีการกระจายของข้อมูลมากเกินไปเมื่อคุณวางแผน

    ตัวแบบทวินามเชิงลบไม่ได้ถือว่าตัวแปรนั้นเท่ากับค่าเฉลี่ยตามแบบจำลองที่อิงจากการถดถอยแบบปัวซอง

  • การถดถอยกึ่งปัวซอง

    การถดถอยเสมือนปัวซองเป็นการสรุปทั่วไปของการถดถอยปัวซอง ดังที่ได้กล่าวไว้ก่อนหน้านี้ แบบจำลองการถดถอยปัวซองขึ้นอยู่กับสมมติฐานที่ไม่เป็นธรรมซึ่งโดยปกติแล้วความแปรปรวนจะเท่ากับค่าเฉลี่ย

    แบบจำลอง Quasi Poisson เข้ามามีบทบาทเมื่อความแปรปรวนเป็นฟังก์ชันเชิงเส้นของค่าเฉลี่ย และค่านี้ยังสูงกว่าค่าเฉลี่ยอีกด้วย เป็นสถานการณ์ที่ Quasi Poisson มีความเหมาะสมกว่าที่จะนำไปใช้

  • การถดถอยค็อกซ์

    Cox Regression (หรือที่เรียกว่า Proportional Hazards Regression) ตรวจสอบผลกระทบของตัวแปรหลายตัวในช่วงเวลาที่เหตุการณ์ที่ระบุเกิดขึ้น

    พิจารณาเหตุการณ์ต่อไปนี้ซึ่งพบว่า Cox Regression มีประโยชน์

    • เวลาที่หัวใจวายครั้งที่สองหลังจากหัวใจวายครั้งแรก
    • เวลาที่ใช้สำหรับอุบัติเหตุครั้งที่สองหลังจากเกิดอุบัติเหตุครั้งแรก
    • ระยะเวลาที่ใช้หลังจากการตรวจพบมะเร็งจนเสียชีวิต

    ข้อมูลเวลาถึงเหตุการณ์มีความสำคัญต่อการประยุกต์ใช้การถดถอยค็อกซ์

  • Tobit Regression

    Tobit Regression มีประโยชน์ในการประมาณความสัมพันธ์เชิงเส้นเมื่อพบการเซ็นเซอร์ในตัวแปรตาม การเซ็นเซอร์คือการสังเกตตัวแปรอิสระทั้งหมด บัญชีจริงของค่าของตัวแปรตามนั้นอยู่ในช่วงการสังเกตที่จำกัดเท่านั้น

  • การถดถอยแบบเบย์

    การถดถอยแบบเบย์อิงจากการแจกแจงความน่าจะเป็นมากกว่าการประมาณค่าจุด เป็นผลให้ผลลัพธ์หรือ "y" ไม่ใช่ค่าเดียว เป็นการแจกแจงความน่าจะเป็น ดังที่เราทราบแล้วว่าการแจกแจงความน่าจะเป็นเป็นฟังก์ชันทางคณิตศาสตร์ไม่ใช่ค่า การแจกแจงความน่าจะเป็นให้ผลลัพธ์ที่เป็นไปได้ในการทดสอบ

    เมื่อเราเขียนสูตรของตัวแบบการถดถอยเชิงเส้นตามการกระจายความน่าจะเป็น เราจะได้นิพจน์ต่อไปนี้
    y ˜ N(β^TX,σ^2 ฉัน)

    • เอาต์พุต (y) คำนวณจากการแจกแจงแบบเกาส์เซียนปกติขึ้นอยู่กับค่าเฉลี่ยและความแปรปรวน
    • ทรานสโพส (T) ของเมทริกซ์น้ำหนัก (β) ได้มาจากการคูณด้วยเมทริกซ์ตัวทำนาย (X)
    • ความแปรปรวนคือค่าเบี่ยงเบนมาตรฐานกำลังสอง (σ^2 ) คูณด้วยเมทริกซ์เอกลักษณ์ (I)

    (กำลังพิจารณาสูตรหลายมิติของโมเดล)

  • การถดถอยค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด (LAD)

    ค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุดเป็นทางเลือกที่รู้จักกันอย่างแพร่หลายมากที่สุดสำหรับวิธี Least Square ในการวิเคราะห์ตัวแบบเชิงเส้น เรารู้ว่าในวิธี Least Square เราย่อผลรวมของข้อผิดพลาดกำลังสองให้เหลือน้อยที่สุด แต่ใน LAD เราย่อผลรวมของค่าสัมบูรณ์ของข้อผิดพลาดให้น้อยที่สุด จะพยายามค้นหาฟังก์ชันที่เข้ากับชุดข้อมูลอย่างใกล้ชิด

    ในกรณีที่ข้อมูลของเราง่าย ความเบี่ยงเบนน้อยที่สุดจะเป็นเส้นตรงในระนาบคาร์ทีเซียนสองมิติ

    สูตรของสัมบูรณ์น้อยที่สุดนั้นตรงไปตรงมามากที่จะเข้าใจ สมมติว่าชุดข้อมูลของเราประกอบด้วยจุดตัวแปรสองจุด ( (x_i ,y_i) และ i=1,2,3,4,5……n

    วัตถุประสงค์ของเราคือการหาฟังก์ชัน f ที่ประมาณเท่ากับ (~) ดังที่แสดงด้านล่าง

    f(x_i ) ~ y_i

    ข้ออ้างคือฟังก์ชัน f อยู่ในรูปแบบเฉพาะที่มีพารามิเตอร์บางอย่างที่เราจำเป็นต้องคำนวณ ประเด็นที่ควรทราบในที่นี้คือฟังก์ชัน f สามารถมีพารามิเตอร์ x จำนวน I ได้ (หรือตัวแปรอิสระหรือตัวแปรอธิบาย)

    เราจะพยายามค้นหาค่าของพารามิเตอร์ที่จะลดผลรวมของค่าสัมบูรณ์ของข้อผิดพลาด (หรือค่าคงเหลือ) ต่อไปนี้
    S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )

  • การถดถอยทางนิเวศวิทยา

    การถดถอยเชิงนิเวศเป็นเครื่องมือส่วนใหญ่ในวิชาเช่นรัฐศาสตร์และประวัติศาสตร์ เทคนิคนี้ช่วยให้เราสามารถนับในระดับมหภาคและคาดการณ์ได้ในระดับจุลภาค

    การถดถอยเชิงนิเวศน์สามารถกำหนดพฤติกรรมการลงคะแนนเสียงของบุคคลระหว่างฝ่ายต่างๆ และกลุ่มสังคมต่างๆ การประเมินจะขึ้นอยู่กับข้อมูลที่รวบรวมจากบัญชีก่อนหน้า

    ข้อมูลทางนิเวศวิทยาขึ้นอยู่กับการนับในภูมิภาค กลุ่ม วัตถุ หรือเมื่อเวลาผ่านไป กล่าวโดยสรุป ข้อมูลโดยรวมช่วยให้เราเรียนรู้เกี่ยวกับพฤติกรรมที่จำกัดเฉพาะบุคคล

การวิเคราะห์การถดถอยใช้สำหรับอะไร?

การวิเคราะห์การถดถอยมีประโยชน์ในการบรรลุวัตถุประสงค์ทางธุรกิจหลายประการ

  • การวิเคราะห์เชิงทำนาย

    แอปพลิเคชั่นที่โดดเด่นที่สุดตัวหนึ่งคือการวิเคราะห์เชิงคาดการณ์ที่ช่วยให้คาดการณ์เหตุการณ์ทางธุรกิจที่เฉพาะเจาะจงได้แม่นยำยิ่งขึ้น การวิเคราะห์เชิงคาดการณ์ประเภทหนึ่งคือ "การวิเคราะห์ความต้องการ" ซึ่งวัดการเพิ่มขึ้นของยอดขายของผลิตภัณฑ์ ความสำเร็จของผลิตภัณฑ์ที่เพิ่งเปิดตัวรวมทั้งผลิตภัณฑ์ที่ใช้งานสามารถวางตำแหน่งได้อย่างถูกต้องในตลาด

    อีกตัวอย่างหนึ่ง การวิเคราะห์การถดถอยมีการใช้งานในการโฆษณาผลิตภัณฑ์และบริการ การวิเคราะห์การถดถอยสามารถคาดการณ์ได้ว่ามีผู้ซื้อจำนวนเท่าใดที่มีโอกาสเจอโฆษณา ช่วยให้ผู้เชี่ยวชาญด้านการขายและการตลาดกำหนดราคาเสนอของสื่อส่งเสริมการขาย

    การวิเคราะห์การถดถอยยังเป็นเครื่องมือที่เป็นประโยชน์สำหรับบริษัทประกันภัยอีกด้วย บริษัทประกันภัยใช้ข้อมูลนี้เพื่อค้นหาเครดิตของผู้ถือกรมธรรม์และประเมินจำนวนการเรียกร้องที่น่าจะเสนอให้แก่ลูกค้าของตน

  • ประสิทธิภาพการดำเนินงาน

    องค์กรตัดสินใจอย่างจริงจังโดยใช้การวิเคราะห์การถดถอยเพื่อเพิ่มประสิทธิภาพการดำเนินงาน

    การตัดสินใจที่ขับเคลื่อนด้วยข้อมูลสามารถขจัดการตัดสินใจที่น่าสงสัย การคาดเดาที่ไม่ถูกต้องด้วยความรู้สึกนึกคิด และการเมืององค์กร

    การวิเคราะห์แบบถดถอยกำลังแปลงศิลปะของการจัดการให้เป็นวิทยาศาสตร์ ตัวอย่างเช่น เป็นไปได้ที่จะเชื่อมโยงเวลารอของผู้โทรกับจำนวนข้อร้องเรียนในศูนย์บริการทางโทรศัพท์หรือฝ่ายดูแลลูกค้า

  • สนับสนุนการตัดสินใจ

    องค์กรในปัจจุบันมีข้อมูลมากมายเกี่ยวกับการเงิน การตลาด การปฏิบัติการ และแผนกอื่นๆ อีกมากมาย ผู้มีอำนาจตัดสินใจอันดับต้นๆ มักหันมาใช้การวิเคราะห์ข้อมูลและวิทยาศาสตร์ข้อมูลมากขึ้น เพื่อทำการตัดสินใจอย่างมีข้อมูลมากขึ้นโดยไม่ต้องคาดเดา

    ด้วยความช่วยเหลือของการวิเคราะห์การถดถอย บิ๊กดาต้าสามารถรับการบีบอัดข้อมูลแบบลีนที่เน้นการดำเนินการ ซึ่งเป็นการเปิดเส้นทางสู่การตัดสินใจที่แม่นยำยิ่งขึ้น การวิเคราะห์การถดถอยไม่ได้ลบหรือแทนที่ผู้จัดการ แต่กลับวางเครื่องมืออันทรงพลังไว้ในมือเพื่อการตัดสินใจที่มีประสิทธิภาพและประสิทธิผลมากกว่าที่เคยเป็นมา

  • แก้ไขข้อผิดพลาด

    การวิเคราะห์การถดถอยยังช่วยระบุข้อผิดพลาดโดยสัญชาตญาณในการตัดสินและตัดสินใจสำหรับผู้จัดการธุรกิจ

    ตัวอย่างเช่น ผู้จัดการร้านอาจตัดสินใจให้ร้านเปิดในเวลากลางคืนซึ่งเขาตัดสินใจจ้างพนักงานใหม่

    การวิเคราะห์การถดถอยสามารถระบุได้อย่างถูกต้องว่าการพิจารณาค่าใช้จ่ายของพนักงานและยอดขายทั้งหมดที่เกิดขึ้นในเวลากลางคืนไม่สามารถมีเหตุผลร่วมกันได้ ดังนั้น การประยุกต์ใช้การวิเคราะห์การถดถอยเชิงปริมาณช่วยให้สามารถแยกแยะการตัดสินใจที่ไม่ถูกต้องออกได้

  • ข้อมูลเชิงลึกที่นำไปใช้ได้จริง

    บริษัทต่างๆ เข้าใจและรับทราบถึงคุณค่าของข้อมูลและสิ่งที่สามารถทำได้โดยเทคนิคการวิเคราะห์การถดถอย แต่หลายบริษัทล้มเหลวในการแปลงข้อมูลนี้เป็นข้อมูลเชิงลึกที่นำไปปฏิบัติได้ การขับเคลื่อนข้อมูลเชิงลึกจากข้อมูลดิบไม่ใช่เรื่องง่าย รายงานโดย Forrester อ้างว่า 74% ของบริษัทต้องการตัดสินใจด้วยการป้อนข้อมูล แต่มีเพียง 29% เท่านั้นที่ประสบความสำเร็จในการรับการวิเคราะห์ที่สามารถทำให้พวกเขาตัดสินใจได้อย่างประสบผลสำเร็จ

    กรณีศึกษาที่สำคัญอย่างหนึ่งในโลกธุรกิจคือโคนิก้า มินอลต้า Konica เป็นหนึ่งในผู้ผลิตกล้องที่ประสบความสำเร็จมากที่สุด ในปี 2543 ช่างภาพและผู้ชื่นชอบกล้องส่วนใหญ่เปลี่ยนมาใช้กล้องดิจิทัล

    หน่วยงานที่มีอำนาจตัดสินใจสูงสุดที่โคนิก้าไม่ได้ตัดสินใจเร็วพอเป็นผลให้ในปี 2547 เมื่อโคนิก้าเปิดตัวกล้องตัวแรก คู่แข่งส่วนใหญ่อย่างนิคอนและแคนนอนได้สร้างชื่อเสียงให้กับตนเองในตลาดกล้องดิจิตอลใหม่ เป็นผลให้ในปี 2549 บริษัทประสบความสูญเสียอย่างหนักจนขายเทคโนโลยีและทรัพย์สินจำนวนมากให้กับ Sony

    หากโคนิก้ามีข้อมูลเชิงลึกจากข้อมูลดิบทางการค้าและการตลาดที่ประมวลผลผ่านการวิเคราะห์การถดถอยและเทคนิคที่คล้ายคลึงกัน โคนิก้าจะสามารถตัดสินใจได้อย่างถูกต้องในเวลาที่เหมาะสม

    การวิเคราะห์การถดถอยของข้อมูลที่ให้ข้อมูลเชิงลึกที่นำไปใช้ได้จริงนั้นมอบอำนาจที่แท้จริงให้อยู่ในมือของผู้มีอำนาจตัดสินใจ ซึ่งสามารถเป็นผู้เปลี่ยนเกมในโลกแห่งความเป็นจริง

วิธีการเลือกแบบจำลองการถดถอยที่เหมาะสม?

การถดถอยมีหลายร้อยประเภท และเราได้ครอบคลุมประเภทที่ได้รับความนิยมมากที่สุด

โลกแห่งความจริงนั้นซับซ้อนมาก และผู้สร้างแบบจำลองได้วัดตัวแปรมากมายแต่รวมไว้เพียงไม่กี่ตัวในแบบจำลอง นักวิเคราะห์ไม่รวมตัวแปรอิสระที่มีผลกระทบต่อตัวแปรตามหรือผลลัพธ์น้อยมากถึงไม่มีเลย

เมื่อเลือกแบบจำลองการถดถอย ควรคำนึงถึงข้อเท็จจริงง่ายๆ ต่อไปนี้เพื่อรักษาสมดุลโดยใส่จำนวนตัวแปรอิสระที่ถูกต้องลงในสมการถดถอย

  • ตัวแปรอิสระน้อยเกินไป โมเดลที่ไม่ระบุจะกลายเป็นอคติ
  • มีตัวแปรอิสระมากเกินไป โมเดลที่ไม่ระบุจะสูญเสียความแม่นยำไป
  • Just the Right model เกิดขึ้นเมื่อคำศัพท์ทางคณิตศาสตร์ไม่ลำเอียงและแม่นยำที่สุด

ความคิดสุดท้าย

การวิเคราะห์การถดถอยมีต้นกำเนิดในสถิติที่เป็นวิทยาศาสตร์ที่มีอายุหลายร้อยปี แต่เพิ่งได้รับความสนใจจากข้อมูลขนาดใหญ่ที่กำลังระเบิด การวิเคราะห์การถดถอยกำลังค้นหาทางผ่านสถิติในการวิเคราะห์ข้อมูล วิทยาศาสตร์ข้อมูล และแอปพลิเคชันในเกือบทุกองค์กร

แบบจำลองการถดถอยที่สร้างขึ้นด้วยการวิเคราะห์การถดถอยเป็นเครื่องมือที่จำเป็นสำหรับการเพิ่มความสามารถในการคาดการณ์ ประสิทธิภาพการดำเนินงาน การตัดสินใจอย่างชาญฉลาด การป้องกันข้อผิดพลาด การป้องกันการตัดสินใจที่ผิดพลาด และข้อมูลเชิงลึกที่ดีขึ้น

แหล่งข้อมูลที่เป็นประโยชน์อื่นๆ:

ความสำคัญของการวิเคราะห์การถดถอยในธุรกิจ

คู่มือฉบับสมบูรณ์เกี่ยวกับการวิเคราะห์การถดถอย