ความเชี่ยวชาญด้านวิศวกรรมความน่าเชื่อถือของไซต์ (SRE): แกนหลักของความเป็นเลิศทางดิจิทัล

เผยแพร่แล้ว: 2024-03-19

เทคโนโลยีสารสนเทศกำลังกลายเป็นตัวขับเคลื่อนธุรกิจอันทรงคุณค่าอย่างรวดเร็วสำหรับบริษัทต่างๆ ในอุตสาหกรรมต่างๆ อย่างไรก็ตาม แนวทางดั้งเดิมในการจัดการโครงสร้างพื้นฐานด้านไอทีนั้นเป็นแนวทางเชิงรับ อิงตามกระบวนการ และไม่เหมาะสมกับระบบดิจิทัลที่ปรับขนาดได้และซับซ้อน เข้าสู่วิศวกรรมความน่าเชื่อถือของไซต์หรือ SRE ซึ่งเปลี่ยนโฉมผู้จัดการฝ่ายปฏิบัติการด้านไอทีให้เป็นวิศวกรที่มีอำนาจในการขับเคลื่อนนวัตกรรม การวิจัยแสดงให้เห็นว่า 62% ขององค์กรอยู่ในขั้นตอนต่างๆ ของการนำโมเดล SRE ไปใช้ อ่านต่อเพื่อเรียนรู้ว่าสิ่งนี้เกี่ยวข้องกับอะไร

วิวัฒนาการของวิศวกรรมความน่าเชื่อถือของไซต์

วินัย SRE เกิดขึ้นที่ Google ในช่วงต้นทศวรรษ 2000 เพื่อตอบสนองต่อความท้าทายของบริษัทในการจัดการและปรับขนาดโครงสร้างพื้นฐานที่ซับซ้อน การเติบโตอย่างรวดเร็วและความต้องการบริการที่เพิ่มขึ้นทำให้เกิดแนวทางใหม่

Google ตระหนักดีว่าจำเป็นต้องมีมากกว่ารูปแบบการดำเนินงานแบบเดิมๆ เพื่อตอบสนองความต้องการของระบบแบบกระจายขนาดใหญ่และความคาดหวังของผู้ใช้ที่เพิ่มขึ้น

บริษัทค่อยๆ ตระหนักถึงความสำคัญของระบบอัตโนมัติและวิศวกรรมในการบรรลุความน่าเชื่อถือในวงกว้าง แทนที่จะใช้กระบวนการที่ต้องดำเนินการด้วยตนเองเพียงอย่างเดียว วิศวกรของ Google เริ่มพัฒนาเครื่องมือและระบบเพื่อทำให้งานประจำเป็นอัตโนมัติ ตรวจสอบความสมบูรณ์ของระบบ และใช้มาตรการเชิงรุกเพื่อป้องกันการหยุดทำงาน

SRE แนะนำแนวคิดของวัตถุประสงค์ระดับการบริการ (SLO) เพื่อกำหนดและวัดความน่าเชื่อถือของบริการจากมุมมองของผู้ใช้ สิ่งนี้ส่งเสริมให้เกิดการเปลี่ยนแปลงทางวัฒนธรรมภายใน Google โดยให้ความสำคัญกับความน่าเชื่อถือในฐานะตัวขับเคลื่อนที่สำคัญต่อความพึงพอใจของลูกค้าและความสำเร็จทางธุรกิจ ความสำเร็จของ SRE ที่ Google เป็นแรงบันดาลใจให้องค์กรอื่นๆ จำนวนมากนำแนวทางปฏิบัติและหลักการที่คล้ายกันมาใช้

บทบาทของ SRE คืออะไร?

วิศวกรความน่าเชื่อถือของไซต์ (SRE) ได้รับการนิยามอย่างกว้างๆ ว่ามีหน้าที่รับผิดชอบในการรักษาและปรับปรุงความน่าเชื่อถือของระบบและแอปพลิเคชัน สิ่งนี้เกี่ยวข้องกับการติดตามประสิทธิภาพของระบบ การระบุปัญหาคอขวด และการพัฒนาและการนำโซลูชันใหม่ๆ ไปใช้ เช่น สคริปต์ระบบอัตโนมัติที่พัฒนาขึ้นเอง

นอกจากนี้ SRE ยังมีบทบาทสำคัญในการตอบสนองและการจัดการเหตุการณ์อีก ด้วย พวกเขามักจะเป็นผู้ตอบสนองกลุ่มแรกต่อปัญหาระบบขัดข้องหรือปัญหาด้านประสิทธิภาพ

ลักษณะงานประจำประการหนึ่งของบทบาท SRE คือการวิเคราะห์เมทริกประสิทธิภาพของระบบและรูปแบบการรับส่งข้อมูลของผู้ใช้ ซึ่งช่วยคาดการณ์ความต้องการด้านกำลังการผลิตและออกแบบระบบที่สามารถรองรับความผันผวนของความต้องการได้ SRE ยังร่วมมืออย่างใกล้ชิดกับทีมพัฒนาเพื่อให้แน่ใจว่าการพิจารณาความน่าเชื่อถือและความสามารถในการขยายขนาดถูกรวมเข้ากับวงจรการพัฒนาซอฟต์แวร์

หลักการสำคัญของ SRE

Google ซึ่งเป็นผู้อยู่เบื้องหลังระเบียบวินัยของ SRE ได้วางหลักการสำคัญ 7 ประการสำหรับ CIO และ CTO ที่ต้องการเปลี่ยนมาใช้โมเดล SRE จากไอทีแบบเดิม เหล่านี้คือ:

1. การยอมรับความเสี่ยง

SRE ยอมรับว่าความเสี่ยงนั้นมีอยู่ในระบบที่ซับซ้อนและยอมรับมันแทนที่จะพยายามกำจัดมัน พวกเขาเข้าใจว่านวัตกรรมและความก้าวหน้ามักเกี่ยวข้องกับการคำนวณความเสี่ยงและจัดลำดับความสำคัญของกลยุทธ์เพื่อบรรเทาและจัดการความเสี่ยงอย่างมีประสิทธิภาพ

2. การใช้วัตถุประสงค์ระดับการบริการ (SLO)

SLO ขึ้นอยู่กับความคาดหวังของผู้ใช้และให้การวัดเชิงปริมาณของความน่าเชื่อถือของบริการ ชี้แนะความพยายามและลำดับความสำคัญด้านวิศวกรรม SLO ให้วิศวกรรับผิดชอบต่อผู้ใช้ เช่นเดียวกับ SLA ที่ปฏิบัติกับลูกค้า

3.ขจัดงานหนัก

งานหนักหมายถึงงานที่ต้องทำซ้ำๆ ด้วยตนเอง และงานทั่วไปซึ่งไม่ได้ให้คุณค่าในระยะยาว SRE มุ่งเน้นไปที่การขจัดงานหนักผ่านระบบอัตโนมัติ การปรับปรุงกระบวนการ และเครื่องมือ ช่วยให้ทีมมุ่งเน้นไปที่งานที่มีความหมายและมีกลยุทธ์มากขึ้น

4. การตรวจสอบระบบแบบกระจาย

การตรวจสอบที่มีประสิทธิภาพถือเป็นสิ่งสำคัญในการรับข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมของระบบ การตรวจจับความผิดปกติ และการวินิจฉัยปัญหาในทันที SRE ออกแบบระบบเพื่อรวบรวมตัวชี้วัดที่เกี่ยวข้องและให้การมองเห็นความสมบูรณ์และประสิทธิภาพของระบบแบบกระจาย

5. การควบคุมระบบอัตโนมัติ

ระบบอัตโนมัติมีความสำคัญอย่างยิ่งในการปรับปรุงการดำเนินงาน ลดข้อผิดพลาดของมนุษย์ และปรับปรุงประสิทธิภาพ SRE ใช้ประโยชน์จากเครื่องมือและแนวทางปฏิบัติอัตโนมัติเพื่อทำให้งานประจำ การปรับใช้ การจัดการการกำหนดค่า และกระบวนการตอบสนองต่อเหตุการณ์เป็นแบบอัตโนมัติ

6. นำวิศวกรรมการเปิดตัวมาใช้เพื่อความเสถียร

วิศวกรรมการเผยแพร่มุ่งเน้นไปที่การรับรองความเสถียรและความน่าเชื่อถือของซอฟต์แวร์ที่เผยแพร่โดยการใช้กลไกการทดสอบ การใช้งาน และการย้อนกลับที่มีประสิทธิภาพ SRE สนับสนุนแนวทางปฏิบัติ เช่น การปรับใช้ canary แฟล็กคุณลักษณะ และการเปิดตัวแบบค่อยเป็นค่อยไป เพื่อลดความเสี่ยงของการหยุดชะงักของบริการในระหว่างการเผยแพร่

7. การจัดลำดับความสำคัญของความเรียบง่ายในระบบ

ความซับซ้อนเป็นสาเหตุที่พบบ่อยของความล้มเหลวของระบบและการหยุดทำงานของการปฏิบัติงาน SRE ให้ความสำคัญกับความเรียบง่ายในการออกแบบระบบ สถาปัตยกรรม และกระบวนการต่างๆ เพื่อลดภาระการรับรู้ ปรับปรุงการบำรุงรักษา และปรับปรุงความน่าเชื่อถือ

แนวทางปฏิบัติและเครื่องมือ SRE

ผู้นำด้านเทคโนโลยีสามารถลงทุนในแนวทางปฏิบัติและเครื่องมือต่างๆ เพื่อเพิ่มศักยภาพให้กับวิศวกรด้านความน่าเชื่อถือของไซต์ของตน สิ่งที่ต้องมีได้แก่:

1. แพลตฟอร์มการติดตามและการจัดการเหตุการณ์

เครื่องมือต่างๆ เช่น PagerDuty, OpsGenie หรือ VictorOps สามารถช่วยปรับปรุงกระบวนการตอบสนองต่อเหตุการณ์ได้ อำนวยความสะดวกในการสื่อสารแบบเรียลไทม์ การยกระดับ และการประสานงานระหว่างเหตุการณ์ต่างๆ ช่วยให้ทีม SRE ของคุณแก้ไขปัญหาได้อย่างมีประสิทธิภาพ พิจารณาใช้แพลตฟอร์มเหล่านี้กับเครื่องมือตรวจสอบเช่น Prometheus, Grafana และ Datadog สิ่งนี้จะสร้างกระแสข้อมูลที่เชื่อมต่อกันตั้งแต่ตัววัดประสิทธิภาพโครงสร้างพื้นฐานไปจนถึงการแก้ไขเหตุการณ์

2. โซลูชันการบรรจุหีบห่อ

นำเทคโนโลยีการทำคอนเทนเนอร์มาใช้ เช่น Docker และแพลตฟอร์มการจัดการคอนเทนเนอร์ เช่น Kubernetes หรือ Docker Swarm คอนเทนเนอร์ช่วยให้คุณสามารถจัดแพ็คเกจและปรับใช้แอปพลิเคชันได้อย่างสม่ำเสมอในสภาพแวดล้อมที่แตกต่างกัน โดย เหมาะที่สุดที่จะใช้ร่วมกับเครื่องมือจัดระเบียบ ซึ่งทำให้การปรับใช้งาน การปรับขนาด และการจัดการปริมาณงานในคอนเทนเนอร์เป็นแบบอัตโนมัติ เครื่องมือเหล่านี้ช่วยให้ทีม SRE ของคุณมีความยืดหยุ่นมากกว่าระบบการปรับใช้แบบเดิมมาก

3. วิศวกรรมความโกลาหล

ทดลองใช้เครื่องมือ Chaos Engineering เช่น Chaos Monkey (จาก Netflix), Gremlin หรือ Chaos Toolkit เพื่อทดสอบความยืดหยุ่นของระบบในเชิงรุกและระบุจุดอ่อนที่อาจเกิดขึ้น การทดลอง Chaos ช่วยให้คุณจำลองความล้มเหลวในโลกแห่งความเป็นจริง และตรวจสอบประสิทธิภาพของกลยุทธ์การฟื้นฟูของคุณ

เครื่องมือวิศวกรรมความโกลาหลตั้งใจฉีดความล้มเหลวเข้าสู่ระบบของคุณ ด้วยการทำให้ระบบของคุณอยู่ภายใต้การควบคุมที่วุ่นวาย คุณสามารถทดสอบความยืดหยุ่นในสภาวะโลกแห่งความเป็นจริง และค้นพบจุดที่อาจเกิดความล้มเหลวซึ่งอาจไม่ปรากฏให้เห็นภายใต้สภาวะการทำงานปกติ การปฏิบัตินี้ช่วยให้คุณสามารถตรวจสอบสมมติฐานและสร้างความยืดหยุ่นได้

4. ฐานข้อมูลการจัดการการกำหนดค่า (CMDB)

ดูแลรักษาฐานข้อมูลการจัดการการกำหนดค่า (CMDB) เช่น Consul หรือ ZooKeeper เพื่อจัดเก็บและจัดการข้อมูลการกำหนดค่าสำหรับโครงสร้างพื้นฐานและแอปพลิเคชันของคุณ CMDB มอบแหล่งข้อมูลความจริงแบบรวมศูนย์สำหรับข้อมูลการกำหนดค่า และช่วยให้ SRE รักษาความสอดคล้องกันในทุกสภาพแวดล้อม คุณยังสามารถใช้ระบบควบคุมเวอร์ชัน เช่น Git เพื่อจัดการการเปลี่ยนแปลงโค้ด การกำหนดค่า และเทมเพลตโครงสร้างพื้นฐานตามโค้ด (IaC) ของคุณได้

จะสร้างทีม SRE ได้อย่างไร? กลยุทธ์สำหรับการนำวิศวกรรมความน่าเชื่อถือของไซต์ไปใช้

การสร้างทีม SRE (วิศวกรรมความน่าเชื่อถือของไซต์) ต้องใช้แนวทางเชิงกลยุทธ์เพื่อให้แน่ใจว่ามีการดำเนินการตามหลักการความน่าเชื่อถือภายในองค์กรของคุณอย่างเหมาะสม โดยเฉพาะอย่างยิ่งเมื่อเป็นสัญญาณบ่งบอกถึงการเปลี่ยนแปลงวัฒนธรรม ไม่ใช่แค่การดำเนินการเท่านั้น

เริ่มต้นด้วยการระบุบุคคลที่มีความสามารถที่เหมาะสม – มองหาผู้สมัครที่มีประสบการณ์ในระบบแบบกระจาย การประมวลผลบนคลาวด์ โครงสร้างพื้นฐานในรูปแบบโค้ด และ แนว ปฏิบัติ DevOps กำหนดบทบาทและความรับผิดชอบที่ชัดเจนภายในทีม SRE ของคุณ โดยมีเจ้าของที่ชัดเจนสำหรับการตรวจสอบ การจัดการเหตุการณ์ การวางแผนกำลังการผลิต การพัฒนาระบบอัตโนมัติ และการเพิ่มประสิทธิภาพการทำงาน

ข้อผิดพลาดที่ถือว่าถือเป็นส่วนสำคัญของแนวปฏิบัติ SRE ดังนั้นควรจัดสรรเงินทุนไว้เพื่อสร้างสมดุลระหว่างนวัตกรรมและความน่าเชื่อถือ ซึ่งจะช่วยให้ทีมลงทุนในคุณสมบัติใหม่ๆ ได้ หากพวกเขาอยู่ภายในข้อผิดพลาดที่จัดสรรไว้

เมื่อคุณรวบรวมทีม ให้จัดลำดับความสำคัญของการเรียนรู้อย่างต่อเนื่อง ระเบียบวินัยของ SRE ถูกกำหนดโดยการพัฒนาเทคโนโลยีและแนวปฏิบัติที่ดีที่สุด เสนอโอกาสในการยกระดับทักษะเพื่อให้ทีมของคุณสามารถตามทันได้

SER แสดงถึงการเปลี่ยนแปลงขั้นพื้นฐาน

การเปลี่ยนไปใช้ SRE แสดงให้เห็นถึงวิวัฒนาการที่เปลี่ยนแปลงในการเข้าใกล้ความน่าเชื่อถือและความสามารถในการปรับขนาดในการดำเนินงานด้านไอที ไม่ใช่แค่การรักษาระบบให้ทำงานต่อไปเท่านั้น แต่ยังเกี่ยวกับความยืดหยุ่นทางวิศวกรรม การเพิ่มประสิทธิภาพการทำงาน และมอบประสบการณ์ผู้ใช้ที่ยอดเยี่ยมในสภาพแวดล้อมทางดิจิทัลที่ไม่อาจคาดเดาได้

ในการปฏิบัติการด้านไอทีแบบดั้งเดิม จุดเน้นมักจะเกี่ยวข้องกับการดับเพลิง การตอบสนองต่อเหตุการณ์เชิงรับ และการแทรกแซงด้วยตนเองเพื่อให้แสงสว่างยังคงดำเนินต่อไป เป้าหมายหลักของคุณอาจเป็นการรักษาเวลาทำงานและแก้ไขปัญหา ด้วย SRE การเน้นจะเปลี่ยนไปสู่แนวทางเชิงรุกที่ขับเคลื่อนด้วยวิศวกรรม สนับสนุนให้คุณปฏิบัติต่อโครงสร้างพื้นฐานเสมือนเป็นโค้ด โดยใช้หลักการทางวิศวกรรมซอฟต์แวร์เพื่อสร้างนวัตกรรม ไม่ใช่แค่ทำให้ระบบทำงานต่อไป

เตรียมตัวสำหรับการเปลี่ยนแปลงทางวัฒนธรรมด้วย แผนกไอทีแบบดั้งเดิมมักจะทำงานแบบแยกส่วน โดยมีทีมที่แยกจากกันเพื่อดูแลการพัฒนา การดำเนินงาน และการสนับสนุน ในทางตรงกันข้าม SRE ส่งเสริมวัฒนธรรมของการทำงานร่วมกัน การเป็นเจ้าของร่วมกัน และการทบทวนหลังเหตุการณ์อย่างไม่มีข้อตำหนิ ที่นี่ วิศวกรได้รับพลังอย่างแท้จริง

นั่นคือเหตุผลว่าทำไมโมเดล SRE จึงได้รับความสนใจอย่างมากในช่วงทศวรรษที่ผ่านมา เนื่องจากการประมวลผลแบบคลาวด์และโครงสร้างพื้นฐานที่ซับซ้อนกลายเป็นเรื่องปกติใหม่สำหรับองค์กรต่างๆ ทั่วโลก องค์กรต่างๆ จำนวนมากจะนำแนวทางนี้ไปใช้เพื่อมอบความเป็นเลิศด้านดิจิทัล

ถัดไป ดาวน์โหลดเอกสารไวท์เปเปอร์ของ VMware เกี่ยวกับ วิธีที่ดีที่สุดในการเพิ่มประสิทธิภาพด้าน IT ด้วยระบบ อัตโนมัติ ติดตามเราบน LinkedIn เพื่อรับข้อมูลเชิงลึกเพิ่มเติม