کتاب High Performance SRE: Automation, error budgeting, RPAs, SLOs, and SLAs with site reliability engineering (SRE با عملکرد بالا: اتوماسیون، بودجه بندی خطا، RPA، SLO و SLA با مهندسی قابلیت اطمینان سایت) یک مطالعه ضروری است و بینشهایی را در مورد اصول SRE برای مبتدیان و متخصصان با تجربه ارائه میدهد. مبانی و تکامل SRE را مطالعه کنید تا پایهای محکم برای موفقیت در دنیای تکنولوژی محور امروزی به دست آورید.
در ادامه مقدمهای از کتاب High Performance SRE را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب High Performance SRE:
به این کاوش مهندسی قابلیت اطمینان سایت (SRE) خوش آمدید، رشتهای که در تقاطع مهندسی نرمافزار و عملیات سیستم قرار دارد. این کتاب برای راهنمایی شما از طریق اصول، شیوهها و فلسفههایی طراحی شده است که SRE را تعریف میکنند، حوزهای که توسط Google پیشگام است و اکنون توسط سازمانهای سراسر جهان پذیرفته شده است.
پیدایش کتاب High Performance SRE در سفر من به عنوان یک مهندس نرمافزار و مدیر سیستم نهفته است. مانند بسیاری از افراد در این زمینه، من هم شیفته چالشهای حفظ قابلیت اطمینان سیستمهای پیچیدهتر شدم. ظهور SRE چارچوبی را فراهم کرد که نحوه برخورد ما با این چالشها را تغییر داد و عملیات سنتی فناوری اطلاعات را با نوآوری و سرعت مهندسی نرمافزار ترکیب کرد.
بیشتر بخوانید: کتاب Becoming SRE
در نوشتن کتاب High Performance SRE، هدف من ابهام زدایی از SRE برای مخاطبان گسترده است. چه یک پزشک با تجربه، چه یک SRE مشتاق یا صرفاً در مورد این رشته کنجکاو باشید، هدف این کتاب ارائه بینشهای ارزشمند و راهنماییهای عملی است. طیف وسیعی از موضوعات از اصول اساسی SRE، مانند اهداف سطح خدمات (SLOs) و بودجه خطا، تا شیوههای پیشرفته مانند مهندسی آشوب و مدیریت حوادث را پوشش میدهد.
کتاب High Performance SRE همچنین به جنبههای فرهنگی و سازمانی SRE میپردازد. پیادهسازی SRE فقط به کارگیری ابزارها و شیوههای جدید نیست. این در مورد پرورش فرهنگی است که برای قابلیت اطمینان، مسئولیتپذیری و بهبود مستمر ارزش قائل است. برای این منظور، من مطالعات موردی و نمونههای واقعی را گنجاندهام که نشان میدهد چگونه سازمانهای مختلف با موفقیت اصول SRE را در عملیات خود ادغام کردهاند.
من از بسیاری از متخصصان SRE که دانش و تجربیات خود را به اشتراک گذاشتهاند، سپاسگزارم. توصیههای عملی و نمونههای واقعی آنها در نشان دادن کاربرد SRE در محیطهای متنوع بسیار ارزشمند بوده است.
همانطور که زمینه SRE به تکامل خود ادامه میدهد، کتاب High Performance SRE قصد دارد یک راهنمای جامع و نقطه شروع برای کاوش بیشتر باشد. دنیای فناوری همواره در حال تغییر است و شیوههای SRE همچنان با چالشها و فرصتهای جدید سازگار خواهد شد.
از شما دعوت میکنم در این سفر در دنیای پویا و هیجانانگیز SRE به من بپیوندید. چه به دنبال پیادهسازی شیوههای SRE در سازمان خود باشید یا صرفاً به دنبال درک این زمینه به سرعت در حال رشد باشید، امیدوارم کتاب High Performance SRE دانش و الهامبخشی را که نیاز دارید در اختیار شما قرار دهد.
فصل ۱: مقدمهای بر Site Reliability Engineer – این فصل SRE را معرفی میکند، منشأ آن را در گوگل، اهمیت آن در مهندسی نرمافزار مدرن، و چگونگی پر کردن شکاف بین توسعه نرمافزار و عملیات را توضیح میدهد.
فصل ۲: DevOps به مهندسی قابلیت اطمینان سایت – این فصل به اصول و شیوههای طراحی سیستمهای ذاتاً قابل اعتماد، از جمله بحث در مورد افزونگی، تحمل خطا، و تعادل بین قابلیت اطمینان و هزینه میپردازد.
فصل ۳: نظارت – این فصل استراتژیهای نظارت بر سیستمهای پیچیده توزیع شده را پوشش میدهد و بر انتخاب شاخصهای کلیدی عملکرد و ابزارها برای حفظ دید نسبت به سلامت سیستم تأکید میکند.
فصل ۴: مدیریت حوادث و کاهش خطر – این فصل چارچوبها و پروتکلها را برای پاسخ به حوادث سیستم، مدیریت خطرات و به حداقل رساندن تأثیر کاربر مورد بحث قرار میدهد و اهمیت آمادهسازی و آموزش را برجسته میکند.
فصل ۵: بودجههای خطا – این فصل مفهوم بودجههای خطا را معرفی میکند، یک معیار کمی که سرعت نوآوری را با نیاز به ثبات و قابلیت اطمینان سیستم متعادل میکند.
فصل ۶: SLI/SLO/SLA – در اینجا، کتاب High Performance SRE شاخصهای سطح خدمات (SLIs)، اهداف سطح خدمات (SLO) و توافقنامههای سطح خدمات (SLAs) را تجزیه میکند و توضیح میدهد که چگونه آنها کار قابلیت اطمینان و تصمیمهای تجاری را هدایت میکنند.
فصل ۷: برنامهریزی ظرفیت – تمرکز این فصل بر پیشبینی بار سیستم در آینده و اطمینان از اینکه زیرساخت میتواند رشد تقاضا را بدون به خطر انداختن عملکرد یا قابلیت اطمینان مدیریت کند، است.
فصل ۸: در حال تماس و اولین پاسخ – این فصل عناصر انسانی SRE را مورد بحث قرار میدهد، از جمله سازماندهی چرخشهای حین تماس، مسئولیتهای اولین پاسخدهندگان، و بهترین شیوهها برای پاسخ به حادثه.
فصل ۹: RCA و پس از مرگ – تجزیه و تحلیل علت ریشهای (RCA) و فرهنگ پس از مرگ در این فصل مورد بررسی قرار میگیرد و به تفصیل توضیح میدهد که چگونه تیمها میتوانند از شکستها برای جلوگیری از حوادث آینده و بهبود قابلیت اطمینان سیستم یاد بگیرند.
فصل ۱۰: مهندسی آشوب – این فصل شیوههای مهندسی آشوب را توصیف میکند، که در آن سیستمها عمداً در محیطهای کنترلشده تحت فشار قرار میگیرند تا نقاط ضعف را کشف کنند و انعطافپذیری را بهبود بخشند.
فصل ۱۱: هوش مصنوعی برای مهندسی قابلیت اطمینان سایت – این فصل به بررسی نقش نوظهور هوش مصنوعی (AI) در مهندسی قابلیت اطمینان سایت (SRE) میپردازد، از جمله اینکه چگونه هوش مصنوعی میتواند پاسخ حادثه، تشخیص ناهنجاری و تجزیه و تحلیل پیشبینی را خودکار کند.
فصل ۱۲: مطالعات موردی – مطالعات موردی در دنیای واقعی بینشهایی را در مورد چگونگی اجرای اصول SRE توسط سازمانهای مختلف، چالشهایی که با آنها روبرو هستند و نتایج تلاشهایشان ارائه میدهد.
سرفصلهای کتاب High Performance SRE:
- Cover
- Title Page
- Copyright Page
- Dedication Page
- About the Author
- About the Reviewer
- Acknowledgement
- Preface
- Table of Contents
- 1. Introduction to Site Reliability Engineer
- 2. DevOps to Site Reliability Engineering
- 3. Monitoring
- 4. Incident Management and Risk Mitigation
- 5. Error Budgets
- 6. SLI/SLO/SLA
- 7. Capacity Planning
- 8. On-call and First-response
- 9. RCA and Post-mortem
- 10. Chaos Engineering
- 11. Artificial Intelligence for Site Reliability Engineering
- 12. Case Studies
- Index
جهت دانلود کتاب High Performance SRE میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.