کتاب Mastering Data Engineering and Analytics with Databricks: A Hands-on Guide to Build Scalable Pipelines Using Databricks, Delta Lake, and MLflow (تسلط بر مهندسی داده و تجزیه و تحلیل با Databricks: راهنمای عملی برای ساخت خطوط لوله مقیاس پذیر با استفاده از Databricks، Delta Lake و MLflow) یک راهنمای جامع برای درک عمیق از تکنیکهای مهندسی داده با استفاده از پلتفرم داتابریکس است.
کتاب Mastering Data Engineering and Analytics with Databricks با رویکردی عملی و گام به گام، شما را از مفاهیم اولیه مهندسی داده تا مباحث پیشرفتهای مانند پردازش دادههای جریان، دلتا لایو تیبلز و یکپارچهسازی هوش مصنوعی و یادگیری ماشین با داتابریکس آشنا میکند.
چه یک متخصص داده با تجربه باشید که میخواهید مهارتهای خود را گسترش دهید یا یک مبتدی که به دنیای داده بزرگ علاقهمند هستید، این کتاب برای شما مناسب است.
در ادامه مقدمهای از کتاب Mastering Data Engineering and Analytics with Databricks را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Mastering Data Engineering and Analytics with Databricks:
در چشمانداز در حال تحول مهندسی داده، توانایی به کارگیری مقادیر فرا داده بهطور کارآمد و استخراج بینشهای معنادار به امری مهم تبدیل شده است.
با توجه به چالش که سازمانها با دادههای کلان روبرو هستند، نیاز به پلتفرمهای مقاوم، مقیاسپذیر و کاربرپسند هیچگاه به این اندازه حاد نبوده است. وارد عرصه Databricks میشویم – یک پلتفرم تحلیلی یکپارچه که نحوه نزدیکشدن به مهندسی داده و تحلیل را متحول کرده است.
تسلط بر مهندسی داده و تحلیل با Databricks از اشتیاق برای یادگیری و تمایل به اشتراکگذاری دانش با جامعه داده نشأت میگیرد. کتاب Mastering Data Engineering and Analytics with Databricks برای اینکه راهنمای جامعی برای تسلط بر تکنیکهای مهندسی داده با استفاده از پلتفرم Databricks باشد طراحی شده است.
چه یک حرفهای با تجربه در حوزه داده باشید که به دنبال گسترش مجموعه مهارتهای خود هستید و چه یک تازهوارد مشتاق به غوطهور شدن در دنیای دادههای کلان، این کتاب چیزی برای همه دارد.
در طول 19 فصل کتاب Mastering Data Engineering and Analytics with Databricks، سفر ما شامل تمامی دامنه مهندسی داده با Databricks خواهد بود. از راهاندازی محیط کار خود و درک اصول استخراج و بارگذاری داده، تا موضوعات پیشرفتهای مانند پردازش دادههای جریانی، جداول زنده دلتای، و ادغام هوش مصنوعی/یادگیری ماشین، ما مسیری یادگیری ایجاد کردهایم که به تدریج مهارتهای شما را ارتقا میدهد.
بیشتر بخوانید: کتاب Practical Machine Learning on Databricks
اینک نگاهی به آنچه میتوانید انتظار داشته باشید:
فصل 1. معرفی مهندسی داده با Databricks:
این فصل پایهگذاری برای کل کتاب Mastering Data Engineering and Analytics with Databricks را فراهم میکند. مفهوم مهندسی داده و اهمیت آن در چرخه حیات علم داده را معرفی میکند. خوانندگان با مراحل مختلف مهندسی داده و تفاوت آن با علم داده آشنا خواهند شد.
سپس فصل، Databricks را معرفی کرده و معماری و ویژگیهای منحصر به فرد آن را توضیح میدهد که باعث میشود انتخاب محبوبی برای مهندسان داده باشد. در انتهای این فصل، خوانندگان درک محکمی از اصول مهندسی داده و تصویری کلی از Databricks خواهند داشت.
فصل ۲. راهاندازی یک محیط Databricks برای مهندسی داده:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، خوانندگان را در فرآیند ایجاد یک فضای کاری Azure Databricks راهنمایی میکند. این فصل تنظیم یک خوشه DS/ML و نوتبوک را پوشش میدهد و توضیح میدهد که چگونه میتوان بر اساس نیازهای خاص، پیکربندی مناسب را انتخاب کرد.
این فصل همچنین مفاهیمی مانند جریانهای کاری و Delta Live Pipelines برای ساخت ETL و خطوط لوله دادههای جریانی را معرفی میکند. در نهایت، به کاتالوگ Unity برای مدیریت متاداده میپردازد. این فصل خوانندگان را با مهارتهای عملی تجهیز میکند تا تمام منابع مورد نیاز برای یک پروژه مهندسی داده در Databricks را راهاندازی کنند.
فصل ۳. کار با قابلیتهای Databricks و خوشهها:
خوانندگان به عمق بیشتری در قابلیتهای Databricks مانند سیستم فایل Databricks (DBFS)، زمانسنج Databricks و Databricks CLI میپردازند. این فصل پیکربندی خوشه را در بر میگیرد که شامل مقیاسپذیری خودکار و استخرهای نمونه است. همچنین نحوه استفاده از API REST Databricks برای مدیریت برنامهنویسی خوشه را آموزش میدهد. در پایان این فصل، خوانندگان در استفاده از قابلیتهای Databricks و مدیریت مؤثر خوشهها مهارت پیدا خواهند کرد.
فصل ۴. استخراج و بارگذاری دادهها با استفاده از Databricks:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، بر روی مرحله مهم اول فرآیند ETL تمرکز دارد: استخراج و بارگذاری دادهها. این فصل منابع مختلف دادهای که توسط Databricks پشتیبانی میشوند را پوشش میدهد و تکنیکهایی برای استخراج دادهها از فرمتهای مختلف فایل را بررسی میکند.
این فصل به استفاده از اتصالات و APIهای Databricks برای ورود داده میپردازد و آموزش میدهد که چگونه دادهها را به Delta Lake بارگذاری کنیم. همچنین به ملاحظات مهمی مانند مدیریت اسکما، تقسیمبندی و اعتبارسنجی دادهها در طول فرآیند استخراج میپردازد.
فصل ۵. تبدیل دادهها با دتا بریکس:
با ساخت بر اساس فصل قبلی، این فصل تکنیکهای تبدیل دادهها در دتا بریکس را بررسی میکند. این شامل روشهای مختلف تبدیل از جمله فیلتر کردن، تجمیع، پیوستن و چرخش است.
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، همچنین آموزش میدهد که چگونه توابع سفارشی برای تبدیل دادهها ایجاد و اعمال کنیم. خوانندگان بهترین شیوهها برای تبدیل داده و تکنیکهای پاکسازی داده برای بهبود کیفیت داده را خواهند آموخت. این فصل با راهنمایی در مورد ایجاد لایههای نقرهای و طلایی در فرآیند ETL و پیادهسازی استراتژیهای بارگذاری افزایشی به پایان میرسد.
فصل ۶. مدیریت دادههای جریانی با دتا بریکس:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، مفهوم دادههای جریانی و چالشهای آن را معرفی میکند. این فصل به حجم بالا، سرعت سریع و تنوع متنوع جریانهای دادههای واقعی زمان واقعی میپردازد.
خوانندگان خواهند آموخت که چگونه دادههای جریانی را در دتا بریکس مدیریت کنند، از جمله راهاندازی خطوط لوله جریانی، کار با APIهای جریانی و پیادهسازی آنالیزهای زمان واقعی. این فصل همچنین بهترین شیوهها برای مدیریت دادههای جریانی در مقیاس بزرگ را بررسی میکند.
فصل ۷. ایجاد جدولهای زنده دلتا:
جدولهای زنده دلتا در این فصل به عنوان ابزاری قدرتمند برای ساخت خطوط لوله دادهای قابل اعتماد و قابل نگهداری معرفی میشوند.
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، توضیح میدهد که چگونه جدولهای زنده دلتا را ایجاد و مدیریت کنیم، اقدامات کنترل کیفیت را پیادهسازی کنیم و از آنها برای دادههای بچ و جریانی استفاده کنیم.
خوانندگان خواهند آموخت که چگونه از جدولهای زنده دلتا برای سادهسازی گردشکار مهندسی داده خود و بهبود قابلیت اطمینان داده استفاده کنند.
فصل ۸. تقسیمبندی و مخلوطسازی دادهها:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، به جزئیات تقسیمبندی دادهها و مخلوطسازی در اسپارک و دتا بریکس میپردازد. این فصل توضیح میدهد که این فرآیندها چگونه بر عملکرد در یک محیط محاسباتی توزیع شده تأثیر میگذارند.
خوانندگان استراتژیهایی برای تقسیمبندی مؤثر دادهها، تکنیکهایی برای بهینهسازی عملیات مخلوطسازی و راههایی برای اجتناب از دامهای رایجی که میتواند منجر به گلوگاههای عملکرد شود، خواهند آموخت.
فصل ۹. بهینهسازی عملکرد و شیوهها:
با تمرکز بر بهینه، این فصل به خوانندگان میآموزد که چگونه نقاط ضعف عملکردی در برنامههای دیتابریکس خود را شناسایی و برطرف کنند.
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، شامل طیف وسیعی از موضوعات از جمله بهینهسازی پرسشها، مدیریت منابع، استراتژیهای کش و تنظیم پیکربندی اسپارک است. در پایان این فصل، خوانندگان مهارتهای لازم برای بهبود قابل توجه عملکرد جریانهای کاری مهندسی دادههای خود را خواهند داشت.
فصل ۱۰. مدیریت جریان کاری:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، اصول مدیریت و خودکارسازی جریانهای کاری مهندسی دادهها در دیتابریکس را بررسی میکند. این فصل موضوعاتی مانند برنامهریزی کارها، مدیریت وابستگی و مدیریت خطاها در خطوط داده پیچیده را شامل میشود. خوانندگان یاد خواهند گرفت که چگونه از ابزارهای جریان کاری دیتابریکس برای هماهنگی فرآیندهای داده به صورت کارآمد و قابل اعتماد استفاده کنند.
فصل ۱۱. انبار SQL دیتابریکس:
مفهوم انبارهای SQL بدون سرور در این فصل معرفی میشود. خوانندگان یاد خواهند گرفت که چگونه دیتابریکس از محاسبات بدون سرور برای بارهای کاری SQL استفاده میکند، که بار عملیاتی را کاهش میدهد. این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، شامل راهاندازی و بهینهسازی انبارهای SQL، نوشتن پرسشهای SQL کارآمد و یکپارچهسازی جریانهای کاری SQL با سایر اجزای دیتابریکس است.
فصل ۱۲. ذخیرهسازی دادهها و کاتالوگ واحد:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، بر روی راهحلهای ذخیرهسازی دادهها در دیتابریکس و استفاده از کاتالوگ واحد برای حاکمیت دادهها تمرکز دارد.
این فصل شامل موضوعاتی مانند معماری دریاچه داده، بهینهسازیهای دلتا لیک و نسخهگذاری دادهها است. خوانندگان یاد خواهند گرفت که چگونه از کاتالوگ واحد برای مدیریت متاداده، کنترل دسترسی به داراییهای داده و اطمینان از تداوم دادهها در محیط دیتابریکس خود استفاده کنند.
فصل ۱۳. نظارت بر خوشه و شغلهای دیتابریکس:
نظارت برای حفظ لولههای داده سالم حیاتی است. این فصل به خوانندگان میآموزد چگونه به طور مؤثر خوشهها و شغلهای دیتابریکس را نظارت کنند. این فصل شامل معیارهای عملکرد خوشه،یکهای نظارت بر شغل و نحوه راهاندازی هشدارها و داشبوردها است. خوانندگان یاد خواهند گرفت چگونه به طور پیشگیرانه مسائل را در محیط دیتابریکس خود شناسایی و حل کنند.
فصل ۱۴. استراتژیهای استقرار در تولید:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، بر روی استراتژیهای استقرار راهحلهای دیتابریکس در محیطهای تولید تمرکز دارد.
این فصل شامل موضوعاتی مانند مدیریت محیط، کنترل نسخه و شیوههای یکپارچگی مداوم/استقرار مداوم (CI/CD) برای لولههای داده است. خوانندگان بهترین شیوهها را برای اطمینان از انتقالهای روان و قابل اعتماد از توسعه به تولید یاد خواهند گرفت.
فصل ۱۵. نگهداری لولههای داده در تولید:
با تکیه بر فصل قبلی، این فصل به نگهداری مداوم لولههای داده در تولید میپردازد. این فصل شامل موضوعاتی مانند نظارت بر کیفیت داده، مدیریت تکامل طرحواره و اجرای استراتژیهای بازیابی داده است. خوانندگان یاد خواهند گرفت چگونه از قابلیت اطمینان و مقیاسپذیری بلندمدت لولههای داده دیتابریکس خود اطمینان حاصل کنند.
فصل ۱۶. مدیریت امنیت داده و حاکمیت:
امنیت داده و حاکمیت در هر پروژه مهندسی دادهای حیاتی است. این فصل به بررسی ویژگیهای امنیتی دیتابریکس میپردازد، از جمله رمزنگاری داده، کنترل دسترسی و ثبت لاگهای حسابرسی. همچنین به شیوههای حاکمیت داده میپردازد و به خوانندگان کمک میکند تا از انطباق با مقررات داده و سیاستهای داخلی اطمینان حاصل کنند.
فصل ۱۷. موارد استفاده مهندسی داده در جهان واقعی با دیتابریکس:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، مطالعات موردی دقیق از صنایع مختلف را ارائه میدهد و نشان میدهد چگونه از دیتابریکس برای حل چالشهای مهندسی داده در دنیای واقعی استفاده میشود. این فصل شامل مثالهایی از صنایع FMCG، بهداشت و درمان و خودروسازی است و بینشهای عملی برای بهکارگیری دیتابریکس در زمینههای مختلف کسبوکار را به خوانندگان ارائه میدهد.
فصل ۱۸. اصول هوش مصنوعی و یادگیری ماشین:
این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، مفاهیم اساسی در هوش مصنوعی و یادگیری ماشین را در ارتباط با مهندسی داده معرفی میکند.
موضوعاتی مانند مهندسی ویژگی، آموزش و استقرار مدل، و شیوههای MLOps در Databricks را پوشش میدهد. خوانندگان یاد خواهند گرفت که چگونه جریانهای کاری هوش مصنوعی و یادگیری ماشین را در خطوط لوله مهندسی داده خود ادغام کنند.
فصل ۱۹. ادغام دیتابریکس با ابزارهای خارجی:
فصل نهایی به بررسی نحوه ادغام Databricks با ابزارها و خدمات خارجی میپردازد. این شامل ادغام با ابزارهای محبوب BI، پلتفرمهای تجسم داده و سایر خدمات ابری میشود. خوانندگان خواهند آموخت که چگونه یک اکوسیستم دادهای جامع با دیتابریکس در هسته آن ایجاد کنند و از طیف گستردهای از ابزارها و خدمات دادهای بهره ببرند.
چیزی که کتاب Mastering Data Engineering and Analytics with Databricks را متمایز میکند، رویکرد عملی آن است. هر فصل پر از مثالهای عملی، بهترین شیوهها و سناریوهای دنیای واقعی است که میتوانید بلافاصله در پروژههای خود به کار ببرید. ما مفاهیم پیچیده را به بخشهای قابل هضم تبدیل کردهایم، به طوری که نه تنها نحوه هر تکنیک را درک کنید بلکه دلیل پشت هر تکنیک را نیز بفهمید.
هدف این است که شما را با دانش و مهارتهای لازم برای برتری در زمینه مهندسی دادهها توانمند کنیم. الهام این کتاب از تعاملات بیشماری با همکاران، مربیان و دانشجویان ناشی میشود – که همگی به نوعی در سفر یادگیری سهم داشتهاند. این روحیه همکاری جامعه داده است که کتاب قصد دارد آن را در این صفحات به تصویر بکشد و منتقل کند.
به یاد داشته باشید، مهندسی داده فقط نوشتن کد یا مدیریت پایگاههای داده نیست؛ بلکه حل مشکلات دنیای واقعی و ایجاد ارزش تجاری از طریق دادههاست. همانطور که در این کتاب پیش میروید، به یاد داشته باشید که به طور انتقادی فکر کنید، با جسارت آزمایش کنید و همیشه هدف نهایی را در نظر داشته باشید.
چه به دنبال ساخت پایپلاینهای داده مقیاسپذیر باشید، چه پیادهسازی تحلیلهای زمان واقعی، یا پایهگذاری برای برنامههای پیشرفته هوش مصنوعی و یادگیری ماشین، تسلط بر مهندسی داده و تحلیلها با دیتابریکس همراه مورد اعتماد شما خواهد بود.
پس بیایید با هم به این سفر هیجانانگیز بپردازیم. باشد که کتاب Mastering Data Engineering and Analytics with Databricks شما را به فراتر رفتن از مرزهای ممکن با دادهها الهام بخشد و کنجکاوی شما را برای ادامه یادگیری و نوآوری شعلهور کند.
کدنویسی و مهندسی داده خوش بگذره!
سرفصلهای کتاب Mastering Data Engineering and Analytics with Databricks:
- Cover Page
- Title Page
- Copyright Page
- Dedication Page
- About the Author
- About the Technical Reviewers
- Acknowledgements
- Preface
- Errata
- Table of Contents
- SECTION 1 Getting Started with Data Engineering and Databricks
- 1. Introducing Data Engineering with Databricks
- 2. Setting Up a Databricks Environment for Data Engineering
- 3. Working with Databricks Utilities and Clusters
- SECTION 2 Building Robust Data Pipelines with Databricks
- 4. Extracting and Loading Data Using Databricks
- 5. Transforming Data with Databricks
- 6. Handling Streaming Data with Databricks
- 7. Creating Delta Live Tables
- 8. Data Partitioning and Shuffling
- 9. Performance Tuning and Best Practices
- 10. Workflow Management
- 11. Databricks SQL Warehouse
- 12. Data Storage and Unity Catalog
- 13. Monitoring Databricks Clusters and Jobs
- 14. Production Deployment Strategies
- 15. Maintaining Data Pipelines in Production
- 16. Managing Data Security and Governance
- 17. Real-World Data Engineering Use Cases with Databricks
- 18. Al and ML Essentials
- Index
جهت دانلود کتاب Mastering Data Engineering and Analytics with Databricks میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.