کتاب Mastering Data Engineering and Analytics with Databricks: A Hands-on Guide to Build Scalable Pipelines Using Databricks, Delta Lake, and MLflow (تسلط بر مهندسی داده و تجزیه و تحلیل با Databricks: راهنمای عملی برای ساخت خطوط لوله مقیاس پذیر با استفاده از Databricks، Delta Lake و MLflow) یک راهنمای جامع برای درک عمیق از تکنیک‌های مهندسی داده با استفاده از پلتفرم داتابریکس است.

کتاب Mastering Data Engineering and Analytics with Databricks با رویکردی عملی و گام به گام، شما را از مفاهیم اولیه مهندسی داده تا مباحث پیشرفته‌ای مانند پردازش داده‌های جریان، دلتا لایو تیبلز و یکپارچه‌سازی هوش مصنوعی و یادگیری ماشین با داتابریکس آشنا می‌کند.

چه یک متخصص داده با تجربه باشید که می‌خواهید مهارت‌های خود را گسترش دهید یا یک مبتدی که به دنیای داده بزرگ علاقه‌مند هستید، این کتاب برای شما مناسب است.

در ادامه مقدمه‌ای از کتاب Mastering Data Engineering and Analytics with Databricks را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Mastering Data Engineering and Analytics with Databricks:

در چشم‌انداز در حال تحول مهندسی داده، توانایی به کارگیری مقادیر فرا داده به‌طور کارآمد و استخراج بینش‌های معنادار به امری مهم تبدیل شده است.

با توجه به چالش که سازمان‌ها با داده‌های کلان روبرو هستند، نیاز به پلتفرم‌های مقاوم، مقیاس‌پذیر و کاربرپسند هیچ‌گاه به این اندازه حاد نبوده است. وارد عرصه Databricks می‌شویم – یک پلتفرم تحلیلی یکپارچه که نحوه نزدیک‌شدن به مهندسی داده و تحلیل را متحول کرده است.

تسلط بر مهندسی داده و تحلیل با Databricks از اشتیاق برای یادگیری و تمایل به اشتراک‌گذاری دانش با جامعه داده نشأت می‌گیرد. کتاب Mastering Data Engineering and Analytics with Databricks برای اینکه راهنمای جامعی برای تسلط بر تکنیک‌های مهندسی داده با استفاده از پلتفرم Databricks باشد طراحی شده است.

چه یک حرفه‌ای با تجربه در حوزه داده باشید که به دنبال گسترش مجموعه مهارت‌های خود هستید و چه یک تازه‌وارد مشتاق به غوطه‌ور شدن در دنیای داده‌های کلان، این کتاب چیزی برای همه دارد.

در طول 19 فصل کتاب Mastering Data Engineering and Analytics with Databricks، سفر ما شامل تمامی دامنه مهندسی داده با Databricks خواهد بود. از راه‌اندازی محیط کار خود و درک اصول استخراج و بارگذاری داده، تا موضوعات پیشرفته‌ای مانند پردازش داده‌های جریانی، جداول زنده دلتای، و ادغام هوش مصنوعی/یادگیری ماشین، ما مسیری یادگیری ایجاد کرده‌ایم که به تدریج مهارت‌های شما را ارتقا می‌دهد.

بیشتر بخوانید: کتاب Practical Machine Learning on Databricks

اینک نگاهی به آنچه می‌توانید انتظار داشته باشید:

فصل 1. معرفی مهندسی داده با Databricks:

این فصل پایه‌گذاری برای کل کتاب Mastering Data Engineering and Analytics with Databricks را فراهم می‌کند. مفهوم مهندسی داده و اهمیت آن در چرخه حیات علم داده را معرفی می‌کند. خوانندگان با مراحل مختلف مهندسی داده و تفاوت آن با علم داده آشنا خواهند شد.

سپس فصل، Databricks را معرفی کرده و معماری و ویژگی‌های منحصر به فرد آن را توضیح می‌دهد که باعث می‌شود انتخاب محبوبی برای مهندسان داده باشد. در انتهای این فصل، خوانندگان درک محکمی از اصول مهندسی داده و تصویری کلی از Databricks خواهند داشت.

فصل ۲. راه‌اندازی یک محیط Databricks برای مهندسی داده:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، خوانندگان را در فرآیند ایجاد یک فضای کاری Azure Databricks راهنمایی می‌کند. این فصل تنظیم یک خوشه DS/ML و نوت‌بوک را پوشش می‌دهد و توضیح می‌دهد که چگونه می‌توان بر اساس نیازهای خاص، پیکربندی مناسب را انتخاب کرد.

این فصل همچنین مفاهیمی مانند جریان‌های کاری و Delta Live Pipelines برای ساخت ETL و خطوط لوله داده‌های جریانی را معرفی می‌کند. در نهایت، به کاتالوگ Unity برای مدیریت متاداده می‌پردازد. این فصل خوانندگان را با مهارت‌های عملی تجهیز می‌کند تا تمام منابع مورد نیاز برای یک پروژه مهندسی داده در Databricks را راه‌اندازی کنند.

فصل ۳. کار با قابلیت‌های Databricks و خوشه‌ها:

خوانندگان به عمق بیشتری در قابلیت‌های Databricks مانند سیستم فایل Databricks (DBFS)، زمان‌سنج Databricks و Databricks CLI می‌پردازند. این فصل پیکربندی خوشه را در بر می‌گیرد که شامل مقیاس‌پذیری خودکار و استخرهای نمونه است. همچنین نحوه استفاده از API REST Databricks برای مدیریت برنامه‌نویسی خوشه را آموزش می‌دهد. در پایان این فصل، خوانندگان در استفاده از قابلیت‌های Databricks و مدیریت مؤثر خوشه‌ها مهارت پیدا خواهند کرد.

فصل ۴. استخراج و بارگذاری داده‌ها با استفاده از Databricks:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، بر روی مرحله مهم اول فرآیند ETL تمرکز دارد: استخراج و بارگذاری داده‌ها. این فصل منابع مختلف داده‌ای که توسط Databricks پشتیبانی می‌شوند را پوشش می‌دهد و تکنیک‌هایی برای استخراج داده‌ها از فرمت‌های مختلف فایل را بررسی می‌کند.

این فصل به استفاده از اتصالات و APIهای Databricks برای ورود داده می‌پردازد و آموزش می‌دهد که چگونه داده‌ها را به Delta Lake بارگذاری کنیم. همچنین به ملاحظات مهمی مانند مدیریت اسکما، تقسیم‌بندی و اعتبارسنجی داده‌ها در طول فرآیند استخراج می‌پردازد.

فصل ۵. تبدیل داده‌ها با دتا بریکس:

با ساخت بر اساس فصل قبلی، این فصل تکنیک‌های تبدیل داده‌ها در دتا بریکس را بررسی می‌کند. این شامل روش‌های مختلف تبدیل از جمله فیلتر کردن، تجمیع، پیوستن و چرخش است.

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، همچنین آموزش می‌دهد که چگونه توابع سفارشی برای تبدیل داده‌ها ایجاد و اعمال کنیم. خوانندگان بهترین شیوه‌ها برای تبدیل داده و تکنیک‌های پاکسازی داده برای بهبود کیفیت داده را خواهند آموخت. این فصل با راهنمایی در مورد ایجاد لایه‌های نقره‌ای و طلایی در فرآیند ETL و پیاده‌سازی استراتژی‌های بارگذاری افزایشی به پایان می‌رسد.

فصل ۶. مدیریت داده‌های جریانی با دتا بریکس:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، مفهوم داده‌های جریانی و چالش‌های آن را معرفی می‌کند. این فصل به حجم بالا، سرعت سریع و تنوع متنوع جریان‌های داده‌های واقعی زمان واقعی می‌پردازد.

خوانندگان خواهند آموخت که چگونه داده‌های جریانی را در دتا بریکس مدیریت کنند، از جمله راه‌اندازی خطوط لوله جریانی، کار با API‌های جریانی و پیاده‌سازی آنالیزهای زمان واقعی. این فصل همچنین بهترین شیوه‌ها برای مدیریت داده‌های جریانی در مقیاس بزرگ را بررسی می‌کند.

فصل ۷. ایجاد جدول‌های زنده دلتا:

جدول‌های زنده دلتا در این فصل به عنوان ابزاری قدرتمند برای ساخت خطوط لوله داده‌ای قابل اعتماد و قابل نگهداری معرفی می‌شوند.

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، توضیح می‌دهد که چگونه جدول‌های زنده دلتا را ایجاد و مدیریت کنیم، اقدامات کنترل کیفیت را پیاده‌سازی کنیم و از آن‌ها برای داده‌های بچ و جریانی استفاده کنیم.

خوانندگان خواهند آموخت که چگونه از جدول‌های زنده دلتا برای ساده‌سازی گردش‌کار مهندسی داده خود و بهبود قابلیت اطمینان داده استفاده کنند.

فصل ۸. تقسیم‌بندی و مخلوط‌سازی داده‌ها:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، به جزئیات تقسیم‌بندی داده‌ها و مخلوط‌سازی در اسپارک و دتا بریکس می‌پردازد. این فصل توضیح می‌دهد که این فرآیندها چگونه بر عملکرد در یک محیط محاسباتی توزیع شده تأثیر می‌گذارند.

خوانندگان استراتژی‌هایی برای تقسیم‌بندی مؤثر داده‌ها، تکنیک‌هایی برای بهینه‌سازی عملیات مخلوط‌سازی و راه‌هایی برای اجتناب از دام‌های رایجی که می‌تواند منجر به گلوگاه‌های عملکرد شود، خواهند آموخت.

فصل ۹. بهینه‌سازی عملکرد و شیوه‌ها:

با تمرکز بر بهینه‌، این فصل به خوانندگان می‌آموزد که چگونه نقاط ضعف عملکردی در برنامه‌های دیتابریکس خود را شناسایی و برطرف کنند.

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، شامل طیف وسیعی از موضوعات از جمله بهینه‌سازی پرسش‌ها، مدیریت منابع، استراتژی‌های کش و تنظیم پیکربندی اسپارک است. در پایان این فصل، خوانندگان مهارت‌های لازم برای بهبود قابل توجه عملکرد جریان‌های کاری مهندسی داده‌های خود را خواهند داشت.

فصل ۱۰. مدیریت جریان کاری:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، اصول مدیریت و خودکارسازی جریان‌های کاری مهندسی داده‌ها در دیتابریکس را بررسی می‌کند. این فصل موضوعاتی مانند برنامه‌ریزی کارها، مدیریت وابستگی و مدیریت خطاها در خطوط داده پیچیده را شامل می‌شود. خوانندگان یاد خواهند گرفت که چگونه از ابزارهای جریان کاری دیتابریکس برای هماهنگی فرآیندهای داده به صورت کارآمد و قابل اعتماد استفاده کنند.

فصل ۱۱. انبار SQL دیتابریکس:

مفهوم انبارهای SQL بدون سرور در این فصل معرفی می‌شود. خوانندگان یاد خواهند گرفت که چگونه دیتابریکس از محاسبات بدون سرور برای بارهای کاری SQL استفاده می‌کند، که بار عملیاتی را کاهش می‌دهد. این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، شامل راه‌اندازی و بهینه‌سازی انبارهای SQL، نوشتن پرسش‌های SQL کارآمد و یکپارچه‌سازی جریان‌های کاری SQL با سایر اجزای دیتابریکس است.

فصل ۱۲. ذخیره‌سازی داده‌ها و کاتالوگ واحد:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، بر روی راه‌حل‌های ذخیره‌سازی داده‌ها در دیتابریکس و استفاده از کاتالوگ واحد برای حاکمیت داده‌ها تمرکز دارد.

این فصل شامل موضوعاتی مانند معماری دریاچه داده، بهینه‌سازی‌های دلتا لیک و نسخه‌گذاری داده‌ها است. خوانندگان یاد خواهند گرفت که چگونه از کاتالوگ واحد برای مدیریت متاداده، کنترل دسترسی به دارایی‌های داده و اطمینان از تداوم داده‌ها در محیط دیتابریکس خود استفاده کنند.

فصل ۱۳. نظارت بر خوشه و شغل‌های دیتابریکس:

نظارت برای حفظ لوله‌های داده سالم حیاتی است. این فصل به خوانندگان می‌آموزد چگونه به طور مؤثر خوشه‌ها و شغل‌های دیتابریکس را نظارت کنند. این فصل شامل معیارهای عملکرد خوشه،یک‌های نظارت بر شغل و نحوه راه‌اندازی هشدارها و داشبوردها است. خوانندگان یاد خواهند گرفت چگونه به طور پیشگیرانه مسائل را در محیط دیتابریکس خود شناسایی و حل کنند.

فصل ۱۴. استراتژی‌های استقرار در تولید:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، بر روی استراتژی‌های استقرار راه‌حل‌های دیتابریکس در محیط‌های تولید تمرکز دارد.

این فصل شامل موضوعاتی مانند مدیریت محیط، کنترل نسخه و شیوه‌های یکپارچگی مداوم/استقرار مداوم (CI/CD) برای لوله‌های داده است. خوانندگان بهترین شیوه‌ها را برای اطمینان از انتقال‌های روان و قابل اعتماد از توسعه به تولید یاد خواهند گرفت.

فصل ۱۵. نگهداری لوله‌های داده در تولید:

با تکیه بر فصل قبلی، این فصل به نگهداری مداوم لوله‌های داده در تولید می‌پردازد. این فصل شامل موضوعاتی مانند نظارت بر کیفیت داده، مدیریت تکامل طرح‌واره و اجرای استراتژی‌های بازیابی داده است. خوانندگان یاد خواهند گرفت چگونه از قابلیت اطمینان و مقیاس‌پذیری بلندمدت لوله‌های داده دیتابریکس خود اطمینان حاصل کنند.

فصل ۱۶. مدیریت امنیت داده و حاکمیت:

امنیت داده و حاکمیت در هر پروژه مهندسی داده‌ای حیاتی است. این فصل به بررسی ویژگی‌های امنیتی دیتابریکس می‌پردازد، از جمله رمزنگاری داده، کنترل دسترسی و ثبت لاگ‌های حسابرسی. همچنین به شیوه‌های حاکمیت داده می‌پردازد و به خوانندگان کمک می‌کند تا از انطباق با مقررات داده و سیاست‌های داخلی اطمینان حاصل کنند.

فصل ۱۷. موارد استفاده مهندسی داده در جهان واقعی با دیتابریکس:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، مطالعات موردی دقیق از صنایع مختلف را ارائه می‌دهد و نشان می‌دهد چگونه از دیتابریکس برای حل چالش‌های مهندسی داده در دنیای واقعی استفاده می‌شود. این فصل شامل مثال‌هایی از صنایع FMCG، بهداشت و درمان و خودروسازی است و بینش‌های عملی برای به‌کارگیری دیتابریکس در زمینه‌های مختلف کسب‌وکار را به خوانندگان ارائه می‌دهد.

فصل ۱۸. اصول هوش مصنوعی و یادگیری ماشین:

این فصل از کتاب Mastering Data Engineering and Analytics with Databricks، مفاهیم اساسی در هوش مصنوعی و یادگیری ماشین را در ارتباط با مهندسی داده معرفی می‌کند.

موضوعاتی مانند مهندسی ویژگی، آموزش و استقرار مدل، و شیوه‌های MLOps در Databricks را پوشش می‌دهد. خوانندگان یاد خواهند گرفت که چگونه جریان‌های کاری هوش مصنوعی و یادگیری ماشین را در خطوط لوله مهندسی داده خود ادغام کنند.

فصل ۱۹. ادغام دیتابریکس با ابزارهای خارجی:

فصل نهایی به بررسی نحوه ادغام Databricks با ابزارها و خدمات خارجی می‌پردازد. این شامل ادغام با ابزارهای محبوب BI، پلتفرم‌های تجسم داده و سایر خدمات ابری می‌شود. خوانندگان خواهند آموخت که چگونه یک اکوسیستم داده‌ای جامع با دیتابریکس در هسته آن ایجاد کنند و از طیف گسترده‌ای از ابزارها و خدمات داده‌ای بهره ببرند.

چیزی که کتاب Mastering Data Engineering and Analytics with Databricks را متمایز می‌کند، رویکرد عملی آن است. هر فصل پر از مثال‌های عملی، بهترین شیوه‌ها و سناریوهای دنیای واقعی است که می‌توانید بلافاصله در پروژه‌های خود به کار ببرید. ما مفاهیم پیچیده را به بخش‌های قابل هضم تبدیل کرده‌ایم، به طوری که نه تنها نحوه هر تکنیک را درک کنید بلکه دلیل پشت هر تکنیک را نیز بفهمید.

هدف این است که شما را با دانش و مهارت‌های لازم برای برتری در زمینه مهندسی داده‌ها توانمند کنیم. الهام این کتاب از تعاملات بی‌شماری با همکاران، مربیان و دانشجویان ناشی می‌شود – که همگی به نوعی در سفر یادگیری سهم داشته‌اند. این روحیه همکاری جامعه داده است که کتاب قصد دارد آن را در این صفحات به تصویر بکشد و منتقل کند.

به یاد داشته باشید، مهندسی داده فقط نوشتن کد یا مدیریت پایگاه‌های داده نیست؛ بلکه حل مشکلات دنیای واقعی و ایجاد ارزش تجاری از طریق داده‌هاست. همان‌طور که در این کتاب پیش می‌روید، به یاد داشته باشید که به طور انتقادی فکر کنید، با جسارت آزمایش کنید و همیشه هدف نهایی را در نظر داشته باشید.

چه به دنبال ساخت پایپ‌لاین‌های داده مقیاس‌پذیر باشید، چه پیاده‌سازی تحلیل‌های زمان واقعی، یا پایه‌گذاری برای برنامه‌های پیشرفته هوش مصنوعی و یادگیری ماشین، تسلط بر مهندسی داده و تحلیل‌ها با دیتابریکس همراه مورد اعتماد شما خواهد بود.

پس بیایید با هم به این سفر هیجان‌انگیز بپردازیم. باشد که کتاب Mastering Data Engineering and Analytics with Databricks شما را به فراتر رفتن از مرزهای ممکن با داده‌ها الهام بخشد و کنجکاوی شما را برای ادامه یادگیری و نوآوری شعله‌ور کند.

کدنویسی و مهندسی داده خوش بگذره!

سرفصل‌های کتاب Mastering Data Engineering and Analytics with Databricks:

Cover Page
Title Page
Copyright Page
Dedication Page
About the Author
About the Technical Reviewers
Acknowledgements
Preface
Errata
Table of Contents
SECTION 1 Getting Started with Data Engineering and Databricks
- 1. Introducing Data Engineering with Databricks
- 2. Setting Up a Databricks Environment for Data Engineering
- 3. Working with Databricks Utilities and Clusters
SECTION 2 Building Robust Data Pipelines with Databricks
- 4. Extracting and Loading Data Using Databricks
- 5. Transforming Data with Databricks
- 6. Handling Streaming Data with Databricks
- 7. Creating Delta Live Tables
- 8. Data Partitioning and Shuffling
- 9. Performance Tuning and Best Practices
- 10. Workflow Management
- 11. Databricks SQL Warehouse
- 12. Data Storage and Unity Catalog
- 13. Monitoring Databricks Clusters and Jobs
- 14. Production Deployment Strategies
- 15. Maintaining Data Pipelines in Production
- 16. Managing Data Security and Governance
- 17. Real-World Data Engineering Use Cases with Databricks
- 18. Al and ML Essentials
Index

جهت دانلود کتاب Mastering Data Engineering and Analytics with Databricks می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub
ویرایش	First
ISBN	978-81-96862-01-5
تعداد صفحات	526
انتشارات	Orange Education Pvt Ltd
سال انتشار	2024
حجم	111.43 مگابایت
نویسنده	Manoj Kumar

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Mastering Data Engineering and Analytics with Databricks”

کتاب Mastering Data Engineering and Analytics with Databricks

خرید کتاب Mastering Data Engineering and Analytics with Databricks:

مقدمه‌ای بر کتاب Mastering Data Engineering and Analytics with Databricks:

سرفصل‌های کتاب Mastering Data Engineering and Analytics with Databricks:

دیدگاهها

خرید کتاب Mastering Data Engineering and Analytics with Databricks:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: