کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse درباره مهندسی داده با استفاده از ابزارهای Apache Spark و Delta Lake و Lakehouse می‌باشد. این کتاب در 12 فصل به شرح مفصل مهندسی داده با این ابزارها پرداخته و همچنین با استفاده از مثال‌هایی کاربرد آن‌ها را روشن می‌کند.

در ادامه مقدمه‌ای از کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:

فصل 1، داستان مهندسی داده و تجزیه و تحلیل

فصل اول کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse، مفاهیم اصلی مهندسی داده را معرفی می‌کند. این شما را با دو معماری پردازش داده در داده‌های بزرگ آشنا می‌کند – Lambda و Kappa.

فصل 2، کشف معماری‌های Data Lake و ذخیره‌سازی

یکی از مهم‌ترین مفاهیم در مهندسی داده را معرفی می‌کند – جداسازی لایه‌های ذخیره‌سازی و محاسباتی. با رعایت این اصل، شما با ایده ساخت Data Lakes آشنا می‌شوید. درک این اصل کلیدی پایه و اساس درک شما از الگوهای طراحی Data Lakes امروزی را که بعداً در کتاب مورد بحث قرار می‌گیرد، ایجاد می‌کند.

فصل 3، مهندسی داده در Microsoft Azure

دنیای مهندسی داده را بر روی پلتفرم ابری Microsoft Azure معرفی می‌کند. شما را با تمام ابزارها و خدمات Azure که نقش اصلی را در اکوسیستم مهندسی داده Azure ایفا می‌کنند، آشنا می‌کند. این ابزارها و خدمات در سرتاسر کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse برای تمامی مثال‌های کاربردی مورد استفاده قرار خواهند گرفت.

فصل 4، درک خطوط لوله داده

شما را با ایده خطوط لوله داده آشنا می‌کند. این فصل دانش شما را در مورد مراحل مختلف مهندسی داده و اینکه چگونه خطوط لوله داده می‌توانند کارایی را با ادغام اجزای جداگانه با هم و اجرای آن‌ها به شیوه‌ای ساده افزایش دهند، افزایش می‌دهد.

فصل 5، مرحله جمع‌آوری داده‌ها – لایه برنز

فصل پنجم کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse، ما را در ساخت یک دریاچه داده با استفاده از معماری Lakehouse راهنمایی می‌کند. ما با جمع‌اوری داده‌ها و توسعه لایه برنز شروع خواهیم کرد.

فصل 6، درک Delta Lake

فصل ششم کتاب، Delta Lake را معرفی می‌کند و به شما کمک می‌کند تا به سرعت ویژگی‌های اصلی Delta Lake را کشف کنید. درک ویژگی‌های Delta Lake یک مهارت ضروری برای یک متخصص مهندسی داده است که می‌خواهد دریاچه‌های داده را با در نظر گرفتن تازگی داده‌ها، عملکرد سریع و حاکمیت بسازد. همچنین در مورد معماری لیک هاوس به تفصیل صحبت خواهیم کرد.

فصل 7، مرحله پردازش داده‌ها – لایه نقره‌ای

ساخت دریاچه داده را ادامه می دهد. تمرکز این فصل بر پاکسازی داده‌ها، استانداردسازی و ساخت لایه نقره با استفاده از Delta Lake خواهد بود.

فصل 8، مرحله تجمع داده‌ها – لایه طلا

ساخت دریاچه داده را ادامه می‌دهد. تمرکز این فصل بر روی تجمیع داده‌ها و ساخت لایه طلا خواهد بود.

فصل 9، استقرار و نظارت بر خطوط لوله در تولید

نحوه مدیریت مؤثر خطوط لوله داده در حال اجرا در تولید را توضیح می‌دهد. ما مدیریت خط لوله داده را از منظر عملیاتی بررسی خواهیم کرد و امنیت، مدیریت عملکرد و نظارت را پوشش خواهیم داد.

فصل 10، حل چالش‌های مهندسی داده

چالش‌های عمده‌ای را که متخصصان مهندسی داده تجربه کرده‌اند، فهرست می‌کند. موارد استفاده مختلف در این فصل پوشش داده خواهد شد و یک چالش ارائه خواهد شد. ما عمیقاً به مدیریت مؤثر چالش خواهیم پرداخت و حل آن را با استفاده از تکه‌های کد و مثال‌ها توضیح می‌دهیم.

فصل 11، تأمین زیرساخت

اصول اولیه تأمین زیرساخت با استفاده از Terraform را به شما آموزش می‌دهد. با استفاده از Terraform، منابع ابری مایکروسافت Azure را که برای اجرای خط لوله داده مورد نیاز است، فراهم می‌کنیم.

فصل 12، یکپارچه‌سازی و استقرار مداوم خطوط لوله داده

فصل آخر کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse، ایده یکپارچه‌سازی و استقرار پیوسته (CI/CD) خطوط لوله داده را معرفی می‌کند. با استفاده از اصول CI/CD، متخصصان مهندسی داده می توانند به سرعت خطوط لوله داده جدید/تغییرات را در خطوط لوله داده‌های موجود به روشی تکرارپذیر مستقر کنند.

همچنین شما می‌توانید برای آشنایی بیشتر با Apache Spark از کتاب Spark in Action نیز استفاده نمائید.

سرفصل‌های کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:

Preface
Section 1: Modern Data Engineering and Tools
- 1 The Story of Data Engineering and Analytics
- 2 Discovering Storage and Compute Data Lakes
- 3 Data Engineering on Microsoft Azure
Section 2: Data Pipelines and Stages of Data Engineering
- 4 Understanding Data Pipelines
- 5 Data Collection Stage – The Bronze Layer
- 6 Understanding Delta Lake
- 7 Data Curation Stage – The Silver Layer
- 8 Data Aggregation Stage – The Gold Layer
Section 3: Data Engineering Challenges and Effective Deployment Strategies
- 9 Deploying and Monitoring Pipelines in Production
- 10 Solving Data Engineering Challenges
- 11 Infrastructure Provisioning
- 12 Continuous Integration and Deployment (CI/CD) of Data Pipelines
Index

فایل کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse را می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	PDF
ویرایش	First
ISBN	978-1-80107-774-3
تعداد صفحات	480
انتشارات	Packt
سال انتشار	2021
نویسنده	Danil Zburivsky, Manoj Kukreja
حجم	16.17 مگابایت

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse”

کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse

خرید کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:

مقدمه‌ای بر کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:

سرفصل‌های کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:

دیدگاهها

خرید کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: