کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse درباره مهندسی داده با استفاده از ابزارهای Apache Spark و Delta Lake و Lakehouse میباشد. این کتاب در 12 فصل به شرح مفصل مهندسی داده با این ابزارها پرداخته و همچنین با استفاده از مثالهایی کاربرد آنها را روشن میکند.
در ادامه مقدمهای از کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:
فصل 1، داستان مهندسی داده و تجزیه و تحلیل
فصل اول کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse، مفاهیم اصلی مهندسی داده را معرفی میکند. این شما را با دو معماری پردازش داده در دادههای بزرگ آشنا میکند – Lambda و Kappa.
فصل 2، کشف معماریهای Data Lake و ذخیرهسازی
یکی از مهمترین مفاهیم در مهندسی داده را معرفی میکند – جداسازی لایههای ذخیرهسازی و محاسباتی. با رعایت این اصل، شما با ایده ساخت Data Lakes آشنا میشوید. درک این اصل کلیدی پایه و اساس درک شما از الگوهای طراحی Data Lakes امروزی را که بعداً در کتاب مورد بحث قرار میگیرد، ایجاد میکند.
فصل 3، مهندسی داده در Microsoft Azure
دنیای مهندسی داده را بر روی پلتفرم ابری Microsoft Azure معرفی میکند. شما را با تمام ابزارها و خدمات Azure که نقش اصلی را در اکوسیستم مهندسی داده Azure ایفا میکنند، آشنا میکند. این ابزارها و خدمات در سرتاسر کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse برای تمامی مثالهای کاربردی مورد استفاده قرار خواهند گرفت.
فصل 4، درک خطوط لوله داده
شما را با ایده خطوط لوله داده آشنا میکند. این فصل دانش شما را در مورد مراحل مختلف مهندسی داده و اینکه چگونه خطوط لوله داده میتوانند کارایی را با ادغام اجزای جداگانه با هم و اجرای آنها به شیوهای ساده افزایش دهند، افزایش میدهد.
فصل 5، مرحله جمعآوری دادهها – لایه برنز
فصل پنجم کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse، ما را در ساخت یک دریاچه داده با استفاده از معماری Lakehouse راهنمایی میکند. ما با جمعاوری دادهها و توسعه لایه برنز شروع خواهیم کرد.
فصل 6، درک Delta Lake
فصل ششم کتاب، Delta Lake را معرفی میکند و به شما کمک میکند تا به سرعت ویژگیهای اصلی Delta Lake را کشف کنید. درک ویژگیهای Delta Lake یک مهارت ضروری برای یک متخصص مهندسی داده است که میخواهد دریاچههای داده را با در نظر گرفتن تازگی دادهها، عملکرد سریع و حاکمیت بسازد. همچنین در مورد معماری لیک هاوس به تفصیل صحبت خواهیم کرد.
فصل 7، مرحله پردازش دادهها – لایه نقرهای
ساخت دریاچه داده را ادامه می دهد. تمرکز این فصل بر پاکسازی دادهها، استانداردسازی و ساخت لایه نقره با استفاده از Delta Lake خواهد بود.
فصل 8، مرحله تجمع دادهها – لایه طلا
ساخت دریاچه داده را ادامه میدهد. تمرکز این فصل بر روی تجمیع دادهها و ساخت لایه طلا خواهد بود.
فصل 9، استقرار و نظارت بر خطوط لوله در تولید
نحوه مدیریت مؤثر خطوط لوله داده در حال اجرا در تولید را توضیح میدهد. ما مدیریت خط لوله داده را از منظر عملیاتی بررسی خواهیم کرد و امنیت، مدیریت عملکرد و نظارت را پوشش خواهیم داد.
فصل 10، حل چالشهای مهندسی داده
چالشهای عمدهای را که متخصصان مهندسی داده تجربه کردهاند، فهرست میکند. موارد استفاده مختلف در این فصل پوشش داده خواهد شد و یک چالش ارائه خواهد شد. ما عمیقاً به مدیریت مؤثر چالش خواهیم پرداخت و حل آن را با استفاده از تکههای کد و مثالها توضیح میدهیم.
فصل 11، تأمین زیرساخت
اصول اولیه تأمین زیرساخت با استفاده از Terraform را به شما آموزش میدهد. با استفاده از Terraform، منابع ابری مایکروسافت Azure را که برای اجرای خط لوله داده مورد نیاز است، فراهم میکنیم.
فصل 12، یکپارچهسازی و استقرار مداوم خطوط لوله داده
فصل آخر کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse، ایده یکپارچهسازی و استقرار پیوسته (CI/CD) خطوط لوله داده را معرفی میکند. با استفاده از اصول CI/CD، متخصصان مهندسی داده می توانند به سرعت خطوط لوله داده جدید/تغییرات را در خطوط لوله دادههای موجود به روشی تکرارپذیر مستقر کنند.
همچنین شما میتوانید برای آشنایی بیشتر با Apache Spark از کتاب Spark in Action نیز استفاده نمائید.
سرفصلهای کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse:
- Preface
- Section 1: Modern Data Engineering and Tools
- 1 The Story of Data Engineering and Analytics
- 2 Discovering Storage and Compute Data Lakes
- 3 Data Engineering on Microsoft Azure
- Section 2: Data Pipelines and Stages of Data Engineering
- 4 Understanding Data Pipelines
- 5 Data Collection Stage – The Bronze Layer
- 6 Understanding Delta Lake
- 7 Data Curation Stage – The Silver Layer
- 8 Data Aggregation Stage – The Gold Layer
- Section 3: Data Engineering Challenges and Effective Deployment Strategies
- 9 Deploying and Monitoring Pipelines in Production
- 10 Solving Data Engineering Challenges
- 11 Infrastructure Provisioning
- 12 Continuous Integration and Deployment (CI/CD) of Data Pipelines
- Index
فایل کتاب Data Engineering with Apache Spark Delta Lake and Lakehouse را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.