کتاب Data Engineering with Scala and Spark: Build streaming and batch pipelines that process massive amounts of data using Scala (مهندسی داده با اسکالا و اسپارک: خط لوله های جریانی و دسته ای ایجاد کنید که حجم عظیمی از داده ها را با استفاده از اسکالا پردازش می کند) یک راهنمای ضروری برای مهندسان داده و توسعه‌دهندگان نرم‌افزار است که با هدف بهره‌گیری از قدرت Scala و Apache Spark برای ساخت خطوط لوله داده قوی و مقیاس‌پذیر می‌باشند.

این کتاب بینش‌های جامع و تکنیک‌های عملی را برای طراحی و پیاده‌سازی سیستم‌های پردازش داده‌های جریانی و دسته‌ای ارائه می‌دهد و خوانندگان را قادر می‌سازد تا بر هنر مدیریت حجم زیادی از داده‌ها به طور مؤثر تسلط پیدا کنند.

کتاب Data Engineering with Scala and Spark با تمرکز بر برنامه‌های کاربردی دنیای واقعی و بهترین شیوه‌ها، متخصصان را با دانش و ابزار‌های مورد نیاز برای ساخت خطوط لوله داده انعطاف‌پذیر و با کارایی بالا مجهز می‌کند.

چه برای اولین بار است که به مهندسی داده می‌پردازید یا به دنبال تعمیق تخصص خود هستید، \”مهندسی داده با اسکالا و اسپارک\” احتمالاً به عنوان یک همراه ارزشمند برای تسلط بر پردازش داده‌ها با اسکالا و اسپارک عمل می‌کند.

در ادامه مقدمه‌ای از کتاب Data Engineering with Scala and Spark را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Data Engineering with Scala and Spark:

امروزه هر شرکتی صرف نظر از صنعت، یک شرکت داده است. شرکت‌های نوآور از داده‌ها برای تجزیه و تحلیل گذشته، پیش‌بینی آنچه رخ خواهد داد و واکنش به آنچه اکنون در حال وقوع است استفاده می‌کنند. مهندسان داده امروزه برخی از حیاتی‌ترین کارمندان شرکت‌ها هستند. آن‌ها برای جمع‌آوری، تمیز کردن و نگهداری مجموعه داده‌های قابل اعتمادی که تحلیلگران، دانشمندان داده و ابزار‌های گزارش برای ارائه بینش استفاده می‌کنند، ضروری هستند.

کتاب Data Engineering with Scala and Spark به شما می‌آموزد که از زبان برنامه‌نویسی اسکالا در چارچوب Spark و جدیدترین فناوری‌های ابری برای ایجاد خطوط لوله داده پیوسته و راه‌اندازی شده استفاده کنید.

بیشتر بخوانید: کتاب Distributed Machine Learning with PySpark

شما این کار را با راه‌اندازی یک محیط مهندسی داده برای توسعه محلی و استقرار ابر توزیع‌شده مقیاس‌پذیر، با استفاده از بهترین شیوه‌های مهندسی داده، توسعه آزمایش‌محور و یکپارچه‌سازی/تحویل مستمر (CI/CD) انجام خواهید داد. همچنین خطوط لوله سرتاسر خود را تنظیم و تنظیم خواهید کرد تا داده‌ها را به کاربران نهایی خود تحویل دهید.

کتاب Data Engineering with Scala and Spark برای چه کسی است؟

هدف این کتاب متخصصان داده است که در کار با داده‌ها تجربه دارند، اما می‌خواهند بفهمند چگونه می‌توانند داده‌های خام را با استفاده از Scala، Spark و آخرین رایانش ابری به منبع اطلاعاتی تمیز، قابل اعتماد و ارزشمند برای سازمان خود تبدیل کنند.

آنچه کتاب Data Engineering with Scala and Spark پوشش می‌دهد:

فصل ۱، Scala Essentials برای مهندسان داده، Scala را در مهندسی داده معرفی می‌کند، اهمیت آن را به دلیل ایمنی نوع، پذیرش توسط شرکت‌های بزرگ مانند Netflix و Airbnb، ادغام بومی با Spark، پرورش ذهنیت مهندسی نرم‌افزار و تطبیق‌پذیری آن در هر دو موضوع معرفی می‌کند. برنامه‌نویسی گرا و کاربردی این فصل مفاهیمی مانند برنامه‌نویسی تابعی، ‌اشیاء، کلاس‌ها، توابع مرتبه بالاتر، چندشکلی، واریانس، انواع گزینه‌ها، مجموعه‌ها، تطبیق الگو، و موارد ضمنی در اسکالا را پوشش می‌دهد.

فصل ۲، تنظیم محیط، دو محیط توسعه خط لوله مهندسی داده را ارائه می‌دهد. اولی، یک راه‌اندازی مبتنی بر ابر، قابلیت حمل و دسترسی آسان را ارائه می‌دهد، اما هزینه‌هایی را برای نگهداری سیستم متحمل می‌شود. دومی شامل استفاده از ماشین محلی است که نیاز به راه‌اندازی دارد اما از هزینه‌های ابری اجتناب می‌کند.

فصل ۳ کتاب Data Engineering with Scala and Spark، مقدمه‌ای بر Apache Spark و API‌های آن – DataFrame، Dataset و Spark SQL، بر آپاچی اسپارک به عنوان یک چارچوب پردازش داده توزیع شده پیشرو تمرکز دارد. این بر مدیریت حجم داده‌های بزرگ در میان خوشه‌های ماشین تأکید دارد. موضوعات شامل کار با Spark، ساخت برنامه‌های Spark با Scala، و درک Dataset و DataFrame API‌های Spark برای پردازش مؤثر داده‌ها است.

فصل ۴، کار با پایگاه‌های داده، به استفاده از پایگاه‌های اطلاعاتی رابطه‌ای در خطوط لوله داده می‌پردازد، و بر کارایی خواندن و نوشتن در پایگاه‌های داده تأکید می‌کند. Spark API را پوشش می‌دهد و یک کتابخانه پایگاه داده ساده ایجاد می‌کند، API JDBC Spark را کاوش می‌کند، تنظیمات را بارگیری می‌کند، یک رابط ایجاد می‌کند و چندین عملیات پایگاه داده را اجرا می‌کند.

فصل ۵، فروشگاه‌های‌اشیاء و دریاچه‌های داده، سیر تحول از پایگاه‌های داده سنتی به دوران دریاچه‌های داده و خانه‌های دریاچه را به دلیل افزایش حجم داده‌ها مورد بحث قرار می‌دهد. تمرکز بر روی ذخایر‌اشیا خواهد بود که هم برای دریاچه‌های داده و هم برای خانه‌های دریاچه اساسی هستند.

فصل ۶ کتاب Data Engineering with Scala and Spark، درک تبدیل داده‌ها، به مهارت‌های Spark ضروری برای مهندسان داده که هدف آن تبدیل داده‌ها برای موارد استفاده پایین دستی است، عمیق‌تر می‌شود. این موضوعات پیشرفته Spark مانند تمایز بین تبدیل‌ها و اقدامات، تجمیع، گروه‌بندی، پیوستن به داده‌ها، استفاده از توابع پنجره، و مدیریت انواع مجموعه داده‌های پیچیده را پوشش می‌دهد.

فصل ۷ کتاب Data Engineering with Scala and Spark، پروفایل داده و کیفیت داده، بر اهمیت بررسی کیفیت داده‌ها در جلوگیری از مشکلات پایین دستی تأکید می‌کند. این کتابخانه Deequ را معرفی می‌کند، ابزار منبع باز آمازون، برای تعریف چک، انجام تجزیه و تحلیل، پیشنهاد محدودیت‌ها و ذخیره معیار‌ها.

فصل ۸، توسعه آزمایش محور، سلامت کد و قابلیت نگهداری، بهترین شیوه‌های توسعه نرم‌افزار را که در مهندسی داده، شناسایی نقص، سازگاری کد و امنیت اعمال می‌شود، مورد بحث قرار می‌دهد. این برنامه توسعه تست محور (TDD)، تست‌های واحد، تست‌های یکپارچه‌سازی، بررسی پوشش کد، تجزیه و تحلیل کد استاتیک، و اهمیت رنگ‌بندی و سبک کد را برای شیوه‌های توسعه معرفی می‌کند.

فصل ۹، CI/CD با GitHub، مفاهیم یکپارچه سازی/تحویل مستمر (CI/CD) را در پروژه‌های مهندسی داده Scala با استفاده از GitHub معرفی می‌کند. CI/CD را به عنوان آزمایش و استقرار خودکار، با هدف تکرار سریع، کاهش خطا و کیفیت ثابت توضیح می‌دهد.

فصل ۱۰ کتاب Data Engineering with Scala and Spark، هماهنگ‌سازی خط لوله داده، بر هماهنگی خط لوله داده تمرکز دارد و بر نیاز به هماهنگی یکپارچه کار و اطلاع‌رسانی خرابی تأکید می‌کند. ابزار‌هایی مانند Apache Airflow، Argo، Databricks Workflows و Azure Data Factory را معرفی می‌کند.

فصل ۱۱، تنظیم عملکرد، بر نقش حیاتی Spark UI در بهینه‌سازی عملکرد تأکید می‌کند. موضوعاتی مانند اصول اولیه Spark UI، تنظیم عملکرد، بهینه‌سازی منابع محاسباتی، درک انحراف داده‌ها، نمایه‌سازی و پارتیشن‌بندی را پوشش می‌دهد.

فصل ۱۲ کتاب Data Engineering with Scala and Spark، ساخت خطوط لوله دسته‌ای با استفاده از اسپارک و اسکالا، تمام مهارت‌های آموخته شده قبلی شما را برای ساخت خط لوله دسته‌ای ترکیب می‌کند. این امر بر اهمیت پردازش دسته‌ای، استفاده از پردازش توزیع شده Apache Spark و تطبیق‌پذیری Scala تأکید می‌کند. موضوعات مورد استفاده تجاری معمولی، معماری مدالیون، دریافت دسته‌ای داده، تبدیل، بررسی کیفیت، بارگذاری در یک لایه سرویس و هماهنگی خط لوله را پوشش می‌دهد.

فصل ۱۳، ساخت خطوط لوله جریان با استفاده از اسپارک و اسکالا، بر ساخت خط لوله استریم تمرکز دارد، با تأکید بر انتقال داده‌ها در زمان واقعی با استفاده از هاب رویداد Azure، که به عنوان آپاچی کافکا برای ادغام Spark پیکربندی شده است. برای مدیریت کارآمد داده‌ها، از جریان ساختار یافته Spark و Scala استفاده می‌کند. موضوعات شامل درک موارد استفاده، انتقال داده‌های جریانی، تبدیل، بارگذاری لایه‌های سرویس، و هماهنگ‌سازی، با هدف تجهیز شما به مهارت‌هایی برای توسعه و پیاده‌سازی خطوط لوله مشابه در سازمانهایتان است.

سرفصل‌های کتاب Data Engineering with Scala and Spark:

Data Engineering with Scala and Spark
Contributors
About the reviewers
Preface
Part 1 – Introduction to Data Engineering, Scala, and an Environment Setup
- Chapter 1: Scala Essentials for Data Engineers
- Chapter 2: Environment Setup
Part 2 – Data Ingestion, Transformation, Cleansing, and Profiling Using Scala and Spark
- Chapter 3: An Introduction to Apache Spark and Its APIs – DataFrame, Dataset, and Spark SQL
- Chapter 4: Working with Databases
- Chapter 5: Object Stores and Data Lakes
- Chapter 6: Understanding Data Transformation
- Chapter 7: Data Profiling and Data Quality
Part 3 – Software Engineering Best Practices for Data Engineering in Scala
- Chapter 8: Test-Driven Development, Code Health, and Maintainability
- Chapter 9: CI/CD with GitHub
Part 4 – Productionalizing Data Engineering Pipelines – Orchestration and Tuning
- Chapter 10: Data Pipeline Orchestration
- Chapter 11: Performance Tuning
Part 5 – End-to-End Data Pipelines
- Chapter 12: Building Batch Pipelines Using Spark and Scala
- Chapter 13: Building Streaming Pipelines Using Spark and Scala
Index
Other Books You May Enjoy

جهت دانلود کتاب Data Engineering with Scala and Spark می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub, PDF
ویرایش	First
تعداد صفحات	300
ISBN	978-1-80461-258-3
انتشارات	Packt
سال انتشار	2024
حجم	11.83 مگابایت, 18.98 مگابایت
نویسنده	David Radford, Eric Tome, Rupam Bhattacharjee

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Data Engineering with Scala and Spark”

کتاب Data Engineering with Scala and Spark

خرید کتاب Data Engineering with Scala and Spark:

مقدمه‌ای بر کتاب Data Engineering with Scala and Spark:

سرفصل‌های کتاب Data Engineering with Scala and Spark:

دیدگاهها

خرید کتاب Data Engineering with Scala and Spark:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: