کتاب Data Engineering with Scala and Spark: Build streaming and batch pipelines that process massive amounts of data using Scala (مهندسی داده با اسکالا و اسپارک: خط لوله های جریانی و دسته ای ایجاد کنید که حجم عظیمی از داده ها را با استفاده از اسکالا پردازش می کند) یک راهنمای ضروری برای مهندسان داده و توسعهدهندگان نرمافزار است که با هدف بهرهگیری از قدرت Scala و Apache Spark برای ساخت خطوط لوله داده قوی و مقیاسپذیر میباشند.
این کتاب بینشهای جامع و تکنیکهای عملی را برای طراحی و پیادهسازی سیستمهای پردازش دادههای جریانی و دستهای ارائه میدهد و خوانندگان را قادر میسازد تا بر هنر مدیریت حجم زیادی از دادهها به طور مؤثر تسلط پیدا کنند.
کتاب Data Engineering with Scala and Spark با تمرکز بر برنامههای کاربردی دنیای واقعی و بهترین شیوهها، متخصصان را با دانش و ابزارهای مورد نیاز برای ساخت خطوط لوله داده انعطافپذیر و با کارایی بالا مجهز میکند.
چه برای اولین بار است که به مهندسی داده میپردازید یا به دنبال تعمیق تخصص خود هستید، \”مهندسی داده با اسکالا و اسپارک\” احتمالاً به عنوان یک همراه ارزشمند برای تسلط بر پردازش دادهها با اسکالا و اسپارک عمل میکند.
در ادامه مقدمهای از کتاب Data Engineering with Scala and Spark را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Data Engineering with Scala and Spark:
امروزه هر شرکتی صرف نظر از صنعت، یک شرکت داده است. شرکتهای نوآور از دادهها برای تجزیه و تحلیل گذشته، پیشبینی آنچه رخ خواهد داد و واکنش به آنچه اکنون در حال وقوع است استفاده میکنند. مهندسان داده امروزه برخی از حیاتیترین کارمندان شرکتها هستند. آنها برای جمعآوری، تمیز کردن و نگهداری مجموعه دادههای قابل اعتمادی که تحلیلگران، دانشمندان داده و ابزارهای گزارش برای ارائه بینش استفاده میکنند، ضروری هستند.
کتاب Data Engineering with Scala and Spark به شما میآموزد که از زبان برنامهنویسی اسکالا در چارچوب Spark و جدیدترین فناوریهای ابری برای ایجاد خطوط لوله داده پیوسته و راهاندازی شده استفاده کنید.
بیشتر بخوانید: کتاب Distributed Machine Learning with PySpark
شما این کار را با راهاندازی یک محیط مهندسی داده برای توسعه محلی و استقرار ابر توزیعشده مقیاسپذیر، با استفاده از بهترین شیوههای مهندسی داده، توسعه آزمایشمحور و یکپارچهسازی/تحویل مستمر (CI/CD) انجام خواهید داد. همچنین خطوط لوله سرتاسر خود را تنظیم و تنظیم خواهید کرد تا دادهها را به کاربران نهایی خود تحویل دهید.
کتاب Data Engineering with Scala and Spark برای چه کسی است؟
هدف این کتاب متخصصان داده است که در کار با دادهها تجربه دارند، اما میخواهند بفهمند چگونه میتوانند دادههای خام را با استفاده از Scala، Spark و آخرین رایانش ابری به منبع اطلاعاتی تمیز، قابل اعتماد و ارزشمند برای سازمان خود تبدیل کنند.
آنچه کتاب Data Engineering with Scala and Spark پوشش میدهد:
فصل ۱، Scala Essentials برای مهندسان داده، Scala را در مهندسی داده معرفی میکند، اهمیت آن را به دلیل ایمنی نوع، پذیرش توسط شرکتهای بزرگ مانند Netflix و Airbnb، ادغام بومی با Spark، پرورش ذهنیت مهندسی نرمافزار و تطبیقپذیری آن در هر دو موضوع معرفی میکند. برنامهنویسی گرا و کاربردی این فصل مفاهیمی مانند برنامهنویسی تابعی، اشیاء، کلاسها، توابع مرتبه بالاتر، چندشکلی، واریانس، انواع گزینهها، مجموعهها، تطبیق الگو، و موارد ضمنی در اسکالا را پوشش میدهد.
فصل ۲، تنظیم محیط، دو محیط توسعه خط لوله مهندسی داده را ارائه میدهد. اولی، یک راهاندازی مبتنی بر ابر، قابلیت حمل و دسترسی آسان را ارائه میدهد، اما هزینههایی را برای نگهداری سیستم متحمل میشود. دومی شامل استفاده از ماشین محلی است که نیاز به راهاندازی دارد اما از هزینههای ابری اجتناب میکند.
فصل ۳ کتاب Data Engineering with Scala and Spark، مقدمهای بر Apache Spark و APIهای آن – DataFrame، Dataset و Spark SQL، بر آپاچی اسپارک به عنوان یک چارچوب پردازش داده توزیع شده پیشرو تمرکز دارد. این بر مدیریت حجم دادههای بزرگ در میان خوشههای ماشین تأکید دارد. موضوعات شامل کار با Spark، ساخت برنامههای Spark با Scala، و درک Dataset و DataFrame APIهای Spark برای پردازش مؤثر دادهها است.
فصل ۴، کار با پایگاههای داده، به استفاده از پایگاههای اطلاعاتی رابطهای در خطوط لوله داده میپردازد، و بر کارایی خواندن و نوشتن در پایگاههای داده تأکید میکند. Spark API را پوشش میدهد و یک کتابخانه پایگاه داده ساده ایجاد میکند، API JDBC Spark را کاوش میکند، تنظیمات را بارگیری میکند، یک رابط ایجاد میکند و چندین عملیات پایگاه داده را اجرا میکند.
فصل ۵، فروشگاههایاشیاء و دریاچههای داده، سیر تحول از پایگاههای داده سنتی به دوران دریاچههای داده و خانههای دریاچه را به دلیل افزایش حجم دادهها مورد بحث قرار میدهد. تمرکز بر روی ذخایراشیا خواهد بود که هم برای دریاچههای داده و هم برای خانههای دریاچه اساسی هستند.
فصل ۶ کتاب Data Engineering with Scala and Spark، درک تبدیل دادهها، به مهارتهای Spark ضروری برای مهندسان داده که هدف آن تبدیل دادهها برای موارد استفاده پایین دستی است، عمیقتر میشود. این موضوعات پیشرفته Spark مانند تمایز بین تبدیلها و اقدامات، تجمیع، گروهبندی، پیوستن به دادهها، استفاده از توابع پنجره، و مدیریت انواع مجموعه دادههای پیچیده را پوشش میدهد.
فصل ۷ کتاب Data Engineering with Scala and Spark، پروفایل داده و کیفیت داده، بر اهمیت بررسی کیفیت دادهها در جلوگیری از مشکلات پایین دستی تأکید میکند. این کتابخانه Deequ را معرفی میکند، ابزار منبع باز آمازون، برای تعریف چک، انجام تجزیه و تحلیل، پیشنهاد محدودیتها و ذخیره معیارها.
فصل ۸، توسعه آزمایش محور، سلامت کد و قابلیت نگهداری، بهترین شیوههای توسعه نرمافزار را که در مهندسی داده، شناسایی نقص، سازگاری کد و امنیت اعمال میشود، مورد بحث قرار میدهد. این برنامه توسعه تست محور (TDD)، تستهای واحد، تستهای یکپارچهسازی، بررسی پوشش کد، تجزیه و تحلیل کد استاتیک، و اهمیت رنگبندی و سبک کد را برای شیوههای توسعه معرفی میکند.
فصل ۹، CI/CD با GitHub، مفاهیم یکپارچه سازی/تحویل مستمر (CI/CD) را در پروژههای مهندسی داده Scala با استفاده از GitHub معرفی میکند. CI/CD را به عنوان آزمایش و استقرار خودکار، با هدف تکرار سریع، کاهش خطا و کیفیت ثابت توضیح میدهد.
فصل ۱۰ کتاب Data Engineering with Scala and Spark، هماهنگسازی خط لوله داده، بر هماهنگی خط لوله داده تمرکز دارد و بر نیاز به هماهنگی یکپارچه کار و اطلاعرسانی خرابی تأکید میکند. ابزارهایی مانند Apache Airflow، Argo، Databricks Workflows و Azure Data Factory را معرفی میکند.
فصل ۱۱، تنظیم عملکرد، بر نقش حیاتی Spark UI در بهینهسازی عملکرد تأکید میکند. موضوعاتی مانند اصول اولیه Spark UI، تنظیم عملکرد، بهینهسازی منابع محاسباتی، درک انحراف دادهها، نمایهسازی و پارتیشنبندی را پوشش میدهد.
فصل ۱۲ کتاب Data Engineering with Scala and Spark، ساخت خطوط لوله دستهای با استفاده از اسپارک و اسکالا، تمام مهارتهای آموخته شده قبلی شما را برای ساخت خط لوله دستهای ترکیب میکند. این امر بر اهمیت پردازش دستهای، استفاده از پردازش توزیع شده Apache Spark و تطبیقپذیری Scala تأکید میکند. موضوعات مورد استفاده تجاری معمولی، معماری مدالیون، دریافت دستهای داده، تبدیل، بررسی کیفیت، بارگذاری در یک لایه سرویس و هماهنگی خط لوله را پوشش میدهد.
فصل ۱۳، ساخت خطوط لوله جریان با استفاده از اسپارک و اسکالا، بر ساخت خط لوله استریم تمرکز دارد، با تأکید بر انتقال دادهها در زمان واقعی با استفاده از هاب رویداد Azure، که به عنوان آپاچی کافکا برای ادغام Spark پیکربندی شده است. برای مدیریت کارآمد دادهها، از جریان ساختار یافته Spark و Scala استفاده میکند. موضوعات شامل درک موارد استفاده، انتقال دادههای جریانی، تبدیل، بارگذاری لایههای سرویس، و هماهنگسازی، با هدف تجهیز شما به مهارتهایی برای توسعه و پیادهسازی خطوط لوله مشابه در سازمانهایتان است.
سرفصلهای کتاب Data Engineering with Scala and Spark:
- Data Engineering with Scala and Spark
- Contributors
- About the reviewers
- Preface
- Part 1 – Introduction to Data Engineering, Scala, and an Environment Setup
- Chapter 1: Scala Essentials for Data Engineers
- Chapter 2: Environment Setup
- Part 2 – Data Ingestion, Transformation, Cleansing, and Profiling Using Scala and Spark
- Chapter 3: An Introduction to Apache Spark and Its APIs – DataFrame, Dataset, and Spark SQL
- Chapter 4: Working with Databases
- Chapter 5: Object Stores and Data Lakes
- Chapter 6: Understanding Data Transformation
- Chapter 7: Data Profiling and Data Quality
- Part 3 – Software Engineering Best Practices for Data Engineering in Scala
- Chapter 8: Test-Driven Development, Code Health, and Maintainability
- Chapter 9: CI/CD with GitHub
- Part 4 – Productionalizing Data Engineering Pipelines – Orchestration and Tuning
- Chapter 10: Data Pipeline Orchestration
- Chapter 11: Performance Tuning
- Part 5 – End-to-End Data Pipelines
- Chapter 12: Building Batch Pipelines Using Spark and Scala
- Chapter 13: Building Streaming Pipelines Using Spark and Scala
- Index
- Other Books You May Enjoy
جهت دانلود کتاب Data Engineering with Scala and Spark میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.