کتاب Data Algorithms with Spark نسخه Early Release، از جدیدترین کتاب‌های آموزش علوم داده با استفاده از ابزار Apache Spark است. این کتاب در 12 فصل به شما مقدمات الگوریتم‌های علم داده را به همراه پیاده‌سازی آن‌ها در اسپارک آموزش خواهد داد.

در ادامه مقدمه‌ای از کتاب Data Algorithms with Spark را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Data Algorithms with Spark:

یادداشتی برای خوانندگان با انتشار زودهنگام

با کتاب‌های الکترونیکی انتشار زودهنگام، کتاب‌هایی را در اولین شکل دریافت می‌کنید – محتوای خام و ویرایش نشده نویسنده در حین نوشتن – بنابراین می‌توانید مدت‌ها قبل از انتشار رسمی این عناوین از این فناوری‌ها بهره ببرید.

این پیشگفتار کتاب پایانی خواهد بود. مخزن GitHub برای این کتاب در https://github.com/mahmoudparsian/data-algorithms-with-spark موجود است.

اگر نظراتی در مورد اینکه چگونه می‌توانیم محتوا و/یا مثال‌های کتاب Data Algorithms with Spark را بهبود ببخشیم، یا اگر متوجه مطالب گمشده در این فصل شده‌اید، لطفاً با ویرایشگر mpotter@oreilly.com تماس بگیرید.

Spark به یک استاندارد واقعی برای تجزیه و تحلیل داده در مقیاس بزرگ تبدیل شده است. من در 9 سال گذشته (از زمان شروع آن) از Spark استفاده و آموزش داده‌ام و شاهد پیشرفت‌های فوق‌العاده‌ای در فرآیندهای ETL، توسعه الگوریتم‌های توزیع شده و تجزیه و تحلیل داده‌ها در مقیاس بزرگ بوده‌ام.

برای این کتاب، PySpark (API Python برای Spark) را انتخاب کردم، زیرا بیان قدرت Spark در پایتون آسانتر است: کد کوتاه، قابل خواندن و قابل نگهداری است. من شروع به استفاده از Spark با جاوا کردم، و متوجه شدم که در حالی که کد بسیار پایدار است، شما باید خطوط طولانی کد بنویسید، که ممکن است غیرقابل خواندن باشد. PySpark قدرتمند است، اما استفاده از آن ساده است و می‌توانید هر ETL یا الگوریتم توزیع شده را در آن با مجموعه ای از تبدیل‌ها و اقدامات ساده بیان کنید.

چرا این کتاب نوشته شد؟

این کتاب مقدماتی برای تجزیه و تحلیل داده‌ها با استفاده از PySpark است. من این کتاب را به عنوان مجموعه‌ای از دستورالعمل‌ها و مثال‌ها نوشتم تا به مهندسان نرم‌افزار و داده کمک کنم تا مشکلات داده‌ها را به ساده‌ترین روش ممکن حل کنند.

همانطور که می‌دانید، راه‌های زیادی برای حل هر مشکل داده وجود دارد: PySpark ما را قادر می‌سازد تا کدهای ساده‌ای را برای مسائل پیچیده داده بنویسیم. این شعاری است که سعی کردم در کتاب Data Algorithms with Spark بیان کنم: آن را ساده نگه دارید و پارامترها را قرار دهید تا راه حل شما توسط توسعه‌دهندگان دیگر مورد استفاده مجدد قرار گیرد.

هدف من از نگارش کتاب Data Algorithms with Spark معرفی الگوهای اساسی تبدیل داده‌ها به روشی بسیار ساده برای حل مسائل پیچیده داده بود. برای ساده نگه داشتن آن، فکر می‌کنم بهتر است در مورد داده‌ها، مبدأ داده‌ها و شکل نهایی و مقصد آن اطلاعات کسب کنید و آن‌ها را درک کنید.

کتاب Data Algorithms with Spark برای چه کسی است؟

برای استفاده موثر از این کتاب، فرض می کنم که شما اصول اولیه زبان برنامه‌نویسی پایتون را می‌دانید. حتی اگر زبان برنامه‌نویسی دیگری (مانند جاوا، اسکلا، …) می‌دانید، اما پایتون را نمی دانید، باز هم می توانید از این کتاب استفاده کنید. از پایتون، باید if-then-else، تکرار لیست‌ها و توابع (نحوه تعریف و فراخوانی یک تابع) را بدانید. من یک مقدمه معقول برای Spark و PySpark ارائه کرده‌ام.

کتاب Data Algorithms with Spark در درجه اول برای کسانی است که می‌خواهند حجم زیادی از داده‌ها را تجزیه و تحلیل کنند و الگوریتم‌های توزیع شده را با استفاده از موتور اسپارک و PySpark توسعه دهند. من مثال‌های ساده‌ای برای اجرای ETL و نوشتن الگوریتم‌های توزیع شده شما در PySpark ارائه کرده‌ام. من نمونه‌های کد را به گونه‌ای نوشته‌ام که می‌توانید نمونه‌های کد را برش و جایگذاری کنید تا بتوانید به راحتی کار را انجام دهید.

کدهای نمونه در Github منبع خوبی برای شروع کار با پروژه داده شخصی شما خواهد بود.

نحوه تنظیم این کتاب

کتاب Data Algorithms with Spark در 12 فصل تنظیم شده است.

فصل 1-4:

4 فصل اول اصول PySpark را پوشش می‌دهد: تبدیل داده‌ها، مانند نقشه‌کش‌ها، فیلترها و کاهش‌دهنده‌ها). 4 فصل اول مثال‌های عملی زیادی برای شروع پروژه‌های PySpark خود دارند. به طور خلاصه، می‌توان گفت که بیش از 95 درصد از مشکلات داده را می‌توان با استفاده از تبدیل داده‌های ساده PySpark (مانند map()، flatMap()، filter() و reduceByKey()) که در 4 فصل اول معرفی شد، از این کتاب حل کرد.

فصل 1: نمای سطح بالایی از الگوریتم‌های داده ارائه می‌دهد و Spark و PySpark را برای حل مسائل تحلیلی داده‌ها معرفی می‌کند.

فصل 2: نحوه چسباندن تبدیل‌های Spark (نقشه‌نگارها، فیلترها و کاهنده‌ها) را برای حل مشکلات داده واقعی نشان می‌دهد.

فصل 3: متداول‌ترین تبدیل‌های نقشه‌بردار را معرفی می‌کند. با تسلط بر map()، filter()، flatMap() و mapPartitions()، هیچ مشکلی در پیاده‌سازی تبدیل‌های mapper نخواهید داشت.

فصل 4: تبدیل‌های کاهشی (مانند ()reducByKey، groupByKey() و combinationByKey()) را ارائه می‌کند که نقش بسیار مهمی در گروه‌بندی داده‌ها بر اساس کلیدها دارند. مثال‌های ساده اما مفید بسیاری ارائه می‌شود تا اطمینان حاصل شود که این کاهش‌ها می‌توانند به طور مؤثر مورد استفاده قرار گیرند.

فصل 5-8:

4 فصل بعدی کتاب Data Algorithms with Spark الگوریتم‌های نمودار، الگوریتم‌های رتبه‌بندی، پارتیشن‌بندی داده‌ها و خواندن/نوشتن داده‌ها از/به منابع مختلف داده را پوشش می‌دهد. الگوریتم‌های نمودار و یافتن موتیف توسط یک بسته خارجی Spark معرفی شده‌اند: GraphFrames. اگر می‌خواهید از BigQuery Google یا Amazon Athena برای جستجوی داده‌ها توسط SQL استفاده کنید، می‌توانید الگوریتم‌های پارتیشن‌بندی را برای داده‌های فیزیکی خود اعمال کنید. پارتیشن‌بندی داده‌ها شما را قادر می‌سازد تا تکه ای از داده‌ها را به جای کل داده‌ها پرس و جو کنید.

فصل 5: عملکردهایی را برای پارتیشن‌بندی فیزیکی داده‌ها بر روی ستون‌های داده خاص ارائه می‌دهد: این پارتیشن بندی پرس و جوهای SQL شما (در Amazon Athena و Google BigQuery) را قادر می‌سازد تا تکه ای از داده‌ها را به جای کل داده‌ها تجزیه و تحلیل کنند، که این امر عملکرد جستارهای SQL شما را بهبود می‌بخشد.

فصل 6: یکی از مهم‌ترین بسته‌های Spark خارجی را معرفی می‌کند: GraphFrames، که می‌تواند برای تجزیه و تحلیل نمودارهای بزرگ در محیط توزیع‌شده Spark استفاده شود.

فصل 7: قابلیت‌هایی برای خواندن/نوشتن داده‌ها از/به بسیاری از منابع داده مختلف ارائه می‌کند.

فصل 8: دو الگوریتم رتبه‌بندی مهم را ارائه می‌کند: رتبه صفحه (مورد استفاده در موتورهای جستجو) و رتبه محصول (مورد استفاده در تجزیه و تحلیل ژن).

فصل 9-12:

4 فصل پایانی کتاب Data Algorithms with Spark الگوهای طراحی داده‌های اساسی عملی را پوشش می‌دهد که غیررسمی هستند و با مثال‌های محکم ارائه شده‌اند. الگوهای طراحی داده‌های بنیادی معرفی شده اند که می‌توانید آن را در فرآیندهای ETL یا الگوریتم‌های توزیع شده خود اعمال کنید.

من سعی کرده ام در معرفی الگوهای طراحی داده غیررسمی باشم و به جای رسمیت، روی عملی بودن تمرکز کرده ام. فصل آخر الگوهای داده پایه را معرفی می‌کند که ممکن است در الگوریتم‌های یادگیری ماشین شما مورد استفاده قرار گیرند

فصل ۹: اصول الگوهای طراحی داده را که در حل بسیاری از الگوریتم‌های داده رایج هستند، ارائه می‌کند.

فصل 10: برخی از رایج‌ترین و کاربردی‌ترین الگوهای طراحی داده، مانند الگوهای خلاصه‌سازی و ترکیب‌کننده درون نگاشت را معرفی می‌کند. این الگوها به صورت غیررسمی با مثال‌های عملی ارائه می‌شوند.

فصل 11: الگوهای اتصال ساده را برای اتصال دو یا چند مجموعه داده ارائه می‌کند. برخی از معیارهای عملکرد برای بهبود کارایی الگوریتم‌های اتصال مورد بحث قرار گرفته‌اند.

فصل ۱۲: رایج‌ترین تکنیک‌های مهندسی ویژگی مورد استفاده در توسعه الگوریتم‌های یادگیری ماشین را ارائه می‌کند.

بیشتر بخوانید: کتاب Machine Learning with PySpark

سرفصل‌های کتاب Data Algorithms with Spark:

Preface
1. Introduction to Data Algorithms
2. Transformations in Action
3. Mapper Transformations
4. Reductions in Spark
5. Partitioning Data
6. Graph Algorithms
7. Interacting with External Data Sources
8. Ranking Algorithms
9. Fundamental Data Design Patterns
10. Common Data Design Patterns
11. Join Design Patterns
12. Feature Engineering in PySpark
About the Author

فایل کتاب Data Algorithms with Spark را می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	PDF
ویرایش	First
ISBN	978-1-492-08231-6
تعداد صفحات	644
انتشارات	O'Reilly
سال انتشار	2022
حجم	10 مگابایت, 10.07 مگابایت
نویسنده	Mahmoud Parsian

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Data Algorithms with Spark”

کتاب Data Algorithms with Spark

خرید کتاب Data Algorithms with Spark:

مقدمه‌ای بر کتاب Data Algorithms with Spark:

کتاب Data Algorithms with Spark برای چه کسی است؟

سرفصل‌های کتاب Data Algorithms with Spark:

دیدگاهها

خرید کتاب Data Algorithms with Spark:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: