کتاب Data Algorithms with Spark نسخه Early Release، از جدیدترین کتابهای آموزش علوم داده با استفاده از ابزار Apache Spark است. این کتاب در 12 فصل به شما مقدمات الگوریتمهای علم داده را به همراه پیادهسازی آنها در اسپارک آموزش خواهد داد.
در ادامه مقدمهای از کتاب Data Algorithms with Spark را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Data Algorithms with Spark:
یادداشتی برای خوانندگان با انتشار زودهنگام
با کتابهای الکترونیکی انتشار زودهنگام، کتابهایی را در اولین شکل دریافت میکنید – محتوای خام و ویرایش نشده نویسنده در حین نوشتن – بنابراین میتوانید مدتها قبل از انتشار رسمی این عناوین از این فناوریها بهره ببرید.
این پیشگفتار کتاب پایانی خواهد بود. مخزن GitHub برای این کتاب در https://github.com/mahmoudparsian/data-algorithms-with-spark موجود است.
اگر نظراتی در مورد اینکه چگونه میتوانیم محتوا و/یا مثالهای کتاب Data Algorithms with Spark را بهبود ببخشیم، یا اگر متوجه مطالب گمشده در این فصل شدهاید، لطفاً با ویرایشگر [email protected] تماس بگیرید.
Spark به یک استاندارد واقعی برای تجزیه و تحلیل داده در مقیاس بزرگ تبدیل شده است. من در 9 سال گذشته (از زمان شروع آن) از Spark استفاده و آموزش دادهام و شاهد پیشرفتهای فوقالعادهای در فرآیندهای ETL، توسعه الگوریتمهای توزیع شده و تجزیه و تحلیل دادهها در مقیاس بزرگ بودهام.
برای این کتاب، PySpark (API Python برای Spark) را انتخاب کردم، زیرا بیان قدرت Spark در پایتون آسانتر است: کد کوتاه، قابل خواندن و قابل نگهداری است. من شروع به استفاده از Spark با جاوا کردم، و متوجه شدم که در حالی که کد بسیار پایدار است، شما باید خطوط طولانی کد بنویسید، که ممکن است غیرقابل خواندن باشد. PySpark قدرتمند است، اما استفاده از آن ساده است و میتوانید هر ETL یا الگوریتم توزیع شده را در آن با مجموعه ای از تبدیلها و اقدامات ساده بیان کنید.
چرا این کتاب نوشته شد؟
این کتاب مقدماتی برای تجزیه و تحلیل دادهها با استفاده از PySpark است. من این کتاب را به عنوان مجموعهای از دستورالعملها و مثالها نوشتم تا به مهندسان نرمافزار و داده کمک کنم تا مشکلات دادهها را به سادهترین روش ممکن حل کنند.
همانطور که میدانید، راههای زیادی برای حل هر مشکل داده وجود دارد: PySpark ما را قادر میسازد تا کدهای سادهای را برای مسائل پیچیده داده بنویسیم. این شعاری است که سعی کردم در کتاب Data Algorithms with Spark بیان کنم: آن را ساده نگه دارید و پارامترها را قرار دهید تا راه حل شما توسط توسعهدهندگان دیگر مورد استفاده مجدد قرار گیرد.
هدف من از نگارش کتاب Data Algorithms with Spark معرفی الگوهای اساسی تبدیل دادهها به روشی بسیار ساده برای حل مسائل پیچیده داده بود. برای ساده نگه داشتن آن، فکر میکنم بهتر است در مورد دادهها، مبدأ دادهها و شکل نهایی و مقصد آن اطلاعات کسب کنید و آنها را درک کنید.
کتاب Data Algorithms with Spark برای چه کسی است؟
برای استفاده موثر از این کتاب، فرض می کنم که شما اصول اولیه زبان برنامهنویسی پایتون را میدانید. حتی اگر زبان برنامهنویسی دیگری (مانند جاوا، اسکلا، …) میدانید، اما پایتون را نمی دانید، باز هم می توانید از این کتاب استفاده کنید. از پایتون، باید if-then-else، تکرار لیستها و توابع (نحوه تعریف و فراخوانی یک تابع) را بدانید. من یک مقدمه معقول برای Spark و PySpark ارائه کردهام.
کتاب Data Algorithms with Spark در درجه اول برای کسانی است که میخواهند حجم زیادی از دادهها را تجزیه و تحلیل کنند و الگوریتمهای توزیع شده را با استفاده از موتور اسپارک و PySpark توسعه دهند. من مثالهای سادهای برای اجرای ETL و نوشتن الگوریتمهای توزیع شده شما در PySpark ارائه کردهام. من نمونههای کد را به گونهای نوشتهام که میتوانید نمونههای کد را برش و جایگذاری کنید تا بتوانید به راحتی کار را انجام دهید.
کدهای نمونه در Github منبع خوبی برای شروع کار با پروژه داده شخصی شما خواهد بود.
نحوه تنظیم این کتاب
کتاب Data Algorithms with Spark در 12 فصل تنظیم شده است.
فصل 1-4:
4 فصل اول اصول PySpark را پوشش میدهد: تبدیل دادهها، مانند نقشهکشها، فیلترها و کاهشدهندهها). 4 فصل اول مثالهای عملی زیادی برای شروع پروژههای PySpark خود دارند. به طور خلاصه، میتوان گفت که بیش از 95 درصد از مشکلات داده را میتوان با استفاده از تبدیل دادههای ساده PySpark (مانند map()، flatMap()، filter() و reduceByKey()) که در 4 فصل اول معرفی شد، از این کتاب حل کرد.
فصل 1: نمای سطح بالایی از الگوریتمهای داده ارائه میدهد و Spark و PySpark را برای حل مسائل تحلیلی دادهها معرفی میکند.
فصل 2: نحوه چسباندن تبدیلهای Spark (نقشهنگارها، فیلترها و کاهندهها) را برای حل مشکلات داده واقعی نشان میدهد.
فصل 3: متداولترین تبدیلهای نقشهبردار را معرفی میکند. با تسلط بر map()، filter()، flatMap() و mapPartitions()، هیچ مشکلی در پیادهسازی تبدیلهای mapper نخواهید داشت.
فصل 4: تبدیلهای کاهشی (مانند ()reducByKey، groupByKey() و combinationByKey()) را ارائه میکند که نقش بسیار مهمی در گروهبندی دادهها بر اساس کلیدها دارند. مثالهای ساده اما مفید بسیاری ارائه میشود تا اطمینان حاصل شود که این کاهشها میتوانند به طور مؤثر مورد استفاده قرار گیرند.
فصل 5-8:
4 فصل بعدی کتاب Data Algorithms with Spark الگوریتمهای نمودار، الگوریتمهای رتبهبندی، پارتیشنبندی دادهها و خواندن/نوشتن دادهها از/به منابع مختلف داده را پوشش میدهد. الگوریتمهای نمودار و یافتن موتیف توسط یک بسته خارجی Spark معرفی شدهاند: GraphFrames. اگر میخواهید از BigQuery Google یا Amazon Athena برای جستجوی دادهها توسط SQL استفاده کنید، میتوانید الگوریتمهای پارتیشنبندی را برای دادههای فیزیکی خود اعمال کنید. پارتیشنبندی دادهها شما را قادر میسازد تا تکه ای از دادهها را به جای کل دادهها پرس و جو کنید.
فصل 5: عملکردهایی را برای پارتیشنبندی فیزیکی دادهها بر روی ستونهای داده خاص ارائه میدهد: این پارتیشن بندی پرس و جوهای SQL شما (در Amazon Athena و Google BigQuery) را قادر میسازد تا تکه ای از دادهها را به جای کل دادهها تجزیه و تحلیل کنند، که این امر عملکرد جستارهای SQL شما را بهبود میبخشد.
فصل 6: یکی از مهمترین بستههای Spark خارجی را معرفی میکند: GraphFrames، که میتواند برای تجزیه و تحلیل نمودارهای بزرگ در محیط توزیعشده Spark استفاده شود.
فصل 7: قابلیتهایی برای خواندن/نوشتن دادهها از/به بسیاری از منابع داده مختلف ارائه میکند.
فصل 8: دو الگوریتم رتبهبندی مهم را ارائه میکند: رتبه صفحه (مورد استفاده در موتورهای جستجو) و رتبه محصول (مورد استفاده در تجزیه و تحلیل ژن).
فصل 9-12:
4 فصل پایانی کتاب Data Algorithms with Spark الگوهای طراحی دادههای اساسی عملی را پوشش میدهد که غیررسمی هستند و با مثالهای محکم ارائه شدهاند. الگوهای طراحی دادههای بنیادی معرفی شده اند که میتوانید آن را در فرآیندهای ETL یا الگوریتمهای توزیع شده خود اعمال کنید.
من سعی کرده ام در معرفی الگوهای طراحی داده غیررسمی باشم و به جای رسمیت، روی عملی بودن تمرکز کرده ام. فصل آخر الگوهای داده پایه را معرفی میکند که ممکن است در الگوریتمهای یادگیری ماشین شما مورد استفاده قرار گیرند
فصل ۹: اصول الگوهای طراحی داده را که در حل بسیاری از الگوریتمهای داده رایج هستند، ارائه میکند.
فصل 10: برخی از رایجترین و کاربردیترین الگوهای طراحی داده، مانند الگوهای خلاصهسازی و ترکیبکننده درون نگاشت را معرفی میکند. این الگوها به صورت غیررسمی با مثالهای عملی ارائه میشوند.
فصل 11: الگوهای اتصال ساده را برای اتصال دو یا چند مجموعه داده ارائه میکند. برخی از معیارهای عملکرد برای بهبود کارایی الگوریتمهای اتصال مورد بحث قرار گرفتهاند.
فصل ۱۲: رایجترین تکنیکهای مهندسی ویژگی مورد استفاده در توسعه الگوریتمهای یادگیری ماشین را ارائه میکند.
بیشتر بخوانید: کتاب Machine Learning with PySpark
سرفصلهای کتاب Data Algorithms with Spark:
Preface
1. Introduction to Data Algorithms
2. Transformations in Action
3. Mapper Transformations
4. Reductions in Spark
5. Partitioning Data
6. Graph Algorithms
7. Interacting with External Data Sources
8. Ranking Algorithms
9. Fundamental Data Design Patterns
10. Common Data Design Patterns
11. Join Design Patterns
12. Feature Engineering in PySpark
About the Author
فایل کتاب Data Algorithms with Spark را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.