کتاب Machine Learning with PySpark یا یادگیری ماشین با PySpark از جدیدترین منابع آموزشی ابزار PySpark تا این زمان، جهت به کارگیری آن در یادگیری ماشین میباشد. این کتاب در 9 فصل علاوه بر آموزش مفاهیم یادگیری ماشین (Machine Learning) به پیادهسازی آنها توسط ابزار پای اسپارک میپردازد.
در ادامه مقدمهای از کتاب Machine Learning with PySpark را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Machine Learning with PySpark:
من با شما بسیار صادق خواهم بود. وقتی قرارداد نوشتن این نسخه دوم را امضا کردم، فکر کردم نوشتن کمی آسانتر است، اما نمیتوانستم در مورد این فرض اشتباه کنم. برای تکمیل فصلها زمان زیادی از من گرفته است. چیزی که من متوجه شدم این است که شکستن یک فرآیند فکری و گذاشتن آن روی کاغذ به متقاعد کنندهترین حالت هرگز آسان نیست. آزمایشهای مجدد بسیار زیادی در آن فرآیند وجود دارد، اما چیزی که کمک کرد، بلوک پایه یا طرح اولیه بود که قبلاً در اولین ویرایش این کتاب ایجاد شده بود.
چالش اصلی این بود که بفهمم چگونه میتوانم این کتاب را برای خوانندگان مرتبط تر و مفیدتر کنم. منظورم این است که به معنای واقعی کلمه هزاران کتاب در مورد این موضوع وجود دارد که ممکن است به عنوان کتاب دیگری در قفسه به پایان برسد.
برای یافتن پاسخ، زمان زیادی را صرف فکر کردن و مرور پیامهایی کردم که از بسیاری از افرادی که چاپ اول کتاب را خوانده بودند دریافت کردم. پس از مدتی چند الگو شروع به ظهور کردند. اولین درک این بود که دادهها با سرعت بسیار بیشتری تولید میشوند. فرض اصلی نسخه اول این بود که یک دانشمند داده باید حداقل با یک چارچوب کلان داده آشنا شود تا بتواند درگیری مقیاسپذیر ML را مدیریت کند.
لازم است آنها به تدریج از کتابخانههایی مانند sklearn که محدودیتهای خاصی از نظر مدیریت مجموعه دادههای بزرگ دارند دور شوند. این موضوع امروزه نیز بسیار مرتبط است، زیرا کسبوکارها میخواهند تا حد امکان از دادهها برای ایجاد بینش قدرتمند و قابل توجه استفاده کنند. از این رو، مردم برای یادگیری چیزهای جدید در مورد چارچوب Spark هیجانزده خواهند شد.
بیشتر بخوانید: کتاب Machine Learning Engineering with Python
اکثر کتابهایی که در این زمینه منتشر شدهاند یا خیلی مفصل بودند یا فاقد یک دید کلی بودند. خوانندگان واقعاً آسان شروع میکردند، اما پس از چند فصل، از آنجایی که محتوا بیش از حد فنی میشد، احساس غرق شدن میکردند. در نتیجه، خوانندگان بدون اینکه به اندازه کافی از کتاب استفاده کنند، تسلیم میشوند. به همین دلیل است که من میخواستم این کتاب را بنویسم که روشهای مختلف استفاده از یادگیری ماشینی را بدون عمیقتر شدن نشان میدهد، در عین حال متدولوژی کاملی را برای ساخت یک مدل ML از ابتدا نشان میدهد.
موضوع دیگری که میخواستم در این نسخه به آن بپردازم، محیط توسعه است. واضح بود که بسیاری از مردم با راهاندازی محیط مناسب در ماشین های محلی خود برای نصب صحیح Spark مشکل داشتند و میتوانستند مشکلات زیادی را ببینند. از این رو، من این نسخه را با استفاده از Databricks به عنوان پلتفرم توسعه هسته نوشتم که دسترسی به آن آسان است و نیازی نیست نگران راهاندازی چیزی در سیستم محلی باشید.
بهترین چیز در مورد استفاده از Databricks این است که پلتفرمی برای کدنویسی به چندین زبان مانند Python، R و Scala فراهم میکند. افزونه دیگر این نسخه این است که پایگاه کد توسعه سرتاسر مدلهای ML از جمله خودکار کردن مراحل میانی با استفاده از خطوط لوله اسپارک را نشان میدهد. کتابخانههای استفاده شده از آخرین نسخه Spark هستند.
کتاب Machine Learning with PySpark به سه بخش مختلف تقسیم شده است. بخش اول فرآیند دسترسی به Databricks و روشهای جایگزین برای استفاده از Spark را پوشش میدهد. به جزئیات معماری چارچوب Spark، همراه با مقدمهای بر یادگیری ماشین میپردازد. بخش دوم بر جزئیات مختلف الگوریتم یادگیری ماشین و اجرای خطوط لوله سرتاسر برای موارد استفاده مختلف در PySpark تمرکز دارد.
الگوریتمها به زبان ساده برای هر کسی توضیح داده شده است تا بتواند جزئیات را بخواند و درک کند. مجموعه دادههایی که در کتاب استفاده میشوند از نظر مقیاس نسبتاً کوچکتر هستند، اما روند کلی و مراحل روی دادههای بزرگ نیز یکسان باقی میماند. بخش سوم و آخر نحوه ساخت یک سیستم توصیهگر توزیع شده و پردازش زبان طبیعی در PySpark را نشان میدهد.
بخش پاداش ایجاد و تجسم جاسازیهای دنبالهای در PySpark را پوشش میدهد. کتاب Machine Learning with PySpark همچنین ممکن است برای تحلیلگران داده و مهندسان داده مرتبط باشد زیرا مراحل پردازش کلان داده با استفاده از PySpark را پوشش میدهد.
خوانندگانی که میخواهند به حوزه علم داده و یادگیری ماشین انتقال پیدا کنند، شروع این کتاب را آسانتر میکنند و میتوانند بعداً به تدریج مطالب پیچیدهتری را شروع کنند. مطالعات موردی و مثالهای ارائهشده در کتاب، پیگیری و درک مفاهیم اساسی را بسیار آسان میکند. علاوه بر این، کتابهای محدودی در PySpark موجود است و این کتاب مطمئناً ارزشی برای ارتقای مهارت خوانندگان خواهد داشت. نقطه قوت این کتاب در توضیح الگوریتمهای یادگیری ماشین به روشهای ساده و اتخاذ رویکردی عملی برای ساخت و آموزش آنها با استفاده از PySpark است.
من تمام تجربیات و آموختههایم را در این کتاب گذاشتهام و احساس میکنم که دقیقاً با آنچه که خوانندگان به دنبال ارتقای مهارت یا حل مشکلات ML هستند، مرتبط است. امیدوارم نکات مفیدی از این کتاب داشته باشید.
بیشتر بخوانید: کتاب Advanced Analytics with PySpark
سرفصلهای کتاب Machine Learning with PySpark:
- 1. Introduction to Spark
- 2. Manage Data with PySpark
- 3. Introduction to Machine Learning
- 4. Linear Regression
- 5. Logistic Regression
- 6. Random Forests Using PySpark
- 7. Clustering in PySpark
- 8. Recommender Systems
- 9. Natural Language Processing
- Index
فایل کتاب Machine Learning with PySpark را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.