کتاب Distributed Machine Learning with PySpark: Migrating Effortlessly from Pandas and Scikit-Learn (یادگیری ماشینی توزیع شده با PySpark: مهاجرت بدون زحمت از Pandas و Scikit-Learn) مفاهیم مربوط به یادگیری ماشین توزیع شده را با استفاده از کتابخانههای معروف PySpark, Pandas و Scikit-Learn را آموزش میدهد.
در ادامه مقدمهای از کتاب Distributed Machine Learning with PySpark را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Distributed Machine Learning with PySpark:
در سالهای اخیر، میزان دادههای تولید و جمعآوری شده توسط شرکتها و سازمانها به طور تصاعدی افزایش یافته است. در نتیجه، دانشمندان داده برای پردازش و تجزیه و تحلیل مقادیر زیادی از دادهها تحت فشار قرار گرفتهاند و ابزارهای محاسباتی تک گره سنتی مانند Pandas و Scikit-Learn ناکافی شدهاند. در پاسخ، بسیاری از دانشمندان داده به چارچوبهای محاسباتی توزیع شده مانند Apache Spark با رابط مبتنی بر پایتون، PySpark روی آوردهاند.
بیشتر بخوانید: کتاب Distributed Machine Learning Patterns
PySpark چندین مزیت نسبت به محاسبات تک گره دارد، از جمله توانایی مدیریت حجم زیادی از دادهها و پتانسیل زمان پردازش دادهها به طور قابل توجهی سریعتر. علاوه بر این، از آنجایی که PySpark بر روی Spark، یک چارچوب محاسباتی توزیع شده پرکاربرد ساخته شده است، مجموعه وسیعتری از ابزارها را برای پردازش داده و یادگیری ماشین ارائه میدهد.
در حالی که انتقال از Pandas و Scikit-Learn به PySpark ممکن است دلهرهآور به نظر برسد، انتقال میتواند نسبتاً ساده باشد. Pandas/Scikit-Learn و PySpark APIهای مشابهی را ارائه میدهند، به این معنی که بسیاری از دانشمندان داده میتوانند به راحتی از یکی به دیگری منتقل شوند.
در این زمینه، کتاب Distributed Machine Learning with PySpark مزایای استفاده از PySpark را نسبت به ابزارهای محاسباتی تک گره سنتی بررسی میکند و راهنماییهایی را برای دانشمندان دادهای که در حال بررسی انتقال به PySpark هستند، ارائه میکند.
در کتاب Distributed Machine Learning with PySpark، هدف ما ارائه یک نمای کلی از الگوریتمهای اصلی یادگیری ماشین با تمرکز ویژه بر رگرسیون و طبقهبندی است. اینها تکنیکهای اساسی هستند که ستون فقرات بسیاری از کاربردهای عملی یادگیری ماشین را تشکیل میدهند.
ما روشهای رایجی مانند رگرسیون خطی و لجستیک، درختهای تصمیمگیری، جنگلهای تصادفی، درختهای تقویتشده با گرادیان، ماشینهای بردار پشتیبان، Naive Bayes و شبکههای عصبی را پوشش خواهیم داد.
همچنین بحث خواهیم کرد که چگونه میتوان این الگوریتمها را برای مشکلات دنیای واقعی مانند پیشبینی قیمت خانه و احتمال ابتلا به دیابت و همچنین طبقهبندی ارقام دستنویس یا گونههای گل زنبق و پیشبینی خوش خیم یا بدخیم بودن تومور به کار برد. چه مبتدی باشید و چه یک متخصص با تجربه، این کتاب برای کمک به درک مفاهیم اصلی یادگیری ماشین و توسعه مهارتهای مورد نیاز برای به کارگیری این روشها در عمل طراحی شده است.
کتاب Distributed Machine Learning with PySpark شامل ۱۸ فصل است و چندین موضوع را پوشش میدهد. دو فصل اول بررسی میکنند که چرا مهاجرت از Pandas و Scikit-Learn به PySpark میتواند یک فرآیند یکپارچه باشد و به چالشهای انتخاب یک الگوریتم میپردازد.
فصلهای ۳ تا ۶ برخی از مدلهای رگرسیون رایج، یعنی رگرسیون خطی چندگانه، درختهای تصمیمگیری، جنگلهای تصادفی و درختهای تقویتشده با گرادیان را میسازند، آموزش میدهند و ارزیابی میکنند و از آنها برای مقابله با برخی از وظایف دنیای واقعی مانند پیشبینی قیمت خانه استفاده میکنند.
فصلهای ۷ تا ۱۲ با ساخت، آموزش و ارزیابی الگوریتمهای پرکاربرد مانند رگرسیون لجستیک، درختهای تصمیمگیری، جنگلهای تصادفی، ماشینهای بردار پشتیبان، Naive Bayes و شبکههای عصبی به مسائل طبقهبندی میپردازند.
در فصلهای ۱۳ تا ۱۵، سه نوع الگوریتم اضافی، یعنی سیستمهای توصیهگر، پردازش زبان طبیعی، و خوشهبندی با k-means را بررسی میکنیم. در سه فصل آخر، ما با تنظیم هایپرپارامتر، خطوط لوله و استقرار مدلها در تولید سروکار داریم.
سرفصلهای کتاب Distributed Machine Learning with PySpark:
- Cover
- Front Matter
- 1. An Easy Transition
- 2. Selecting Algorithms
- 3. Multiple Linear Regression with Pandas, Scikit-Learn, and PySpark
- 4. Decision Tree Regression with Pandas, Scikit-Learn, and PySpark
- 5. Random Forest Regression with Pandas, Scikit-Learn, and PySpark
- 6. Gradient-Boosted Tree Regression with Pandas, Scikit-Learn, and PySpark
- 7. Logistic Regression with Pandas, Scikit-Learn, and PySpark
- 8. Decision Tree Classification with Pandas, Scikit-Learn, and PySpark
- 9. Random Forest Classification with Scikit-Learn and PySpark
- 10. Support Vector Machine Classification with Pandas, Scikit-Learn, and PySpark
- 11. Naive Bayes Classification with Pandas, Scikit-Learn, and PySpark
- 12. Neural Network Classification with Pandas, Scikit-Learn, and PySpark
- 13. Recommender Systems with Pandas, Surprise, and PySpark
- 14. Natural Language Processing with Pandas, Scikit-Learn, and PySpark
- 15. k-Means Clustering with Pandas, Scikit-Learn, and PySpark
- 16. Hyperparameter Tuning with Scikit-Learn and PySpark
- 17. Pipelines with Scikit-Learn and PySpark
- 18. Deploying Models in Production with Scikit-Learn and PySpark
- Back Matter
جهت دانلود کتاب Distributed Machine Learning with PySpark میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.