کتاب Advanced Analytics with PySpark

جزئیات بیشتر و خرید محصول:

۱۴,۰۰۰ تومان

توضیحات

کتاب Advanced Analytics with PySpark نسخه Early Release RAW & UNEDITED با نام کامل Patterns for Learning from Data at Scale Using Python and Spark یک کتاب با ارزش برای آموزش آنالیز داده و داده کاوی با استفاده از ابزار PySpark می‌باشد. این کتاب با زبانی ساده و در محیط عملیاتی این ابزار قدرتمند را آموزش داده است.

در ادامه به شرح مقدمه‌ای از کتاب Advanced Analytics with PySpark از زبان نویسنده خواهیم پرداخت.

فصل 2 کتاب Advanced Analytics with PySpark

مقدمه‌ای بر کتاب Advanced Analytics with PySpark:

وقتی مردم می‌گویند ما در عصر داده‌های بزرگ زندگی می‌کنیم منظورشان این است که ما ابزارهایی برای جمع‌آوری، ذخیره و پردازش اطلاعات در مقیاسی که قبلاً نشنیده بود، داریم. کارهای زیر را به سادگی نمی‌توان 10 یا 15 سال پیش انجام داد: ایجاد مدلی برای تشخیص تقلب در کارت اعتباری با استفاده از هزاران ویژگی و میلیاردها معامله. هوشمندانه میلیون‌ها محصول را به میلیون‌ها کاربر توصیه کنید برآورد ریسک مالی از طریق شبیه‌سازی نمونه کارها که شامل میلیون‌ها می‌شود.

ابزارها به راحتی داده‌های هزاران ژنوم انسانی را برای تشخیص ارتباطات ژنتیکی با بیماری دستکاری کنید. ارزیابی کاربری زمین کشاورزی و عملکرد محصول برای بهبود سیاست‌گذاری با پردازش دوره‌ای میلیون‌ها تصویر ماهواره‌ای. برای پردازش حجم عظیمی از داده‌ها معرفی Apache Hadoop در اواخر دهه 2000 منجر به پذیرش گسترده محاسبات توزیع‌شده شد. از آن زمان اکوسیستم داده بزرگ و ابزارها با سرعت زیادی تکامل یافته است. در 5 سال گذشته نیز شاهد معرفی و پذیرش بسیاری از کتابخانه‌های یادگیری ماشین منبع باز و یادگیری عمیق بوده ایم. هدف این ابزارها استفاده از حجم وسیعی از داده‌هایی است که اکنون جمع‌آوری و ذخیره می کنیم.

اما همانطور که یک اسکنه و یک تکه سنگ مجسمه نمی‌سازند، بین دسترسی به این ابزارها و همه این داده‌ها و انجام کار مفید با آن فاصله وجود دارد. اغلب، “انجام کار مفید” به معنای قرار دادن طرحواره روی داده‌های جداول و استفاده از SQL برای پاسخ به سؤالاتی از جمله “از بین کاربران gazillion که در فرآیند ثبت نام ما به صفحه سوم رسیده‌اند، چند نفر بیش از 25 نفر هستند؟” زمینه چگونگی معماری ذخیره‌سازی داده‌ها و سازماندهی اطلاعات (انبارهای داده، دریاچه‌های داده و غیره) برای سهولت پاسخگویی به چنین سؤالات الهایی بسیار غنی است، اما ما در کتاب Advanced Analytics with PySpark بیشتر از پیچیدگی‌های آن اجتناب می‌کنیم.

گاهی اوقات، “انجام کار مفید” کمی کار اضافی می‌طلبد. SQL هنوز هم ممکن است در رویکرد اصلی باشد، اما برای کارکردن در مورد ویژگی‌های منحصر به فرد در داده‌ها یا انجام تجزیه و تحلیل پیچیده، ما به یک الگوی برنامه‌نویسی انعطاف‌پذیرتر و با عملکرد غنی در زمینه‌هایی مانند یادگیری ماشین و آمار نیاز داریم. اینجاست که علم داده وارد می‌شود و این همان چیزی است که ما در کتاب Advanced Analytics with PySpark قصد داریم در مورد آن صحبت کنیم.

فصل 4 کتاب Advanced Analytics with PySpark

کار با کلان داده

بسیاری از ابزارهای کوچک داده مورد علاقه ما هنگام کار با داده‌های بزرگ به دیوار برخورد می‌کنند. کتابخانه‌هایی مانند Pandas مجهز به داده‌هایی نیستند که در RAM ما جا نمی‌گیرند. سپس، یک فرآیند معادل چگونه باید باشد که بتواند از خوشه‌های رایانه برای دستیابی به نتایج یکسان در مجموعه داده‌های بزرگ استفاده کند؟

چالش‌های محاسبه توزیع‌شده ما را ملزم می‌کند که بسیاری از مفروضات اساسی را که در سیستم‌های تک‌گره‌ای به آن‌ها متکی هستیم، تجدید نظر کنیم. به عنوان مثال، از آنجا که داده‌ها باید در بسیاری از گره‌های یک خوشه تقسیم‌بندی شوند، الگوریتم‌هایی که وابستگی گسترده‌ای به داده‌ها دارند از این واقعیت که سرعت انتقال شبکه به ترتیب کمتر از دسترسی به حافظه است، آسیب خواهند دید.

با افزایش تعداد ماشین‌هایی که روی یک مشکل کار می‌کنند، احتمال خرابی افزایش می‌یابد. این حقایق مستلزم یک پارادایم برنامه‌نویسی است که نسبت به ویژگی‌های سیستم زیربنایی حساس باشد: یکی که از انتخاب‌های ضعیف جلوگیری می‌کند و نوشتن کدهایی را که به طور موازی اجرا می‌شوند آسان می سازد.

فصل 7 کتاب Advanced Analytics with PySpark

همچنین شما می‌توانید علاوه بر کتاب Advanced Analytics with PySpark، برای آشنایی با ابزار Apache Hadoop از کتاب Hadoop The Definitive Guide نیز استفاده نمائید.

سرفصل‌های کتاب Advanced Analytics with PySpark:

  • Chapter 1. Analyzing Big Data
  • Chapter 2. Introduction to Data Analysis with PySpark
  • Chapter 3. Recommending Music and the Audioscrobbler Data Set
  • Chapter 4. Predicting Forest Cover with Decision Trees
  • Chapter 5. Anomaly Detection in Network Traffic with K-means Clustering
  • Chapter 6. Geospatial and Temporal Data Analysis on New York City Taxi Trip Data
  • Chapter 7. Estimating Financial Risk

فایل کتاب Advanced Analytics with PySpark را می‌توانید پس از پرداخت، دریافت کنید.

توضیحات تکمیلی

فرمت کتاب

PDF

ویرایش

Early Access, First

ISBN

978-1-098-10358-3

تعداد صفحات

202

انتشارات

O'Reilly

سال انتشار

حجم

نویسنده

, , , ,

هیچ دیدگاهی برای این محصول نوشته نشده است.

اشتراک‌گذاری:

دیگر محصولات:

نماد اعتبار ما:

آدرس: اصفهان، فلکه ارتش

 

پشتیبانی از ساعت 18 تا 22: 09392868101

© کليه حقوق محصولات و محتوای اين سایت متعلق به مدیر سایت می‌باشد و هر گونه کپی‌برداری از محتوا و محصولات سایت پیگرد قانونی دارد.