کتاب Advanced Analytics with PySpark نسخه Early Release RAW & UNEDITED با نام کامل Patterns for Learning from Data at Scale Using Python and Spark یک کتاب با ارزش برای آموزش آنالیز داده و داده کاوی با استفاده از ابزار PySpark می‌باشد. این کتاب با زبانی ساده و در محیط عملیاتی این ابزار قدرتمند را آموزش داده است.

در ادامه به شرح مقدمه‌ای از کتاب Advanced Analytics with PySpark از زبان نویسنده خواهیم پرداخت.

مقدمه‌ای بر کتاب Advanced Analytics with PySpark:

وقتی مردم می‌گویند ما در عصر داده‌های بزرگ زندگی می‌کنیم منظورشان این است که ما ابزارهایی برای جمع‌آوری، ذخیره و پردازش اطلاعات در مقیاسی که قبلاً نشنیده بود، داریم. کارهای زیر را به سادگی نمی‌توان 10 یا 15 سال پیش انجام داد: ایجاد مدلی برای تشخیص تقلب در کارت اعتباری با استفاده از هزاران ویژگی و میلیاردها معامله. هوشمندانه میلیون‌ها محصول را به میلیون‌ها کاربر توصیه کنید برآورد ریسک مالی از طریق شبیه‌سازی نمونه کارها که شامل میلیون‌ها می‌شود.

ابزارها به راحتی داده‌های هزاران ژنوم انسانی را برای تشخیص ارتباطات ژنتیکی با بیماری دستکاری کنید. ارزیابی کاربری زمین کشاورزی و عملکرد محصول برای بهبود سیاست‌گذاری با پردازش دوره‌ای میلیون‌ها تصویر ماهواره‌ای. برای پردازش حجم عظیمی از داده‌ها معرفی Apache Hadoop در اواخر دهه 2000 منجر به پذیرش گسترده محاسبات توزیع‌شده شد. از آن زمان اکوسیستم داده بزرگ و ابزارها با سرعت زیادی تکامل یافته است. در 5 سال گذشته نیز شاهد معرفی و پذیرش بسیاری از کتابخانه‌های یادگیری ماشین منبع باز و یادگیری عمیق بوده ایم. هدف این ابزارها استفاده از حجم وسیعی از داده‌هایی است که اکنون جمع‌آوری و ذخیره می کنیم.

اما همانطور که یک اسکنه و یک تکه سنگ مجسمه نمی‌سازند، بین دسترسی به این ابزارها و همه این داده‌ها و انجام کار مفید با آن فاصله وجود دارد. اغلب، “انجام کار مفید” به معنای قرار دادن طرحواره روی داده‌های جداول و استفاده از SQL برای پاسخ به سؤالاتی از جمله “از بین کاربران gazillion که در فرآیند ثبت نام ما به صفحه سوم رسیده‌اند، چند نفر بیش از 25 نفر هستند؟” زمینه چگونگی معماری ذخیره‌سازی داده‌ها و سازماندهی اطلاعات (انبارهای داده، دریاچه‌های داده و غیره) برای سهولت پاسخگویی به چنین سؤالات الهایی بسیار غنی است، اما ما در کتاب Advanced Analytics with PySpark بیشتر از پیچیدگی‌های آن اجتناب می‌کنیم.

گاهی اوقات، “انجام کار مفید” کمی کار اضافی می‌طلبد. SQL هنوز هم ممکن است در رویکرد اصلی باشد، اما برای کارکردن در مورد ویژگی‌های منحصر به فرد در داده‌ها یا انجام تجزیه و تحلیل پیچیده، ما به یک الگوی برنامه‌نویسی انعطاف‌پذیرتر و با عملکرد غنی در زمینه‌هایی مانند یادگیری ماشین و آمار نیاز داریم. اینجاست که علم داده وارد می‌شود و این همان چیزی است که ما در کتاب Advanced Analytics with PySpark قصد داریم در مورد آن صحبت کنیم.

کار با کلان داده

بسیاری از ابزارهای کوچک داده مورد علاقه ما هنگام کار با داده‌های بزرگ به دیوار برخورد می‌کنند. کتابخانه‌هایی مانند Pandas مجهز به داده‌هایی نیستند که در RAM ما جا نمی‌گیرند. سپس، یک فرآیند معادل چگونه باید باشد که بتواند از خوشه‌های رایانه برای دستیابی به نتایج یکسان در مجموعه داده‌های بزرگ استفاده کند؟

چالش‌های محاسبه توزیع‌شده ما را ملزم می‌کند که بسیاری از مفروضات اساسی را که در سیستم‌های تک‌گره‌ای به آن‌ها متکی هستیم، تجدید نظر کنیم. به عنوان مثال، از آنجا که داده‌ها باید در بسیاری از گره‌های یک خوشه تقسیم‌بندی شوند، الگوریتم‌هایی که وابستگی گسترده‌ای به داده‌ها دارند از این واقعیت که سرعت انتقال شبکه به ترتیب کمتر از دسترسی به حافظه است، آسیب خواهند دید.

با افزایش تعداد ماشین‌هایی که روی یک مشکل کار می‌کنند، احتمال خرابی افزایش می‌یابد. این حقایق مستلزم یک پارادایم برنامه‌نویسی است که نسبت به ویژگی‌های سیستم زیربنایی حساس باشد: یکی که از انتخاب‌های ضعیف جلوگیری می‌کند و نوشتن کدهایی را که به طور موازی اجرا می‌شوند آسان می سازد.

همچنین شما می‌توانید علاوه بر کتاب Advanced Analytics with PySpark، برای آشنایی با ابزار Apache Hadoop از کتاب Hadoop The Definitive Guide نیز استفاده نمائید.

سرفصل‌های کتاب Advanced Analytics with PySpark:

Chapter 1. Analyzing Big Data
Chapter 2. Introduction to Data Analysis with PySpark
Chapter 3. Recommending Music and the Audioscrobbler Data Set
Chapter 4. Predicting Forest Cover with Decision Trees
Chapter 5. Anomaly Detection in Network Traffic with K-means Clustering
Chapter 6. Geospatial and Temporal Data Analysis on New York City Taxi Trip Data
Chapter 7. Estimating Financial Risk

فایل کتاب Advanced Analytics with PySpark را می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	PDF
ویرایش	Early Access, First
ISBN	978-1-098-10358-3
تعداد صفحات	202
انتشارات	O'Reilly
سال انتشار	2022
حجم	1.69 مگابایت
نویسنده	Akash Tandon, Josh Wills, Sandy Ryza, Sean Owen, Uri Laserson

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Advanced Analytics with PySpark”

کتاب Advanced Analytics with PySpark

خرید کتاب Advanced Analytics with PySpark:

مقدمه‌ای بر کتاب Advanced Analytics with PySpark:

کار با کلان داده

سرفصل‌های کتاب Advanced Analytics with PySpark:

دیدگاهها

خرید کتاب Advanced Analytics with PySpark:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: