کتاب Advanced Analytics with PySpark نسخه Early Release RAW & UNEDITED با نام کامل Patterns for Learning from Data at Scale Using Python and Spark یک کتاب با ارزش برای آموزش آنالیز داده و داده کاوی با استفاده از ابزار PySpark میباشد. این کتاب با زبانی ساده و در محیط عملیاتی این ابزار قدرتمند را آموزش داده است.
در ادامه به شرح مقدمهای از کتاب Advanced Analytics with PySpark از زبان نویسنده خواهیم پرداخت.
مقدمهای بر کتاب Advanced Analytics with PySpark:
وقتی مردم میگویند ما در عصر دادههای بزرگ زندگی میکنیم منظورشان این است که ما ابزارهایی برای جمعآوری، ذخیره و پردازش اطلاعات در مقیاسی که قبلاً نشنیده بود، داریم. کارهای زیر را به سادگی نمیتوان 10 یا 15 سال پیش انجام داد: ایجاد مدلی برای تشخیص تقلب در کارت اعتباری با استفاده از هزاران ویژگی و میلیاردها معامله. هوشمندانه میلیونها محصول را به میلیونها کاربر توصیه کنید برآورد ریسک مالی از طریق شبیهسازی نمونه کارها که شامل میلیونها میشود.
ابزارها به راحتی دادههای هزاران ژنوم انسانی را برای تشخیص ارتباطات ژنتیکی با بیماری دستکاری کنید. ارزیابی کاربری زمین کشاورزی و عملکرد محصول برای بهبود سیاستگذاری با پردازش دورهای میلیونها تصویر ماهوارهای. برای پردازش حجم عظیمی از دادهها معرفی Apache Hadoop در اواخر دهه 2000 منجر به پذیرش گسترده محاسبات توزیعشده شد. از آن زمان اکوسیستم داده بزرگ و ابزارها با سرعت زیادی تکامل یافته است. در 5 سال گذشته نیز شاهد معرفی و پذیرش بسیاری از کتابخانههای یادگیری ماشین منبع باز و یادگیری عمیق بوده ایم. هدف این ابزارها استفاده از حجم وسیعی از دادههایی است که اکنون جمعآوری و ذخیره می کنیم.
اما همانطور که یک اسکنه و یک تکه سنگ مجسمه نمیسازند، بین دسترسی به این ابزارها و همه این دادهها و انجام کار مفید با آن فاصله وجود دارد. اغلب، “انجام کار مفید” به معنای قرار دادن طرحواره روی دادههای جداول و استفاده از SQL برای پاسخ به سؤالاتی از جمله “از بین کاربران gazillion که در فرآیند ثبت نام ما به صفحه سوم رسیدهاند، چند نفر بیش از 25 نفر هستند؟” زمینه چگونگی معماری ذخیرهسازی دادهها و سازماندهی اطلاعات (انبارهای داده، دریاچههای داده و غیره) برای سهولت پاسخگویی به چنین سؤالات الهایی بسیار غنی است، اما ما در کتاب Advanced Analytics with PySpark بیشتر از پیچیدگیهای آن اجتناب میکنیم.
گاهی اوقات، “انجام کار مفید” کمی کار اضافی میطلبد. SQL هنوز هم ممکن است در رویکرد اصلی باشد، اما برای کارکردن در مورد ویژگیهای منحصر به فرد در دادهها یا انجام تجزیه و تحلیل پیچیده، ما به یک الگوی برنامهنویسی انعطافپذیرتر و با عملکرد غنی در زمینههایی مانند یادگیری ماشین و آمار نیاز داریم. اینجاست که علم داده وارد میشود و این همان چیزی است که ما در کتاب Advanced Analytics with PySpark قصد داریم در مورد آن صحبت کنیم.
کار با کلان داده
بسیاری از ابزارهای کوچک داده مورد علاقه ما هنگام کار با دادههای بزرگ به دیوار برخورد میکنند. کتابخانههایی مانند Pandas مجهز به دادههایی نیستند که در RAM ما جا نمیگیرند. سپس، یک فرآیند معادل چگونه باید باشد که بتواند از خوشههای رایانه برای دستیابی به نتایج یکسان در مجموعه دادههای بزرگ استفاده کند؟
چالشهای محاسبه توزیعشده ما را ملزم میکند که بسیاری از مفروضات اساسی را که در سیستمهای تکگرهای به آنها متکی هستیم، تجدید نظر کنیم. به عنوان مثال، از آنجا که دادهها باید در بسیاری از گرههای یک خوشه تقسیمبندی شوند، الگوریتمهایی که وابستگی گستردهای به دادهها دارند از این واقعیت که سرعت انتقال شبکه به ترتیب کمتر از دسترسی به حافظه است، آسیب خواهند دید.
با افزایش تعداد ماشینهایی که روی یک مشکل کار میکنند، احتمال خرابی افزایش مییابد. این حقایق مستلزم یک پارادایم برنامهنویسی است که نسبت به ویژگیهای سیستم زیربنایی حساس باشد: یکی که از انتخابهای ضعیف جلوگیری میکند و نوشتن کدهایی را که به طور موازی اجرا میشوند آسان می سازد.
همچنین شما میتوانید علاوه بر کتاب Advanced Analytics with PySpark، برای آشنایی با ابزار Apache Hadoop از کتاب Hadoop The Definitive Guide نیز استفاده نمائید.
سرفصلهای کتاب Advanced Analytics with PySpark:
- Chapter 1. Analyzing Big Data
- Chapter 2. Introduction to Data Analysis with PySpark
- Chapter 3. Recommending Music and the Audioscrobbler Data Set
- Chapter 4. Predicting Forest Cover with Decision Trees
- Chapter 5. Anomaly Detection in Network Traffic with K-means Clustering
- Chapter 6. Geospatial and Temporal Data Analysis on New York City Taxi Trip Data
- Chapter 7. Estimating Financial Risk
فایل کتاب Advanced Analytics with PySpark را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.