کتاب Essential PySpark for Scalable Data Analytics برای یادگیری آنالیز داده‌های مقیاس‌پذیر با استفاده از ابزار Apache Spark می‌باشد. این کتاب در 14 به آموزش مقدماتی تا بیان نکات پیشرفته‌ی این ابزار به همراه ترفندها و نکات مهم آن می‌پردازد.

در ادامه مقدمه‌ای از کتاب Essential PySpark for Scalable Data Analytics را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Essential PySpark for Scalable Data Analytics:

Apache Spark یک موتور تجزیه و تحلیل داده یکپارچه است که برای پردازش حجم عظیمی از داده‌ها به روشی سریع و کارآمد طراحی شده است. PySpark API زبان پایتون Apache Spark است که یک چارچوب تجزیه و تحلیل داده مقیاس‌پذیر با استفاده آسان را در اختیار توسعه‌دهندگان پایتون قرار می‌دهد. Essential PySpark برای تجزیه و تحلیل داده‌های مقیاس‌پذیر با کاوش در الگوی محاسباتی توزیع‌شده شروع می شود و یک نمای کلی از Apache Spark ارائه می‌دهد.

سپس سفر تجزیه و تحلیل داده خود را با فرآیند مهندسی داده آغاز خواهید کرد، یادگیری انجام جذب داده، پاکسازی داده‌ها و ادغام در مقیاس. این کتاب همچنین به شما کمک می‌کند خطوط لوله تجزیه و تحلیل بلادرنگ بسازید که به شما امکان می‌دهد خیلی سریعتر به بینش دست پیدا کنید. تکنیک‌های ساخت دریاچه‌های داده مبتنی بر ابر همراه با دریاچه دلتا ارائه شده است که قابلیت اطمینان و عملکرد را برای دریاچه‌های داده به ارمغان می‌آورد.

یک پارادایم جدید به نام Data Lakehouse ارائه شده است که ساختار و عملکرد یک انبار داده را با مقیاس‌پذیری دریاچه‌های داده مبتنی بر ابر ترکیب می‌کند. شما یاد خواهید گرفت که چگونه علم داده مقیاس‌پذیر و یادگیری ماشین را با استفاده از PySpark انجام دهید، از جمله آماده‌سازی داده‌ها، مهندسی ویژگی، آموزش مدل، و تکنیک‌های تولید مدل. تکنیک‌هایی برای مقیاس‌بندی کتابخانه‌های یادگیری ماشینی استاندارد پایتون به همراه یک API جدید پاندا مانند در بالای PySpark به نام Koalas ارائه شده است.

این کتاب برای چه کسی است؟

کتاب Essential PySpark for Scalable Data Analytics برای تمرین مهندسان داده، دانشمندان داده، تحلیلگران داده، تحلیلگران داده شهروندی و علاقه‌مندان به داده است که در حال حاضر از تجزیه و تحلیل داده‌ها برای کاوش در دنیای تجزیه و تحلیل داده‌های توزیع‌شده و مقیاس‌پذیر استفاده می‌کنند. توصیه می‌شود برای به دست آوردن بینش عملی، دانشی در زمینه تجزیه و تحلیل داده‌ها و دستکاری داده‌ها داشته باشید.

آنچه این کتاب پوشش می‌دهد:

فصل 1، پرایمر محاسبات توزیع‌شده

پارادایم محاسبات توزیع‌شده را معرفی می‌کند. همچنین در مورد چگونگی تبدیل محاسبات توزیع‌شده به یک ضرورت با افزایش روزافزون اندازه داده‌ها در دهه گذشته صحبت می‌کند و با مفهوم پردازش موازی داده در حافظه با الگوی Map Reduce به پایان می رسد و در نهایت شامل معرفی آخرین ویژگی‌های آپاچی اسپارک 3.0 می‌شود.

فصل 2، داده‌ها

فصل دوم کتاب Essential PySpark for Scalable Data Analytics، منابع مختلف داده، مانند پایگاه‌های داده، دریاچه‌های داده، صف‌های پیام و نحوه دریافت داده‌ها از این منابع داده را پوشش می‌دهد. همچنین با کاربردها، تفاوت‌ها و کارایی فرمت‌های مختلف انباره داده در ذخیره‌سازی و پردازش داده‌ها آشنا خواهید شد.

فصل 3، پاکسازی و یکپارچه‌سازی داده‌ها

فصل سوم کتاب Essential PySpark for Scalable Data Analytics، تکنیک‌های مختلف پاکسازی داده‌ها، نحوه رسیدگی به داده‌های ورودی بد، چالش های قابلیت اطمینان داده‌ها و نحوه مقابله با آن‌ها، و تکنیک‌های یکپارچه سازی داده‌ها برای ایجاد یک نمای یکپارچه واحد از داده‌ها را مورد بحث قرار می‌دهد.

فصل 4، تجزیه و تحلیل داده‌های بلادرنگ

فصل چهارم کتاب Essential PySpark for Scalable Data Analytics، نحوه انجام پردازش و جذب داده‌ها در زمان واقعی را توضیح می‌دهد، چالش‌های منحصربه‌فردی را که یکپارچه‌سازی داده‌های بلادرنگ ارائه می‌کند و چگونگی غلبه بر آن، و همچنین مزایایی که ارائه می‌دهد، مورد بحث قرار می‌دهد.

فصل 5، یادگیری ماشین مقیاس‌پذیر با PySpark

فصل پنجم کتاب Essential PySpark for Scalable Data Analytics، به طور خلاصه در مورد نیاز به مقیاس‌سازی یادگیری ماشین صحبت می‌کند و تکنیک‌های مختلف موجود برای دستیابی به این هدف از استفاده از الگوریتم‌های یادگیری ماشینی توزیع‌شده بومی گرفته تا پردازش موازی شرم‌آور و جستجوی فراپارامتر توزیع‌شده را مورد بحث قرار می‌دهد. همچنین مقدمه‌ای بر کتابخانه PySpark MLlib و مروری بر الگوریتم‌های مختلف یادگیری ماشین توزیع‌شده آن ارائه می‌کند.

فصل 6، مهندسی ویژگی – استخراج، تبدیل و انتخاب

فصل ششم کتاب Essential PySpark for Scalable Data Analytics، تکنیک‌های مختلفی را برای تبدیل داده‌های خام به ویژگی‌هایی که برای استفاده در مدل‌های یادگیری ماشین مناسب هستند، از جمله تکنیک‌هایی برای مقیاس‌گذاری، تبدیل ویژگی‌ها، بررسی می‌کند.

فصل 7، یادگیری ماشین نظارت شده

فصل هفتم کتاب Essential PySpark for Scalable Data Analytics، تکنیک‌های یادگیری نظارت شده را برای طبقه‌بندی یادگیری ماشین و مشکلات رگرسیون از جمله رگرسیون خطی، رگرسیون لجستیک و درختان تقویت شده با گرادیان بررسی می‌کند.

فصل 8، یادگیری ماشین بدون نظارت

فصل هشتم کتاب Essential PySpark for Scalable Data Analytics، تکنیک‌های یادگیری بدون نظارت مانند خوشه‌بندی، فیلتر کردن مشارکتی و کاهش ابعاد را پوشش می‌دهد تا تعداد ویژگی‌ها را قبل از اعمال یادگیری نظارت شده کاهش دهد.

فصل 9، مدیریت چرخه زندگی یادگیری ماشین

فصل نهم کتاب Essential PySpark for Scalable Data Analytics، توضیح می‌دهد که فقط ساخت و آموزش مدل‌ها کافی نیست، بلکه در دنیای واقعی، چندین نسخه از یک مدل ساخته می‌شود و نسخه‌های مختلف برای کاربردهای مختلف مناسب هستند.

بنابراین، لازم است آزمایش‌های مختلف، فراپارامترها، متریک‌ها و همچنین نسخه داده‌هایی که روی آن‌ها آموزش دیده‌اند، ردیابی شوند. همچنین لازم است مدل‌های مختلف را در یک مخزن در دسترس مرکزی ردیابی و ذخیره کرد تا مدل‌ها به راحتی تولید و به اشتراک گذاشته شوند. و در نهایت، مکانیسم‌هایی برای خودکار کردن این فرآیند تکراری مورد نیاز است. این فصل این تکنیک‌ها را با استفاده از یک کتابخانه مدیریت چرخه زندگی یادگیری ماشین منبع باز سرتاسر به نام MLflow معرفی می‌کند.

فصل 10، مقیاس‌بندی یادگیری ماشین تک‌گره با استفاده از PySpark

توضیح می‌دهد که در فصل 5، یادگیری ماشین مقیاس‌پذیر با PySpark، یاد گرفتید که چگونه از قدرت چارچوب محاسباتی توزیع‌شده آپاچی اسپارک برای آموزش و امتیاز دادن به مدل‌های یادگیری ماشین در مقیاس استفاده کنید. کتابخانه یادگیری ماشین بومی Spark پوشش خوبی از وظایف استانداردی را که دانشمندان داده معمولاً انجام می‌دهند، ارائه می‌دهد.

با این حال، طیف گسترده‌ای از عملکردها توسط کتابخانه‌های استاندارد پایتون تک گره ارائه شده است که برای کار به صورت توزیع‌شده طراحی نشده‌اند. این فصل به تکنیک‌هایی برای مقیاس افقی پردازش داده‌های استاندارد پایتون و کتابخانه‌های یادگیری ماشینی مانند Pandas, scikit-learn و XGBoost می‌پردازد. این فصل مقیاس‌بندی وظایف معمولی علم داده مانند تجزیه و تحلیل داده‌های اکتشافی، آموزش مدل، استنتاج مدل را پوشش می‌دهد و در نهایت یک کتابخانه Python مقیاس‌پذیر به نام Koalas را نیز پوشش می‌دهد که به شما امکان می‌دهد بدون دردسر کد PySpark را با استفاده از نحو بسیار آشنا و آسان شبیه Pandas بنویسید.

فصل 11، تجسم داده‌ها با PySpark

فصل یازدهم کتاب Essential PySpark for Scalable Data Analytics، تجسم داده‌ها را پوشش می‌دهد، که جنبه مهمی از انتقال معنا از داده‌ها و جمع‌آوری بینش در آن است. این فصل نحوه استفاده از محبوب‌ترین کتابخانه‌های تجسم پایتون را در کنار PySpark پوشش می‌دهد.

فصل 12، Spark SQL Primer

SQL را پوشش می‌دهد، که یک زبان بیانی برای پرس و جوی موقت و تجزیه و تحلیل داده است. این فصل Spark SQL را برای تجزیه و تحلیل داده‌ها معرفی می‌کند و همچنین نحوه استفاده از PySpark را با تجزیه و تحلیل داده‌ها به جای یکدیگر نشان می‌دهد.

فصل 13، یکپارچه‌سازی ابزارهای خارجی با Spark SQL

این فصل توضیح می‌دهد که وقتی داده‌های تمیز، نظارت شده و قابل اعتماد در دریاچه داده‌های عملکردی خود داشته باشیم، مانند فرصتی از دست رفته است که این داده‌ها را در سراسر سازمان برای تحلیلگران، عمومی نکنیم.

محبوب‌ترین راه برای انجام این کار از طریق ابزارهای مختلف هوش تجاری (BI) موجود است. این فصل به الزامات یکپارچه‌سازی ابزار BI می‌پردازد.

فصل 14، The Data Lakehouse

فصل آخر کتاب Essential PySpark for Scalable Data Analytics، توضیح می‌دهد که ابزارهای تجزیه و تحلیل توصیفی سنتی مانند ابزارهای BI در اطراف انبارهای داده طراحی شده‌اند و انتظار دارند داده‌ها به روش خاصی ارائه شوند و ابزارهای پیشرفته مدرن تجزیه و تحلیل و علم داده برای کار با مقادیر زیادی از داده‌ها طراحی شده‌اند.

به راحتی در دریاچه‌های داده قابل دسترسی است. همچنین ذخیره داده‌های اضافی در مکان‌های ذخیره‌سازی جداگانه عملی یا مقرون به صرفه نیست تا بتوان به این موارد استفاده فردی پاسخ داد. این فصل پارادایم جدیدی به نام Data Lakehouse ارائه می‌کند که سعی می‌کند بر محدودیت‌های انبارهای داده و دریاچه‌های داده غلبه کند و با ترکیب بهترین عناصر هر دو، شکاف را پر کند.

برای آشنایی بیشتر با Apache Spark می‌توانید از کتاب Spark in Action نیز استفاده نمائید.

سرفصل‌های کتاب Essential PySpark for Scalable Data Analytics:

Preface
Section 1: Data Engineering
- 1 Distributed Computing Primer
- 2 Data Ingestion
- 3 Data Cleansing and Integration
- 4 Real-Time Data Analytics
Section 2: Data Science
- 5 Scalable Machine Learning with PySpark
- 6 Feature Engineering – Extraction, Transformation, and Selection
- 7 Supervised Machine Learning
- 8 Unsupervised Machine Learning
- 9 Machine Learning Life Cycle Management
- 10 Scaling Out Single-Node Machine Learning Using PySpark
Section 3: Data Analysis
- 11 Data Visualization with PySpark
- 12 Spark SQL Primer
- 13 Integrating External Tools with Spark SQL
- 14 The Data Lakehouse
Index

فایل کتاب Essential PySpark for Scalable Data Analytics را می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	PDF
ویرایش	First
ISBN	978-1-80056-887-7
تعداد صفحات	322
انتشارات	Packt
سال انتشار	2021
حجم	6.79 مگابایت
نویسنده	Sreeram Nudurupati

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Essential PySpark for Scalable Data Analytics”

کتاب Essential PySpark for Scalable Data Analytics

خرید کتاب Essential PySpark for Scalable Data Analytics:

مقدمه‌ای بر کتاب Essential PySpark for Scalable Data Analytics:

سرفصل‌های کتاب Essential PySpark for Scalable Data Analytics:

دیدگاهها

خرید کتاب Essential PySpark for Scalable Data Analytics:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: