کتاب Essential PySpark for Scalable Data Analytics برای یادگیری آنالیز دادههای مقیاسپذیر با استفاده از ابزار Apache Spark میباشد. این کتاب در 14 به آموزش مقدماتی تا بیان نکات پیشرفتهی این ابزار به همراه ترفندها و نکات مهم آن میپردازد.
در ادامه مقدمهای از کتاب Essential PySpark for Scalable Data Analytics را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Essential PySpark for Scalable Data Analytics:
Apache Spark یک موتور تجزیه و تحلیل داده یکپارچه است که برای پردازش حجم عظیمی از دادهها به روشی سریع و کارآمد طراحی شده است. PySpark API زبان پایتون Apache Spark است که یک چارچوب تجزیه و تحلیل داده مقیاسپذیر با استفاده آسان را در اختیار توسعهدهندگان پایتون قرار میدهد. Essential PySpark برای تجزیه و تحلیل دادههای مقیاسپذیر با کاوش در الگوی محاسباتی توزیعشده شروع می شود و یک نمای کلی از Apache Spark ارائه میدهد.
سپس سفر تجزیه و تحلیل داده خود را با فرآیند مهندسی داده آغاز خواهید کرد، یادگیری انجام جذب داده، پاکسازی دادهها و ادغام در مقیاس. این کتاب همچنین به شما کمک میکند خطوط لوله تجزیه و تحلیل بلادرنگ بسازید که به شما امکان میدهد خیلی سریعتر به بینش دست پیدا کنید. تکنیکهای ساخت دریاچههای داده مبتنی بر ابر همراه با دریاچه دلتا ارائه شده است که قابلیت اطمینان و عملکرد را برای دریاچههای داده به ارمغان میآورد.
یک پارادایم جدید به نام Data Lakehouse ارائه شده است که ساختار و عملکرد یک انبار داده را با مقیاسپذیری دریاچههای داده مبتنی بر ابر ترکیب میکند. شما یاد خواهید گرفت که چگونه علم داده مقیاسپذیر و یادگیری ماشین را با استفاده از PySpark انجام دهید، از جمله آمادهسازی دادهها، مهندسی ویژگی، آموزش مدل، و تکنیکهای تولید مدل. تکنیکهایی برای مقیاسبندی کتابخانههای یادگیری ماشینی استاندارد پایتون به همراه یک API جدید پاندا مانند در بالای PySpark به نام Koalas ارائه شده است.
این کتاب برای چه کسی است؟
کتاب Essential PySpark for Scalable Data Analytics برای تمرین مهندسان داده، دانشمندان داده، تحلیلگران داده، تحلیلگران داده شهروندی و علاقهمندان به داده است که در حال حاضر از تجزیه و تحلیل دادهها برای کاوش در دنیای تجزیه و تحلیل دادههای توزیعشده و مقیاسپذیر استفاده میکنند. توصیه میشود برای به دست آوردن بینش عملی، دانشی در زمینه تجزیه و تحلیل دادهها و دستکاری دادهها داشته باشید.
آنچه این کتاب پوشش میدهد:
فصل 1، پرایمر محاسبات توزیعشده
پارادایم محاسبات توزیعشده را معرفی میکند. همچنین در مورد چگونگی تبدیل محاسبات توزیعشده به یک ضرورت با افزایش روزافزون اندازه دادهها در دهه گذشته صحبت میکند و با مفهوم پردازش موازی داده در حافظه با الگوی Map Reduce به پایان می رسد و در نهایت شامل معرفی آخرین ویژگیهای آپاچی اسپارک 3.0 میشود.
فصل 2، دادهها
فصل دوم کتاب Essential PySpark for Scalable Data Analytics، منابع مختلف داده، مانند پایگاههای داده، دریاچههای داده، صفهای پیام و نحوه دریافت دادهها از این منابع داده را پوشش میدهد. همچنین با کاربردها، تفاوتها و کارایی فرمتهای مختلف انباره داده در ذخیرهسازی و پردازش دادهها آشنا خواهید شد.
فصل 3، پاکسازی و یکپارچهسازی دادهها
فصل سوم کتاب Essential PySpark for Scalable Data Analytics، تکنیکهای مختلف پاکسازی دادهها، نحوه رسیدگی به دادههای ورودی بد، چالش های قابلیت اطمینان دادهها و نحوه مقابله با آنها، و تکنیکهای یکپارچه سازی دادهها برای ایجاد یک نمای یکپارچه واحد از دادهها را مورد بحث قرار میدهد.
فصل 4، تجزیه و تحلیل دادههای بلادرنگ
فصل چهارم کتاب Essential PySpark for Scalable Data Analytics، نحوه انجام پردازش و جذب دادهها در زمان واقعی را توضیح میدهد، چالشهای منحصربهفردی را که یکپارچهسازی دادههای بلادرنگ ارائه میکند و چگونگی غلبه بر آن، و همچنین مزایایی که ارائه میدهد، مورد بحث قرار میدهد.
فصل 5، یادگیری ماشین مقیاسپذیر با PySpark
فصل پنجم کتاب Essential PySpark for Scalable Data Analytics، به طور خلاصه در مورد نیاز به مقیاسسازی یادگیری ماشین صحبت میکند و تکنیکهای مختلف موجود برای دستیابی به این هدف از استفاده از الگوریتمهای یادگیری ماشینی توزیعشده بومی گرفته تا پردازش موازی شرمآور و جستجوی فراپارامتر توزیعشده را مورد بحث قرار میدهد. همچنین مقدمهای بر کتابخانه PySpark MLlib و مروری بر الگوریتمهای مختلف یادگیری ماشین توزیعشده آن ارائه میکند.
فصل 6، مهندسی ویژگی – استخراج، تبدیل و انتخاب
فصل ششم کتاب Essential PySpark for Scalable Data Analytics، تکنیکهای مختلفی را برای تبدیل دادههای خام به ویژگیهایی که برای استفاده در مدلهای یادگیری ماشین مناسب هستند، از جمله تکنیکهایی برای مقیاسگذاری، تبدیل ویژگیها، بررسی میکند.
فصل 7، یادگیری ماشین نظارت شده
فصل هفتم کتاب Essential PySpark for Scalable Data Analytics، تکنیکهای یادگیری نظارت شده را برای طبقهبندی یادگیری ماشین و مشکلات رگرسیون از جمله رگرسیون خطی، رگرسیون لجستیک و درختان تقویت شده با گرادیان بررسی میکند.
فصل 8، یادگیری ماشین بدون نظارت
فصل هشتم کتاب Essential PySpark for Scalable Data Analytics، تکنیکهای یادگیری بدون نظارت مانند خوشهبندی، فیلتر کردن مشارکتی و کاهش ابعاد را پوشش میدهد تا تعداد ویژگیها را قبل از اعمال یادگیری نظارت شده کاهش دهد.
فصل 9، مدیریت چرخه زندگی یادگیری ماشین
فصل نهم کتاب Essential PySpark for Scalable Data Analytics، توضیح میدهد که فقط ساخت و آموزش مدلها کافی نیست، بلکه در دنیای واقعی، چندین نسخه از یک مدل ساخته میشود و نسخههای مختلف برای کاربردهای مختلف مناسب هستند.
بنابراین، لازم است آزمایشهای مختلف، فراپارامترها، متریکها و همچنین نسخه دادههایی که روی آنها آموزش دیدهاند، ردیابی شوند. همچنین لازم است مدلهای مختلف را در یک مخزن در دسترس مرکزی ردیابی و ذخیره کرد تا مدلها به راحتی تولید و به اشتراک گذاشته شوند. و در نهایت، مکانیسمهایی برای خودکار کردن این فرآیند تکراری مورد نیاز است. این فصل این تکنیکها را با استفاده از یک کتابخانه مدیریت چرخه زندگی یادگیری ماشین منبع باز سرتاسر به نام MLflow معرفی میکند.
فصل 10، مقیاسبندی یادگیری ماشین تکگره با استفاده از PySpark
توضیح میدهد که در فصل 5، یادگیری ماشین مقیاسپذیر با PySpark، یاد گرفتید که چگونه از قدرت چارچوب محاسباتی توزیعشده آپاچی اسپارک برای آموزش و امتیاز دادن به مدلهای یادگیری ماشین در مقیاس استفاده کنید. کتابخانه یادگیری ماشین بومی Spark پوشش خوبی از وظایف استانداردی را که دانشمندان داده معمولاً انجام میدهند، ارائه میدهد.
با این حال، طیف گستردهای از عملکردها توسط کتابخانههای استاندارد پایتون تک گره ارائه شده است که برای کار به صورت توزیعشده طراحی نشدهاند. این فصل به تکنیکهایی برای مقیاس افقی پردازش دادههای استاندارد پایتون و کتابخانههای یادگیری ماشینی مانند Pandas, scikit-learn و XGBoost میپردازد. این فصل مقیاسبندی وظایف معمولی علم داده مانند تجزیه و تحلیل دادههای اکتشافی، آموزش مدل، استنتاج مدل را پوشش میدهد و در نهایت یک کتابخانه Python مقیاسپذیر به نام Koalas را نیز پوشش میدهد که به شما امکان میدهد بدون دردسر کد PySpark را با استفاده از نحو بسیار آشنا و آسان شبیه Pandas بنویسید.
فصل 11، تجسم دادهها با PySpark
فصل یازدهم کتاب Essential PySpark for Scalable Data Analytics، تجسم دادهها را پوشش میدهد، که جنبه مهمی از انتقال معنا از دادهها و جمعآوری بینش در آن است. این فصل نحوه استفاده از محبوبترین کتابخانههای تجسم پایتون را در کنار PySpark پوشش میدهد.
فصل 12، Spark SQL Primer
SQL را پوشش میدهد، که یک زبان بیانی برای پرس و جوی موقت و تجزیه و تحلیل داده است. این فصل Spark SQL را برای تجزیه و تحلیل دادهها معرفی میکند و همچنین نحوه استفاده از PySpark را با تجزیه و تحلیل دادهها به جای یکدیگر نشان میدهد.
فصل 13، یکپارچهسازی ابزارهای خارجی با Spark SQL
این فصل توضیح میدهد که وقتی دادههای تمیز، نظارت شده و قابل اعتماد در دریاچه دادههای عملکردی خود داشته باشیم، مانند فرصتی از دست رفته است که این دادهها را در سراسر سازمان برای تحلیلگران، عمومی نکنیم.
محبوبترین راه برای انجام این کار از طریق ابزارهای مختلف هوش تجاری (BI) موجود است. این فصل به الزامات یکپارچهسازی ابزار BI میپردازد.
فصل 14، The Data Lakehouse
فصل آخر کتاب Essential PySpark for Scalable Data Analytics، توضیح میدهد که ابزارهای تجزیه و تحلیل توصیفی سنتی مانند ابزارهای BI در اطراف انبارهای داده طراحی شدهاند و انتظار دارند دادهها به روش خاصی ارائه شوند و ابزارهای پیشرفته مدرن تجزیه و تحلیل و علم داده برای کار با مقادیر زیادی از دادهها طراحی شدهاند.
به راحتی در دریاچههای داده قابل دسترسی است. همچنین ذخیره دادههای اضافی در مکانهای ذخیرهسازی جداگانه عملی یا مقرون به صرفه نیست تا بتوان به این موارد استفاده فردی پاسخ داد. این فصل پارادایم جدیدی به نام Data Lakehouse ارائه میکند که سعی میکند بر محدودیتهای انبارهای داده و دریاچههای داده غلبه کند و با ترکیب بهترین عناصر هر دو، شکاف را پر کند.
برای آشنایی بیشتر با Apache Spark میتوانید از کتاب Spark in Action نیز استفاده نمائید.
سرفصلهای کتاب Essential PySpark for Scalable Data Analytics:
- Preface
- Section 1: Data Engineering
- 1 Distributed Computing Primer
- 2 Data Ingestion
- 3 Data Cleansing and Integration
- 4 Real-Time Data Analytics
- Section 2: Data Science
- 5 Scalable Machine Learning with PySpark
- 6 Feature Engineering – Extraction, Transformation, and Selection
- 7 Supervised Machine Learning
- 8 Unsupervised Machine Learning
- 9 Machine Learning Life Cycle Management
- 10 Scaling Out Single-Node Machine Learning Using PySpark
- Section 3: Data Analysis
- 11 Data Visualization with PySpark
- 12 Spark SQL Primer
- 13 Integrating External Tools with Spark SQL
- 14 The Data Lakehouse
- Index
فایل کتاب Essential PySpark for Scalable Data Analytics را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.