کتاب In-Memory Analytics with Apache Arrow

جزئیات بیشتر و خرید محصول:

۲۴,۰۰۰ تومان

توضیحات

کتاب In-Memory Analytics with Apache Arrow (تجزیه و تحلیل درون حافظه با Apache Arrow: تجزیه و تحلیل داده‌ها را سریع و کارآمد بر روی داده‌های ساختاری مسطح و سلسله مراتبی انجام دهید.) یک منبع بسیار کامل و جامع برای یادگیری Apache Arrow می‌باشد. این کتاب که به تازگی در سال 2022 به چاپ رسیده است در 11 فصل به آموزش مقدماتی تا بیان نکات پیشرفته‌ی این ابزار خواهد پرداخت.

در ادامه مقدمه‌ای از کتاب In-Memory Analytics with Apache Arrow را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب In-Memory Analytics with Apache Arrow:

به قول یک جوجه تیغی آبی معروف، باید سریع برو! وقتی صحبت از داده‌ها می‌شود، سرعت مهم است. فرقی نمی‌کند که داده‌ها را جمع‌آوری یا تجزیه و تحلیل می‌کنید یا برنامه‌هایی را برای دیگران توسعه می‌دهید، عملکرد و کارایی عوامل بزرگی در انتخاب‌های فناوری شما خواهد بود، نه فقط در کارایی خود نرم‌افزار، بلکه در توسعه. زمان. شما به ابزار مناسب و تکنولوژی مناسب نیاز دارید، وگرنه در آب مرده اید.

اکوسیستم Apache Arrow توسعه‌دهنده محور است و این کتاب تفاوتی ندارد. با درک اینکه Arrow چیست و چگونه کار می‌کند شروع کنید، سپس یاد بگیرید که چگونه از آن در پروژه‌های خود استفاده کنید. نمونه‌های کد، توضیحات، و نمودارها را در اینجا خواهید یافت که همه با هدف کمک به یادگیری شما هستند. شما منابع داده خود را با کتابخانه‌های Python DataFrame مانند پانداها یا NumPy ادغام خواهید کرد و از Arrow Flight برای ایجاد خدمات داده کارآمد استفاده می‌کنید.

با مجموعه داده‌های دنیای واقعی، یاد خواهید گرفت که چگونه از Apache Arrow با Apache Spark و سایر فناوری‌ها استفاده کنید. فرمت Apache Arrow مستقل از زبان و سازماندهی شده است به طوری که عملیات تحلیلی به سرعت بر روی سخت‌افزار CPU و GPU مدرن انجام می‌شود. به پذیرش صنعت این فرمت داده منبع باز بپیوندید و در زمان توسعه ارزشمند خود صرفه‌جویی و جریان‌های کاری تحلیلی با کارایی بالا و حافظه کارآمد داشته باشید.

این کتاب کار عشقی برای به اشتراک گذاشتن دانش بوده است. امیدوارم چیزهای زیادی از آن بیاموزید! من مطمئناً هنگام نوشتن آن را انجام دادم.

این کتاب برای چه کسی است؟

کتاب In-Memory Analytics with Apache Arrow برای توسعه‌دهندگان، تحلیلگران داده و دانشمندان داده است که به دنبال کشف قابلیت‌های Apache Arrow از ابتدا هستند. این کتاب همچنین برای مهندسانی که در حال کار بر روی ساخت ابزارهای کاربردی برای تجزیه و تحلیل داده‌ها، موتورهای پرس و جو، یا کار با داده‌های جدولی هستند، صرف نظر از زبانی که به آن برنامه نویسی می‌کنند، مفید خواهد بود.

آنچه این کتاب پوشش می‌دهد:

فصل 1، شروع به کار با Apache Arrow، شما را با مفاهیم اساسی زیربنای Apache Arrow آشنا می‌کند. فرمت Arrow و انواع داده‌هایی که پشتیبانی می‌کند را به همراه نحوه نمایش آنها در حافظه معرفی و توضیح می‌دهد. پس از آن، محیط توسعه خود را تنظیم کرده و چند نمونه کد ساده را اجرا می‌کنید که عملکرد اصلی کتابخانه‌های Arrow را نشان می‌دهد.

فصل 2 کتاب In-Memory Analytics with Apache Arrow، کار با مشخصات فلش کلیدی، با توضیح نحوه خواندن فایل‌های داده محلی و راه دور با استفاده از فرمت‌های مختلف، به معرفی Apache Arrow ادامه می‌دهد. شما یاد خواهید گرفت که چگونه Arrow را با کتابخانه Pandas پایتون ادغام کنید و چگونه از جنبه‌های کپی صفر Arrow برای به اشتراک گذاشتن حافظه برای عملکرد استفاده کنید.

بیشتر بخوانید: کتاب The Pandas Workshop

فصل 3 کتاب In-Memory Analytics with Apache Arrow، علم داده با پیکان آپاچی، نمای کلی اولیه ما را با ارائه مثال‌هایی خاص برای بهبود گردش‌های کاری علم داده خلاصه می‌کند. این شامل مثال‌های عملی استفاده از Arrow با Apache Spark و Jupyter، همراه با استفاده از داده‌های با فرمت Arrow برای ایجاد نمودار است. این با یک بحث مختصر در مورد اتصال به پایگاه داده باز (ODBC) و نمایش سرتاسری از ورود داده‌های قالب‌بندی‌شده با فلش در فهرست Elasticsearch و سپس پرس‌وجو در آن دنبال می‌شود.

فصل 4 کتاب In-Memory Analytics with Apache Arrow، مدیریت فرمت و حافظه، روابط بین Apache Arrow و داده‌های پارکت، Feather، Protocol Buffer، JSON و CSV را به همراه زمان و چرایی استفاده از این فرمت‌های مختلف مورد بحث قرار می‌دهد. در ادامه فرمت Arrow IPC همراه با توضیح استفاده از نقشه حافظه برای بهبود عملکرد بیشتر معرفی و تشریح شده است.

فصل 4 کتاب In-Memory Analytics with Apache Arrow

فصل 5 کتاب In-Memory Analytics with Apache Arrow، عبور از مانع زبان با Arrow C Data API، به معرفی C Data API برای انتقال موثر داده‌های Apache Arrow بین زمان‌های اجرا زبان‌های مختلف می‌پردازد. این فصل تعاریف ساختار استفاده شده برای این رابط را همراه با توصیف موارد استفاده که آن را مفید می‌سازد، پوشش می‌دهد.

فصل 6 کتاب In-Memory Analytics with Apache Arrow، استفاده از API های محاسباتی پیکان، نحوه استفاده از API های محاسباتی پیکان را در C++ و Python شرح می‌دهد. شما یاد خواهید گرفت که چه زمانی و چرا باید از Compute API ها برای انجام تجزیه و تحلیل به جای پیاده سازی چیزی استفاده کنید.

فصل 7، با استفاده از Arrow Datasets API، پرس و جو، فیلتر کردن، و در غیر این صورت تعامل با مجموعه داده‌های چند فایلی را نشان می‌دهد که به طور بالقوه می‌توانند در چندین منبع باشند. مجموعه داده‌های پارتیشن بندی شده نیز همراه با استفاده از Arrow Compute API برای انجام فیلترینگ جریان و سایر عملیات روی داده‌ها پوشش داده شده است.

فصل 8 کتاب In-Memory Analytics with Apache Arrow، بررسی Apache Arrow Flight RPC، پروتکل Flight RPC و مزایای آن را بررسی می‌کند. با ساختن یک سرور و سرویس گیرنده Flight ساده به چندین زبان برای تولید و مصرف داده‌های جدولی، راه خواهید افتاد.

فصل 8 کتاب In-Memory Analytics with Apache Arrow

فصل 9، Powered By Apache Arrow، چند نمونه از استفاده فعلی در دنیای واقعی Arrow، مانند Dremio و Spice.ai را ارائه می‌دهد.

فصل 10 کتاب In-Memory Analytics with Apache Arrow، چگونه علامت خود را روی فلش بگذاریم، مقدمه ای کوتاه برای مشارکت در منبع باز به طور کلی، اما به طور خاص، نحوه مشارکت در خود پروژه Arrow را ارائه می‌دهد. در مورد یافتن مشکلات اولیه و تنظیم اولین درخواست کشش خود برای مشارکت، و آنچه در هنگام انجام این کار باید انتظار داشته باشید، راهنمایی خواهید شد. برای این منظور، این فصل همچنین حاوی دستورالعمل‌های مختلفی در مورد ساخت محلی Arrow C++، Python و کتابخانه‌های Go برای آزمایش مشارکت شما است.

فصل 11، توسعه و برنامه‌های آینده، کتاب را با بررسی ویژگی‌هایی که در زمان نگارش هنوز در حال توسعه هستند، به پایان می‌رساند. FlightSQL، DataFusion، و Substrait همگی به طور خلاصه توضیح داده شده و در اینجا به مواردی که باید منتظر آن باشیم و به طور بالقوه به آن کمک کنیم، توضیح داده شده است. در نهایت، چند کلمه جدایی و یک چالش از طرف من برای شما وجود دارد.

فصل 11 کتاب In-Memory Analytics with Apache Arrow

سرفصل‌های کتاب In-Memory Analytics with Apache Arrow:

  • Foreword
  • Acknowledgments
  • Contributors
  • About the author
  • About the reviewers
  • Preface
  • Section 1: Overview of What Arrow Is, its Capabilities, Benefits, and Goals
    • Chapter 1: Getting Started with Apache Arrow
    • Chapter 2: Working with Key Arrow Specifications
    • Chapter 3: Data Science with Apache Arrow
  • Section 2: Interoperability with Arrow: pandas, Parquet, Flight, and Datasets
    • Chapter 4: Format and Memory Handling
    • Chapter 5: Crossing the Language Barrier with the Arrow C Data API
    • Chapter 6: Leveraging the Arrow Compute APIs
    • Chapter 7: Using the Arrow Datasets API
    • Chapter 8: Exploring Apache Arrow Flight RPC
  • Section 3: Real-World Examples, Use Cases, and Future Development
    • Chapter 9: Powered by Apache Arrow
    • Chapter 10: How to Leave Your Mark on Arrow
    • Chapter 11: Future Development and Plans
  • Other Books You May Enjoy

جهت دانلود کتاب In-Memory Analytics with Apache Arrow می‌توانید پس از پرداخت، دریافت کنید.

توضیحات تکمیلی

فرمت کتاب

PDF

ویرایش

First

ISBN

978-1-80107-103-1

تعداد صفحات

392

انتشارات

Packt

سال انتشار

حجم

نویسنده

,

هیچ دیدگاهی برای این محصول نوشته نشده است.

اشتراک‌گذاری:

دیگر محصولات:

نماد اعتبار ما:

آدرس: اصفهان، فلکه ارتش

 

پشتیبانی از ساعت 18 تا 22: 09392868101

© کليه حقوق محصولات و محتوای اين سایت متعلق به مدیر سایت می‌باشد و هر گونه کپی‌برداری از محتوا و محصولات سایت پیگرد قانونی دارد.