کتاب In-Memory Analytics with Apache Arrow (تجزیه و تحلیل درون حافظه با Apache Arrow: تجزیه و تحلیل دادهها را سریع و کارآمد بر روی دادههای ساختاری مسطح و سلسله مراتبی انجام دهید.) یک منبع بسیار کامل و جامع برای یادگیری Apache Arrow میباشد. این کتاب که به تازگی در سال 2022 به چاپ رسیده است در 11 فصل به آموزش مقدماتی تا بیان نکات پیشرفتهی این ابزار خواهد پرداخت.
در ادامه مقدمهای از کتاب In-Memory Analytics with Apache Arrow را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب In-Memory Analytics with Apache Arrow:
به قول یک جوجه تیغی آبی معروف، باید سریع برو! وقتی صحبت از دادهها میشود، سرعت مهم است. فرقی نمیکند که دادهها را جمعآوری یا تجزیه و تحلیل میکنید یا برنامههایی را برای دیگران توسعه میدهید، عملکرد و کارایی عوامل بزرگی در انتخابهای فناوری شما خواهد بود، نه فقط در کارایی خود نرمافزار، بلکه در توسعه. زمان. شما به ابزار مناسب و تکنولوژی مناسب نیاز دارید، وگرنه در آب مرده اید.
اکوسیستم Apache Arrow توسعهدهنده محور است و این کتاب تفاوتی ندارد. با درک اینکه Arrow چیست و چگونه کار میکند شروع کنید، سپس یاد بگیرید که چگونه از آن در پروژههای خود استفاده کنید. نمونههای کد، توضیحات، و نمودارها را در اینجا خواهید یافت که همه با هدف کمک به یادگیری شما هستند. شما منابع داده خود را با کتابخانههای Python DataFrame مانند Pandas یا NumPy ادغام خواهید کرد و از Arrow Flight برای ایجاد خدمات داده کارآمد استفاده میکنید.
با مجموعه دادههای دنیای واقعی، یاد خواهید گرفت که چگونه از Apache Arrow با Apache Spark و سایر فناوریها استفاده کنید. فرمت Apache Arrow مستقل از زبان و سازماندهی شده است به طوری که عملیات تحلیلی به سرعت بر روی سختافزار CPU و GPU مدرن انجام میشود. به پذیرش صنعت این فرمت داده منبع باز بپیوندید و در زمان توسعه ارزشمند خود صرفهجویی و جریانهای کاری تحلیلی با کارایی بالا و حافظه کارآمد داشته باشید.
این کتاب کار عشقی برای به اشتراک گذاشتن دانش بوده است. امیدوارم چیزهای زیادی از آن بیاموزید! من مطمئناً هنگام نوشتن آن را انجام دادم.
این کتاب برای چه کسی است؟
کتاب In-Memory Analytics with Apache Arrow برای توسعهدهندگان، تحلیلگران داده و دانشمندان داده است که به دنبال کشف قابلیتهای Apache Arrow از ابتدا هستند. این کتاب همچنین برای مهندسانی که در حال کار بر روی ساخت ابزارهای کاربردی برای تجزیه و تحلیل دادهها، موتورهای پرس و جو، یا کار با دادههای جدولی هستند، صرف نظر از زبانی که به آن برنامه نویسی میکنند، مفید خواهد بود.
آنچه این کتاب پوشش میدهد:
فصل 1، شروع به کار با Apache Arrow، شما را با مفاهیم اساسی زیربنای Apache Arrow آشنا میکند. فرمت Arrow و انواع دادههایی که پشتیبانی میکند را به همراه نحوه نمایش آنها در حافظه معرفی و توضیح میدهد. پس از آن، محیط توسعه خود را تنظیم کرده و چند نمونه کد ساده را اجرا میکنید که عملکرد اصلی کتابخانههای Arrow را نشان میدهد.
فصل 2 کتاب In-Memory Analytics with Apache Arrow، کار با مشخصات فلش کلیدی، با توضیح نحوه خواندن فایلهای داده محلی و راه دور با استفاده از فرمتهای مختلف، به معرفی Apache Arrow ادامه میدهد. شما یاد خواهید گرفت که چگونه Arrow را با کتابخانه Pandas پایتون ادغام کنید و چگونه از جنبههای کپی صفر Arrow برای به اشتراک گذاشتن حافظه برای عملکرد استفاده کنید.
بیشتر بخوانید: کتاب The Pandas Workshop
فصل 3 کتاب In-Memory Analytics with Apache Arrow، علم داده با پیکان آپاچی، نمای کلی اولیه ما را با ارائه مثالهایی خاص برای بهبود گردشهای کاری علم داده خلاصه میکند. این شامل مثالهای عملی استفاده از Arrow با Apache Spark و Jupyter، همراه با استفاده از دادههای با فرمت Arrow برای ایجاد نمودار است. این با یک بحث مختصر در مورد اتصال به پایگاه داده باز (ODBC) و نمایش سرتاسری از ورود دادههای قالببندیشده با فلش در فهرست Elasticsearch و سپس پرسوجو در آن دنبال میشود.
فصل 4 کتاب In-Memory Analytics with Apache Arrow، مدیریت فرمت و حافظه، روابط بین Apache Arrow و دادههای پارکت، Feather، Protocol Buffer، JSON و CSV را به همراه زمان و چرایی استفاده از این فرمتهای مختلف مورد بحث قرار میدهد. در ادامه فرمت Arrow IPC همراه با توضیح استفاده از نقشه حافظه برای بهبود عملکرد بیشتر معرفی و تشریح شده است.
فصل 5 کتاب In-Memory Analytics with Apache Arrow، عبور از مانع زبان با Arrow C Data API، به معرفی C Data API برای انتقال موثر دادههای Apache Arrow بین زمانهای اجرا زبانهای مختلف میپردازد. این فصل تعاریف ساختار استفاده شده برای این رابط را همراه با توصیف موارد استفاده که آن را مفید میسازد، پوشش میدهد.
فصل 6 کتاب In-Memory Analytics with Apache Arrow، استفاده از API های محاسباتی پیکان، نحوه استفاده از API های محاسباتی پیکان را در C++ و Python شرح میدهد. شما یاد خواهید گرفت که چه زمانی و چرا باید از Compute API ها برای انجام تجزیه و تحلیل به جای پیاده سازی چیزی استفاده کنید.
فصل 7، با استفاده از Arrow Datasets API، پرس و جو، فیلتر کردن، و در غیر این صورت تعامل با مجموعه دادههای چند فایلی را نشان میدهد که به طور بالقوه میتوانند در چندین منبع باشند. مجموعه دادههای پارتیشن بندی شده نیز همراه با استفاده از Arrow Compute API برای انجام فیلترینگ جریان و سایر عملیات روی دادهها پوشش داده شده است.
فصل 8 کتاب In-Memory Analytics with Apache Arrow، بررسی Apache Arrow Flight RPC، پروتکل Flight RPC و مزایای آن را بررسی میکند. با ساختن یک سرور و سرویس گیرنده Flight ساده به چندین زبان برای تولید و مصرف دادههای جدولی، راه خواهید افتاد.
فصل 9، Powered By Apache Arrow، چند نمونه از استفاده فعلی در دنیای واقعی Arrow، مانند Dremio و Spice.ai را ارائه میدهد.
فصل 10 کتاب In-Memory Analytics with Apache Arrow، چگونه علامت خود را روی فلش بگذاریم، مقدمه ای کوتاه برای مشارکت در منبع باز به طور کلی، اما به طور خاص، نحوه مشارکت در خود پروژه Arrow را ارائه میدهد. در مورد یافتن مشکلات اولیه و تنظیم اولین درخواست کشش خود برای مشارکت، و آنچه در هنگام انجام این کار باید انتظار داشته باشید، راهنمایی خواهید شد. برای این منظور، این فصل همچنین حاوی دستورالعملهای مختلفی در مورد ساخت محلی Arrow C++، Python و کتابخانههای Go برای آزمایش مشارکت شما است.
فصل 11، توسعه و برنامههای آینده، کتاب را با بررسی ویژگیهایی که در زمان نگارش هنوز در حال توسعه هستند، به پایان میرساند. FlightSQL، DataFusion، و Substrait همگی به طور خلاصه توضیح داده شده و در اینجا به مواردی که باید منتظر آن باشیم و به طور بالقوه به آن کمک کنیم، توضیح داده شده است. در نهایت، چند کلمه جدایی و یک چالش از طرف من برای شما وجود دارد.
سرفصلهای کتاب In-Memory Analytics with Apache Arrow:
- Foreword
- Acknowledgments
- Contributors
- About the author
- About the reviewers
- Preface
- Section 1: Overview of What Arrow Is, its Capabilities, Benefits, and Goals
- Chapter 1: Getting Started with Apache Arrow
- Chapter 2: Working with Key Arrow Specifications
- Chapter 3: Data Science with Apache Arrow
- Section 2: Interoperability with Arrow: pandas, Parquet, Flight, and Datasets
- Chapter 4: Format and Memory Handling
- Chapter 5: Crossing the Language Barrier with the Arrow C Data API
- Chapter 6: Leveraging the Arrow Compute APIs
- Chapter 7: Using the Arrow Datasets API
- Chapter 8: Exploring Apache Arrow Flight RPC
- Section 3: Real-World Examples, Use Cases, and Future Development
- Chapter 9: Powered by Apache Arrow
- Chapter 10: How to Leave Your Mark on Arrow
- Chapter 11: Future Development and Plans
- Other Books You May Enjoy
جهت دانلود کتاب In-Memory Analytics with Apache Arrow میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.