کتاب Apache Hudi: The Definitive Guide

کتاب Apache Hudi: The Definitive Guide

خرید کتاب Apache Hudi: The Definitive Guide:

۴۰,۰۰۰ تومان

  • نسخه کتاب فعلی به زبان لاتین می‌باشد.
  • کتاب به صورت فایل می‌باشد و پس از خرید بلافاصله در دسترس شما قرار می‌گیرد.
  • در صورت هرگونه سؤال با ایمیل و یا شماره پشتیبانی سایت در تماس باشید.

کتاب Apache Hudi: The Definitive Guide: Building Robust, Open, and High-Performing Data Lakehouses 1st Edition (اَپاچی هودی: راهنمای قطعی: ساخت دیتا لیک‌هاوس‌های (Data Lakehouses) مقاوم، باز و با عملکرد بالا – ویرایش اول) یک راهنمای عملی و جامع است که برای معماران داده، مهندسان داده، و توسعه‌دهندگان طراحی شده تا بر استفاده از فریم‌ورک Apache Hudi مسلط شوند و دیتا لیک‌هاوس‌های (Data Lakehouses) مقاوم، باز و با عملکرد بالا بسازند.

در ادامه مقدمه‌ای از کتاب Apache Hudi: The Definitive Guide را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Apache Hudi: The Definitive Guide:

چرا این کتاب، و چرا اکنون؟

از پلتفرم‌های داده مدرن بیش از هر زمان دیگری انتظار می‌رود. آن‌ها باید داده‌های به‌روز را برای داشبوردها ارائه دهند، قابلیت‌های یادگیری ماشین را به صورت آنی تقویت کنند، و از برنامه‌های عملیاتی در کنار تحلیل‌های سنتی پشتیبانی نمایند. در عین حال، حجم داده‌ها به سرعت در حال رشد است، پایپ‌لاین‌ها به‌طور فزاینده‌ای پیچیده می‌شوند، و سازمان‌ها نمی‌توانند افت عملکرد یا عدم سازگاری را تحمل کنند. شکاف بین انتظارات کسب‌وکار و آنچه سیستم‌های قدیمی می‌توانند ارائه دهند، تنها افزایش یافته است.

آپـاچی هودی (Apache Hudi) دقیقاً برای رفع این شکاف ظهور کرد. هودی با آوردن تراکنش‌ها، دریافت افزایشی داده، و خدمات پیشرفته جدول به دیتا لیک (Data Lake)، تعریف آنچه ممکن بود را تغییر داد. این چارچوب معماری دیتا لیک‌هاوس (Data Lakehouse) را که باز بودن و مقیاس‌پذیری لیک‌ها را با قابلیت اطمینان و عملکرد وِرهوس‌ها ترکیب می‌کند، بنیان نهاد. در سال‌های اخیر، هودی به یکی از پذیرفته‌شده‌ترین فرمت‌های جدول باز تبدیل شده است که توسط یک جامعه فعال پشتیبانی می‌شود و در مقیاس وسیع در صنایعی از فناوری و مالی گرفته تا خرده‌فروشی و تحقیقات مستقر شده است.

دنیای معماری داده در یک نقطه عطف قرار دارد. لیک‌هاوس‌ها از یک ایده پیشرفته به یک استاندارد صنعتی تبدیل شده‌اند. هودی نیز همگام با این تحول پیش رفته و ویژگی‌های قدرتمندی مانند کنترل همزمانی چندنویسنده (Multiwriter Concurrency Control)، بهینه‌سازی‌های مبتنی بر فراداده و دریافت جریانی یکپارچه را معرفی کرده است. با این حال، با این قدرت، مسئولیت انتخاب‌های صحیح نیز به وجود می‌آید—مواردی چون مبادلات طراحی، ملاحظات عملیاتی، و انتخاب‌های معماری که پیمایش آن‌ها دشوار است. این کتاب وجود دارد تا این انتخاب‌ها را روشن‌تر کند، با تکیه بر درس‌های آموخته‌شده از پذیرندگان اولیه و جدیدترین بهترین شیوه‌ها.

مخاطبان کتاب Apache Hudi: The Definitive Guide

این کتاب برای متخصصان نوشته شده است: مهندسان، معماران و رهبران فنی که پلتفرم‌های داده در مقیاس بزرگ را طراحی، می‌سازند و اداره می‌کنند. اگر شما یکی از افراد زیر هستید، کتاب Apache Hudi: The Definitive Guide برایتان مفید خواهد بود:

  • یک مهندس داده یا مهندس پلتفرم که مسئول ساخت پایپ‌لاین‌های دریافت داده یا مدیریت جریان‌های داده‌ای با سرعت بالا است.
  • یک معمار داده که در حال ارزیابی روش‌هایی برای یکپارچه‌سازی دیتا لیک‌ها و وِرهوس‌ها است.
  • یک توسعه‌دهنده یا تحلیلگر که به دسترسی سازگار و افزایشی به مجموعه‌داده‌های بزرگ و در حال تغییر نیاز دارد.
  • یک مدیر فنی یا رهبر که تصمیمات استراتژیک در مورد اتخاذ فناوری‌های لیک‌هاوس می‌گیرد.

کتاب Apache Hudi: The Definitive Guide یک مقدمه برای مبتدیان در زمینه پایگاه داده‌ها یا سیستم‌های توزیع‌شده نیست. خوانندگان باید از قبل با نوشتن SQL راحت باشند، با موتورهای پردازش توزیع‌شده مانند Apache Spark یا Apache Flink آشنا باشند، و درک اولیه‌ای از پایپ‌لاین‌های داده داشته باشند. اگرچه تخصص عمیق لازم نیست، اما کتاب به سرعت از اصول بنیادی به راهنمایی عملیاتی پیشرفته حرکت می‌کند.

فناوری و زمان آن

در هسته خود، هودی دیتا لیک را به چیزی شبیه به یک پایگاه داده تبدیل می‌کند—یک دیتا لیک تراکنشی—که می‌تواند به‌صورت افزایشی داده دریافت کند، به‌روزرسانی‌ها و حذف‌ها (Upserts and Deletes) را به‌طور مؤثر انجام دهد، و نمایی سازگار از داده‌ها را در هر نقطه زمانی ارائه دهد. این چارچوب وظایف نگهداری خسته‌کننده جدول مانند فشرده‌سازی (Compaction)، خوشه‌بندی (Clustering) و پاکسازی (Cleaning) را خودکار می‌کند تا عملکرد را با رشد مجموعه‌داده‌ها تضمین نماید. مهم‌تر از همه، این فناوری پردازش دسته‌ای (Batch) و جریانی (Streaming) را بر روی یک فضای ذخیره‌سازی واحد یکپارچه می‌کند و نیاز به مدیریت سیستم‌های داده موازی را از بین می‌برد.

اکوسیستم گسترده‌تر داده نیز در این مسیر حرکت کرده است. معماری لیک‌هاوس به بخش مرکزی پلتفرم‌های مدرن تبدیل شده و باز بودن، قابلیت اطمینان و عملکرد را ترکیب می‌کند. از زمان متن‌باز شدن در سال ۲۰۱۷، هودی به سرعت پیشرفت کرده و اکنون یکی از فرمت‌های جدول باز پیشرو در کنار سایر پروژه‌های لیک‌هاوس متن‌باز است. پذیرش آن منعکس‌کننده یک روند گسترده‌تر در صنعت به سمت سیستم‌های باز و قابل تعامل است که می‌توانند هم حجم کاری تحلیلی و هم عملیاتی را به صورت آنی پشتیبانی کنند.

محتوای کتاب Apache Hudi: The Definitive Guide

فصل‌های این کتاب به‌گونه‌ای طراحی شده‌اند که شما را از اصول اساسی تا شیوه‌های پیشرفته راهنمایی کنند و در عین حال به عنوان یک مرجع عمل کنند که می‌توانید با پیشرفت استقرار هودی خود به آن بازگردید. هر فصل مفاهیم اصلی را معرفی می‌کند، منطق طراحی آن‌ها را توضیح می‌دهد، و نحوه به‌کارگیری عملی آن‌ها را نشان می‌دهد. در حالی که فصل‌های اولیه کتاب Apache Hudi: The Definitive Guide زمینه را برای درک سیستم فراهم می‌کنند، فصل‌های بعدی به اجزای خاص معماری می‌پردازند و فصل‌های نهایی کاربردهای end-to-end را بررسی می‌کنند و خوانندگان را به ابزارهای عملیاتی برای اجرای هودی در محیط تولید مجهز می‌سازند:

  • فصل ۱، “آپـاچی هودی چیست؟” این فصل از کتاب Apache Hudi: The Definitive Guide با بررسی ظهور دیتا لیک‌هاوس به عنوان یک معماری یکپارچه‌کننده برای نیازهای داده مدرن، زمینه را فراهم می‌کند. این فصل محدودیت‌های وِرهوس‌های سنتی و دیتا لیک‌ها و چگونگی ظهور هودی برای بستن شکاف بین حجم کاری جریانی و دسته‌ای را توضیح می‌دهد. شما ایده‌های اصلی پشت دریافت افزایشی، جداول تراکنشی و دسترسی آنی را خواهید آموخت. در پایان، خواهید دید که چرا هودی برای پارادایم لیک‌هاوس بنیادی است.
  • فصل ۲، “شروع کار با هودی” در اینجا، ما یک رویکرد عملی در پیش می‌گیریم: ساخت اولین جدول هودی، درج داده‌ها و صدور کوئری‌ها. این فصل از کتاب Apache Hudi: The Definitive Guide دو نوع اصلی جدول هودی (Copy-on-Write و Merge-on-Read) را معرفی می‌کند، در حالی که نشان می‌دهد این‌ها چگونه بر به‌روزرسانی‌ها و کوئری‌ها تأثیر می‌گذارند. همچنین با فراداده جدول، کامیت‌ها و چرخه حیات کلی یک مجموعه داده هودی آشنا خواهید شد. این نقطه شروع عملی، پایه‌های اساسی را می‌گذارد و تضمین می‌کند که می‌توانید با اطمینان به موضوعات عمیق‌تر بروید.
  • فصل ۳، “نوشتن در هودی” این فصل از کتاب Apache Hudi: The Definitive Guide پوشش می‌دهد که چگونه داده‌ها به هودی نوشته می‌شوند، یک فرآیند کلیدی برای لیک‌هاوس‌های قابل اعتماد و کارآمد. این فصل با توضیح کامل جریان نوشتن، از آماده‌سازی رکورد تا نهایی‌سازی تراکنش، برای اطمینان از صحت در مقیاس آغاز می‌شود. سپس این مفاهیم را به وظایف دنیای واقعی مانند insert، upsert، delete و bulk insert، با استفاده از یک ارائه‌دهنده داده اینترنت اشیا (IoT) به عنوان مثال، مرتبط می‌سازد. در نهایت، ویژگی‌های پیشرفته مانند تولیدکننده‌های کلید، تکامل طرح‌واره (Schema Evolution) و بوت‌استرپینگ را مورد بحث قرار می‌دهد و خوانندگان را برای ساخت پایپ‌لاین‌های با عملکرد بالا و سازگار بر روی هودی مجهز می‌کند.

فصل 3 کتاب Apache Hudi: The Definitive Guide

  • فصل ۴، “خواندن از هودی” یک سیستم تنها به اندازه توانایی‌اش در ارائه داده‌ها ارزشمند است. این فصل از کتاب Apache Hudi: The Definitive Guide نحوه خواندن جداول هودی در چندین حالت را پوشش می‌دهد: پرس‌وجوهای Snapshot برای نماهای فعلی، پرس‌وجوهای افزایشی برای ثبت تغییر داده‌ها، و سفر در زمان (Time Travel) برای اشکال‌زدایی یا انطباق. این فصل نشان می‌دهد که چگونه هودی با موتورهایی مانند Spark، Presto و Apache Hive ادغام می‌شود، در حالی که تضمین‌های قوی را حفظ می‌کند. خوانندگان با دانستن نحوه ارائه داده‌های قابل اعتماد و سازگار به مصرف‌کنندگان پایین‌دست، از این فصل خارج می‌شوند.
  • فصل ۵، “دستیابی به کارایی با نمایه‌سازی (Indexing)” این فصل توضیح می‌دهد که چگونه هودی از طریق سیستم نمایه‌سازی خود به کارایی و مقیاس‌پذیری دست می‌یابد. این فصل نمایه‌سازی پایه در یک لیک‌هاوس را پوشش می‌دهد، و نشان می‌دهد که چگونه نمایه‌ها به نویسندگان در مکان‌یابی سریع رکوردها برای به‌روزرسانی‌ها و حذف‌ها، و به خوانندگان با هرس فایل‌ها و پارتیشن‌ها برای تسریع کوئری‌ها کمک می‌کنند. این فصل از کتاب Apache Hudi: The Definitive Guide سپس انواع مختلف نمایه را مورد بحث قرار می‌دهد، از نمایندهای رکورد عمومی گرفته تا نمایه‌های تخصصی مانند Bloom، Bucket و Expression، که برای حجم‌های کاری مختلف طراحی شده‌اند. در پایان، خوانندگان یاد خواهند گرفت که چگونه راهبرد نمایه صحیح را برای بهینه‌سازی عملکرد، هزینه و پیچیدگی برای عملکرد نزدیک به آنی لیک‌هاوس در مقیاس انتخاب و پیاده‌سازی کنند.
  • فصل ۶، “نگهداری و بهینه‌سازی جداول هودی” خدمات پس‌زمینه هودی همان چیزی است که جداول را در طول زمان سالم نگه می‌دارد. این فصل خدمات اصلی جدول مانند پاکسازی، فشرده‌سازی، نمایه‌سازی و خوشه‌بندی را بررسی می‌کند و نشان می‌دهد که چگونه این خدمات فضای ذخیره‌سازی را بازیابی می‌کنند، چیدمان فایل را بهینه می‌سازند و عملکرد کوئری را افزایش می‌دهند. این فصل از کتاب Apache Hudi: The Definitive Guide توضیح می‌دهد که چه زمانی این خدمات را به‌صورت همزمان در مقابل ناهمزمان اجرا کنید و چگونه آن‌ها را برای حجم کاری خود سفارشی‌سازی نمایید. با این پایه، شما برای اداره جداولی که به‌طور روان مقیاس‌پذیر هستند بدون نیاز به رفع مشکلات دستی، آماده خواهید بود.
  • فصل ۷، “کنترل همزمانی در هودی” این فصل کنترل همزمانی در هودی را بررسی می‌کند و بر چگونگی حفظ سازگاری و دقت داده‌ها در دیتا لیک‌ها با چندین خواننده و نویسنده تأکید دارد. این فصل از کتاب Apache Hudi: The Definitive Guide به چالش‌ها در تنظیمات توزیع‌شده می‌پردازد و توضیح می‌دهد که چگونه هودی تکنیک‌هایی مانند کنترل همزمانی خوش‌بینانه، چندنسخه‌ای و بدون مسدودسازی را برای افزایش مقیاس‌پذیری و دقت ترکیب می‌کند. این فصل سناریوهای چندنویسنده، حل تعارض و راهبردهای قفل‌گذاری را مورد بحث قرار می‌دهد و نکات عملی برای عملیات موازی کارآمد بدون فدا کردن کیفیت داده‌ها ارائه می‌دهد. در نهایت، خوانندگان را در ایجاد پایپ‌لاین‌های داده قابل اعتماد و مقیاس‌پذیر ضمن مدیریت پیچیدگی‌های دیتا لیک‌های مدرن راهنمایی می‌کند.

فصل 7 کتاب Apache Hudi: The Definitive Guide

  • فصل ۸، “ساخت یک لیک‌هاوس با استفاده از هودی استریمر (Hudi Streamer)” دریافت جریانی جایی است که هودی واقعاً می‌درخشد. این فصل از کتاب Apache Hudi: The Definitive Guide Hudi Streamer را معرفی می‌کند، یک ابزار آماده به کار برای آوردن داده‌ها از Apache Kafka، Amazon S3، یا سایر منابع رویدادی به‌طور مستقیم به جداول هودی. شما خواهید دید که چگونه پایپ‌لاین‌های افزایشی را با تکامل طرح‌واره، تبدیل‌ها و نقاط بازرسی (Checkpoints) داخلی پیکربندی کنید. در پایان، نحوه یکپارچه‌سازی داده‌های جریانی و دسته‌ای در یک پلتفرم واحد و منسجم را درک خواهید کرد.
  • فصل ۹، “اجرای هودی در محیط تولید” انتقال از توسعه به تولید مجموعه‌ای کاملاً جدید از چالش‌ها را به همراه دارد. این فصل شما را با ابزارهای عملیاتی مانند Hudi CLI، نقاط ذخیره و بازیابی (Savepoints and Restores) برای بازیابی از فاجعه، بازخوانی‌های پس از کامیت (Post-Commit Callbacks) و همگام‌سازی کاتالوگ در موتورهای مختلف مجهز می‌کند. همچنین راهبردهای نظارتی و تنظیم عملکرد برای Spark و Flink را پوشش می‌دهد و اطمینان می‌دهد که پایپ‌لاین‌های شما قوی باقی می‌مانند. خوانندگان اعتماد به نفس لازم برای اجرای هودی در مقیاس با به حداقل رساندن ریسک و سربار را به دست می‌آورند.
  • فصل ۱۰، “ساخت یک راه‌حل لیک‌هاوس End-to-End” فصل آخر کتاب Apache Hudi: The Definitive Guide همه چیز را در یک سناریوی دنیای واقعی گرد هم می‌آورد. با استفاده از مثال RetailMax Corp.، شما داده‌ها را از دریافت، از طریق لایه‌های Bronze، Silver و Gold تا تحلیل‌های پایین‌دست و برنامه‌های هوش مصنوعی دنبال خواهید کرد. این فصل نشان می‌دهد که چگونه Flink، Kafka، Debezium و Hudi را در یک معماری لیک‌هاوس یکپارچه ترکیب کنید که از نیازهای عملیاتی و تحلیلی پشتیبانی می‌کند. این فصل هم به عنوان یک طرح کلی و هم الهام‌بخش برای ساخت پلتفرم داده end-to-end خودتان عمل می‌کند.

فصل 10 کتاب Apache Hudi: The Definitive Guide

نحوه استفاده از کتاب Apache Hudi: The Definitive Guide

این کتاب به‌گونه‌ای طراحی شده که انعطاف‌پذیر باشد. تازه‌واردان به هودی یا پارادایم لیک‌هاوس از خواندن ترتیبی بهره خواهند برد، زیرا مفاهیم به‌طور طبیعی از یک فصل به فصل دیگر ساخته می‌شوند. متخصصان باتجربه‌تر ممکن است بخواهند مستقیماً به بخش‌هایی که بیشتر به نیازهایشان مربوط است بپرند—به عنوان مثال، نمایه‌سازی و خدمات جدول برای تنظیم عملکرد، یا کنترل همزمانی برای مدیریت حجم کاری چندنویسنده.

کاربرد end-to-end نهایی در فصل ۱۰ کتاب Apache Hudi: The Definitive Guide را می‌توان در هر مرحله‌ای مطالعه کرد. این فصل می‌تواند به عنوان یک الهام اولیه برای دیدن آنچه ممکن است عمل کند، یا به عنوان یک راهنمای عملی ادغام زمانی که برای طراحی پلتفرم لیک‌هاوس خود آماده هستید.

مهم‌تر از همه، امید ما این است که کتاب Apache Hudi: The Definitive Guide به یک مرجع مورد اعتماد تبدیل شود: منبعی که می‌توانید با تکامل پلتفرم داده خود به آن بازگردید، چه تازه شروع به کاوش هودی کرده باشید و چه در حال مقیاس‌بندی یک سیستم تولیدی به محدودیت‌های آن باشید.


سرفصل‌های کتاب Apache Hudi: The Definitive Guide:

  • Foreword
  • Preface
  • 1. What Is Apache Hudi?
  • 2. Getting Started with Hudi
  • 3. Writing to Hudi
  • 4. Reading from Hudi
  • 5. Achieving Efficiency with Indexing
  • 6. Maintaining and Optimizing Hudi Tables
  • 7. Concurrency Control in Hudi
  • 8. Building a Lakehouse Using Hudi Streamer
  • 9. Running Hudi in Production
  • 10. Building an End-to-End Lakehouse Solution
  • Index
  • About the Authors

جهت دانلود کتاب Apache Hudi: The Definitive Guide می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب

epub

ویرایش

First

ISBN

978-1-098-17392-0

تعداد صفحات

287

انتشارات

سال انتشار

حجم

8.46 مگابایت

نویسنده

, , ,

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Apache Hudi: The Definitive Guide”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خرید کتاب Apache Hudi: The Definitive Guide:

۴۰,۰۰۰ تومان

  • نسخه کتاب فعلی به زبان لاتین می‌باشد.
  • کتاب به صورت فایل می‌باشد و پس از خرید بلافاصله در دسترس شما قرار می‌گیرد.
  • قبل از خرید، قسمت توضیحات تکمیلی مربوط به هر کتاب را مطالعه کنید.
  • در صورت هرگونه سؤال با ایمیل و یا شماره پشتیبانی سایت در تماس باشید.
  • درگاه پرداخت رمزارز نیز برای هموطنان خارج از کشور فعال است.
دسته‌یندی کتاب‌ها:
سبد خرید
به بالا بروید