کتاب Engineering Lakehouses with Open Table Formats: Build scalable and efficient lakehouses with Apache Iceberg, Apache Hudi, and Delta Lake (مهندسی لیکهاوسها با فرمتهای جدول باز: ساخت لیکهاوسهای مقیاسپذیر و کارآمد با Apache Iceberg، Apache Hudi و Delta Lake) به بررسی معماری و پیادهسازی لیکهاوسها با تمرکز بر فرمتهای جدول باز میپردازد و نشان میدهد چگونه میتوان با استفاده از Apache Iceberg، Apache Hudi و Delta Lake سیستمهای دادهای مقیاسپذیر، قابلاعتماد و کارآمد ساخت.
در ادامه مقدمهای از کتاب Engineering Lakehouses with Open Table Formats را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Engineering Lakehouses with Open Table Formats:
ظهور معماری لیکهاوس داده نحوه مدیریت، پردازش و تحلیل دادهها در سازمانها را بازتعریف کرده است. با بلوغ تدریجی استانداردهای باز، مهندسی داده مدرن بیش از پیش به دستهای جدید از فناوریها به نام فرمتهای جدول باز مانند Apache Iceberg، Apache Hudi و Delta Lake متکی شده است تا سازگاری تراکنشی، کارایی و انعطافپذیری را به دریاچههای داده اضافه کند.
کتاب Engineering Lakehouses with Open Table Formats با هدف کمک به مهندسان و معماران داده برای درک، ارزیابی و پیادهسازی این فرمتها در محیطهای واقعی نوشته شده است. این کتاب کل مسیر ساخت لیکهاوس را پوشش میدهد؛ از درک جزئیات داخلی فرمتهای جدول و قابلیتهای تراکنشی گرفته تا ساخت لیکهاوسهای آماده تولید با استفاده از ابزارهایی مانند Apache Spark، Flink، Kafka، Debezium، MLflow و فریمورکهای پایتون. رویکرد کتاب کاملاً عملی و مهندسیمحور است و در سراسر آن از مثالها، دیاگرامهای معماری و دستورالعملهای کدنویسی استفاده شده است.
کتاب Engineering Lakehouses with Open Table Formats برای چه کسانی مناسب است
این کتاب برای مهندسان داده و نرمافزار، معماران سیستم و مهندسان پلتفرم که در حال ساخت یا نوسازی پلتفرمهای داده در محیطهای ابری یا درونسازمانی هستند، نوشته شده است. داشتن درک پایهای از سیستمهای توزیعشده، معماریهای داده (مانند انبار داده و دریاچه داده)، SQL و پایتون به بهرهگیری بهتر از مطالب کتاب کمک میکند. آشنایی با ابزارهایی مانند Apache Spark یا Flink مزیت محسوب میشود، اما الزامی نیست. تمامی مفاهیم بهصورت گامبهگام و کاربردی توضیح داده شدهاند.
محتوای کتاب Engineering Lakehouses with Open Table Formats
فصل ۱: لیکهاوس داده باز؛ یک پارادایم معماری جدید
به بررسی تکامل معماریهای داده میپردازد و توضیح میدهد چگونه لیکهاوس انعطافپذیری دریاچههای داده را با قابلیت اطمینان انبارهای داده ترکیب میکند.
فصل ۲: قابلیتهای تراکنشی لیکهاوس
بررسی تراکنشهای ACID، کنترل همزمانی و سرویسهای مدیریت جدول که پایداری پردازش داده در مقیاس بزرگ را تضمین میکنند و نحوه پیادهسازی آنها در هر فرمت.
فصل ۳: بررسی عمیق Apache Iceberg
معماری Iceberg، لایههای متادیتا، manifest listها، یکپارچگی با کاتالوگها و قابلیتهایی مانند پارتیشنبندی پنهان، شاخهبندی و آمار پیشرفته را پوشش میدهد و مثالهای عملی متعددی ارائه میکند.
فصل ۴: بررسی عمیق Apache Hudi
اصول طراحی اصلی Hudi شامل مدیریت timeline، ساختار file group، ایندکسگذاری و پردازش افزایشی داده را توضیح میدهد و اجرای تراکنشها در مقیاس بزرگ را با مثالهای عملی نشان میدهد.

فصل ۵: بررسی عمیق Delta Lake
لاگ تراکنش Delta، اعمال اسکیما و نسخهبندی داده را تشریح میکند و با مثالهای کدنویسی، استفاده از Delta در تحلیل بلادرنگ و بارهای کاری یادگیری ماشین را نشان میدهد.
فصل ۶: مدیریت کاتالوگ و متادیتا
بررسی نقش کاتالوگها در کشف داده، تکامل اسکیما و کنترل نسخه در موتورها و محیطهای مختلف.
فصل ۷: قابلیت همکاری در لیکهاوسها
اهمیت سازگاری بین فرمتها را بررسی میکند و ابزارهایی مانند Apache XTable و Delta UniForm را بهعنوان پلهایی برای همکاری چندفرمتی معرفی میکند.
فصل ۸: بهینهسازی و تنظیم عملکرد در لیکهاوس
تکنیکهایی مانند پارتیشنبندی، خوشهبندی، فشردهسازی (compaction) و ایندکسگذاری برای بهبود کارایی کوئریها، کاهش هزینه و کاهش تأخیر را بررسی میکند.

فصل ۹: حاکمیت داده و امنیت در لیکهاوسها
راهبردهای پیادهسازی کنترل دسترسی دقیق، ممیزی و انطباق با الزامات قانونی را توضیح میدهد.
فصل ۱۰: ارزیابی و انتخاب فرمتهای جدول باز
راهنمایی برای انتخاب بین Iceberg، Hudi و Delta بر اساس نوع بار کاری (batch، streaming یا incremental) ارائه میدهد و یک چارچوب تصمیمگیری برای مهندسان و معماران پیشنهاد میکند.
فصل ۱۱: کاربردهای واقعی و تجربیات عملی
با ارائه پیادهسازیهای واقعی از بارهای کاری تحلیلی، CDC و یادگیری ماشین، و یکپارچهسازی فرمتهای جدول باز با ابزارهای orchestration و BI، مطالب کتاب را جمعبندی میکند.

سرفصلهای کتاب Engineering Lakehouses with Open Table Formats:
- Cover
- Title Page
- Table of Contents
- Preface
- Chapter 1: Open Data Lakehouse: A New Architectural Paradigm
- Chapter 2: Transactional Capabilities of the Lakehouse
- Chapter 3: Apache Iceberg Deep Dive
- Chapter 4: Apache Hudi Deep Dive
- Chapter 5: Delta Lake Deep Dive
- Chapter 6: Catalog and Metadata Management
- Chapter 7: Interoperability in Lakehouses
- Chapter 8: Performance Optimization and Tuning in a Lakehouse
- Chapter 9: Data Governance and Security in Lakehouses
- Chapter 10: Evaluating and Selecting Open Table Formats
- Chapter 11: Real-World Applications and Learnings
- Chapter 12: Unlock Your Exclusive Benefits
- About Packt
- Other Books You May Enjoy
- Index
جهت دانلود کتاب Engineering Lakehouses with Open Table Formats میتوانید پس از پرداخت، دریافت کنید.

دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.