کتاب Delta Lake: The Definitive Guide: Modern Data Lakehouse Architectures with Data Lakes (دلتا لیک: راهنمای نهایی: معماریهای مدرن دریاچه داده با دریاچههای داده) یک راهنمای جامع و کامل برای درک و استفاده از فناوری دلتا لیک است. این کتاب با زبانی ساده و روان، اصول اولیه دلتا لیک، نحوه نصب و پیکربندی آن، عملیاتهای اساسی و پیشرفته، و همچنین نحوه ساخت برنامههای بومی با استفاده از دلتا لیک را توضیح میدهد. علاوه بر این، کتاب به بررسی اکوسیستم دلتا لیک، ویژگیهای پیشرفته آن، و نحوه طراحی و پیادهسازی معماریهای مدرن دریاچه داده با استفاده از دلتا لیک میپردازد.
در ادامه مقدمهای از کتاب Delta Lake The Definitive Guide را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Delta Lake The Definitive Guide:
خوش آمدید به Delta Lake: راهنمای نهایی!
از زمانی که Delta Lake در سال 2019 به عنوان یک پروژه منبع باز منتشر شد، نحوه مدیریت و پردازش دادهها توسط سازمانها را متحول کرده است. Delta Lake با هدف آوردن قابلیت اطمینان، عملکرد و مقیاسپذیری به دریاچههای داده، بسیاری از چالشهای ذاتی معماریهای سنتی دریاچه داده را برطرف میکند.
در طول پنج سال گذشته، Delta Lake متحول شده است. در ابتدا بر تقویت Apache Spark متمرکز بود، اما اکنون دارای یک اکوسیستم غنی با ادغامهای مختلف در پلتفرمهای مختلف، از جمله Apache Flink، Trino و بسیاری دیگر است. این تکامل باعث شده است که Delta Lake به یک جزء همه کاره و جداییناپذیر در فرآیندهای مهندسی داده و علم داده مدرن تبدیل شود.
کتاب Delta Lake The Definitive Guide برای چه کسانی مناسب است؟
به عنوان تیمی از کاربران عملی و نگهدارندگان پروژه Delta Lake، ما خوشحالیم که دانش و تجربه جمعی خود را با شما به اشتراک بگذاریم. سفر ما با Delta Lake از پیادهسازیهای کوچک تا دریاچههای تولید در مقیاس اینترنت گسترده است، که به ما دیدگاه منحصر به فردی در مورد قابلیتهای آن و نحوه کار با هرگونه پیچیدگی میدهد.
هدف اصلی کتاب Delta Lake The Definitive Guide ارائه یک منبع جامع برای هر دو تازه واردان و متخصصان در معماریهای دریاچه داده است. برای کسانی که تازه با Delta Lake شروع میکنند، هدف ما روشن کردن اصول اصلی آن و کمک به شما برای جلوگیری از اشتباهات رایجی است که در روزهای اولیه خود با آن مواجه شدیم. اگر قبلاً با Delta Lake آشنا هستید، بینشهای ارزشمندی در مورد کد پایه، ویژگیهای پیشرفته و تکنیکهای بهینهسازی برای بهبود محیط دریاچه داده خود پیدا خواهید کرد.
در طول این صفحات، ما از جامعه پر جنب و جوش Delta Lake و روحیه همکاری آن تجلیل میکنیم! ما به ویژه به برجسته کردن توسعه API Delta Rust و پیوندهای پایتون آن که به طور گسترده مورد استفاده قرار گرفتهاند، افتخار میکنیم که رویکرد نوآورانه جامعه برای گسترش قابلیتهای Delta Lake را نشان میدهد.
Delta Lake از زمان آغاز خود به طور قابل توجهی تکامل یافته است و فراتر از تمرکز اولیه خود بر Apache Spark، طیف گستردهای از ادغامها با چندین زبان و چارچوب را در بر میگیرد. برای انعکاس این تنوع، ما مثالهای کدی را شامل شدهایم که شامل Flink، Kafka، Python، Rust، Spark، Trino و موارد دیگر میشوند. این پوشش گسترده تضمین میکند که صرف نظر از ابزارها و زبانهای مورد علاقه خود، مثالهای مرتبطی پیدا خواهید کرد.
در حالی که مفاهیم بنیادی را پوشش میدهیم، تجربیات شخصی و درسهای آموخته شده خود را نیز گنجاندهایم. مهمتر از آن، ما فراتر از تئوری میرویم تا راهنمایی عملی در مورد اجرای موفقیتآمیز یک دریاچه داده تولید ارائه دهیم. ما بهترین روشها، تکنیکهای بهینهسازی و سناریوهای دنیای واقعی را برای کمک به شما در جهت غلبه بر چالشهای پیادهسازی و نگهداری یک سیستم مبتنی بر Delta Lake در مقیاس بزرگ گنجاندهایم.
چه مهندس داده، معمار یا دانشمند باشید، هدف ما این است که شما را با دانش و ابزارهایی برای استفاده مؤثر از Delta Lake در پروژههای داده خود تجهیز کنیم. امیدواریم این راهنما به عنوان همراه شما در ساختن معماریهای دریاچه داده قوی، کارآمد و مقیاسپذیر عمل کند.
نحوه سازماندهی کتاب Delta Lake The Definitive Guide
این کتاب به گونهای سازماندهی شده است که میتوانید از یک فصل به فصل دیگر حرکت کنید – معرفی مفاهیم، نمایش مفاهیم کلیدی از طریق نمونههای کد، و ارائه مثالهای کامل کد یا نوتبوکها در مخزن GitHub کتاب.
فصلهای اولیه کتاب Delta Lake The Definitive Guide اصول اولیه نحوه نصب Delta Lake، عملیات ضروری آن، درک اکوسیستم آن، ساخت برنامههای بومی Delta Lake و نگهداری Delta Lake شما را ارائه میدهند؛ فصلهای بعدی بر این اصول گسترش مییابند و به ویژگیها عمیقتر میشوند و سپس به بررسی نحوه معماری همه اینها برای بارهای کاری تولید شما باز میگردند:
فصل 1، “مقدمه بر فرمت دریاچه داده Delta Lake” ما مبدا Delta Lake، اینکه چیست و چه کاری انجام میدهد، آناتومی آن و پروتکل تراکنش را توضیح میدهیم. ما به شما تأکید میکنیم که لاگ تراکنش Delta منبع واحد حقیقت است و متعاقباً منبع واحد رابطه بین متادیتا و دادههای آن است.
فصل 2، “نصب Delta Lake” ما روشهای مختلف نصب Delta Lake را مورد بحث قرار میدهیم، چه از طریق pip یا از طریق پیادهسازیهای Docker برای Rust، Python و Apache Spark.
فصل 3، “عملیات ضروری Delta Lake” در این فصل از کتاب Delta Lake The Definitive Guide به عملیات CRUD، عملیات ادغام، تبدیل از Parquet به Delta و مدیریت متادیتای Delta Lake میپردازیم.
فصل 4، “غوطهور شدن در اکوسیستم Delta Lake” ما به اکوسیستم Delta Lake میپردازیم و چارچوبهای، سرویسها و پروژههای جامعه بسیاری را که از Delta Lake پشتیبانی میکنند، مورد بحث قرار میدهیم. این فصل از کتاب Delta Lake The Definitive Guide شامل نمونههای کد برای کانکتور Flink DataStream، Kafka Delta Ingest و Trino است.
فصل 5، “نگهداری Delta Lake شما” در حالی که Delta Lake خواندن و نوشتن بهینه را خارج از جعبه ارائه میدهد، توسعهدهندگانی که کتاب Delta Lake The Definitive Guide را میخوانند، میخواهند پیکربندی و تنظیمات Delta Lake را بیشتر تنظیم کنند تا عملکرد بیشتری کسب کنند. این فصل از کتاب Delta Lake The Definitive Guide به استفاده از خصوصیات جدول، بهینهسازی جدول شما با Z-Ordering، تنظیم و مدیریت جدول و تعمیر/بازیابی جدول شما میپردازد.
فصل 6، “ساخت برنامههای بومی با Delta Lake”
پروژه delta-rs از ابتدا توسط جامعه از سال 2020 ساخته شد. با هم، ما یک API Delta Rust را با استفاده از کد بومی ساختیم، بنابراین به توسعهدهندگان اجازه میدهیم از قابلیت اطمینان Delta Lake بدون نیاز به نصب یا نگهداری JVM (ماشین مجازی جاوا) استفاده کنند. در این فصل از کتاب Delta Lake The Definitive Guide، به این پروژه و پیوندهای پایتون محبوب آن خواهیم پرداخت.
توجه ما میخواهیم از R. Tyler Croy تشکر کنیم که نه تنها در کتاب Delta Lake The Definitive Guide مشارکت کرده و به آن کمک کرده است، بلکه نویسنده فصل 6 نیز هست.
فصل 7، “جریان داده ورودی و خروجی در Delta Lake شما”
ما در مورد اهمیت جریان داده و Delta Lake بحث میکنیم و به جریان داده با Apache Flink، Apache Spark و delta-rs عمیقتر میپردازیم. همچنین گزینههای جریان داده، استفاده پیشرفته با Apache Spark و Change Data Feed را مورد بحث قرار میدهیم.
فصل 8، “ویژگیهای پیشرفته”
Delta Lake دارای ویژگیهای پیشرفتهای مانند ستونهای تولید شده و بردارهای حذف است که از رویکرد جدیدی برای Merge-on-Read (MoR) پشتیبانی میکنند.
فصل 9، “معماری دریاچه داده شما”
با نگاهی کلی، چگونه باید دریاچه داده خود را با Delta Lake طراحی کنید؟ پاسخ به این سوال شامل درک معماری دریاچه داده، پشتیبانی از تراکنش، معماری مدالیون و معماری مدالیون جریان داده میشود.
فصل 10، “تنظیم عملکرد: بهینهسازی خطوط لوله داده شما با Delta Lake”
این احتمالاً هیجانانگیزترین فصل ما است! در آن، ما بیشتر در مورد Z-Ordering، خوشهبندی مایع، آمار جدول و ملاحظات عملکردی بحث میکنیم.
فصل 11، “الگوهای طراحی موفق”
برای کمک به شما در ساخت یک محیط تولید موفق، به کاهش هزینههای محاسباتی، دریافت جریان داده کارآمد و هماهنگی سیستمهای پیچیده میپردازیم.
فصل 12، “مبانی حاکمیت و امنیت دریاچه داده” و فصل 13، “مدیریت متادیتا، جریان داده و خویشاوندی”
سپس، ما فصلهای مفصلی در مورد حاکمیت دریاچه داده داریم! از کنترل دسترسی و مدل دارایی داده تا متحد کردن انبار داده و حاکمیت دریاچه، امنیت داده، مدیریت متادیتا و جریان داده و خویشاوندی، این دو فصل کتاب Delta Lake The Definitive Guide پایه و اساس داستان حاکمیت شما را تشکیل میدهند.
فصل 14، “اشتراکگذاری داده با پروتکل اشتراکگذاری Delta”
Delta Sharing یک پروتکل باز برای اشتراکگذاری دادههای ایمن و بلادرنگ بین سازمانها و پلتفرمهای محاسباتی است. این به ارائه دهندگان داده اجازه میدهد تا دادههای زنده را مستقیماً از جداول Delta Lake خود بدون نیاز به تکثیر یا کپی داده به سیستم دیگری به اشتراک بگذارند. در این فصل از کتاب Delta Lake The Definitive Guide، ما این موضوعات را بیشتر بررسی میکنیم.
سرفصلهای کتاب Delta Lake The Definitive Guide:
- Copyright
- Table of Contents
- Foreword by Michael Armbrust
- Foreword by Dominique Brezinski
- Preface
- Chapter 1. Introduction to the Delta Lake Lakehouse Format
- Chapter 2. Installing Delta Lake
- Chapter 3. Essential Delta Lake Operations
- Chapter 4. Diving into the Delta Lake Ecosystem
- Chapter 5. Maintaining Your Delta Lake
- Chapter 6. Building Native Applications with Delta Lake
- Chapter 7. Streaming In and Out of Your Delta Lake
- Chapter 8. Advanced Features
- Chapter 9. Architecting Your Lakehouse
- Chapter 10. Performance Tuning: Optimizing Your Data Pipelines with Delta Lake
- Chapter 11. Successful Design Patterns
- Chapter 12. Foundations of Lakehouse Governance and Security
- Chapter 13. Metadata Management, Data Flow, and Lineage
- Chapter 14. Data Sharing with the Delta Sharing Protocol
- Index
- About the Authors
- Colophon
جهت دانلود کتاب Delta Lake The Definitive Guide میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.