کتاب Delta Lake: Up and Running: Modern Data Lakehouse Architectures with Delta Lake (Delta Lake: آماده برای عملیات: معماری مدرن دیتا لیک هاوس با Delta Lake) مفاهیم مربوط به دیتالیک در علوم داده را با مثال شرح میدهد.
در ادامه مقدمهای از کتاب Delta Lake: Up and Running را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Delta Lake: Up and Running:
هدف این کتاب ارائه دستورالعملهای عملی در مورد چگونگی راهاندازی دریاچه دلتا و شروع استفاده از ویژگیهای منحصربهفرد آن به پزشکان داده است.
کتاب Delta Lake: Up and Running برای مخاطبانی طراحی شده است که متناسب با هر یک از پروفایلهای زیر باشد:
پزشکان داده با پیشینه Spark
متخصصان داده ناآشنا یا تازه کار با دریاچه دلتا نیاز به معرفی فناوری، مشکلات حلشده، ویژگیها و اصطلاحات اصلی آن، و همچنین نحوه شروع استفاده از آن دارند.
متخصصان داده به دنبال یادگیری در مورد ویژگیها و مزایای معماری مدرن دریاچه هستند. توجه به این نکته ضروری است که این کتاب و ویژگیهای مورد بحث در چارچوب متن باز دریاچه دلتا (Delta Lake OSS) کاربرد دارد.
ویژگیهای اختصاصی و بهینهسازیهایی که برخی از شرکتها در اطراف دریاچه دلتا ارائه میدهند، خارج از محدوده این کتاب در نظر گرفته میشوند.
بیشتر بخوانید: کتاب The Cloud Data Lake
ابتدا، در مورد اینکه چرا دریاچه دلتا ابزار مهمی برای ساخت سکوهای دادههای سازمانی مدرن و راهحلهای علوم داده و هوش مصنوعی است، بحث میکنیم و سپس دستورالعملهایی در مورد نحوه راهاندازی دریاچه دلتا با اسپارک ارائه میکنیم.
هر یک از فصلهای بعدی با استفاده از دستورالعملهای گام به گام و مثالهای واقعی، شما را با عملکردها و عملیاتهای اساسی دریاچه دلتا آشنا میکند.
نمونههای کد موجود در کتاب Delta Lake: Up and Running از قطعههایی که میتوانند در پوسته PySpark استفاده شوند تا مواردی که برای اجرا با یک نوتبوک کامل از انتها به انتها طراحی شدهاند، متفاوت است. در این کتاب، تمام قطعات کد در Python، SQL و در صورت لزوم، دستورات پوسته خواهند بود.
یک مخزن GitHub برای کمک به خوانندگان در ادامه کتاب در نظر گرفته شده است. مجموعه دادهها، فایلها و نمونههای کد در مخزن ارائه شدهاند و در سراسر کتاب به آنها اشاره میشود. در زیر چند نکته مهم در مورد استفاده از مخزن GitHub وجود دارد:
نمونه کد
نمونههای کد در مخزن به فصل سازماندهی میشوند، و برای اکثر فصلها یک اسکریپت مقداردهی اولیه فصل قبل از اجرای هر یک از کدهای مربوط به آن فصل خاص اجرا میشود.
این کد مقداردهی اولیه قبل از اجرای کد مورد نیاز است تا جداول دلتا و مجموعه دادههای مناسب را برای نشان دادن موضوعات مورد بحث به بهترین نحو تنظیم کنیم.
این اسکریپتهای اولیهسازی فصل به صراحت در متن کتاب قبل از اجرای اولین مجموعه کد نمونه برای یک فصل مشخص خوانده میشوند.
فایلهای داده نمونه کد
فایلهای داده مورد نیاز برای اجرای نمونه کد ارائه شده در مخزن GitHub زنده هستند. فایلهای داده موجود در مخزن GitHub از سوابق محبوب سفر تاکسی زرد و سبز نیویورک میآیند. این فایلها برای نمایش مؤثر در سراسر این کتاب دانلود و نگهداری شدند.
روش اجرای دریاچه دلتا برای کتاب Delta Lake: Up and Running
روش اجرای Delta Lake برای اهداف این کتاب و کد موجود در مخزن GitHub ارائه شده Databricks Community Edition است. Databricks Community Edition برای توسعه و اجرای نمونههای کد انتخاب شده است، زیرا رایگان است، راهاندازی Spark و Delta Lake را ساده میکند و نیازی به حساب ابری شما یا تأمین منابع محاسبات ابری یا ذخیرهسازی شما ندارد.
جداول دلتا، مجموعه دادهها و نمونههای کد مورد استفاده در این کتاب و مخزن GitHub با استفاده از Azure Data Lake Storage Gen۲ بهعنوان لایه ذخیرهسازی زیربنایی و Databricks Runtime ۱۲. ۲ LTS بر روی Databricks Community Edition میزبانی شده در Azure توسعه و آزمایش شدهاند.
لطفاً توجه داشته باشید که اگر نمونههای کد را در Spark و Delta Lake خارج از Databricks (به عنوان مثال، در دستگاه محلی خود) اجرا میکنید، تنظیمات، پیکربندی و گزینههای نحوی ویرایشگر بالقوهای وجود خواهد داشت که توسط خواننده در نظر گرفته میشود.
نوت بوک
اصطلاح دفترچه یادداشت را نیز خواهید دید. نوت بوک به دفترچه Databricks، ابزار اولیه برای توسعه کد و ارائه نتایج در سراسر کتاب اشاره دارد.
زبانهای کد
Delta Lake از چندین زبان (Scala، Java، Python و SQL) برای عملکردهای مختلف پشتیبانی میکند. کتاب Delta Lake: Up and Running در درجه اول بر پایتون و SQL تمرکز دارد.
نمونههای کد کدی را به زبانی که مناسبترین زبان برای موضوع مورد بحث است ارائه میکند. جایگزین برای عملکرد مشابه در زبانهای دیگر همیشه ارائه نخواهد شد. لطفاً برای مشاهده عملکردهای مشابه به زبانهای جایگزین به مستندات دریاچه دلتا مراجعه کنید.
برای تکههای کد مورد استفاده در کتاب Delta Lake: Up and Running، زبان پیشفرض پایتون است. برای نشان دادن استفاده از زبانی غیر از پایتون در قطعه کد، دستورات جادویی زبان را مشاهده خواهید کرد، یعنی % (به عنوان مثال %sql). شما میتوانید فرض کنید که تکههای کد بدون دستور جادویی زبان از پایتون استفاده میکنند.
سرفصلهای کتاب Delta Lake: Up and Running:
- Copyright
- Table of Contents
- Preface
- Chapter 1. The Evolution of Data Architectures
- Chapter 2. Getting Started with Delta Lake
- Chapter 3. Basic Operations on Delta Tables
- Chapter 4. Table Deletes, Updates, and Merges
- Chapter 5. Performance Tuning
- Chapter 6. Using Time Travel
- Chapter 7. Schema Handling
- Chapter 8. Operations on Streaming Data
- Chapter 9. Delta Sharing
- Chapter 10. Building a Lakehouse on Delta Lake
- Index
- About the Author
- Colophon
جهت دانلود کتاب Delta Lake: Up and Running میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.