کتاب Learning and Operating Presto: Fast, Reliable SQL for Data Analytics and Lakehouses (یادگیری و اجرای Presto: اس کیو ال سریع و قابل اعتماد برای تجزیه و تحلیل دادهها و Lakehouses) در 9 فصل به شرح ابزار Presto و کاربردهای آن خواهد پرداخت.
در ادامه مقدمهای از کتاب Learning and Operating Presto را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Learning and Operating Presto:
ذخیرهسازی دادهها با کشیدن دادهها از پایگاههای داده عملیاتی به سیستمهایی آغاز شد که برای تجزیه و تحلیل بهینهتر بودند. این سیستمها ابزارهای گرانقیمتی برای کار بودند، به این معنی که مردم در مورد اینکه چه دادههایی برای تجزیه و تحلیل در ابزار ذخیرهسازی دادهشان وارد میشود، بسیار عاقلانه عمل میکردند.
در طول سالها، تقاضا برای دادههای بیشتر افزایش یافته است، به مراتب از قانون مور پیشی گرفته و ابزارهای انبار داده قدیمی را به چالش میکشد. در حالی که این روند برای صنعت به طور کلی صادق است، برخی از شرکتها زودتر از سایرین با چالشهای مقیاسپذیری مواجه شدند.
فیسبوک یکی از اولین شرکتهایی بود که در سال 2012 برای حل این مشکل تلاش کرد. در آن زمان، فیسبوک از Apache Hive برای انجام تجزیه و تحلیل تعاملی استفاده میکرد. همانطور که مجموعه دادههای فیس بوک رشد میکرد، مشخص شد که Hive به اندازه دلخواه تعاملی (بخوانید: خیلی کند) نیست. این عمدتاً به این دلیل است که اساس Hive MapReduce است، که در آن زمان نیاز به حفظ مجموعه دادههای میانی روی دیسک داشت.
این نیاز به مقدار زیادی I/O به دیسک برای مجموعه نتایج گذرا و میانی داشت. بنابراین فیسبوک Presto را توسعه داد، یک موتور جستجوی توزیع شده SQL جدید که به عنوان یک موتور درون حافظه طراحی شده است، بدون اینکه نیازی به تداوم مجموعه نتایج میانی برای یک پرس و جو باشد. این رویکرد منجر به یک موتور پرس و جو شد که همان ترتیبات پرس و جو را سریعتر پردازش میکرد و بسیاری از پرس و جوها با تأخیر کمتر از یک ثانیه تکمیل میشدند.
کاربران نهایی مانند مهندسان، مدیران محصول و تحلیلگران داده دریافتند که میتوانند به صورت تعاملی بخش هایی از مجموعه دادههای بزرگ را برای آزمایش فرضیه ها و ایجاد تجسم جستجو کنند.
در حالی که فیسبوک یکی از اولین شرکتها بود، در مشکلاتی که با رشد مجموعه دادهها و پیشی گرفتن از پیشرفت های سختافزاری با آن مواجه شد، تنها نبود. معماری دریاچه داده برای مقابله با این چالشها با جدا کردن فضای ذخیرهسازی از محاسبات و اجازه رشد ذخیرهسازی در سیستمهای فایل توزیع شده ارزانتر که از سختافزار کالا و در نهایت از سیستمهای ذخیرهسازی ابری استفاده میکنند، توسعه داده شد.
همزمان با ذخیرهسازی ارزانتر برای ذخیره دادههای روزافزون، سیستمهای محاسباتی برای پردازش دادههای روزافزون بودند. با این حال، بلافاصله مشخص نبود که کاربران چگونه به صورت تعاملی دادهها را از دریاچه داده جستجو میکنند – اغلب، مانند فیسبوک در سال 2012، کاربران سعی میکنند از ابزارهایی استفاده کنند که برای مقاصد آفلاین طراحی شدهاند تا دادهها را تغییر دهند، که بسیار کند بود.
در این شرایط بود که Presto در سال 2013 منبع باز شد و به سرعت مورد توجه سایر پیشگامان داده مانند Airbnb، Uber و Netflix قرار گرفت. مشکلی که در فیسبوک با آن روبرو شد بسیار منحصربهفرد نبود – فقط در اوایل با آن مواجه شد.
در طول سالها، نیاز به جستجوی تعاملی دادهها به سرعت در فضای ذخیرهسازی توزیع شده تنها افزایش یافته است. با افزایش استفاده، انتظارات از کاربران نیز افزایش یافته است: در اصل، پرس و جوهای تعاملی اغلب از نتایج متناقض، عدم تکامل طرحواره و ناتوانی در اشکالزدایی نسخههای قبلی جداول رنج میبردند. برای مطابقت با این انتظارات، قالبهای جدول از قالب اصلی جدول Hive تکامل یافتهاند تا ویژگیهای غنیتری را که در دستگاههای انبار داده یافت میشوند، مانند پشتیبانی از تراکنشهای ACID و فهرستها، ارائه دهند.
معماری پرستو برای رسیدگی به این نیازها طراحی شده است، که ما را به معماری امروزی خانه دریاچه میرساند: ذخیرهسازی توزیع شده ارزان روی دریاچه داده، با عملکردی که اغلب با وسایل انبارداری مطابقت دارد، و ویژگیهای قابل استفاده که بسیاری از موارد مشابه را ارائه میدهد. عملکرد به عنوان لوازم خانگی، کاهش نیاز به استخراج، تبدیل، و بارگذاری (ETL) دادهها در سیستمهای دیگر.
بیشتر بخوانید: کتاب SQL Server 2022 Administration Inside Out
چرا ما کتاب Learning and Operating Presto را نوشتیم؟
استقرار Presto برای برآوردن نیازهای زیرساختی Warehouse و Lake House تیم شما کار کوچکی نیست. برای موفقیت آمیز بودن استقرار، باید اصول Presto و ابزارهایی که ارائه میدهد را بدانید. ما کتاب Learning and Operating Presto را نوشتیم تا به شما کمک کنیم تا با اصول اولیه Presto به سرعت عمل کنید تا بتوانید Presto را با موفقیت در شرکت خود مستقر کنید و از یکی از قدرتمندترین موتورهای جستجوی توزیع شده در فضای تجزیه و تحلیل داده امروزی استفاده کنید.
کتاب Learning and Operating Presto همچنین شامل فصلهایی در مورد اکوسیستم اطراف Presto و نحوه ادغام سایر پروژههای منبع باز محبوب مانند Apache Pinot، Apache Hudi و موارد دیگر است تا موارد استفاده بیشتری را با Presto باز کنید. پس از خواندن کتاب Learning and Operating Presto، باید اعتماد به نفس داشته باشید و قدرت بکارگیری Presto را در تیم خود داشته باشید و از حفظ آن در آینده مطمئن باشید.
بیشتر بخوانید: کتاب Pro T-SQL 2022
کتاب Learning and Operating Presto برای چه کسی است؟
کتاب Learning and Operating Presto برای افرادی است که در حال ساخت سکوهای داده برای تیمهای خود هستند. عناوین شغلی ممکن است شامل مهندسان و معماران داده، مهندسان سکو، مهندسان ابر و یا مهندسان نرمافزار باشد. آنها هستند که سکویی را ایجاد میکنند که از انواع محصولات به هم پیوسته پشتیبانی میکند.
مسئولیت آنها شامل اطمینان از این است که همه اجزا میتوانند به عنوان یک کل واحد و یکپارچه با هم کار کنند. حل مشکلات پردازش داده و تجزیه و تحلیل؛ انجام پاکسازی، مدیریت، تبدیل و حذف دادهها؛ و توسعه ابزارها و فن آوری ها برای بهبود پلت فرم تجزیه و تحلیل.
سرفصلهای کتاب Learning and Operating Presto:
- Preface
- 1. Introduction to Presto
- 2. Getting Started with Presto
- 3. Connectors
- 4. Client Connectivity
- 5. Open Data Lakehouse Analytics
- 6. Presto Administration
- 7. Understanding Security in Presto
- 8. Performance Tuning
- 9. Operating Presto at Scale
- Index
- About the Authors
جهت دانلود کتاب Learning and Operating Presto میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.