کتاب Building ETL Pipelines with Python: Create and deploy enterprise-ready ETL pipelines by employing modern methods (ساخت خطوط لوله ETL با پایتون: ایجاد و استقرار خطوط لوله ETL آماده سازمانی با استفاده از روشهای مدرن) در 4 بخش مبحث خط لوله ETL که مورد کاربرد در مباحثی مهمی همچون علوم داده است را شرح خواهد داد.
در ادامه مقدمهای از کتاب Building ETL Pipelines with Python را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Building ETL Pipelines with Python:
ما در عصری زندگی میکنیم که حجم دادههای تولید شده بهسرعت از عملی بودن آن در حالت پردازش نشدهاش بیشتر میشود. برای به دست آوردن بینش ارزشمند از این دادهها، باید به اطلاعات قابل هضم تبدیل شوند.
هیچ کمبودی در راههای سریع و آسان برای انجام این کار با استفاده از ابزارهای مجاز متعدد موجود در بازار برای ایجاد محیطهای انتقال داده «plug-and-play» وجود ندارد. با این حال، دادههای مورد نیاز پروژههای سطح صنعت اغلب از قابلیتهای ابزارها و فناوریهای موجود فراتر میرود.
این به این دلیل است که ظرفیت پردازش مورد نیاز برای پردازش مقادیر زیادی از دادهها به طور تصاعدی افزایش مییابد و هزینه پردازش نیز به طور تصاعدی افزایش مییابد. در نتیجه، پردازش دادههای مورد نیاز پروژههای سطح صنعت با استفاده از روشهای سنتی میتواند بسیار گران باشد.
این تقاضای فزاینده برای پردازش دادههای بسیار قابل تنظیم با قیمت مناسب، همراه با تقاضای رو به رشد برای مهندسین داده ماهر است. مهندسان داده استخراج، تبدیل و بارگذاری دادهها را انجام میدهند که معمولاً به فرآیند استخراج، تبدیل و بارگذاری (ETL) گفته میشود. گردشهای کاری ETL که به عنوان خطوط لوله ETL نیز شناخته میشود، مهندسان داده را قادر میسازد تا راهحلهای سفارشیسازیشدهای ایجاد کنند که نه تنها استراتژیک هستند، بلکه توسعهدهندگان را قادر میسازند تا محیطهای استقرار انعطافپذیری را ایجاد کنند که بسته به نوسانات مورد نیاز دادهای که بین اجرای خط لوله رخ میدهد، میتواند افزایش یا کاهش یابد.
زبانهای برنامهنویسی محبوب مانند SQL، Python، R و Spark، برخی از محبوبترین زبانهایی هستند که برای توسعه راه حلهای داده سفارشی استفاده میشوند. پایتون، به ویژه، به عنوان یک پیشتاز ظاهر شده است. این عمدتا به دلیل سازگاری آن و کاربر پسند بودن آن است که همکاری را برای توسعه دهندگان آسان تر میکند. به زبان ساده تر، پایتون را به عنوان «ابزار جهانی» در دنیای داده در نظر بگیرید – این ابزار انعطاف پذیر است و مردم دوست دارند با آن کار کنند.
ساخت خطوط لوله ETL در پایتون اصول خطوط لوله داده را با استفاده از ابزارها و فناوریهای منبع باز در پایتون معرفی میکند. این یک راهنمای جامع برای ایجاد خطوط لوله ETL قوی و مقیاس پذیر ارائه میدهد که به مراحل واضح و قابل تکرار تقسیم میشوند. هدف ما از کتاب Building ETL Pipelines with Python این است که منبعی را در اختیار خوانندگان قرار دهیم که دانش و کاربرد عملی را برای تشویق به دنبال کردن شغل در دادهها ترکیب میکند.
هدف ما از کتاب Building ETL Pipelines with Python ارائه یک راهنمای جامع در حین کاوش در ابزارها و فناوریهای متنوعی است که پایتون برای ایجاد خطوط لوله داده سفارشی ارائه میدهد. زمانی که مطالعه را به پایان میرسانید، تجربه دست اول توسعه خطوط لوله قوی، مقیاس پذیر و انعطاف پذیر با استفاده از پایتون را خواهید داشت. این خطوط لوله میتوانند به طور یکپارچه به محیط تولید منتقل شوند، اغلب بدون نیاز به تنظیمات بیشتر.
ما مشتاقیم که این سفر یادگیری را با شما آغاز کنیم و بینشها و تخصصهایی را به اشتراک بگذاریم که میتواند به شما قدرت دهد تا روشی را که به توسعه خط لوله داده نزدیک میکنید تغییر دهید. به آن برسیم!
بیشتر بخوانید: کتاب Python 3 and Data Visualization
کتاب Building ETL Pipelines with Python برای چه کسی است؟
این کتاب یک راهنمای جامع برای خطوط لوله داده ETL در پایتون است. این برنامه برای علاقهمندان به داده و متخصصان نرم افزار که میخواهند در مورد مفاهیم اصلی طرحها و برنامههای ETL بیاموزند، هدف قرار گرفته است. برای استفاده بیشتر از این کتاب، درک اولیه پایتون توصیه میشود.
آنچه کتاب Building ETL Pipelines with Python پوشش میدهد:
فصل 1، مقدمه ای در مورد پایتون و محیط توسعه، پایتون، هسته اصلی این کتاب را معرفی میکند. برای درک این کتاب باید تجربه قبلی با پایتون داشته باشید. این فصل هیچ چیز را به تفصیل پوشش نخواهد داد. در عوض، یک پرایمر در پایتون که برای کتاب Building ETL Pipelines with Python مورد نیاز است را ارائه میدهد. همچنین، نحوه راه اندازی یک محیط توسعه با یک IDE و بررسی کد در Git را نشان میدهد.
فصل 2 کتاب Building ETL Pipelines with Python، درک فرآیند ETL و خطوط لوله داده، فرآیند ETL و اهمیت خط لوله ETL قوی را توضیح میدهد. این با مثالی از نحوه و زمان اجرای فرآیند ETL و اینکه چگونه یک خط لوله خوب میتواند به خودکارسازی فرآیند ETL کمک کند، شروع میشود. این نیز تفاوت بین ETL و ELT را توضیح میدهد.
فصل 3 کتاب Building ETL Pipelines with Python، اصول طراحی برای ایجاد خطوط لوله مقیاس پذیر و انعطاف پذیر، به اجرای بهترین الگوهای طراحی با کتابخانههای منبع باز Python برای ایجاد خط لوله ETL درجه سازمانی میپردازد. نحوه نصب این کتابخانهها و پرایمرها بر روی تمام عملکردهای موجود برای ایجاد خطوط لوله قوی را نشان میدهد. این همچنین تمام الگوهای طراحی و رویکردهای موجود برای ایجاد یک فرآیند ETL را توضیح میدهد.
فصل 4 کتاب Building ETL Pipelines with Python، منبع یابی دادههای روشنگر و استراتژیهای استخراج داده، به منبع یابی دادهها از سیستمهای منبع مختلف میپردازد. در مرحله اول، ما یک منبع باز را شناسایی میکنیم تا دادههای باکیفیت و روشنگری دریافت کنیم که میتواند به عنوان ورودی برای خطوط لوله ETL عمل کند. در مرحله دوم، ما در مورد استراتژیهای مختلف برای جذب دادههای منبع بحث میکنیم.
فصل 5، پاکسازی و تبدیل دادهها، به تکنیکهای مختلف تبدیل داده در پایتون میپردازد. ما با یک مثال عملی از پاکسازی و ماساژ دادهها شروع میکنیم. ما همچنین یاد میگیریم که چگونه دادههای از دست رفته را مدیریت کنیم. در نهایت، ما از تکنیکهای مختلف تبدیل برای تبدیل دادهها به فرمت مورد نظر استفاده میکنیم
فصل 6 کتاب Building ETL Pipelines with Python، بارگذاری دادههای تبدیل شده، به تکنیکهای مختلف بارگذاری دادهها در پایتون میپردازد. ما با یک مثال عملی از بارگذاری داده در یک RDBMS شروع میکنیم و سپس این فرآیند را برای پایگاههای داده NoSQL تکرار میکنیم. ما همچنین در مورد موارد استفاده مختلف از بارگیری دادهها یاد خواهیم گرفت. در نهایت، ما به برخی از بهترین روشها برای بارگذاری دادهها نگاه خواهیم کرد.
فصل 7 کتاب Building ETL Pipelines with Python، آموزش – ساخت یک خط لوله ETL End-to-End در پایتون، یک خط لوله ETL کامل را با استفاده از ابزارها و فناوریهای مختلفی که تاکنون در مورد آنها آموخته ایم ایجاد میکند. ما دادهها را منبع میکنیم، دادهها را جذب میکنیم، دادهها را تبدیل میکنیم و در نهایت دادهها را در جداول نهایی بارگذاری میکنیم. برای مثال از پایگاه داده MySQL استفاده میکنیم.
فصل 8 کتاب Building ETL Pipelines with Python، کتابخانهها و ابزارهای قدرتمند ETL در پایتون، ابزارهای متن باز مختلف را برای ایجاد یک خط لوله داده مدرن بررسی میکند. ابتدا کتابخانههای پایتون مانند Bonobo، Odo، mETL و Riko را بررسی میکنیم. ما مزایا و معایب را بررسی میکنیم و با استفاده از این کتابخانهها یک خط لوله ETL ایجاد میکنیم. در نهایت، ما به سمت دادههای بزرگ و ابزارهای مطالعه مانند Apache Airflow، Luigi و pETL خواهیم رفت.
فصل 9 کتاب Building ETL Pipelines with Python، آغازگر ابزارهای AWS برای فرآیندهای ETL، ابزارهای مختلف AWS را برای ایجاد خطوط لوله ETL توضیح میدهد. از توضیح استراتژیهای مختلف گرفته تا انتخاب بهترین ابزارها و الگوهای طراحی. شما یاد خواهید گرفت که چگونه یک محیط توسعه برای AWS ایجاد کنید و کد را به صورت محلی اجرا کنید. ما همچنین بهترین استراتژیها را برای استقرار و آزمایش بررسی خواهیم کرد. در نهایت، ما از برخی تکنیکهای اتوماسیون برای خودکارسازی موارد خسته کننده استفاده خواهیم کرد.
فصل 10 کتاب Building ETL Pipelines with Python، آموزش – ایجاد یک خط لوله ETL در AWS، یک خط لوله ETL در AWS در ارتباط با پایتون ایجاد میکند. ما با ایجاد یک خط لوله کوچک با استفاده از تابع step و AWS Lambda شروع میکنیم. سپس، با استفاده از Bonobo، EC2 و RDS، یک خط لوله کامل ایجاد میکنیم.
فصل 11 کتاب Building ETL Pipelines with Python، ساخت خطوط لوله استقرار قوی در AWS، یک خط لوله اساسی CI/CD برای مشاغل ETL ایجاد میکند. ما از AWS CodePipeline، CodeDeploy و CodeCommit برای ایجاد یک خط لوله قوی CI/CD برای خودکارسازی اجرای کد استفاده خواهیم کرد. نمونه ای از نحوه استفاده از Git برای خط لوله CI/CD در AWS را خواهیم دید. همچنین با استفاده از Terraform برای استقرار کد آشنا خواهیم شد.
فصل 12، هماهنگسازی و مقیاسبندی در خطوط لوله ETL، محدودیتهای خطوط لوله ETL و نحوه مقیاسبندی خطوط لوله ETL برای رسیدگی به تقاضای افزایش یافته را پوشش میدهد. در ادامه نحوه انتخاب بهترین استراتژیهای مقیاسبندی را توضیح میدهد. همچنین نحوه ایجاد ارکستراسیون قوی برای خطوط لوله ETL را توضیح میدهد. در نهایت، ما روی یک تمرین عملی برای ایجاد خط لوله ETL و اعمال استراتژیهای مقیاسبندی و ارکستراسیون کار خواهیم کرد.
فصل 13 کتاب Building ETL Pipelines with Python، استراتژیهای تست برای خطوط لوله ETL، به استراتژیهای تست ETL میپردازد. یک خط لوله ممکن است دارای اشکال باشد و بسیار مهم است که آنها را قبل از رسیدن به تولید شناسایی کنید. تست واحد با استفاده از pytest اکثر خطاها را پوشش میدهد، اما یک استراتژی تست خارجی ETL برای ایجاد یک خط لوله ETL با کارایی بالا و انعطاف پذیر مرکزی است.
فصل 14 کتاب Building ETL Pipelines with Python، بهترین روشها برای خطوط لوله ETL، برخی از بهترین شیوههای صنعت برای ایجاد خطوط لوله ETL در تولید را پوشش میدهد. همچنین برخی از دامهای رایجی را که کاربران باید هنگام ساخت خطوط لوله ETL از آنها اجتناب کنند، شناسایی میکند.
فصل 15، موارد استفاده و مطالعه بیشتر، تمرینهای عملی و طرحهای کوچک پروژه را با پیشنهادات خواندن بیشتر در این فصل پوشش میدهد. همچنین، شما را در معرض استفاده از ایجاد یک خط لوله ETL قوی برای دادههای تاکسی زرد نیویورک برای تجزیه و تحلیل قرار میدهد. در نهایت، دادههای بازار ساخت و ساز ایالات متحده را از طریق AWS Marketplace دریافت میکنیم و یک خط لوله داده با کیفیت بالا، آماده تولید، تحملپذیر خطا و با کیفیت بالا در AWS ایجاد میکنیم.
سرفصلهای کتاب Building ETL Pipelines with Python:
- Building ETL Pipelines with Python
- Contributors
- About the authors
- About the reviewers
- Preface
- Part 1:Introduction to ETL, Data Pipelines, and Design Principles
- Chapter 1: A Primer on Python and the Development Environment
- Chapter 2: Understanding the ETL Process and Data Pipelines
- Chapter 3: Design Principles for Creating Scalable and Resilient Pipelines
- Part 2:Designing ETL Pipelines with Python
- Chapter 4: Sourcing Insightful Data and Data Extraction Strategies
- Chapter 5: Data Cleansing and Transformation
- Chapter 6: Loading Transformed Data
- Chapter 7: Tutorial – Building an End-to-End ETL Pipeline in Python
- Chapter 8: Powerful ETL Libraries and Tools in Python
- Part 3:Creating ETL Pipelines in AWS
- Chapter 9: A Primer on AWS Tools for ETL Processes
- Chapter 10: Tutorial – Creating an ETL Pipeline in AWS
- Chapter 11: Building Robust Deployment Pipelines in AWS
- Part 4:Automating and Scaling ETL Pipelines
- Chapter 12: Orchestration and Scaling in ETL Pipelines
- Chapter 13: Testing Strategies for ETL Pipelines
- Chapter 14: Best Practices for ETL Pipelines
- Chapter 15: Use Cases and Further Reading
- Index
- Other Books You May Enjoy
جهت دانلود کتاب Building ETL Pipelines with Python میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.