کتاب Introduction to Data Engineering یا مقدمهای بر مهندسی داده از جدیدترین منابع یادگیری مهندسی داده است که به تازگی چاپ شده است. این کتاب در 10 فصل به آموزش مقدماتی تا بیان نکات پیشرفته و مهم مهندسی داده و مطالب مربوط به آنها میپردازد.
در ادامه مقدمهای از کتاب Introduction to Data Engineering را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Introduction to Data Engineering:
این کتاب همه چیز در مورد حرکت دادهها، به طور خاص توسعه خطوط لوله داده و چگونگی تبدیل شدن به یک مهندس داده عالی است.
با ظهور هوش تجاری، علم داده، یادگیری ماشین و تمایل عمومی شرکتها به جمعآوری هرچه بیشتر دادهها، توانایی طراحی خطوط لوله داده به یک مهارت ارزشمند تبدیل شده است.
مهندسی داده ترکیبی جالب از مهارتهای فنی و غیر فنی است و با بسیاری از رشتههای مهندسی نرمافزار کلاسیک متفاوت است. در کتاب Introduction to Data Engineering میخواهم موضوعات اساسی را پوشش دهم و در سطح بالایی بحث کنم که مهمترین مهارتهای یک مهندس داده چیست.
مهندس داده چیست؟
مهندس داده چیست؟ این بسیار تغییر کرده است و همچنان تغییر خواهد کرد زیرا فناوری همیشه در حال تغییر است، اما چیزهای زیادی وجود دارد که ثابت میمانند.
مهندسان داده حرکت دادهها را تسهیل میکنند و کسب و کارها را قادر میسازند آن دادهها را مصرف کنند.
- تسهیل حرکت دادهها
- توانایی استفاده از دادهها
مهندس داده به یک موقعیت پرطرفدار تبدیل شده است و متأسفانه یافتن افرادی که مهارتهای لازم برای انجام کار را دارند آسان تر نشده است. یادگیری این مهارتها بهعنوان فردی دقیقاً کار آسانی نیست. به نظر میرسد آموزش و کلاسها هنوز از تقاضا برای دانش مهندسی داده در دنیای واقعی عقب مانده است.
این شکافی است که من سعی میکنم با موضوعات کتاب Introduction to Data Engineering پر کنم. من خودم را به روزهای اول خود به عنوان یک توسعهدهنده داده جدید بازگرداندم و به این فکر کردم که حتی دانستن اینکه چه موضوعاتی را باید یاد بگیرم چقدر سخت است.
چه چیزی انتظار میرود؟
در این کتاب Introduction to Data Engineering، میخواهم مهارتها و دانش، بهویژه تئوری زیربنایی را برای نوشتن خطوط داده زیبا، سریع و مقیاسپذیر به شما بدهم. غیرممکن است که همه چیز را آموزش دهید و هر موضوعی را پوشش دهید، اما من حداقل میخواهم که بدانید روی چه چیزی باید تمرکز کنید. امیدواریم موضوعات زیادی را کشف کنید که بتوانید در اوقات فراغت خود به آنها بپردازید.
کتاب Introduction to Data Engineering در مورد نحوه نوشتن کد نیست.
خطوط لوله داده بر اساس پشتههای فناوری که استفاده میشود بسیار متفاوت و متفاوت هستند، اما بیشتر مفاهیم یکسان هستند. برخی از افراد به اشتباه تصور میکنند که باید یاد بگیرند که چگونه یک کدنویس عالی باشند، به خصوص در ابتدا، مطمئناً مفید است. اما، همانطور که در حرفه خود رشد میکنید، به سرعت متوجه خواهید شد که این مهارتهای دیگر است که شما را قادر میسازد یک مهندس داده خوب باشید.
- ابتدا دانش و مفاهیم
- نوشتن کد دوم
چیزی که نمیخواهم به شما یاد بدهم این است که چگونه کد بنویسید. من را خواهید دید که از پایتون در مثالهایم استفاده میکنم، و این فقط برای سهولت خوانایی کد است. من انتظار دارم که شما فردی باهوش و باهوش باشید، پس از همه اینها در حال خواندن کتاب Introduction to Data Engineering هستید.
تئوری و ایدههای پشت بسیاری از موضوعات مهندسی داده مهمتر از نحوه نوشتن کد خوب است که با زمان و تجربه همراه است.
فصلهای کتاب Introduction to Data Engineering
در اینجا فصلها و موضوعاتی وجود دارد که میتوانید انتظار داشته باشید با آنها روبرو شوید.
- تئوری مهندسی داده و خطوط لوله
- مبانی خط لوله داده
- معماری خطوط لوله
- ذخیرهسازی – فایلها
- محاسبه و منابع
- SQL و پایگاههای داده
- انبار داده و دریاچههای داده
- مدلسازی دادهها
- کیفیت داده
- DevOps
تمرکز کتاب Introduction to Data Engineering
کتاب Introduction to Data Engineering به جای بررسی جزئیات نوشتن کد برای مهندسی داده، بر نظریه تمرکز دارد. مهارتهای برنامهنویسی در طول زمان ایجاد میشوند، اگر به دنبال تقویت مهارتهای خود در زبانی هستید، در هر صورت، در برخی دورهها یا کلاسها شرکت کنید.
بسیاری از اوقات، مهارتهایی که سختتر رشد میکنند، مهارتهایی هستند که کمتر آشکار هستند، مهارتهایی که با تجربه به دست میآیند.
وقتی شروع به کار میکنید، دانستن چیزهایی که نمیدانید سخت است. من تکههای کد و مثالهایی را درج میکنم که احساس میکنم یک نکته یا مفهوم را روشن میکند.
- کتاب Introduction to Data Engineering در مورد مفاهیم و نظریههای اساسی است.
- سعی کنید قبل از اینکه آنها را به روش سخت یاد بگیرید، درسها را یاد بگیرید.
- مهندسی داده یک سفر است، شکست یعنی موفقیت.
من میخواهم سرآغازی را به شما ارائه دهم تا به شما کمک کند تا از همه معاصران خود پیشی بگیرید و مهارتهایی را که برای تبدیل شدن به یک مهندس داده موفق ضروری هستند، بیاموزید. بهترین بخش این است که میتوانید همه این کارها را با پایتون انجام دهید، که بیشتر مثالهای ما در آن نوشته میشود، اما انتخاب زبان به اندازه مجموعه مهارتها و فرآیندهای فکری مهم نیست.
من شخصاً به عنوان یک مهندس ارشد داده شغلی موفق ایجاد کردهام، هرگز در زندگی خود در کلاس علوم کامپیوتر شرکت نکردهام و بیش از 90٪ از زندگی حرفهای خود را از پایتون استفاده کردهام.
دانش و تجربه
ساخت خطوط لوله داده مستلزم مجموعهای منحصر به فرد از دانش است که از بسیاری از رشتهها عبور میکند و بدون تجربه خاص به راحتی به دست نمیآید. چیزی که کار را سختتر میکند این است که بسیاری از مهارتها، مانند مدلسازی دادهها، برای مثال، تا حدودی باطنی، نیمی هنر و نیمی علم هستند. خبر خوب این است که من میتوانم با ارائه دیدگاهی 20000 فوتی از موضوعات و مشکلاتی که در دنیای واقعی با آن مواجه خواهید شد، به شما کمک کنم تا مسیر موفقیت را سرعت بخشید.
- مهندسی داده طیف گستردهای از موضوعات و فناوری را پوشش میدهد.
- مهندسی داده هم هنر است و هم علم.
من میخواهم آن تجربیات، نکات و ترفندها را در کتاب Introduction to Data Engineering به اشتراک بگذارم تا شما را در ایجاد خطوط لوله داده قابل اعتماد و مقیاسپذیر آغاز کنم.
چه موضوعاتی را پوشش خواهیم داد؟
نظریه و مبانی
ابتدا، در مورد تئوری خطوط انتقال داده بحث خواهیم کرد، من شما را تشویق میکنم که این بخش را نادیده نگیرید. این مهم است که قبل از رفتن به سفر درک کنید که به کجا میروید.
در مرحله بعد، بدون توجه به پیچیدگی، به اجزای اصلی هر خط لوله داده میپردازیم، من اینها را مهارتهای اساسی و فرآیندهای فکری مینامم.
معماری و ذخیرهسازی/فایلها
این دو موضوع به سرعت توسط معماری دنبال میشوند، انتخابهای سطح بالایی که در ابتدا انجام میدهیم بر هر قدمی که از آن نقطه به بعد برمیداریم تأثیر میگذارد.
البته به اصول اولیه گزینههای ذخیرهسازی (فایلها) میپردازیم. انواع فایلها نقش مهمی در مهندسی داده ایفا میکنند، که جای تعجب نیست.
محاسبه و منابع
در عصر ابر، ما باید محاسبات پنهانی (رم، CPU) و نحوه تفکر و کار با این منابع را انجام دهیم. پردازش کلان داده مستلزم استفاده از تمام منابع محاسباتی موجود است.
هزینه در نهایت به یک سوال در خطوط لوله داده ما تبدیل میشود، توانایی محاسبه استفاده از منابع یک مهارت بسیار مفید است.
SQL و پایگاههای داده
هیچ کتاب مهندسی داده بدون مرور سریع SQL و پایگاه دادههای رابطه ای کامل نخواهد بود. اگرچه امروزه اهمیت آنها رو به کاهش است، هنوز هم آنها را برای متا دادهها و سیستمهای ذخیرهسازی بسیار تراکنشی استفاده میکنید.
یک مهندس داده که راه خود را درباره کوئریها و تنظیمهای SQL نمیداند، با مشکلات جدی مواجه میشود. ابزارهای محبوبی مانند Spark باعث محبوبیت بیشتر SQL با SparkSQL شده است، بنابراین دانش اساسی در مورد جستجوی مجموعه دادهها برای مدت طولانی به شما کمک خواهد کرد.
انبارهای داده / دریاچههای داده
مبحث Data Warehousing و Data Lakes که ارتباط نزدیک با پایگاه دادههای SQL و رابطه ای دارد. اگرچه لایه ذخیرهسازی میتواند از فایلهای SQL Server تا فایلهای پارکت متغیر باشد، بسیاری از روششناسی یکسان باقی میماند.
توانایی ارائه تجزیه و تحلیل قابل استفاده در مرکز حل و ارائه ارزش بیشتر مشاغل است.
مدلسازی دادهها
یکی دیگر از موضوعاتی که برای من بسیار مهم است، مدلسازی داده است. نیمی هنر و نیمی علم است که به راحتی یکی از مهمترین موضوعات کتاب Introduction to Data Engineering است.
اگر مدل نتواند مقدار مورد نیاز را ارائه دهد، خط لوله داده چه فایدهای دارد؟
کیفیت داده
احتمالاً موضوعی کمتر محبوب است، اما یکی از موضوعات مهم برای طول عمر و قابلیت استفاده از خروجی داده توسط مهندسان، کیفیت داده است. این هنوز یک موضوع نسبتاً جدید است، حتی در دنیای مهندسی داده، با ابزارهای خوب زیادی برای انتخاب، بنابراین من تمام تلاش خود را برای ارائه یک نمای کلی خوب انجام خواهم داد.
DevOps
همه چیز بدون نگاهی به DevOps-CI/CD و نقشی که در خطوط انتقال داده ایفا میکند کامل نمیشود. این بخش اغلب نادیده گرفته شده و نادیده گرفته شده مهندسی داده است که پیروانی شبیه به فرقه در دنیای بزرگ مهندسی نرم افزار دارد.
بیشتر بخوانید: کتاب Enterprise DevOps for Architects
خلاصه
هدف من این است که به شما ثابت کنم هرکسی که موضوعات کتاب Introduction to Data Engineering را یاد میگیرد میتواند به راحتی خطوط لوله داده قوی مانند یک مهندس داده کارکشته بسازد. من نکات و ترفندهایی را به شما نشان خواهم داد که میتوانید برای هر پروژه خط لوله داده استفاده کنید و همه به عنوان متخصص از شما کمک خواهند کرد. بیایید عمیق شویم!
سرفصلهای کتاب Introduction to Data Engineering:
- Introduction
- Chapter 1 – The Theory
- Chapter 2 – Data Pipeline Basics
- Chapter 3 – Pipeline Architecture
- Chapter 4 – Storage
- Chapter 5 – Compute and Resources
- Chapter 6 – Mastering SQ
- Chapter 7 – Data Warehousing / Data Lakes
- Chapter 8 – Data Modeling
- Chapter 9 – Data Quality
- Chapter 10 – DevOps for Data Engineers
- Conclusion
فایل کتاب Introduction to Data Engineering را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.