کتاب Hadoop The Definitive Guide یک راهنمای کامل برای آموزش Hadoop میباشد. این کتاب نسخه چهارم آن از انتشارات بینالمللی O’Reilly بوده که در سال 2015 چاپ شده است ولی با این حال هنوز از بهترین منابع آموزش این نرمافزار کاربردی است.
در این کتاب حدوداً 800 صفحهای صفر تا صد آموزش Hadoop به همراه ریز جزئیات در 5 سرفصل اصلی آموزش داده میشود. از جمله فصول کتاب Hadoop The Definitive Guide، آشنایی مقدماتی با Hadoop، آشنایی با MapReduce، عملگرهای Hadoop، پروژههای مرتبط و در نهایت مطالعات موردی درباره Hadoop میباشد.
تاریخچه Hadoop:
هادوپ توسط Doug Cutting خالق Lucene (کتابخانه پرکاربرد جستجوی متن) ساخته شد. هادوپ در پروژه Nutch (موتور جستجوی بازمتن وب) ریشه دارد که خود بخشی از پروژه Lucene بود.
ساخت موتور جستجوی وب از صفر هدفی بزرگ محسوب میشود چرا که از یکسو نوشتن نرمافزاری که در وبسایتها بخزد و آنها را نمایهسازی کند کاری پیچیده است و از دیگر سو اجرای آم بدون یک تیم عملیاتی تماموقت اختصاصی چالشبرانگیز است.
Nutch در سال ۲۰۰۲ آغاز شد و به سرعت یک خزندهی وب و یک سامانه جستجو برای آن ساخته شد. تیم سازنده دریافتند که معماری آنها برای میلیاردها صفحه روی وب گسترشپذیر نیست. چاپ مقالهای در سال ۲۰۰۳ به آنها کمک کرد که این مساله را حل نمایند. در این سال مقالهای چاپ شد که در آن معماری سیستمفایل توزیعشده گوگل یا همان GFS توضیح داده شده بود و این نیاز آنها به ذخیرهسازی فایلهای بسیار بزرگی که از خروجی فرآیند خزیدن در وب و نمایهسازی آن ساخته شده بود را حل میکرد. در سال۲۰۰۴ آنها آغاز به پیادهسازی نسخهای بازمتن از آن کردند و آن را سیستمفایل توزیع شده ناچ (NDFS) نامیدند.
سال ۲۰۰۴ گوگل مقالهی دیگری چاپ کرد که در آن MapReduce را به جهانیان معرفی کرد. اوایل سال ۲۰۰۵ سازندگان Nutch نسخهی پیادهسازی شده از MapReduce را ساخته بودند و در میانه سال همهی الگوریتمهای اصلی Nutch برای کار با MapReduce و NDFS تغییر یافته بودند.
هدوپ چیست؟
Hadoop یک چارچوب متن باز برای ذخیرهسازی و پردازش داده های بزرگ است که در ابتدا Doug Cutting در شرکت Apache آن را ارائه داد و نام فیل اسباب بازی فرزندش را روی آن نهاد، هدف اصلی آنها از تولید این ابزار استفاده از آن در موتور جستجوی Apache به نام Nutch بود که پس از آن بسیاری از شرکتهای بزرگ مانند Facebook ،Google ،Yahoo و… از آن استفاده کردند. این تکنولوژی با ترکیب و توزیع داده به ذخیرهسازی آن میپردازد و به زبان جاوا پیادهسازی شده است. بسیاری از داده هایی که سیستمهای امروزی با آن سر و کار دارند دادههای دارای ساختار هستند مانند یک فایل اکسل، اما Hadoop کارایی تحلیل و پردازش دادههای ساختارمند و غیر ساختارمند را نیز دارد.
برای نمونه علاوه بر پردازش و ذخیرهسازی، از Hadoop برای ذخیره اطلاعات ساخت نیافته یا شبه ساخت یافته در پایگاه داده های NoSql نیز استفاده میشود. از آنجایی که پایگاه داده های رابطه ای پس از بزرگ شدن داده ها و پخش داده ها روی سرورهای مختلف کارایی بالای خود رو از دست میدهند حرکت به سوی پایگاه داده های NoSql آغاز شد و امروز Hadoop بستری برای NoSql میباشد.
سرفصلهای کتاب Hadoop The Definitive Guide:
- I. Hadoop Fundamentals
- Meet Hadoop
- MapReduce
- The Hadoop Distributed Filesystem
- YARN
- Hadoop I/O
- II. MapReduce
- Developing a MapReduce Application
- How MapReduce Works
- MapReduce Types and Formats
- MapReduce Features
- III. Hadoop Operations
- Setting Up a Hadoop Cluster
- Administering Hadoop
- IV. Related Projects
- Avro
- Parquet
- Flume
- Sqoop
- Pig
- Hive
- Crunch
- Spark
- HBase
- ZooKeeper
- V. Case Studies
- Composable Data at Cerner
- Biological Data Science: Saving Lives with Software
- Cascading
فایل کتاب Hadoop The Definitive Guide را میتوانید به صورت رایگان از سایت فقط کتاب دانلود کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.