کتاب Modern Data Science with R یا علم داده مدرن با زبان برنامه‌نویسی R یک کتاب جامع و کامل برای یادگیری مفاهیم علم داده و پیاده‌سازی آن با استفاده از زبان برنامه‌نویسی R می‌باشد. این کتاب در 4 قسمت و به صورت عملی به شما مفاهیم علم داده با استفاده از زبان R را آموزش می‌دهد.

مروری کوتاه بر کتاب Modern Data Science with R

از بررسی نسخه اول: “Modern Data Science with R… سرشار از مثال است و با صدای روایی قوی هدایت می‌شود. علاوه بر این، یک چارچوب سازماندهی ارائه می‌دهد که استدلال قانع‌کننده‌ای را ارائه می‌دهد که علم داده یک دوره متمایز از آمار کاربردی است.» (The American Statistician).

Modern Data Science with R یک کتاب درسی جامع علوم داده برای دانشجویان کارشناسی است که تفکر آماری و محاسباتی را برای حل مشکلات داده‌های دنیای واقعی ترکیب می‌کند. این کتاب به جای تمرکز انحصاری بر مطالعات موردی یا نحو برنامه‌نویسی، نشان می‌دهد که چگونه برنامه‌نویسی آماری در محیط محاسباتی پیشرفته R/RStudio می‌تواند برای استخراج اطلاعات معنی‌دار از انواع داده‌ها در خدمت پاسخگویی به سوالات قانع‌کننده استفاده شود.

نسخه دوم به‌روزرسانی شده است تا تأثیر روزافزون مجموعه بسته‌ها را منعکس کند. تمام کدهای کتاب اصلاح شده و سبک‌دهی شده‌اند تا قابل خواندن و درک آسان‌تر باشند. قابلیت‌های جدید از بسته‌هایی مانند sf، purrr، tidymodels و tidytext اکنون در متن یکپارچه شده است. همه فصل‌ها بازنگری شده‌اند، و چندین فصل تقسیم شده‌اند، سازمان‌دهی مجدد شده‌اند، یا دوباره تصور شده‌اند تا با چشم‌انداز در حال تغییر بهترین عملکرد مواجه شوند.

در ادامه مقدمه‌ای از کتاب Modern Data Science with R را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Modern Data Science with R:

زمینه و انگیزه

افزایش حجم و پیچیدگی داده‌ها چالش‌های جدیدی را برای تحلیل گران ایجاد می‌کند که باید بتوانند مجموعه داده‌های پیچیده را برای پاسخ به سؤالات مهم آماری تغییر دهند.

یک گزارش اجماع در مورد علم داده برای دانشجویان کارشناسی (آکادمی‌های ملی علوم، مهندسی و پزشکی، 2018) اشاره کرد که علم داده انقلابی در علم و محیط کار ایجاد می‌کند. آن‌ها دانشمند داده را به عنوان “کارگر دانشی که اساساً به تجزیه و تحلیل منابع داده پیچیده و عظیم مشغول است” تعریف کردند.

مایکل I. جردن علم داده را به عنوان تلفیق تفکر محاسباتی و تفکر استنتاجی (آماری) توصیف کرده است. بدون مهارت‌هایی که بتوانیم اطلاعات غنی و پیچیده‌ای را که ما را احاطه کرده‌اند، «مشکلات» یا «مارشال» کنیم، تحلیل‌گران نمی‌توانند از این داده‌ها برای تصمیم‌گیری بهتر استفاده کنند.

تقاضا برای فارغ‌التحصیلان با این مهارت‌ها زیاد است. طبق سایت رتبه‌بندی شرکت Glassdoor، “دانشمند داده” بهترین شغل در آمریکا از سال 2016 تا 2019 بوده است (کلمبوس، 2019).

فناوری‌های جدید داده استخراج داده‌ها از منابع بیشتری را نسبت به گذشته ممکن می‌سازد. کتابخانه‌های پردازش داده‌های ساده، دانشمندان داده را قادر می‌سازد تا نحوه بازسازی آن داده‌ها را به شکلی مناسب برای تجزیه و تحلیل بیان کنند. سیستم‌های پایگاه داده ذخیره و بازیابی مجموعه‌های بزرگتر از داده‌ها را تسهیل می‌کنند.

ابزارهای پیشرفته گردش کار، تجزیه و تحلیل مستند و قابل تکرار را تقویت می‌کنند. روش‌های جدید آماری و یادگیری ماشینی به تحلیل‌گر اجازه می‌دهد تا مدل‌ها را متناسب و ارزیابی کند و همچنین یادگیری تحت نظارت یا بدون نظارت را برای جمع‌آوری اطلاعات در مورد پدیده‌های دنیای واقعی زیربنایی انجام دهد. علم داده معاصر مستلزم ادغام دقیق این مهارت‌های آماری، محاسباتی، مرتبط با داده و ارتباطات است.

مخاطب مورد نظر

کتاب Modern Data Science with R برای خوانندگانی در نظر گرفته شده است که می‌خواهند مهارت‌های مناسبی را برای مقابله با پروژه‌های علمی داده پیچیده و «اندیشیدن با داده‌ها» (که توسط دایان لمبرت از گوگل ابداع شده است) توسعه دهند. تمایل به حل مشکلات با استفاده از داده‌ها در قلب رویکرد ما قرار دارد.

ما تصدیق می‌کنیم که پوشش دادن همه این موضوعات با هر سطحی از جزئیات در یک کتاب غیرممکن است: بسیاری از فصل‌ها می‌توانند به طور مؤثر مبنای یک دوره یا مجموعه‌ای از دوره‌ها باشند.

در عوض، هدف ما این است که پایه‌ای برای تجزیه و تحلیل داده‌های دنیای واقعی ایجاد کنیم و اطمینان حاصل کنیم که تحلیلگران قدرت آمار و تجزیه و تحلیل داده‌ها را می‌بینند. پس از خواندن کتاب Modern Data Science with R، خوانندگان مجموعه مهارت‌های خود را برای کار با این داده‌ها بسیار گسترش داده اند و باید نسبت به توانایی خود در یادگیری فناوری‌های جدید در حین پرواز اعتماد به نفس جدیدی پیدا کنند.

کتاب Modern Data Science with R در ابتدا برای پشتیبانی از یک دوره لیسانس یک ترم 13 هفته ای در علوم داده طراحی شده است. ما دریافتیم که این کتاب برای دانش‌آموزان پیشرفته‌تر در رشته‌های مرتبط، یا تحلیل‌گرانی که می‌خواهند مهارت‌های علم داده خود را تقویت کنند، مفید خواهد بود. در عین حال، بخش اول کتاب برای مخاطبان عام بدون تجربه برنامه نویسی یا آمار قابل دسترسی است.

ویژگی‌های کلیدی کتاب Modern Data Science with R

بر مطالعات موردی و مثال‌های گسترده تمرکز کنید

ما مجموعه‌ای از مطالعات موردی و نمونه‌های پیچیده و گسترده در دنیای واقعی را از طیف گسترده‌ای از حوزه‌های کاربردی، از جمله سیاست، حمل‌ونقل، ورزش، علوم محیطی، بهداشت عمومی، رسانه‌های اجتماعی و سرگرمی ارائه می‌کنیم. این مجموعه داده‌های غنی نیاز به استفاده از تکنیک‌های پیچیده استخراج داده، رویکردهای مدرن تجسم داده‌ها و رویکردهای محاسباتی تصفیه شده دارند.

زمینه برای چنین سؤالاتی پادشاه است، و ما ساختار کتاب Modern Data Science with R را طوری تنظیم کرده‌ایم که پیشرفت‌های موازی تفکر آماری، مهارت‌های مرتبط با داده‌ها و ارتباطات را تقویت کنیم. هر فصل بر روی یک مثال توسعه‌یافته متفاوت با کاربردهای متنوع تمرکز دارد، در حالی که تمرین‌ها امکان توسعه و اصلاح مهارت‌های آموخته شده در آن فصل را فراهم می‌کند.

ساختار کتاب Modern Data Science with R

کتاب دارای سه بخش اصلی به همراه ضمائم تکمیلی است. بخش اول مقدمه‌ای بر علم داده است که شامل مقدمه‌ای بر تجسم داده‌ها، پایه‌ای برای مدیریت داده‌ها (یا «مشاهده») و اخلاق است. بخش دوم مفاهیم کلیدی مدل‌سازی را از آمار مقدماتی، از جمله مدل‌سازی رگرسیون، طبقه‌بندی و پیش‌بینی، مبانی آماری و شبیه‌سازی، گسترش می‌دهد. بخش سوم موضوعات پیشرفته‌تری را معرفی می‌کند، از جمله تجسم داده‌های تعاملی، پایگاه داده‌های SQL و رابطه‌ای، داده‌های مکانی، متن‌کاوی و علوم شبکه.

ما با ضمیمه‌هایی نتیجه می‌گیریم که بسته R کتاب، R و RStudio، جنبه‌های کلیدی تفکر الگوریتمی، تجزیه و تحلیل قابل تکرار، بررسی رگرسیون و نحوه راه‌اندازی پایگاه داده SQL محلی را معرفی می‌کند.

ما دو شاخص ارائه می‌دهیم: یکی سازماندهی شده بر اساس موضوع و دیگری سازماندهی شده توسط تابع و بسته R. علاوه بر این، کتاب Modern Data Science with R دارای ارجاعات متقابل گسترده است (با توجه به ارتباطات ذاتی بین موضوعات و رویکردها).

مواد پشتیبان

علاوه بر مثال‌های فراوان و مطالعات موردی گسترده، کتاب Modern Data Science with R شامل تمرین‌هایی در انتهای هر فصل به همراه تمرین‌های تکمیلی آنلاین می‌شود. بسیاری از تمرین‌ها کاملاً باز هستند و به گونه‌ای طراحی شده‌اند که به دانش‌آموزان اجازه می‌دهند تا خلاقیت خود را در مقابله با سؤالات علم داده کشف کنند. (راهنمای راه حل برای مربیان از ناشر موجود است.)

وب‌سایت کتاب Modern Data Science with R به نشانی https://mdsr-book.github.io/mdsr2e شامل فهرست مطالب، متن کامل هر فصل، کتابشناسی و شاخص‌های موضوعی و R می‌باشد. وب‌سایت مربی به آدرس https://mdsr-book.github.io/ شامل نمونه‌های کد، تمرین‌های تکمیلی، فعالیت‌های اضافی و فهرستی از خطاها است.

تغییرات در ویرایش دوم کتاب Modern Data Science with R

علم داده به سرعت حرکت می‌کند. از زمانی که نسخه اول را نوشتیم خیلی چیزها تغییر کرده است. ما همه فصل‌ها را به‌روزرسانی کرده‌ایم تا بسیاری از این تغییرات را در نظر بگیریم و از پیشرفته‌ترین بسته‌های R بهره ببریم.

ابتدا، فصل کار با داده‌های مکانی گسترش یافته و به دو فصل تقسیم شده است. اولی بر کار با داده‌های مکانی تمرکز دارد و دومی بر محاسبات جغرافیایی تمرکز دارد. اکنون هر دو فصل از بسته sf و تابع جدید geom_sf() در ggplot2 استفاده می‌کنند. این تغییرات به دانش آموزان اجازه می‌دهد تا عمیق تر به دنیای تجزیه و تحلیل داده‌های مکانی نفوذ کنند.

دوم، فصل مربوط به داده‌های مرتب دستخوش بازنگری‌های قابل توجهی شده است. بخش جدیدی در مورد لیست-ستون‌ها اضافه شده است و بخش تکرار به یک فصل کامل گسترش یافته است. این فصل جدید از سبک برنامه نویسی کاربردی ارائه شده توسط بسته purrr به طور مداوم استفاده می‌کند. این تغییرات به دانش‌آموزان کمک می‌کند تا عادت ذهنی خود را در مورد مقیاس‌پذیری ایجاد کنند: اگر بیش از دو بار کد را کپی و جایگذاری می‌کنید، احتمالاً راه کارآمدتری برای انجام آن وجود دارد.

سوم، فصل یادگیری تحت نظارت به دو فصل تقسیم شده و برای استفاده از مجموعه بسته‌های tidymodels به روز شده است. فصل اول اکنون ارزیابی مدل را به طور کلی پوشش می‌دهد، در حالی که فصل دوم چندین مدل را معرفی می‌کند. اکوسیستم tidymodels یک نحو منسجم برای برازش، تفسیر و ارزیابی انواع مدل‌های یادگیری ماشینی ارائه می‌کند، همگی به شیوه‌ای که با نظم و ترتیب سازگار باشد. این تغییرات به طور قابل توجهی سربار شناختی کد در این فصل را کاهش می‌دهد.

محتوای چندین فصل دیگر دستخوش بازنگری‌های جزئی‌تر – اما با این حال اساسی‌تر شده است. تمام کدهای کتاب Modern Data Science with R به منظور رعایت دقیق‌تر نحو و سبک مرتب ویرایش شده‌اند. تمرین‌ها و راه‌حل‌های ویرایش اول اصلاح شده و تمرین‌های جدیدی اضافه شده است. کد هر فصل اکنون در وب‌سایت کتاب موجود است. این کتاب به bookdown منتقل شده است، به طوری که نسخه کامل آن را می‌توانید به صورت آنلاین در https://mdsr-book.github.io/mdsr2e پیدا کنید.

نقش کلیدی فناوری

در حالی که بسیاری از ابزارها را می‌توان به طور مؤثر برای انجام علم داده استفاده کرد، و فناوری‌های انجام تجزیه و تحلیل به سرعت در حال تغییر هستند، R و Python به عنوان دو محیط قدرتمند و توسعه‌پذیر ظاهر شده اند.

در حالی که برای دانشمندان داده مهم است که بتوانند از چندین فناوری برای تجزیه و تحلیل خود استفاده کنند، ما برای جلوگیری از اضافه بار شناختی، تمرکز بر روی استفاده از R و RStudio را انتخاب کرده‌ایم. ما مجموعه ای قدرتمند و منسجم از ابزارها را توصیف می‌کنیم که می‌توانند در محدوده یک ترم معرفی شوند و پایه‌ای را برای بحث و جست و جوی داده‌ها و کاوش فراهم کنند.

ما از محیط RStudio نهایت بهره را می‌بریم. این قسمت جلویی قدرتمند و با کاربری آسان، ویژگی‌های بی‌شماری را به R اضافه می‌کند، از جمله پشتیبانی از بسته، تکمیل کد، کمک یکپارچه، دیباگر و سایر ابزارهای کدنویسی.

در تجربه ما، استفاده از RStudio بهره‌وری کاربران R را به‌طور چشمگیری افزایش می‌دهد و با یکپارچه‌سازی دقیق ابزارهای تجزیه و تحلیل تکرارپذیر، به جلوگیری از جریان‌های کاری «برش و چسباندن» مستعد خطا کمک می‌کند. دانشجویان و همکاران ما RStudio را یک رابط قابل دسترسی می‌دانند. هیچ دانش یا تجربه قبلی با R یا RStudio مورد نیاز نیست: ما یک مقدمه در پیوست اضافه می‌کنیم.

همانطور که قبلاً اشاره شد، ما به طور جامع بسیاری از پیشرفت‌های اساسی را در نظم و ترتیب ادغام کرده‌ایم، مجموعه‌ای از بسته‌های نظری که یک رابط سازگارتر برای R ارائه می‌کنند (Wickham, 2019h). بسیاری از تصمیمات طراحی تعبیه شده در بسته‌های tidyverse به مسائلی می‌پردازد که به طور سنتی استفاده از R را برای تجزیه و تحلیل داده‌ها پیچیده کرده است. این تصمیمات به کاربران مبتدی این امکان را می‌دهد که سریعتر پیشرفت کنند و عادات خوبی در خود ایجاد کنند.

ما از یک سیستم تجزیه و تحلیل تکرارپذیر (knitr) برای تولید کد نمونه و خروجی در کتاب Modern Data Science with R استفاده کردیم. کد استخراج شده از این فایل‌ها در وب‌سایت کتاب ارائه شده است. ما بحث مفصلی در مورد فلسفه و استفاده از این سیستم‌ها ارائه می‌دهیم. به طور خاص، ما احساس می‌کنیم که بسته‌های knitr و rmarkdown برای R، که به شدت با RStudio یکپارچه شده‌اند، باید بخشی از جعبه ابزار هر کاربر R شود. ما نمی‌توانیم بدون آن‌ها کار روی یک پروژه را تصور کنیم (و تکرارپذیری را در همه دوره‌های خود گنجانده‌ایم).

علم داده مدرن یک ورزش تیمی است. برای اینکه بتوانند به طور کامل درگیر شوند، تحلیلگران باید بتوانند سؤالی را مطرح کنند، داده‌هایی را برای رسیدگی به آن جستجو کنند، آن را در یک محیط محاسباتی وارد کنند، مدل کنند و کاوش کنند، سپس نتایج را به اشتراک بگذارند. این یک فرآیند تکراری است که به ترکیبی از آمار و مهارت‌های محاسباتی نیاز دارد.

بیشتر بخوانید: کتاب Building an Effective Data Science Practice

نحوه استفاده از کتاب Modern Data Science with R

مطالب این کتاب تا به امروز چندین دوره در کالج‌های Amherst، Smith و Macalester و همچنین بسیاری دیگر در سراسر جهان را پشتیبانی کرده است. از تجربه شخصی ما، این شامل یک دوره متوسط در علم داده (در سال‌های 2013 و 2014 در کالج اسمیت و از سال 2017 در کالج Amherst)، یک دوره مقدماتی در علم داده (از سال 2016 در اسمیت) و یک دوره اصلی در تجزیه و تحلیل داده‌های پیشرفته است. (چند سال در Amherst).

دوره مقدماتی علم داده در اسمیت هیچ پیش‌نیازی ندارد و شامل زیر مجموعه مطالب زیر است:

تجسم داده‌ها: سه هفته، شامل فصل‌های 1-3
جدال داده‌ها: پنج هفته، شامل فصل‌های 4-7 کتاب Modern Data Science with R
اخلاق: یک هفته، شامل فصل 8
پرس و جو از پایگاه داده: دو هفته، شامل فصل 15 کتاب Modern Data Science with R
داده‌های جغرافیایی: دو هفته، شامل فصل 17 و برخی از فصل 18

یک دوره متوسط در Amherst از رویکرد Baumer، (2015b) با پیش نیاز برخی از آمار و برخی علوم کامپیوتر و یک پروژه نهایی یکپارچه پیروی کرد. این دوره به طور کلی فصول زیر را پوشش می‌دهد:

تجسم داده‌ها: دو هفته، شامل فصل‌های 1-3 و 14 کتاب Modern Data Science with R
جدال داده‌ها: چهار هفته، فصل‌های 4 تا 7 کتاب Modern Data Science with R را پوشش می‌دهد
اخلاق: یک هفته، شامل فصل 8
یادگیری بدون نظارت: یک هفته، شامل فصل 12
پرس و جو از پایگاه داده: یک هفته، شامل فصل 15 کتاب Modern Data Science with R
داده‌های جغرافیایی: یک هفته، شامل فصل 17 و برخی از فصل 18
متن کاوی: یک هفته، شامل فصل 19
علوم شبکه: یک هفته، شامل فصل 20 کتاب Modern Data Science with R

دوره کاپستون در Amherst بسیاری از این مطالب را با عمق بیشتری بررسی کرد:

تجسم داده‌ها: سه هفته، شامل فصل‌های 1 تا 3 و 14
جدال داده‌ها: دو هفته، شامل فصل‌های 4-7
اخلاق: یک هفته، شامل فصل 8
شبیه‌سازی: یک هفته، شامل فصل 13
یادگیری آماری: دو هفته، شامل فصل‌های 10-12
پایگاه‌های داده: یک هفته، شامل فصل 15 و ضمیمه F
متن‌کاوی: یک هفته، شامل فصل 19
داده‌های مکانی: یک هفته، شامل فصل 17 کتاب Modern Data Science with R
کلان داده: یک هفته، شامل فصل 21

ما پیش‌بینی می‌کنیم که کتاب Modern Data Science with R بتواند به عنوان متن اصلی برای انواع دوره‌های دیگر، با یا بدون مواد تکمیلی اضافی، باشد.

محتوای قسمت اول – به ویژه مفاهیم تجسم ggplot2 ارائه شده در فصل 3 و عملیات جدال داده dplyr ارائه شده در فصل 4 – اساسی است و در قسمت‌های II و III فرض شده است. هر یک از موضوعات قسمت سوم مستقل از یکدیگر و مطالب قسمت دوم هستند. بنابراین، در حالی که بیشتر مدرسان مایلند بیشتر (اگر نه همه) قسمت اول را در هر دوره‌ای پوشش دهند، مطالب در قسمت‌های II و III را می‌توان تقریباً با آزادی کامل اضافه کرد.

مطالب در بخش دوم کتاب Modern Data Science with R به گونه‌ای طراحی شده است که دانش‌آموزانی را با درک مبتدی از آمار (به عنوان مثال استنتاج اولیه و رگرسیون خطی) در معرض دنیای غنی‌تری از مدل‌سازی آماری و استنتاج آماری قرار دهد.

سرفصل‌های کتاب Modern Data Science with R:

About the Authors
Preface
I Part I: Introduction to Data Science
- 1 Prologue: Why data science?
- 2 Data visualization
- 3 A grammar for graphics
- 4 Data wrangling on one table
- 5 Data wrangling on multiple tables
- 6 Tidy data
- 7 Iteration
- 8 Data science ethics
II Part II: Statistics and Modeling
- 9 Statistical foundations
- 10 Predictive modeling
- 11 Supervised learning
- 12 Unsupervised learning
- 13 Simulation
III Part III: Topics in Data Science
- 14 Dynamic and customized data graphics
- 15 Database querying using SQL
- 16 Database administration
- 17 Working with geospatial data
- 18 Geospatial computations
- 19 Text as data
- 20 Network science
- 21 Epilogue: Towards “big data”
IV Part IV: Appendices
- A Packages used in this book
- B Introduction to R and RStudio
- C Algorithmic thinking
- D Reproducible analysis and workflow
- E Regression modeling
- F Setting up a database server
Bibliography
Indices
Subject index
R index

فایل کتاب Modern Data Science with R را می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub, PDF
ویرایش	Second
ISBN	9780429200717
تعداد صفحات	650
انتشارات	Chapman and Hall/CRC
سال انتشار	2021
حجم	63.35 مگابایت, 89.06 مگابایت
نویسنده	Benjamin S. Baumer, Daniel T. Kaplan, Nicholas J. Horton

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Modern Data Science with R”

کتاب Modern Data Science with R

خرید کتاب Modern Data Science with R:

مروری کوتاه بر کتاب Modern Data Science with R

مقدمه‌ای بر کتاب Modern Data Science with R:

سرفصل‌های کتاب Modern Data Science with R:

دیدگاهها

خرید کتاب Modern Data Science with R:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: