کتاب Modern Data Science with R یا علم داده مدرن با زبان برنامهنویسی R یک کتاب جامع و کامل برای یادگیری مفاهیم علم داده و پیادهسازی آن با استفاده از زبان برنامهنویسی R میباشد. این کتاب در 4 قسمت و به صورت عملی به شما مفاهیم علم داده با استفاده از زبان R را آموزش میدهد.
مروری کوتاه بر کتاب Modern Data Science with R
از بررسی نسخه اول: “Modern Data Science with R… سرشار از مثال است و با صدای روایی قوی هدایت میشود. علاوه بر این، یک چارچوب سازماندهی ارائه میدهد که استدلال قانعکنندهای را ارائه میدهد که علم داده یک دوره متمایز از آمار کاربردی است.» (The American Statistician).
Modern Data Science with R یک کتاب درسی جامع علوم داده برای دانشجویان کارشناسی است که تفکر آماری و محاسباتی را برای حل مشکلات دادههای دنیای واقعی ترکیب میکند. این کتاب به جای تمرکز انحصاری بر مطالعات موردی یا نحو برنامهنویسی، نشان میدهد که چگونه برنامهنویسی آماری در محیط محاسباتی پیشرفته R/RStudio میتواند برای استخراج اطلاعات معنیدار از انواع دادهها در خدمت پاسخگویی به سوالات قانعکننده استفاده شود.
نسخه دوم بهروزرسانی شده است تا تأثیر روزافزون مجموعه بستهها را منعکس کند. تمام کدهای کتاب اصلاح شده و سبکدهی شدهاند تا قابل خواندن و درک آسانتر باشند. قابلیتهای جدید از بستههایی مانند sf، purrr، tidymodels و tidytext اکنون در متن یکپارچه شده است. همه فصلها بازنگری شدهاند، و چندین فصل تقسیم شدهاند، سازماندهی مجدد شدهاند، یا دوباره تصور شدهاند تا با چشمانداز در حال تغییر بهترین عملکرد مواجه شوند.
در ادامه مقدمهای از کتاب Modern Data Science with R را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Modern Data Science with R:
زمینه و انگیزه
افزایش حجم و پیچیدگی دادهها چالشهای جدیدی را برای تحلیل گران ایجاد میکند که باید بتوانند مجموعه دادههای پیچیده را برای پاسخ به سؤالات مهم آماری تغییر دهند.
یک گزارش اجماع در مورد علم داده برای دانشجویان کارشناسی (آکادمیهای ملی علوم، مهندسی و پزشکی، 2018) اشاره کرد که علم داده انقلابی در علم و محیط کار ایجاد میکند. آنها دانشمند داده را به عنوان “کارگر دانشی که اساساً به تجزیه و تحلیل منابع داده پیچیده و عظیم مشغول است” تعریف کردند.
مایکل I. جردن علم داده را به عنوان تلفیق تفکر محاسباتی و تفکر استنتاجی (آماری) توصیف کرده است. بدون مهارتهایی که بتوانیم اطلاعات غنی و پیچیدهای را که ما را احاطه کردهاند، «مشکلات» یا «مارشال» کنیم، تحلیلگران نمیتوانند از این دادهها برای تصمیمگیری بهتر استفاده کنند.
تقاضا برای فارغالتحصیلان با این مهارتها زیاد است. طبق سایت رتبهبندی شرکت Glassdoor، “دانشمند داده” بهترین شغل در آمریکا از سال 2016 تا 2019 بوده است (کلمبوس، 2019).
فناوریهای جدید داده استخراج دادهها از منابع بیشتری را نسبت به گذشته ممکن میسازد. کتابخانههای پردازش دادههای ساده، دانشمندان داده را قادر میسازد تا نحوه بازسازی آن دادهها را به شکلی مناسب برای تجزیه و تحلیل بیان کنند. سیستمهای پایگاه داده ذخیره و بازیابی مجموعههای بزرگتر از دادهها را تسهیل میکنند.
ابزارهای پیشرفته گردش کار، تجزیه و تحلیل مستند و قابل تکرار را تقویت میکنند. روشهای جدید آماری و یادگیری ماشینی به تحلیلگر اجازه میدهد تا مدلها را متناسب و ارزیابی کند و همچنین یادگیری تحت نظارت یا بدون نظارت را برای جمعآوری اطلاعات در مورد پدیدههای دنیای واقعی زیربنایی انجام دهد. علم داده معاصر مستلزم ادغام دقیق این مهارتهای آماری، محاسباتی، مرتبط با داده و ارتباطات است.
مخاطب مورد نظر
کتاب Modern Data Science with R برای خوانندگانی در نظر گرفته شده است که میخواهند مهارتهای مناسبی را برای مقابله با پروژههای علمی داده پیچیده و «اندیشیدن با دادهها» (که توسط دایان لمبرت از گوگل ابداع شده است) توسعه دهند. تمایل به حل مشکلات با استفاده از دادهها در قلب رویکرد ما قرار دارد.
ما تصدیق میکنیم که پوشش دادن همه این موضوعات با هر سطحی از جزئیات در یک کتاب غیرممکن است: بسیاری از فصلها میتوانند به طور مؤثر مبنای یک دوره یا مجموعهای از دورهها باشند.
در عوض، هدف ما این است که پایهای برای تجزیه و تحلیل دادههای دنیای واقعی ایجاد کنیم و اطمینان حاصل کنیم که تحلیلگران قدرت آمار و تجزیه و تحلیل دادهها را میبینند. پس از خواندن کتاب Modern Data Science with R، خوانندگان مجموعه مهارتهای خود را برای کار با این دادهها بسیار گسترش داده اند و باید نسبت به توانایی خود در یادگیری فناوریهای جدید در حین پرواز اعتماد به نفس جدیدی پیدا کنند.
کتاب Modern Data Science with R در ابتدا برای پشتیبانی از یک دوره لیسانس یک ترم 13 هفته ای در علوم داده طراحی شده است. ما دریافتیم که این کتاب برای دانشآموزان پیشرفتهتر در رشتههای مرتبط، یا تحلیلگرانی که میخواهند مهارتهای علم داده خود را تقویت کنند، مفید خواهد بود. در عین حال، بخش اول کتاب برای مخاطبان عام بدون تجربه برنامه نویسی یا آمار قابل دسترسی است.
ویژگیهای کلیدی کتاب Modern Data Science with R
بر مطالعات موردی و مثالهای گسترده تمرکز کنید
ما مجموعهای از مطالعات موردی و نمونههای پیچیده و گسترده در دنیای واقعی را از طیف گستردهای از حوزههای کاربردی، از جمله سیاست، حملونقل، ورزش، علوم محیطی، بهداشت عمومی، رسانههای اجتماعی و سرگرمی ارائه میکنیم. این مجموعه دادههای غنی نیاز به استفاده از تکنیکهای پیچیده استخراج داده، رویکردهای مدرن تجسم دادهها و رویکردهای محاسباتی تصفیه شده دارند.
زمینه برای چنین سؤالاتی پادشاه است، و ما ساختار کتاب Modern Data Science with R را طوری تنظیم کردهایم که پیشرفتهای موازی تفکر آماری، مهارتهای مرتبط با دادهها و ارتباطات را تقویت کنیم. هر فصل بر روی یک مثال توسعهیافته متفاوت با کاربردهای متنوع تمرکز دارد، در حالی که تمرینها امکان توسعه و اصلاح مهارتهای آموخته شده در آن فصل را فراهم میکند.
ساختار کتاب Modern Data Science with R
کتاب دارای سه بخش اصلی به همراه ضمائم تکمیلی است. بخش اول مقدمهای بر علم داده است که شامل مقدمهای بر تجسم دادهها، پایهای برای مدیریت دادهها (یا «مشاهده») و اخلاق است. بخش دوم مفاهیم کلیدی مدلسازی را از آمار مقدماتی، از جمله مدلسازی رگرسیون، طبقهبندی و پیشبینی، مبانی آماری و شبیهسازی، گسترش میدهد. بخش سوم موضوعات پیشرفتهتری را معرفی میکند، از جمله تجسم دادههای تعاملی، پایگاه دادههای SQL و رابطهای، دادههای مکانی، متنکاوی و علوم شبکه.
ما با ضمیمههایی نتیجه میگیریم که بسته R کتاب، R و RStudio، جنبههای کلیدی تفکر الگوریتمی، تجزیه و تحلیل قابل تکرار، بررسی رگرسیون و نحوه راهاندازی پایگاه داده SQL محلی را معرفی میکند.
ما دو شاخص ارائه میدهیم: یکی سازماندهی شده بر اساس موضوع و دیگری سازماندهی شده توسط تابع و بسته R. علاوه بر این، کتاب Modern Data Science with R دارای ارجاعات متقابل گسترده است (با توجه به ارتباطات ذاتی بین موضوعات و رویکردها).
مواد پشتیبان
علاوه بر مثالهای فراوان و مطالعات موردی گسترده، کتاب Modern Data Science with R شامل تمرینهایی در انتهای هر فصل به همراه تمرینهای تکمیلی آنلاین میشود. بسیاری از تمرینها کاملاً باز هستند و به گونهای طراحی شدهاند که به دانشآموزان اجازه میدهند تا خلاقیت خود را در مقابله با سؤالات علم داده کشف کنند. (راهنمای راه حل برای مربیان از ناشر موجود است.)
وبسایت کتاب Modern Data Science with R به نشانی https://mdsr-book.github.io/mdsr2e شامل فهرست مطالب، متن کامل هر فصل، کتابشناسی و شاخصهای موضوعی و R میباشد. وبسایت مربی به آدرس https://mdsr-book.github.io/ شامل نمونههای کد، تمرینهای تکمیلی، فعالیتهای اضافی و فهرستی از خطاها است.
تغییرات در ویرایش دوم کتاب Modern Data Science with R
علم داده به سرعت حرکت میکند. از زمانی که نسخه اول را نوشتیم خیلی چیزها تغییر کرده است. ما همه فصلها را بهروزرسانی کردهایم تا بسیاری از این تغییرات را در نظر بگیریم و از پیشرفتهترین بستههای R بهره ببریم.
ابتدا، فصل کار با دادههای مکانی گسترش یافته و به دو فصل تقسیم شده است. اولی بر کار با دادههای مکانی تمرکز دارد و دومی بر محاسبات جغرافیایی تمرکز دارد. اکنون هر دو فصل از بسته sf و تابع جدید geom_sf() در ggplot2 استفاده میکنند. این تغییرات به دانش آموزان اجازه میدهد تا عمیق تر به دنیای تجزیه و تحلیل دادههای مکانی نفوذ کنند.
دوم، فصل مربوط به دادههای مرتب دستخوش بازنگریهای قابل توجهی شده است. بخش جدیدی در مورد لیست-ستونها اضافه شده است و بخش تکرار به یک فصل کامل گسترش یافته است. این فصل جدید از سبک برنامه نویسی کاربردی ارائه شده توسط بسته purrr به طور مداوم استفاده میکند. این تغییرات به دانشآموزان کمک میکند تا عادت ذهنی خود را در مورد مقیاسپذیری ایجاد کنند: اگر بیش از دو بار کد را کپی و جایگذاری میکنید، احتمالاً راه کارآمدتری برای انجام آن وجود دارد.
سوم، فصل یادگیری تحت نظارت به دو فصل تقسیم شده و برای استفاده از مجموعه بستههای tidymodels به روز شده است. فصل اول اکنون ارزیابی مدل را به طور کلی پوشش میدهد، در حالی که فصل دوم چندین مدل را معرفی میکند. اکوسیستم tidymodels یک نحو منسجم برای برازش، تفسیر و ارزیابی انواع مدلهای یادگیری ماشینی ارائه میکند، همگی به شیوهای که با نظم و ترتیب سازگار باشد. این تغییرات به طور قابل توجهی سربار شناختی کد در این فصل را کاهش میدهد.
محتوای چندین فصل دیگر دستخوش بازنگریهای جزئیتر – اما با این حال اساسیتر شده است. تمام کدهای کتاب Modern Data Science with R به منظور رعایت دقیقتر نحو و سبک مرتب ویرایش شدهاند. تمرینها و راهحلهای ویرایش اول اصلاح شده و تمرینهای جدیدی اضافه شده است. کد هر فصل اکنون در وبسایت کتاب موجود است. این کتاب به bookdown منتقل شده است، به طوری که نسخه کامل آن را میتوانید به صورت آنلاین در https://mdsr-book.github.io/mdsr2e پیدا کنید.
نقش کلیدی فناوری
در حالی که بسیاری از ابزارها را میتوان به طور مؤثر برای انجام علم داده استفاده کرد، و فناوریهای انجام تجزیه و تحلیل به سرعت در حال تغییر هستند، R و Python به عنوان دو محیط قدرتمند و توسعهپذیر ظاهر شده اند.
در حالی که برای دانشمندان داده مهم است که بتوانند از چندین فناوری برای تجزیه و تحلیل خود استفاده کنند، ما برای جلوگیری از اضافه بار شناختی، تمرکز بر روی استفاده از R و RStudio را انتخاب کردهایم. ما مجموعه ای قدرتمند و منسجم از ابزارها را توصیف میکنیم که میتوانند در محدوده یک ترم معرفی شوند و پایهای را برای بحث و جست و جوی دادهها و کاوش فراهم کنند.
ما از محیط RStudio نهایت بهره را میبریم. این قسمت جلویی قدرتمند و با کاربری آسان، ویژگیهای بیشماری را به R اضافه میکند، از جمله پشتیبانی از بسته، تکمیل کد، کمک یکپارچه، دیباگر و سایر ابزارهای کدنویسی.
در تجربه ما، استفاده از RStudio بهرهوری کاربران R را بهطور چشمگیری افزایش میدهد و با یکپارچهسازی دقیق ابزارهای تجزیه و تحلیل تکرارپذیر، به جلوگیری از جریانهای کاری «برش و چسباندن» مستعد خطا کمک میکند. دانشجویان و همکاران ما RStudio را یک رابط قابل دسترسی میدانند. هیچ دانش یا تجربه قبلی با R یا RStudio مورد نیاز نیست: ما یک مقدمه در پیوست اضافه میکنیم.
همانطور که قبلاً اشاره شد، ما به طور جامع بسیاری از پیشرفتهای اساسی را در نظم و ترتیب ادغام کردهایم، مجموعهای از بستههای نظری که یک رابط سازگارتر برای R ارائه میکنند (Wickham, 2019h). بسیاری از تصمیمات طراحی تعبیه شده در بستههای tidyverse به مسائلی میپردازد که به طور سنتی استفاده از R را برای تجزیه و تحلیل دادهها پیچیده کرده است. این تصمیمات به کاربران مبتدی این امکان را میدهد که سریعتر پیشرفت کنند و عادات خوبی در خود ایجاد کنند.
ما از یک سیستم تجزیه و تحلیل تکرارپذیر (knitr) برای تولید کد نمونه و خروجی در کتاب Modern Data Science with R استفاده کردیم. کد استخراج شده از این فایلها در وبسایت کتاب ارائه شده است. ما بحث مفصلی در مورد فلسفه و استفاده از این سیستمها ارائه میدهیم. به طور خاص، ما احساس میکنیم که بستههای knitr و rmarkdown برای R، که به شدت با RStudio یکپارچه شدهاند، باید بخشی از جعبه ابزار هر کاربر R شود. ما نمیتوانیم بدون آنها کار روی یک پروژه را تصور کنیم (و تکرارپذیری را در همه دورههای خود گنجاندهایم).
علم داده مدرن یک ورزش تیمی است. برای اینکه بتوانند به طور کامل درگیر شوند، تحلیلگران باید بتوانند سؤالی را مطرح کنند، دادههایی را برای رسیدگی به آن جستجو کنند، آن را در یک محیط محاسباتی وارد کنند، مدل کنند و کاوش کنند، سپس نتایج را به اشتراک بگذارند. این یک فرآیند تکراری است که به ترکیبی از آمار و مهارتهای محاسباتی نیاز دارد.
بیشتر بخوانید: کتاب Building an Effective Data Science Practice
نحوه استفاده از کتاب Modern Data Science with R
مطالب این کتاب تا به امروز چندین دوره در کالجهای Amherst، Smith و Macalester و همچنین بسیاری دیگر در سراسر جهان را پشتیبانی کرده است. از تجربه شخصی ما، این شامل یک دوره متوسط در علم داده (در سالهای 2013 و 2014 در کالج اسمیت و از سال 2017 در کالج Amherst)، یک دوره مقدماتی در علم داده (از سال 2016 در اسمیت) و یک دوره اصلی در تجزیه و تحلیل دادههای پیشرفته است. (چند سال در Amherst).
دوره مقدماتی علم داده در اسمیت هیچ پیشنیازی ندارد و شامل زیر مجموعه مطالب زیر است:
- تجسم دادهها: سه هفته، شامل فصلهای 1-3
- جدال دادهها: پنج هفته، شامل فصلهای 4-7 کتاب Modern Data Science with R
- اخلاق: یک هفته، شامل فصل 8
- پرس و جو از پایگاه داده: دو هفته، شامل فصل 15 کتاب Modern Data Science with R
- دادههای جغرافیایی: دو هفته، شامل فصل 17 و برخی از فصل 18
یک دوره متوسط در Amherst از رویکرد Baumer، (2015b) با پیش نیاز برخی از آمار و برخی علوم کامپیوتر و یک پروژه نهایی یکپارچه پیروی کرد. این دوره به طور کلی فصول زیر را پوشش میدهد:
- تجسم دادهها: دو هفته، شامل فصلهای 1-3 و 14 کتاب Modern Data Science with R
- جدال دادهها: چهار هفته، فصلهای 4 تا 7 کتاب Modern Data Science with R را پوشش میدهد
- اخلاق: یک هفته، شامل فصل 8
- یادگیری بدون نظارت: یک هفته، شامل فصل 12
- پرس و جو از پایگاه داده: یک هفته، شامل فصل 15 کتاب Modern Data Science with R
- دادههای جغرافیایی: یک هفته، شامل فصل 17 و برخی از فصل 18
- متن کاوی: یک هفته، شامل فصل 19
- علوم شبکه: یک هفته، شامل فصل 20 کتاب Modern Data Science with R
دوره کاپستون در Amherst بسیاری از این مطالب را با عمق بیشتری بررسی کرد:
- تجسم دادهها: سه هفته، شامل فصلهای 1 تا 3 و 14
- جدال دادهها: دو هفته، شامل فصلهای 4-7
- اخلاق: یک هفته، شامل فصل 8
- شبیهسازی: یک هفته، شامل فصل 13
- یادگیری آماری: دو هفته، شامل فصلهای 10-12
- پایگاههای داده: یک هفته، شامل فصل 15 و ضمیمه F
- متنکاوی: یک هفته، شامل فصل 19
- دادههای مکانی: یک هفته، شامل فصل 17 کتاب Modern Data Science with R
- کلان داده: یک هفته، شامل فصل 21
ما پیشبینی میکنیم که کتاب Modern Data Science with R بتواند به عنوان متن اصلی برای انواع دورههای دیگر، با یا بدون مواد تکمیلی اضافی، باشد.
محتوای قسمت اول – به ویژه مفاهیم تجسم ggplot2 ارائه شده در فصل 3 و عملیات جدال داده dplyr ارائه شده در فصل 4 – اساسی است و در قسمتهای II و III فرض شده است. هر یک از موضوعات قسمت سوم مستقل از یکدیگر و مطالب قسمت دوم هستند. بنابراین، در حالی که بیشتر مدرسان مایلند بیشتر (اگر نه همه) قسمت اول را در هر دورهای پوشش دهند، مطالب در قسمتهای II و III را میتوان تقریباً با آزادی کامل اضافه کرد.
مطالب در بخش دوم کتاب Modern Data Science with R به گونهای طراحی شده است که دانشآموزانی را با درک مبتدی از آمار (به عنوان مثال استنتاج اولیه و رگرسیون خطی) در معرض دنیای غنیتری از مدلسازی آماری و استنتاج آماری قرار دهد.
سرفصلهای کتاب Modern Data Science with R:
- About the Authors
- Preface
- I Part I: Introduction to Data Science
- 1 Prologue: Why data science?
- 2 Data visualization
- 3 A grammar for graphics
- 4 Data wrangling on one table
- 5 Data wrangling on multiple tables
- 6 Tidy data
- 7 Iteration
- 8 Data science ethics
- II Part II: Statistics and Modeling
- 9 Statistical foundations
- 10 Predictive modeling
- 11 Supervised learning
- 12 Unsupervised learning
- 13 Simulation
- III Part III: Topics in Data Science
- 14 Dynamic and customized data graphics
- 15 Database querying using SQL
- 16 Database administration
- 17 Working with geospatial data
- 18 Geospatial computations
- 19 Text as data
- 20 Network science
- 21 Epilogue: Towards “big data”
- IV Part IV: Appendices
- A Packages used in this book
- B Introduction to R and RStudio
- C Algorithmic thinking
- D Reproducible analysis and workflow
- E Regression modeling
- F Setting up a database server
- Bibliography
- Indices
- Subject index
- R index
فایل کتاب Modern Data Science with R را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.