کتاب Learning Data Science: Data Wrangling, Exploration, Visualization, and Modeling with Python (یادگیری علم داده: جدال داده، کاوش، تجسم و مدلسازی با پایتون) از جدیدترین منابع کاربردی علم داده است که در 6 قسمت به شرح مفاهیم مهم علم داده و پیادهسازی آنها با استفاده از زبان برنامهنویسی پایتون خواهد پرداخت.
در ادامه مقدمهای از کتاب Learning Data Science را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Learning Data Science:
علم داده کار هیجان انگیزی است. توانایی به دست آوردن بینش از دادههای آشفته برای همه انواع تصمیم گیری در تجارت، پزشکی، سیاستها و موارد دیگر ارزشمند است. هدف این کتاب یادگیری علم داده، آماده سازی خوانندگان برای انجام علم داده است. برای رسیدن به این هدف، این کتاب را با ویژگیهای ویژه زیر طراحی کردهایم:
روی مبانی تمرکز کنید
فناوریها میآیند و میروند. در حالی که ما در این کتاب با فناوریهای خاصی کار میکنیم، هدف ما تجهیز خوانندگان به بلوکهای ساختمانی اساسی علم داده است. ما این کار را با آشکار کردن نحوه تفکر در مورد مشکلات و چالشهای علم داده، و با پوشش دادن مبانی پشت فنآوریهای فردی انجام میدهیم. هدف ما خدمت به خوانندگان حتی با تغییر فناوری است.
کل چرخه حیات علم داده را پوشش دهد
به جای تمرکز بر یک موضوع واحد، مانند نحوه کار با جداول داده یا نحوه به کارگیری تکنیکهای یادگیری ماشین، کل چرخه حیات علم داده را پوشش میدهیم – فرآیند پرسیدن یک سوال، به دست آوردن دادهها، درک دادهها و درک جهان. کار کردن در کل چرخه زندگی اغلب میتواند سختترین بخش دانشمند داده بودن باشد.
از دادههای واقعی استفاده کنید
برای آماده شدن برای کار بر روی مشکلات واقعی، یادگیری از نمونههایی که از دادههای واقعی، با روتوشها و همه آنها استفاده میکنند، ضروری میدانیم. ما مجموعه دادههای ارائه شده در این کتاب را با انتخاب دقیق از تجزیه و تحلیل دادههای واقعی که تأثیر گذاشتهاند، به جای استفاده از دادههای بیش از حد تصفیه شده یا مصنوعی انتخاب کردیم.
کاربرد مفاهیم از طریق مطالعات موردی
ما مطالعات موردی گستردهای را در سراسر کتاب گنجاندهایم که تجزیه و تحلیلهای دیگر دانشمندان داده را دنبال میکنند یا گسترش میدهند. این مطالعات موردی به خوانندگان نشان میدهد که چگونه چرخه حیات علم داده را در تنظیمات واقعی هدایت کنند.
تفکر محاسباتی و استنتاجی را با هم ترکیب کنید
در حین کار، دانشمندان داده باید پیشبینی کنند که چگونه تصمیمهایی که هنگام نوشتن کد میگیرند و چگونه اندازه یک مجموعه داده ممکن است بر تجزیه و تحلیل آماری تأثیر بگذارد. برای آماده کردن خوانندگان برای کار آینده خود، Learning Data Science تفکر محاسباتی و آماری را ادغام میکند. ما همچنین مفاهیم آماری را از طریق مطالعات شبیه سازی به جای اثباتهای ریاضی انگیزه میدهیم.
متن و کد این کتاب منبع باز است و در GitHub موجود است.
بیشتر بخوانید: کتاب Data Science for Civil Engineering
دانش پیشینه مورد انتظار
ما انتظار داریم خوانندگان در پایتون مهارت داشته باشند و نحوه استفاده از ساختارهای داده داخلی مانند لیستها، فرهنگ لغتها و مجموعهها را درک کنند. وارد کردن و استفاده از توابع و کلاسها از بستههای دیگر. و توابع را از ابتدا بنویسید. ما همچنین از بسته numpy Python بدون مقدمه استفاده میکنیم، اما انتظار نداریم خوانندگان تجربه قبلی در استفاده از آن داشته باشند.
اگر خوانندگان کمی از احتمال، حساب دیفرانسیل و انتگرال، و جبر خطی نیز بدانند، اطلاعات بیشتری از این کتاب دریافت خواهند کرد، اما هدف ما توضیح شهودی ایدههای ریاضی است.
سازمان کتاب Learning Data Science
این کتاب دارای 21 فصل است که در شش بخش تقسیم شده است:
قسمت اول (فصل 1-5)
بخش اول شرح میدهد که چرخه حیات چیست، باعث میشود یک نفر به طور کامل از چرخه حیات در سطح پایه عبور کند، و اصطلاحاتی را که در سراسر کتاب Learning Data Science استفاده میکنیم، معرفی میکند. بخش با یک مطالعه موردی کوتاه در مورد زمان رسیدن اتوبوس به پایان میرسد.
قسمت دوم (فصل 6-7)
بخش دوم چارچوبها و روابط و نحوه نوشتن کد برای دستکاری دادهها با استفاده از Pandas و SQL را معرفی میکند.
قسمت سوم (فصل 8-12)
بخش سوم کتاب Learning Data Science همه چیز در مورد به دست آوردن دادهها، کشف ویژگیهای آن و تشخیص مسائل است. پس از درک این مفاهیم، خواننده میتواند یک فایل داده را بگیرد و ویژگیهای جالب مجموعه داده را برای شخص دیگری توصیف کند. این بخش با مطالعه موردی در مورد کیفیت هوا به پایان میرسد.
قسمت چهارم (فصل 13-14)
بخش چهارم به منابع جایگزین دادههای پرکاربرد مانند متن، باینری و دادههای وب میپردازد.
قسمت پنجم (فصل 15-18)
بخش پنجم کتاب Learning Data Science بر درک جهان با استفاده از دادهها تمرکز دارد. این موضوع علاوه بر برازش مدل، مهندسی ویژگی و انتخاب مدل، موضوعات استنباطی مانند فواصل اطمینان و آزمون فرضیهها را نیز پوشش میدهد. این بخش با مطالعه موردی در مورد پیش بینی وزن الاغ برای دامپزشکان در کنیا به پایان میرسد.
قسمت ششم (فصل 19-21)
بخش ششم کتاب Learning Data Science مطالعه ما را در مورد یادگیری نظارت شده با رگرسیون لجستیک و بهینهسازی کامل میکند. با یک مطالعه موردی در مورد پیشبینی اینکه آیا مقالات خبری اظهارات واقعی یا جعلی دارند، پایان مییابد.
در پایان کتاب Learning Data Science، منابعی را برای آشنایی بیشتر با بسیاری از موضوعاتی که این کتاب معرفی میکند، قرار دادیم و فهرست کامل مجموعه دادههای مورد استفاده در سراسر کتاب را ارائه کردیم.
بیشتر بخوانید: کتاب Dive Into Data Science
سرفصلهای کتاب Learning Data Science:
- Preface
- I. The Data Science Lifecycle
- 1. The Data Science Lifecycle
- 2. Questions and Data Scope
- 3. Simulation and Data Design
- 4. Modeling with Summary Statistics
- 5. Case Study: Why Is My Bus Always Late?
- II. Rectangular Data
- 6. Working with Dataframes Using pandas
- 7. Working with Relations Using SQL
- III. Understanding The Data
- 8. Wrangling Files
- 9. Wrangling Dataframes
- 10. Exploratory Data Analysis
- 11. Data Visualization
- 12. Case Study: How Accurate Are Air Quality Measurements?
- IV. Other Data Sources
- 13. Working with Text
- 14. Data Exchange
- V. Linear Modeling
- 15. Linear Models
- 16. Model Selection
- 17. Theory for Inference and Prediction
- 18. Case Study: How to Weigh a Donkey
- VI. Classification
- 19. Classification
- 20. Numerical Optimization
- 21. Case Study: Detecting Fake News
- Additional Material
- Data Sources
- Index
- About the Authors
جهت دانلود کتاب Learning Data Science میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.