کتاب Practical Data Science with Python با نام کامل Learn tools and techniques from hands-on examples to extract insights from data یگ منبع فوقالعاده برای یادگیری علم داده با استفاده از زبان برنامهنویسی پایتون میباشد. این کتاب در 21 فصل علاوه بر شرح برخی از تئوریهای مشهور علم داده، به معرفی ابزارهای مهم پایتون در این زمینه نیز میپردازد.
در ادامه مقدمهای از کتاب Practical Data Science with Python را از زبان نویسندهی این کتاب شرح خواهیم داد.
مقدمهای بر کتاب Practical Data Science with Python:
بخش اول ، مقدمه و مبانی
فصل 1، مقدمه ای بر علم دادهها
اولین فصل کتاب Practical Data Science with Python، مروری بر علم داده شامل تاریخ، مهارتها و ابزارهای برتر مورد استفاده در این زمینه، تخصصها و زمینههای مرتبط و بهترین شیوهها برای پروژههای علم داده ارائه میدهد.
فصل 2، شروع به کار با پایتون
نصب توزیعهای پایتون و پایتون (به طور خاص، Anaconda)، ویرایش و اجرای کد با ویرایشگرهای کد، IPython ،Jupyter Notebook، استفاده اولیه از خط فرمان، نصب بستههای پایتون و استفاده از محیطهای مجازی، برنامهنویسی پایتون را توضیح میدهد. اصول اولیه، نحوه برخورد با خطاها و استفاده از اسناد، و بهترین شیوههای مهندسی نرمافزار (از جمله Git و GitHub).
بخش دوم، برخورد با دادهها
فصل 3، SQL و ماژولهای مدیریت پرونده در پایتون
بارگذاری دادهها از فایلهای متنی معمولی با استفاده از قابلیتهای پایتون داخلی، با استفاده از ماژول sqlite3 داخلی پایتون برای پایگاه دادهها، دستورات اولیه SQL و بسته SQLAlchemy در پایتون را پوشش میدهد.
فصل 4، بارگذاری و درهم کشیدن دادهها با Pandas و NumPy
نحوه استفاده از بستههای pandas و NumPy در پایتون را توضیح میدهد. با استفاده از Pandas، نحوه بارگیری و ذخیره دادهها با چندین نوع منبع مختلف داده (CSV، فایلهای Excel و غیره)، نحوه انجام برخی از تجزیه و تحلیل دادههای اکتشافی اولیه (EDA)، نحوه آمادهسازی و پاک سازی دادهها برای استفاده بعدی را یاد میگیریم، و برخی از ابزارهای ضروری مبارزه با Panda و NumPy. ما همچنین میآموزیم که چگونه Pandas از NumPy و چند اصول اولیه NumPy استفاده میکنند.
بیشتر بخوانید: کتاب Pandas Cookbook
فصل 5، تجزیه و تحلیل دادههای اکتشافی و تجسم
بستههای EDA و تجسم در پایتون، مانند پروفایل Pandas، دریایی، توطئهای، و موارد دیگر را پوشش میدهد. ما همچنین بهترین شیوههای تجسم را پوشش میدهیم.
فصل 6، جمعآوری اسناد و صفحات گسترده
فصل ششم کتاب Practical Data Science with Python، نحوه استفاده از بستههای پایتون برای بارگذاری دادهها از اسناد Microsoft Word و PDF، همراه با آمادهسازی اولیه، تمیز کردن و تجزیه و تحلیل دادههای متنی را نشان میدهد. ما همچنین خواندن، نوشتن و استخراج دادهها از فایل های Microsoft Excel را پوشش میدهیم.
فصل 7، Web Scraping
اصول اولیه اسکراب وب را با بستههای اصلی Python و Python نشان میدهد. ما با ساختار اساسی اینترنت و صفحات وب و نحوه تجزیه صفحات وب آشنا میشویم. استفاده از رابطهای برنامهنویسی برنامه وب (API) نیز تحت پوشش قرار میگیرد. در نهایت، ما با اخلاق و قانونی بودن اسکراپ وب صحبت میکنیم.
قسمت سوم، آمار علم داده
فصل 8، احتمال
فصل هشتم کتاب Practical Data Science with Python، توزیع و نمونهگیری، مفاهیم احتمال بنیادی، توزیع احتمال رایج در علم داده و تکنیکهای نمونهگیری مفید برای علم داده را توضیح میدهد.
فصل 9، آزمون آماری علوم داده
فصل نهم کتاب Practical Data Science with Python، برخی از آزمونهای آماری مفید مانند آزمونهای t- و z ،ANOVA و آزمونهای پس از وقوع، آزمایش توزیع، آزمایش خارج و آزمایش روابط بین متغیرها را پوشش میدهد.
بخش چهارم، یادگیری ماشین
فصل 10، آمادهسازی دادهها برای یادگیری ماشین: انتخاب ویژگی، مهندسی ویژگی و کاهش ابعاد
روشهای انتخاب ویژگی، از جمله روشهای آماری تک متغیره، مانند همبستگی، امتیاز اطلاعات متقابل، Chi Squared و سایر روشهای انتخاب ویژگی را توضیح میدهد. ما همچنین روشهای مهندسی ویژگی را برای دادههای دستهبندی شده، زمان داده و دادههای دورتر پوشش میدهیم. تحولات ریاضی برای تغییر ویژگی مانند Yeo-Johnson نیز پوشش داده شده است. در نهایت، کاهش ابعاد با استفاده از تجزیه و تحلیل مؤلفههای اصلی (PCA) پوشش داده شده است، و گزینههای دیگر برای کاهش ابعاد ارائه شده است.
فصل 11، یادگیری ماشین برای طبقهبندی
فصل یازدهم کتاب Practical Data Science with Python، شامل استفاده از پایتون برای الگوریتمهای طبقهبندی یادگیری ماشین، شامل طبقهبندی باینری، چند کلاسی و چند برچسب میباشد. الگوریتمهای تحت پوشش شامل رگرسیون لجستیک، بیس بیز و نزدیکترین همسایگان (KNN) است.
فصل 12، ارزیابی مدلهای طبقهبندی یادگیری ماشین و نمونهگیری برای طبقهبندی
در این فصل کتاب Practical Data Science with Python، در مورد معیارهای عملکرد برای طبقهبندی، مانند دقت، کاپای کوهن، ماتریسهای گیجکننده و موارد دیگر است. ما همچنین نمونههای دادههای نامتعادل را برای بهبود عملکرد طبقهبندی یادگیری ماشین پوشش میدهیم.
فصل 13، یادگیری ماشین با رگرسیون
شامل پیادهسازی و تفسیر رگرسیون خطی با بستههای پایتون scikit-learn و statsmodels، و همچنین منظمسازی مدلهای رگرسیون خطی است. KNN و سایر مدلها نیز تحت پوشش قرار میگیرند. ارزیابی مدلهای رگرسیونی با معیارهایی مانند ضریب تعیین (R2) و معیارهای اطلاعات (مانند معیار اطلاعات Akaike ،AIC) نیز پوشش داده شده است.
فصل 14، بهینهسازی مدلها و استفاده از AutoML
فصل چهاردهم کتاب Practical Data Science with Python، بهینهسازی هایپرپارامتر را برای مدلهای ML با استفاده از جستجوهای تصادفی، شبکهای و بیزی نشان میدهد. بستههای مختلف در پایتون برای بهینهسازی مدلها مورد بحث قرار گرفته است. ما یاد میگیریم که چگونه از منحنیهای یادگیری برای بهینهسازی میزان دادهها برای یک مدل ML استفاده کنیم. بهینهسازی تعداد ویژگیها با استفاده از انتخاب ویژگی بازگشتی پوشش داده شده است. در نهایت، ما چندین گزینه مختلف برای AutoML در پایتون را پوشش میدهیم و نحوه استفاده از بسته pycaret AutoML را یاد میگیریم.
فصل 15، مدلهای یادگیری ماشین مبتنی بر درخت
فصل پانزدهم کتاب Practical Data Science with Python، نحوه عملکرد درختان در الگوریتمهای ML را توضیح میدهد، و ما نحوه استفاده از برخی از پیشرفتهترین مدلهای ML درختی، از جمله جنگلهای تصادفی، XGBoost ،LightGBM و CatBoost را یاد میگیریم. ما همچنین ویژگیهای وارد شده از روشهای مبتنی بر درخت را پوشش میدهیم.
فصل 16، مدلهای یادگیری ماشین ماشین بردار پشتیبان (SVM)
نظریه اساسی پشت SVM ها و نحوه استفاده از آنها برای طبقهبندی و رگرسیون در پایتون و همچنین تنظیم پارامترهای SVM را پوشش میدهد.
قسمت پنجم، تحلیل متن و گزارش
فصل 17، خوشهبندی با یادگیری ماشین
فصل هفدهم کتاب Practical Data Science with Python، تئوری و استفاده از برخی الگوریتمهای خوشهبندی متداول برای یادگیری بدون نظارت را توضیح میدهد: خوشهبندی K-Means، الگوریتم DBSCAN و خوشهبندی سلسله مراتبی بخشی از این فصل است. ما همچنین به بررسی گزینههای دیگر برای خوشهبندی میپردازیم.
فصل 18، کار با متن
مبانی تجزیه و تحلیل متن و پردازش زبان طبیعی (NLP) را پوشش میدهد. ما با پیش پردازش و تمیز کردن متن شروع میکنیم، سپس تجزیه و تحلیل اولیه و روشهای آماری متن را پوشش میدهیم. سپس ما یادگیری بدون نظارت برای متن، از جمله مدلسازی موضوع را پوشش میدهیم. ما همچنین یادگیری تحت نظارت را برای طبقهبندی با متن و در نهایت، تجزیه و تحلیل احساسات پوشش میدهیم.
قسمت ششم، جمعبندی
فصل 19، داستانسرایی دادهها و گزارش خودکار/داشبوردینگ
فصل نوزدهم کتاب Practical Data Science with Python، توضیح میدهد که چگونه تجزیه و تحلیل و دادههای خود را در یک داستان جذاب قرار دهیم، و بهترین شیوهها برای انتقال دادهها و نتایج کار علم داده. ما همچنین با داشبورد آشنا میشویم تا تجزیه و تحلیل خود را برای نظارت بر نتایج نشان دهیم و نحوه استفاده از بسته ساده در پایتون برای ایجاد داشبورد.
فصل 20، اخلاق و حریم خصوصی
فصل بیستم کتاب Practical Data Science with Python، نگرانیهای اخلاقی و حریم خصوصی در علم دادهها را شامل میشود، از جمله سوگیری در الگوریتمهای یادگیری ماشین، نگرانیهای مربوط به حریم خصوصی دادهها در تهیه و تجزیه و تحلیل دادهها، قوانین و مقررات حریم خصوصی دادهها، و استفاده از علم دادهها برای مصلحت عمومی. ما برای اندازهگیری سطح حریم خصوصی در مجموعه دادهها به همراه یک مثال، ناشناس بودن، تنوع l و نزدیکی t را پوشش میدهیم.
فصل 21، به روز بودن و آینده علم دادهها
فصل بیست و یکم کتاب Practical Data Science with Python، راههایی را برای حفظ سطح بالای علم داده در حال تغییر بحث میکند و برخی منابع را برای به روز ماندن پیشنهاد میکند. ما همچنین به طور مختصر در مورد برخی از موضوعاتی که در کتاب به آن پرداختهایم بحث میکنیم و در مورد اینکه آینده علم داده ممکن است به کجا برسد صحبت میکنیم.
همچنین شما میتوانید برای مصوری سازی دادهها از کتاب Data Visualization Guide نیز استفاده نمائید.
سرفصلهای کتاب Practical Data Science with Python:
- Preface
- Part I – An Introduction and the Basics
- Chapter 1: Introduction to Data Science
- Chapter 2: Getting Started with Python
- Part II – Dealing with Data
- Chapter 3: SQL and Built-in File Handling Modules in Python
- Chapter 4: Loading and Wrangling Data with Pandas and NumPy
- Chapter 5: Exploratory Data Analysis and Visualization
- Chapter 6: Data Wrangling Documents and Spreadsheets
- Chapter 7: Web Scraping
- Part III – Statistics for Data Science
- Chapter 8: Probability, Distributions, and Sampling
- Chapter 9: Statistical Testing for Data Science
- Part IV – Machine Learning
- Chapter 10: Preparing Data for Machine Learning: Feature Selection, Feature Engineering, and Dimensionality Reduction
- Chapter 11: Machine Learning for Classification
- Chapter 12: Evaluating Machine Learning Classification Models and Sampling for Classification
- Chapter 13: Machine Learning with Regression
- Chapter 14: Optimizing Models and Using AutoML
- Chapter 15: Tree-Based Machine Learning Models
- Chapter 16: Support Vector Machine (SVM) Machine Learning Models
- Part V – Text Analysis and Reporting
- Chapter 17: Clustering with Machine Learning
- Chapter 18: Working with Text
- Part VI – Wrapping Up
- Chapter 19: Data Storytelling and Automated Reporting/ Dashboarding
- Chapter 20: Ethics and Privacy
- Chapter 21: Staying Up to Date and the Future of Data Science
- Index
فایل کتاب Practical Data Science with Python را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.