کتاب Data Science Bookcamp یکی از بهترین منابع برای یادگیری علوم داده می‌باشد. این کتاب با اجرای 5 پروژه در دنیای واقعی با زبان برنامه‌نویسی پایتون، ترفندها و نکات مهم علم داده را به شما آموزش می‌دهد.

در ادامه مقدمه‌ای از کتاب Data Science Bookcamp را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Data Science Bookcamp:

یک کاندیدای امیدوارکننده دیگر در مصاحبه علم داده خود شکست خورده بود، و من شروع به تعجب کردم که چرا. سال 2018 بود، و من برای گسترش تیم علم داده در استارت‌آپم تلاش می‌کردم. من با ده‌ها نامزد به ظاهر واجد شرایط مصاحبه کرده بودم، اما همه آن‌ها را رد کردم.

آخرین متقاضی رد شده، دکترای اقتصاد از یک مدرسه درجه یک بود. اخیراً، متقاضی پس از گذراندن یک بوت‌کمپ 10 هفته‌ای، وارد علم داده شده است.

من از متقاضی خواستم در مورد یک مشکل تحلیلی که بسیار مرتبط با شرکت ما بود، صحبت کند. آن‌ها بلافاصله یک الگوریتم مرسوم را ارائه کردند که برای این موقعیت قابل اجرا نبود. وقتی سعی کردم در مورد ناسازگاری‌های الگوریتم بحث کنم، نامزد شکست خورد. آن‌ها نمی‌دانستند الگوریتم واقعاً چگونه کار می‌کند یا شرایط مناسب برای استفاده از آن را نمی‌دانستند. این جزئیات در بوت‌کمپ به آن‌ها آموزش داده نشده بود.

پس از خروج کاندیدای رد شده، شروع به تفکر در مورد آموزش علوم داده خودم کردم. چقدر فرق کرده بود! در سال 2006، علم داده هنوز انتخاب شغلی مطلوبی نبود و بوت‌کمپ‌های DS هنوز وجود نداشتند. در آن روزها، من یک دانش‌آموز فقیر بودم که در سانفرانسیسکوی گران‌قیمت برای پرداخت اجاره‌بها تلاش می‌کردم.

تحقیقات فارغ‌التحصیلی من از من خواسته بود که میلیون‌ها پیوند ژنتیکی را با بیماری‌ها تجزیه و تحلیل کنم. من متوجه شدم که مهارت‌های من قابل انتقال به سایر حوزه‌های تجزیه و تحلیل است و بنابراین مشاوره علوم داده من متولد شد. بدون اطلاع مشاور فارغ التحصیلم، شروع به درخواست کار تجزیه و تحلیل از شرکت‌های تصادفی منطقه خلیج کردم. آن کار آزاد به پرداخت صورت‌حساب‌ها کمک کرد، بنابراین من نمی‌توانستم در مورد تکالیف مبتنی بر داده‌ای که انجام می‌دادم، خیلی اهل انتخاب باشم.

بنابراین، من برای انواع وظایف علم داده ثبت نام می‌کنم، از تجزیه و تحلیل‌های آماری ساده تا مدل‌سازی پیش بینی پیچیده. گاهی اوقات در یک مشکل به ظاهر غیرقابل حل داده غرق می‌شوم، اما در نهایت، استقامت می‌کنم.

مبارزات من تفاوت‌های ظریف تکنیک‌های تجزیه و تحلیل متنوع و چگونگی ترکیب آن‌ها را برای رسیدن به راه حل‌های زیبا به من آموخت. مهمتر از آن، من یاد گرفتم که چگونه تکنیک‌های رایج شکست می‌خورند و چگونه می‌توان بر این نقاط شکست غلبه کرد تا نتایج تأثیرگذار را به ارمغان آورد. همانطور که مجموعه مهارت‌های من رشد کرد، حرفه علم داده من شروع به شکوفایی کرد. در نهایت من در این زمینه پیشرو شدم.

آیا می‌توانستم به همان سطح موفقیت از طریق حفظ حروف در یک بوت‌کمپ 10 هفته‌ای دست پیدا کنم؟ احتمالا نه. بسیاری از بوت‌کمپ‌ها مطالعه الگوریتم‌های مستقل را به مهارت‌های حل مسئله منسجم تر ترجیح می‌دهند. علاوه بر این، تبلیغات بر روی نقاط قوت یک الگوریتم بیشتر بر نقاط ضعف آن تاکید می‌شود. در نتیجه، گاهی اوقات دانش‌آموزان برای مدیریت علم داده در محیط‌های واقعی آمادگی ندارند. این بینش مرا برای نوشتن کتاب Data Science Bookcamp ترغیب کرد.

تصمیم گرفتم با قرار دادن شما، خوانندگان من، در معرض مجموعه‌ای از مشکلات تحلیلی چالش‌برانگیز، آموزش علوم داده خودم را تکرار کنم. علاوه بر این، من تصمیم گرفتم که شما را با ابزارها و تکنیک‌های مورد نیاز برای مدیریت مؤثر این مشکلات مسلح کنم. هدف من این است که به طور کلی به شما کمک کنم مهارت های حل مسئله تحلیلی خود را پرورش دهید. به این ترتیب، وقتی برای آن موقعیت شغلی دانش‌آموزی داده مصاحبه می‌کنید، احتمال بیشتری برای به دست آوردن این شغل خواهید داشت.

توانایی‌های حل مسئله باز برای حرفه علم داده ضروری است. متأسفانه این توانایی‌ها را نمی‌توان به سادگی با خواندن به دست آورد. برای تبدیل شدن به یک حلال مشکل، باید به طور مداوم مشکلات دشوار را حل کنید.

با در نظر گرفتن این موضوع، من ساختار کتابم را بر اساس مطالعات موردی تنظیم کرده‌ام: مشکلات پایان باز با الگوبرداری از موقعیت‌های دنیای واقعی. مطالعات موردی از تجزیه و تحلیل تبلیغات آنلاین تا ردیابی شیوع بیماری با استفاده از داده‌های خبری را شامل می‌شود. پس از تکمیل این مطالعات موردی، برای شروع حرفه‌ای در علم داده مناسب خواهید بود.

چه کسی باید کتاب Data Science Bookcamp را بخواند؟

خواننده مورد نظر این کتاب یک تازه کار تحصیل کرده است که علاقه‌مند به انتقال به حرفه علم داده است. وقتی یک خواننده معمولی را تصور می‌کنم، دانشجوی سال چهارمی را در حال تحصیل در رشته اقتصاد تصور می‌کنم که می‌خواهد طیف وسیع‌تری از فرصت‌های تحلیلی را کشف کند، یا یک رشته شیمی که قبلاً از مدرسه خارج شده است و به دنبال مسیر شغلی مبتنی بر داده است.

یا شاید خواننده یک توسعه‌دهنده وب پیشانی موفق با پیش‌زمینه ریاضی بسیار محدود است که می‌خواهد به علم داده کمک کند. هیچ یک از خوانندگان بالقوه من تا به حال در کلاس علم داده شرکت نکرده اند، و آن‌ها را در تحلیل داده‌های متنوع بی تجربه می‌کند. هدف کتاب Data Science Bookcamp رفع آن کمبود مهارت است.
خوانندگان من باید اصول اولیه برنامه نویسی پایتون را بدانند.

پایتون شروع خودآموز باید برای کشف تمرینات کتاب Data Science Bookcamp کافی باشد. انتظار نمی‌رود دانش ریاضی شما فراتر از مثلثات ابتدایی دبیرستان باشد.

نحوه سازماندهی کتاب Data Science Bookcamp

این کتاب شامل پنج مطالعه موردی در مورد مشکل پیشرفت است. هر مطالعه موردی با یک بیانیه مشکل مفصل شروع می‌شود که باید آن را حل کنید.

بیان مسئله توسط دو تا پنج بخش دنبال می‌شود که مهارت‌های علم داده مورد نیاز برای حل مسئله را معرفی می‌کند. این بخش‌های مهارت، کتابخانه‌های بنیادی، و همچنین تکنیک‌های ریاضی و الگوریتمی را پوشش می‌دهند. هر بخش مطالعه موردی نهایی راه حل مشکل را شرح می‌دهد. مطالعه موردی 1 به نظریه احتمال اولیه مربوط می‌شود:

بخش 1 نحوه محاسبه احتمالات را با استفاده از پایتون ساده بحث می‌کند.

بخش 2 مفهوم توزیع احتمال را معرفی می‌کند. همچنین کتابخانه تجسم Matplotlib را معرفی می‌کند که می‌تواند برای تجسم توزیع‌ها استفاده شود.

بخش 3 چگونگی برآورد احتمالات را با استفاده از شبیه‌سازی‌های تصادفی مورد بحث قرار می‌دهد. کتابخانه محاسباتی عددی NumPy برای تسهیل اجرای شبیه‌سازی کارآمد معرفی شده است.

بیشتر بخوانید: کتاب Numerical Python

بخش 4 شامل راه حل مطالعه موردی است. مطالعه موردی 2 فراتر از احتمال به آمار گسترش می‌یابد:

بخش 5 کتاب Data Science Bookcamp معیارهای آماری ساده مرکزیت و پراکندگی را معرفی می‌کند. همچنین کتابخانه محاسباتی علمی SciPy را معرفی می‌کند که حاوی یک ماژول آمار مفید است.

بخش 6 عمیقاً به قضیه حد مرکزی می‌پردازد که می‌توان از آن برای پیش‌بینی‌های آماری استفاده کرد.

بخش 7 تکنیک‌های استنتاج آماری مختلفی را مورد بحث قرار می‌دهد که می‌توان از آن‌ها برای تشخیص الگوهای داده‌های جالب از نویز تصادفی استفاده کرد. علاوه بر این، این بخش خطرات استفاده از استنتاج نادرست و چگونگی اجتناب از این خطرات را به بهترین شکل نشان می‌دهد.

بخش 8 کتاب Data Science Bookcamp، کتابخانه Pandas را معرفی می‌کند که می‌توان از آن برای پیش‌پردازش داده‌های جدولی قبل از تجزیه و تحلیل آماری استفاده کرد.

بخش 9 شامل راه حل مطالعه موردی است. مطالعه موردی 3 بر خوشه‌بندی بدون نظارت داده‌های جغرافیایی متمرکز است:

بخش 10 نشان می‌دهد که چگونه می‌توان از معیارهای مرکزیت برای خوشه‌بندی داده‌ها در گروه‌ها استفاده کرد. کتابخانه scikit-learn نیز برای تسهیل خوشه‌بندی کارآمد معرفی شده است.

بخش 11 بر استخراج و تجسم داده‌های جغرافیایی تمرکز دارد. استخراج از متن با کتابخانه GeoNamesCache انجام می‌شود، در حالی که تجسم با استفاده از کتابخانه نقشه‌برداری Cartopy به دست می‌آید.

بخش 12 کتاب Data Science Bookcamp، شامل راه حل‌های مطالعه موردی است. مطالعه موردی 4 بر پردازش زبان طبیعی با استفاده از محاسبات عددی در مقیاس بزرگ تمرکز دارد:

بخش 13 نحوه محاسبه مؤثر شباهت‌ها بین متون با استفاده از ضرب ماتریس را نشان می‌دهد. بهینه‌سازی‌های ماتریس داخلی NumPy به طور گسترده برای این منظور استفاده می‌شوند.

بخش 14 کتاب Data Science Bookcamp، نحوه استفاده از کاهش ابعاد را برای تحلیل ماتریس کارآمدتر نشان می‌دهد. نظریه ریاضی در ارتباط با روش‌های کاهش ابعاد scikit-learn مورد بحث قرار می‌گیرد.

بخش 15 کتاب Data Science Bookcamp، تکنیک‌های پردازش زبان طبیعی را برای مجموعه داده متنی بسیار بزرگ اعمال می‌کند. در این بخش نحوه کاوش و خوشه‌بندی داده‌های متنی به بهترین شکل بحث می‌شود.

بخش 16 کتاب Data Science Bookcamp، نحوه استخراج متن از داده‌های آنلاین را با استفاده از کتابخانه Beautiful Soup، تجزیه HTML را نشان می‌دهد.

بخش 17 شامل راه حل مطالعه موردی است. مطالعه موردی 5 کتاب را با بحث در مورد تئوری شبکه و یادگیری ماشین تحت نظارت کامل می‌کند:

بخش 18 نظریه اصلی شبکه را در ارتباط با کتابخانه تحلیل گراف NetworkX معرفی می‌کند.

بخش 19 نحوه استفاده از جریان شبکه برای یافتن خوشه‌ها در داده‌های شبکه را نشان می‌دهد. برای دستیابی به خوشه‌بندی مؤثر از شبیه‌سازی‌های احتمالی و ضرب ماتریس استفاده می‌شود.

بخش 20 کتاب Data Science Bookcamp، یک الگوریتم یادگیری ماشینی نظارت شده ساده بر اساس تئوری شبکه را معرفی می‌کند. تکنیک‌های رایج ارزیابی یادگیری ماشین نیز با استفاده از Sikit-Learn نشان داده شده‌اند.

بخش 21 Data Science Bookcamp تکنیک‌های یادگیری ماشین اضافی را مورد بحث قرار می‌دهد که بر طبقه‌بندی‌کننده‌های خطی کارآمد حافظه تکیه دارند.

بخش 22 کتاب Data Science Bookcamp، به بررسی کاستی‌های روش‌های یادگیری نظارت‌شده قبلی می‌پردازد. عیب‌ها متعاقباً با استفاده از طبقه‌بندی‌کننده درخت تصمیم غیرخطی دور زده می‌شوند.

بخش 23 کتاب Data Science Bookcamp، شامل راه حل مطالعه موردی است. هر بخش از کتاب Data Science Bookcamp بر اساس الگوریتم‌ها و کتابخانه‌های معرفی شده در بخش‌های قبلی است. از این رو، شما تشویق می‌شوید برای به حداقل رساندن سردرگمی، جلد این کتاب را مرور کنید.

اما اگر قبلاً با زیرمجموعه ای از مطالب کتاب آشنا هستید، از آن مطالب آشنا صرف نظر کنید. در نهایت، اکیداً توصیه می‌کنم که قبل از خواندن راه‌حل، هر مشکل مطالعه موردی را به تنهایی حل کنید. تلاش مستقل برای حل هر مشکل، ارزش کتاب Data Science Bookcamp را به حداکثر می‌رساند.

سرفصل‌های کتاب Data Science Bookcamp:

preface
acknowledgments
about this book
about the author
about the cover illustration
CASE STUDY 1 FINDING THE WINNING STRATEGY IN A CARD GAME
- 1 ■ Computing probabilities using Python
- 2 ■ Plotting probabilities using Matplotlib
- 3 ■ Running random simulations in NumPy
- 4 ■ Case study 1 solution
CASE STUDY 2 ASSESSING ONLINE AD CLICKS FOR SIGNIFICANCE
- 5 ■ Basic probability and statistical analysis using SciPy
- 6 ■ Making predictions using the central limit theorem and SciPy
- 7 ■ Statistical hypothesis testing
- 8 ■ Analyzing tables using Pandas
- 9 ■ Case study 2 solution
CASE STUDY 3 TRACKING DISEASE OUTBREAKS USING NEWS HEADLINES
- 10 ■ Clustering data into groups
- 11 ■ Geographic location visualization and analysis
- 12 ■ Case study 3 solution
CASE STUDY 4 USING ONLINE JOB POSTINGS TO IMPROVE YOUR DATA SCIENCE RESUME
- 13 ■ Measuring text similarities
- 14 ■ Dimension reduction of matrix data
- 15 ■ NLP analysis of large text datasets
- 16 ■ Extracting text from web pages
- 17 ■ Case study 4 solution
CASE STUDY 5 PREDICTING FUTURE FRIENDSHIPS FROM SOCIAL NETWORK DATA
- 18 ■ An introduction to graph theory and network analysis
- 19 ■ Dynamic graph theory techniques for node ranking and social network analysis
- 20 ■ Network-driven supervised machine learning
- 21 ■ Training linear classifiers with logistic regression
- 22 ■ Training nonlinear classifiers with decision tree techniques
- 23 ■ Case study 5 solution

فایل کتاب Data Science Bookcamp را می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	PDF
ویرایش	First
ISBN	9781617296253
تعداد صفحات	706
انتشارات	Manning
سال انتشار	2021
حجم	42.51 مگابایت
نویسنده	Leonard Apeltsin

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “کتاب Data Science Bookcamp”

کتاب Data Science Bookcamp

خرید کتاب Data Science Bookcamp:

مقدمه‌ای بر کتاب Data Science Bookcamp:

سرفصل‌های کتاب Data Science Bookcamp:

نقد و بررسی‌ها

خرید کتاب Data Science Bookcamp:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: